Upload 12 files

a795f8c verified 3 days ago

347 kB

	(venv) leo@leo-mint:~/smallm/Supra-50M$ python3 train.py
	[*] Loading libraries...
	[*] Loading tokenizer...
	[*] Preparing 20,000,000,000 tokens (streaming, memmap-backed)...
	[=] Reusing existing token file: tokens.bin
	[+] Dataset ready: 19,531,250 chunks of 1024 tokens
	[*] Setting up model...
	[*] Model parameters: 51,786,240
	[*] Defining training arguments...
	[transformers] warmup_ratio is deprecated and will be removed in v5.2. Use `warmup_steps` instead.
	[*] Starting training...
	0%\| \| 0/152588 [00:00<?, ?it/s]W0517 14:59:00.167000 27625 torch/_inductor/utils.py:1731] [0/0] Not enough SMs to use max_autotune_gemm mode
	{'loss': '9.822', 'grad_norm': '1.781', 'learning_rate': '1.946e-05', 'epoch': '0.0006554'}
	{'loss': '8.539', 'grad_norm': '1.164', 'learning_rate': '3.912e-05', 'epoch': '0.001311'}
	{'loss': '7.393', 'grad_norm': '1.282', 'learning_rate': '5.878e-05', 'epoch': '0.001966'}
	{'loss': '6.806', 'grad_norm': '2.183', 'learning_rate': '7.844e-05', 'epoch': '0.002621'}
	{'loss': '6.413', 'grad_norm': '1.753', 'learning_rate': '9.81e-05', 'epoch': '0.003277'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.54it/s]
	{'loss': '6.131', 'grad_norm': '1.552', 'learning_rate': '0.0001178', 'epoch': '0.003932'}
	{'loss': '5.908', 'grad_norm': '1.505', 'learning_rate': '0.0001374', 'epoch': '0.004588'}
	{'loss': '5.71', 'grad_norm': '1.384', 'learning_rate': '0.0001571', 'epoch': '0.005243'}
	{'loss': '5.53', 'grad_norm': '1.439', 'learning_rate': '0.0001767', 'epoch': '0.005898'}
	{'loss': '5.372', 'grad_norm': '1.095', 'learning_rate': '0.0001964', 'epoch': '0.006554'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.17it/s]
	{'loss': '5.233', 'grad_norm': '1.361', 'learning_rate': '0.0002161', 'epoch': '0.007209'}
	{'loss': '5.104', 'grad_norm': '1.061', 'learning_rate': '0.0002357', 'epoch': '0.007864'}
	{'loss': '4.973', 'grad_norm': '1.352', 'learning_rate': '0.0002554', 'epoch': '0.00852'}
	{'loss': '4.843', 'grad_norm': '1.013', 'learning_rate': '0.000275', 'epoch': '0.009175'}
	{'loss': '4.711', 'grad_norm': '0.9927', 'learning_rate': '0.0002947', 'epoch': '0.00983'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.91it/s]
	{'loss': '4.585', 'grad_norm': '0.896', 'learning_rate': '0.0003144', 'epoch': '0.01049'}
	{'loss': '4.479', 'grad_norm': '0.7985', 'learning_rate': '0.000334', 'epoch': '0.01114'}
	{'loss': '4.386', 'grad_norm': '0.7477', 'learning_rate': '0.0003537', 'epoch': '0.0118'}
	{'loss': '4.318', 'grad_norm': '0.7296', 'learning_rate': '0.0003733', 'epoch': '0.01245'}
	{'loss': '4.255', 'grad_norm': '0.6791', 'learning_rate': '0.000393', 'epoch': '0.01311'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.33it/s]
	{'loss': '4.194', 'grad_norm': '0.7175', 'learning_rate': '0.0004126', 'epoch': '0.01376'}
	{'loss': '4.151', 'grad_norm': '0.6317', 'learning_rate': '0.0004323', 'epoch': '0.01442'}
	{'loss': '4.106', 'grad_norm': '0.5953', 'learning_rate': '0.000452', 'epoch': '0.01507'}
	{'loss': '4.069', 'grad_norm': '0.4885', 'learning_rate': '0.0004716', 'epoch': '0.01573'}
	{'loss': '4.041', 'grad_norm': '0.5002', 'learning_rate': '0.0004913', 'epoch': '0.01638'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.09it/s]
	{'loss': '4.009', 'grad_norm': '0.5133', 'learning_rate': '0.0005109', 'epoch': '0.01704'}
	{'loss': '3.978', 'grad_norm': '0.5448', 'learning_rate': '0.0005306', 'epoch': '0.01769'}
	{'loss': '3.957', 'grad_norm': '0.5136', 'learning_rate': '0.0005503', 'epoch': '0.01835'}
	{'loss': '3.928', 'grad_norm': '0.4771', 'learning_rate': '0.0005699', 'epoch': '0.01901'}
	{'loss': '3.911', 'grad_norm': '0.4366', 'learning_rate': '0.0005896', 'epoch': '0.01966'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.08it/s]
	{'loss': '3.899', 'grad_norm': '0.4166', 'learning_rate': '0.0006', 'epoch': '0.02032'}
	{'loss': '3.876', 'grad_norm': '0.3686', 'learning_rate': '0.0006', 'epoch': '0.02097'}
	{'loss': '3.849', 'grad_norm': '0.4205', 'learning_rate': '0.0006', 'epoch': '0.02163'}
	{'loss': '3.831', 'grad_norm': '0.4025', 'learning_rate': '0.0006', 'epoch': '0.02228'}
	{'loss': '3.815', 'grad_norm': '0.3824', 'learning_rate': '0.0006', 'epoch': '0.02294'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.19it/s]
	{'loss': '3.802', 'grad_norm': '0.3756', 'learning_rate': '0.0006', 'epoch': '0.02359'}
	{'loss': '3.785', 'grad_norm': '0.3782', 'learning_rate': '0.0006', 'epoch': '0.02425'}
	{'loss': '3.773', 'grad_norm': '0.3885', 'learning_rate': '0.0006', 'epoch': '0.0249'}
	{'loss': '3.758', 'grad_norm': '0.3821', 'learning_rate': '0.0006', 'epoch': '0.02556'}
	{'loss': '3.748', 'grad_norm': '0.3729', 'learning_rate': '0.0005999', 'epoch': '0.02621'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.22it/s]
	{'loss': '3.731', 'grad_norm': '0.3965', 'learning_rate': '0.0005999', 'epoch': '0.02687'}
	{'loss': '3.722', 'grad_norm': '0.389', 'learning_rate': '0.0005999', 'epoch': '0.02753'}
	{'loss': '3.714', 'grad_norm': '0.3952', 'learning_rate': '0.0005999', 'epoch': '0.02818'}
	{'loss': '3.703', 'grad_norm': '0.3691', 'learning_rate': '0.0005999', 'epoch': '0.02884'}
	{'loss': '3.69', 'grad_norm': '0.3722', 'learning_rate': '0.0005999', 'epoch': '0.02949'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.92it/s]
	{'loss': '3.682', 'grad_norm': '0.3461', 'learning_rate': '0.0005998', 'epoch': '0.03015'}
	{'loss': '3.671', 'grad_norm': '0.38', 'learning_rate': '0.0005998', 'epoch': '0.0308'}
	{'loss': '3.662', 'grad_norm': '0.3693', 'learning_rate': '0.0005998', 'epoch': '0.03146'}
	{'loss': '3.655', 'grad_norm': '0.3818', 'learning_rate': '0.0005998', 'epoch': '0.03211'}
	{'loss': '3.65', 'grad_norm': '0.3394', 'learning_rate': '0.0005997', 'epoch': '0.03277'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.90it/s]
	{'loss': '3.645', 'grad_norm': '0.3594', 'learning_rate': '0.0005997', 'epoch': '0.03342'}
	{'loss': '3.632', 'grad_norm': '0.3436', 'learning_rate': '0.0005997', 'epoch': '0.03408'}
	{'loss': '3.629', 'grad_norm': '0.3674', 'learning_rate': '0.0005997', 'epoch': '0.03473'}
	{'loss': '3.616', 'grad_norm': '0.3732', 'learning_rate': '0.0005996', 'epoch': '0.03539'}
	{'loss': '3.624', 'grad_norm': '0.4021', 'learning_rate': '0.0005996', 'epoch': '0.03604'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.32it/s]
	{'loss': '3.606', 'grad_norm': '0.3589', 'learning_rate': '0.0005996', 'epoch': '0.0367'}
	{'loss': '3.607', 'grad_norm': '0.3607', 'learning_rate': '0.0005995', 'epoch': '0.03736'}
	{'loss': '3.593', 'grad_norm': '0.3369', 'learning_rate': '0.0005995', 'epoch': '0.03801'}
	{'loss': '3.593', 'grad_norm': '0.3583', 'learning_rate': '0.0005995', 'epoch': '0.03867'}
	{'loss': '3.587', 'grad_norm': '0.347', 'learning_rate': '0.0005994', 'epoch': '0.03932'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.00it/s]
	{'loss': '3.579', 'grad_norm': '0.3477', 'learning_rate': '0.0005994', 'epoch': '0.03998'}
	{'loss': '3.574', 'grad_norm': '0.3275', 'learning_rate': '0.0005993', 'epoch': '0.04063'}
	{'loss': '3.578', 'grad_norm': '0.3631', 'learning_rate': '0.0005993', 'epoch': '0.04129'}
	{'loss': '3.567', 'grad_norm': '0.3617', 'learning_rate': '0.0005993', 'epoch': '0.04194'}
	{'loss': '3.566', 'grad_norm': '0.3838', 'learning_rate': '0.0005992', 'epoch': '0.0426'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.95it/s]
	{'loss': '3.555', 'grad_norm': '0.3746', 'learning_rate': '0.0005992', 'epoch': '0.04325'}
	{'loss': '3.555', 'grad_norm': '0.3321', 'learning_rate': '0.0005991', 'epoch': '0.04391'}
	{'loss': '3.547', 'grad_norm': '0.3564', 'learning_rate': '0.0005991', 'epoch': '0.04456'}
	{'loss': '3.554', 'grad_norm': '0.3793', 'learning_rate': '0.000599', 'epoch': '0.04522'}
	{'loss': '3.547', 'grad_norm': '0.3557', 'learning_rate': '0.000599', 'epoch': '0.04588'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.46it/s]
	{'loss': '3.539', 'grad_norm': '0.3665', 'learning_rate': '0.0005989', 'epoch': '0.04653'}
	{'loss': '3.54', 'grad_norm': '0.3462', 'learning_rate': '0.0005989', 'epoch': '0.04719'}
	{'loss': '3.535', 'grad_norm': '0.3403', 'learning_rate': '0.0005988', 'epoch': '0.04784'}
	{'loss': '3.531', 'grad_norm': '0.3762', 'learning_rate': '0.0005987', 'epoch': '0.0485'}
	{'loss': '3.528', 'grad_norm': '0.3384', 'learning_rate': '0.0005987', 'epoch': '0.04915'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.31it/s]
	{'loss': '3.523', 'grad_norm': '0.3551', 'learning_rate': '0.0005986', 'epoch': '0.04981'}
	{'loss': '3.523', 'grad_norm': '0.3496', 'learning_rate': '0.0005986', 'epoch': '0.05046'}
	{'loss': '3.52', 'grad_norm': '0.3509', 'learning_rate': '0.0005985', 'epoch': '0.05112'}
	{'loss': '3.508', 'grad_norm': '0.3552', 'learning_rate': '0.0005984', 'epoch': '0.05177'}
	{'loss': '3.506', 'grad_norm': '0.4069', 'learning_rate': '0.0005984', 'epoch': '0.05243'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.85it/s]
	{'loss': '3.509', 'grad_norm': '0.3515', 'learning_rate': '0.0005983', 'epoch': '0.05308'}
	{'loss': '3.505', 'grad_norm': '0.3485', 'learning_rate': '0.0005982', 'epoch': '0.05374'}
	{'loss': '3.501', 'grad_norm': '0.37', 'learning_rate': '0.0005982', 'epoch': '0.05439'}
	{'loss': '3.499', 'grad_norm': '0.3799', 'learning_rate': '0.0005981', 'epoch': '0.05505'}
	{'loss': '3.503', 'grad_norm': '0.3496', 'learning_rate': '0.000598', 'epoch': '0.05571'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.50it/s]
	{'loss': '3.494', 'grad_norm': '0.3906', 'learning_rate': '0.000598', 'epoch': '0.05636'}
	{'loss': '3.49', 'grad_norm': '0.3612', 'learning_rate': '0.0005979', 'epoch': '0.05702'}
	{'loss': '3.487', 'grad_norm': '0.3826', 'learning_rate': '0.0005978', 'epoch': '0.05767'}
	{'loss': '3.49', 'grad_norm': '0.3617', 'learning_rate': '0.0005977', 'epoch': '0.05833'}
	{'loss': '3.484', 'grad_norm': '0.3589', 'learning_rate': '0.0005977', 'epoch': '0.05898'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.72it/s]
	{'loss': '3.481', 'grad_norm': '0.3567', 'learning_rate': '0.0005976', 'epoch': '0.05964'}
	{'loss': '3.479', 'grad_norm': '0.358', 'learning_rate': '0.0005975', 'epoch': '0.06029'}
	{'loss': '3.475', 'grad_norm': '0.3492', 'learning_rate': '0.0005974', 'epoch': '0.06095'}
	{'loss': '3.476', 'grad_norm': '0.369', 'learning_rate': '0.0005973', 'epoch': '0.0616'}
	{'loss': '3.471', 'grad_norm': '0.42', 'learning_rate': '0.0005973', 'epoch': '0.06226'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.84it/s]
	{'loss': '3.467', 'grad_norm': '0.3995', 'learning_rate': '0.0005972', 'epoch': '0.06291'}
	{'loss': '3.469', 'grad_norm': '0.3499', 'learning_rate': '0.0005971', 'epoch': '0.06357'}
	{'loss': '3.466', 'grad_norm': '0.3647', 'learning_rate': '0.000597', 'epoch': '0.06423'}
	{'loss': '3.46', 'grad_norm': '0.3487', 'learning_rate': '0.0005969', 'epoch': '0.06488'}
	{'loss': '3.461', 'grad_norm': '0.3431', 'learning_rate': '0.0005968', 'epoch': '0.06554'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.54it/s]
	{'loss': '3.461', 'grad_norm': '0.3862', 'learning_rate': '0.0005967', 'epoch': '0.06619'}
	{'loss': '3.461', 'grad_norm': '0.373', 'learning_rate': '0.0005966', 'epoch': '0.06685'}
	{'loss': '3.462', 'grad_norm': '0.367', 'learning_rate': '0.0005965', 'epoch': '0.0675'}
	{'loss': '3.457', 'grad_norm': '0.3643', 'learning_rate': '0.0005964', 'epoch': '0.06816'}
	{'loss': '3.455', 'grad_norm': '0.3512', 'learning_rate': '0.0005963', 'epoch': '0.06881'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.32it/s]
	{'loss': '3.455', 'grad_norm': '0.3911', 'learning_rate': '0.0005962', 'epoch': '0.06947'}
	{'loss': '3.446', 'grad_norm': '0.349', 'learning_rate': '0.0005961', 'epoch': '0.07012'}
	{'loss': '3.45', 'grad_norm': '0.3599', 'learning_rate': '0.000596', 'epoch': '0.07078'}
	{'loss': '3.439', 'grad_norm': '0.3614', 'learning_rate': '0.0005959', 'epoch': '0.07143'}
	{'loss': '3.443', 'grad_norm': '0.3775', 'learning_rate': '0.0005958', 'epoch': '0.07209'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.54it/s]
	{'loss': '3.448', 'grad_norm': '0.4077', 'learning_rate': '0.0005957', 'epoch': '0.07274'}
	{'loss': '3.439', 'grad_norm': '0.384', 'learning_rate': '0.0005956', 'epoch': '0.0734'}
	{'loss': '3.442', 'grad_norm': '0.3768', 'learning_rate': '0.0005955', 'epoch': '0.07406'}
	{'loss': '3.435', 'grad_norm': '0.3531', 'learning_rate': '0.0005954', 'epoch': '0.07471'}
	{'loss': '3.438', 'grad_norm': '0.365', 'learning_rate': '0.0005953', 'epoch': '0.07537'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.74it/s]
	{'loss': '3.441', 'grad_norm': '0.3533', 'learning_rate': '0.0005952', 'epoch': '0.07602'}
	{'loss': '3.441', 'grad_norm': '0.3584', 'learning_rate': '0.0005951', 'epoch': '0.07668'}
	{'loss': '3.434', 'grad_norm': '0.4161', 'learning_rate': '0.0005949', 'epoch': '0.07733'}
	{'loss': '3.434', 'grad_norm': '0.3601', 'learning_rate': '0.0005948', 'epoch': '0.07799'}
	{'loss': '3.432', 'grad_norm': '0.3707', 'learning_rate': '0.0005947', 'epoch': '0.07864'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.68it/s]
	{'loss': '3.422', 'grad_norm': '0.352', 'learning_rate': '0.0005946', 'epoch': '0.0793'}
	{'loss': '3.428', 'grad_norm': '0.3649', 'learning_rate': '0.0005945', 'epoch': '0.07995'}
	{'loss': '3.425', 'grad_norm': '0.3697', 'learning_rate': '0.0005944', 'epoch': '0.08061'}
	{'loss': '3.425', 'grad_norm': '0.3875', 'learning_rate': '0.0005942', 'epoch': '0.08126'}
	{'loss': '3.425', 'grad_norm': '0.3726', 'learning_rate': '0.0005941', 'epoch': '0.08192'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.15it/s]
	{'loss': '3.423', 'grad_norm': '0.352', 'learning_rate': '0.000594', 'epoch': '0.08258'}
	{'loss': '3.421', 'grad_norm': '0.3771', 'learning_rate': '0.0005939', 'epoch': '0.08323'}
	{'loss': '3.423', 'grad_norm': '0.4241', 'learning_rate': '0.0005937', 'epoch': '0.08389'}
	{'loss': '3.421', 'grad_norm': '0.361', 'learning_rate': '0.0005936', 'epoch': '0.08454'}
	{'loss': '3.414', 'grad_norm': '0.3651', 'learning_rate': '0.0005935', 'epoch': '0.0852'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.09it/s]
	{'loss': '3.419', 'grad_norm': '0.3694', 'learning_rate': '0.0005933', 'epoch': '0.08585'}
	{'loss': '3.417', 'grad_norm': '0.37', 'learning_rate': '0.0005932', 'epoch': '0.08651'}
	{'loss': '3.414', 'grad_norm': '0.4199', 'learning_rate': '0.0005931', 'epoch': '0.08716'}
	{'loss': '3.415', 'grad_norm': '0.3884', 'learning_rate': '0.0005929', 'epoch': '0.08782'}
	{'loss': '3.417', 'grad_norm': '0.3871', 'learning_rate': '0.0005928', 'epoch': '0.08847'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.25it/s]
	{'loss': '3.414', 'grad_norm': '0.3685', 'learning_rate': '0.0005927', 'epoch': '0.08913'}
	{'loss': '3.411', 'grad_norm': '0.3827', 'learning_rate': '0.0005925', 'epoch': '0.08978'}
	{'loss': '3.407', 'grad_norm': '0.3573', 'learning_rate': '0.0005924', 'epoch': '0.09044'}
	{'loss': '3.405', 'grad_norm': '0.3688', 'learning_rate': '0.0005922', 'epoch': '0.09109'}
	{'loss': '3.405', 'grad_norm': '0.3638', 'learning_rate': '0.0005921', 'epoch': '0.09175'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.93it/s]
	{'loss': '3.402', 'grad_norm': '0.3493', 'learning_rate': '0.000592', 'epoch': '0.09241'}
	{'loss': '3.397', 'grad_norm': '0.3694', 'learning_rate': '0.0005918', 'epoch': '0.09306'}
	{'loss': '3.4', 'grad_norm': '0.3925', 'learning_rate': '0.0005917', 'epoch': '0.09372'}
	{'loss': '3.404', 'grad_norm': '0.3872', 'learning_rate': '0.0005915', 'epoch': '0.09437'}
	{'loss': '3.397', 'grad_norm': '0.3646', 'learning_rate': '0.0005914', 'epoch': '0.09503'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.40it/s]
	{'loss': '3.399', 'grad_norm': '0.3847', 'learning_rate': '0.0005912', 'epoch': '0.09568'}
	{'loss': '3.401', 'grad_norm': '0.3837', 'learning_rate': '0.0005911', 'epoch': '0.09634'}
	{'loss': '3.397', 'grad_norm': '0.3586', 'learning_rate': '0.0005909', 'epoch': '0.09699'}
	{'loss': '3.393', 'grad_norm': '0.4064', 'learning_rate': '0.0005908', 'epoch': '0.09765'}
	{'loss': '3.395', 'grad_norm': '0.376', 'learning_rate': '0.0005906', 'epoch': '0.0983'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.80it/s]
	{'loss': '3.393', 'grad_norm': '0.4256', 'learning_rate': '0.0005904', 'epoch': '0.09896'}
	{'loss': '3.401', 'grad_norm': '0.4047', 'learning_rate': '0.0005903', 'epoch': '0.09961'}
	{'loss': '3.394', 'grad_norm': '0.3741', 'learning_rate': '0.0005901', 'epoch': '0.1003'}
	{'loss': '3.392', 'grad_norm': '0.3817', 'learning_rate': '0.00059', 'epoch': '0.1009'}
	{'loss': '3.387', 'grad_norm': '0.4296', 'learning_rate': '0.0005898', 'epoch': '0.1016'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.82it/s]
	{'loss': '3.389', 'grad_norm': '0.3564', 'learning_rate': '0.0005896', 'epoch': '0.1022'}
	{'loss': '3.39', 'grad_norm': '0.4093', 'learning_rate': '0.0005895', 'epoch': '0.1029'}
	{'loss': '3.389', 'grad_norm': '0.3907', 'learning_rate': '0.0005893', 'epoch': '0.1035'}
	{'loss': '3.386', 'grad_norm': '0.416', 'learning_rate': '0.0005891', 'epoch': '0.1042'}
	{'loss': '3.385', 'grad_norm': '0.3946', 'learning_rate': '0.000589', 'epoch': '0.1049'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.75it/s]
	{'loss': '3.387', 'grad_norm': '0.3888', 'learning_rate': '0.0005888', 'epoch': '0.1055'}
	{'loss': '3.384', 'grad_norm': '0.3953', 'learning_rate': '0.0005886', 'epoch': '0.1062'}
	{'loss': '3.385', 'grad_norm': '0.4033', 'learning_rate': '0.0005885', 'epoch': '0.1068'}
	{'loss': '3.388', 'grad_norm': '0.4087', 'learning_rate': '0.0005883', 'epoch': '0.1075'}
	{'loss': '3.385', 'grad_norm': '0.3681', 'learning_rate': '0.0005881', 'epoch': '0.1081'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.76it/s]
	{'loss': '3.381', 'grad_norm': '0.4152', 'learning_rate': '0.0005879', 'epoch': '0.1088'}
	{'loss': '3.38', 'grad_norm': '0.3973', 'learning_rate': '0.0005878', 'epoch': '0.1094'}
	{'loss': '3.38', 'grad_norm': '0.3795', 'learning_rate': '0.0005876', 'epoch': '0.1101'}
	{'loss': '3.384', 'grad_norm': '0.4048', 'learning_rate': '0.0005874', 'epoch': '0.1108'}
	{'loss': '3.384', 'grad_norm': '0.3852', 'learning_rate': '0.0005872', 'epoch': '0.1114'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.67it/s]
	{'loss': '3.38', 'grad_norm': '0.3918', 'learning_rate': '0.000587', 'epoch': '0.1121'}
	{'loss': '3.378', 'grad_norm': '0.4043', 'learning_rate': '0.0005868', 'epoch': '0.1127'}
	{'loss': '3.374', 'grad_norm': '0.368', 'learning_rate': '0.0005867', 'epoch': '0.1134'}
	{'loss': '3.378', 'grad_norm': '0.3844', 'learning_rate': '0.0005865', 'epoch': '0.114'}
	{'loss': '3.371', 'grad_norm': '0.3853', 'learning_rate': '0.0005863', 'epoch': '0.1147'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.40it/s]
	{'loss': '3.371', 'grad_norm': '0.3587', 'learning_rate': '0.0005861', 'epoch': '0.1153'}
	{'loss': '3.374', 'grad_norm': '0.3656', 'learning_rate': '0.0005859', 'epoch': '0.116'}
	{'loss': '3.372', 'grad_norm': '0.3428', 'learning_rate': '0.0005857', 'epoch': '0.1167'}
	{'loss': '3.372', 'grad_norm': '0.3704', 'learning_rate': '0.0005855', 'epoch': '0.1173'}
	{'loss': '3.37', 'grad_norm': '0.3918', 'learning_rate': '0.0005853', 'epoch': '0.118'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.72it/s]
	{'loss': '3.377', 'grad_norm': '0.3739', 'learning_rate': '0.0005851', 'epoch': '0.1186'}
	{'loss': '3.367', 'grad_norm': '0.3773', 'learning_rate': '0.0005849', 'epoch': '0.1193'}
	{'loss': '3.369', 'grad_norm': '0.3885', 'learning_rate': '0.0005847', 'epoch': '0.1199'}
	{'loss': '3.363', 'grad_norm': '0.3729', 'learning_rate': '0.0005845', 'epoch': '0.1206'}
	{'loss': '3.37', 'grad_norm': '0.375', 'learning_rate': '0.0005843', 'epoch': '0.1212'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.35it/s]
	{'loss': '3.368', 'grad_norm': '0.3634', 'learning_rate': '0.0005841', 'epoch': '0.1219'}
	{'loss': '3.368', 'grad_norm': '0.4189', 'learning_rate': '0.0005839', 'epoch': '0.1226'}
	{'loss': '3.368', 'grad_norm': '0.3579', 'learning_rate': '0.0005837', 'epoch': '0.1232'}
	{'loss': '3.366', 'grad_norm': '0.3531', 'learning_rate': '0.0005835', 'epoch': '0.1239'}
	{'loss': '3.366', 'grad_norm': '0.3624', 'learning_rate': '0.0005833', 'epoch': '0.1245'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.83it/s]
	{'loss': '3.358', 'grad_norm': '0.3907', 'learning_rate': '0.0005831', 'epoch': '0.1252'}
	{'loss': '3.367', 'grad_norm': '0.3936', 'learning_rate': '0.0005829', 'epoch': '0.1258'}
	{'loss': '3.364', 'grad_norm': '0.3841', 'learning_rate': '0.0005827', 'epoch': '0.1265'}
	{'loss': '3.361', 'grad_norm': '0.3735', 'learning_rate': '0.0005825', 'epoch': '0.1271'}
	{'loss': '3.368', 'grad_norm': '0.3932', 'learning_rate': '0.0005823', 'epoch': '0.1278'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.10it/s]
	{'loss': '3.351', 'grad_norm': '0.3737', 'learning_rate': '0.0005821', 'epoch': '0.1285'}
	{'loss': '3.358', 'grad_norm': '0.3517', 'learning_rate': '0.0005818', 'epoch': '0.1291'}
	{'loss': '3.36', 'grad_norm': '0.3841', 'learning_rate': '0.0005816', 'epoch': '0.1298'}
	{'loss': '3.363', 'grad_norm': '0.3739', 'learning_rate': '0.0005814', 'epoch': '0.1304'}
	{'loss': '3.354', 'grad_norm': '0.4001', 'learning_rate': '0.0005812', 'epoch': '0.1311'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.63it/s]
	{'loss': '3.36', 'grad_norm': '0.364', 'learning_rate': '0.000581', 'epoch': '0.1317'}
	{'loss': '3.355', 'grad_norm': '0.3792', 'learning_rate': '0.0005807', 'epoch': '0.1324'}
	{'loss': '3.363', 'grad_norm': '0.3697', 'learning_rate': '0.0005805', 'epoch': '0.133'}
	{'loss': '3.365', 'grad_norm': '0.408', 'learning_rate': '0.0005803', 'epoch': '0.1337'}
	{'loss': '3.359', 'grad_norm': '0.367', 'learning_rate': '0.0005801', 'epoch': '0.1343'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.20it/s]
	{'loss': '3.36', 'grad_norm': '0.4236', 'learning_rate': '0.0005798', 'epoch': '0.135'}
	{'loss': '3.355', 'grad_norm': '0.4047', 'learning_rate': '0.0005796', 'epoch': '0.1357'}
	{'loss': '3.354', 'grad_norm': '0.375', 'learning_rate': '0.0005794', 'epoch': '0.1363'}
	{'loss': '3.356', 'grad_norm': '0.4076', 'learning_rate': '0.0005792', 'epoch': '0.137'}
	{'loss': '3.356', 'grad_norm': '0.4216', 'learning_rate': '0.0005789', 'epoch': '0.1376'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.31it/s]
	{'loss': '3.353', 'grad_norm': '0.4283', 'learning_rate': '0.0005787', 'epoch': '0.1383'}
	{'loss': '3.352', 'grad_norm': '0.3582', 'learning_rate': '0.0005785', 'epoch': '0.1389'}
	{'loss': '3.346', 'grad_norm': '0.4229', 'learning_rate': '0.0005782', 'epoch': '0.1396'}
	{'loss': '3.356', 'grad_norm': '0.3956', 'learning_rate': '0.000578', 'epoch': '0.1402'}
	{'loss': '3.346', 'grad_norm': '0.3688', 'learning_rate': '0.0005778', 'epoch': '0.1409'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.34it/s]
	{'loss': '3.351', 'grad_norm': '0.4167', 'learning_rate': '0.0005775', 'epoch': '0.1416'}
	{'loss': '3.355', 'grad_norm': '0.3978', 'learning_rate': '0.0005773', 'epoch': '0.1422'}
	{'loss': '3.351', 'grad_norm': '0.4078', 'learning_rate': '0.000577', 'epoch': '0.1429'}
	{'loss': '3.348', 'grad_norm': '0.362', 'learning_rate': '0.0005768', 'epoch': '0.1435'}
	{'loss': '3.346', 'grad_norm': '0.4139', 'learning_rate': '0.0005765', 'epoch': '0.1442'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.62it/s]
	{'loss': '3.345', 'grad_norm': '0.3952', 'learning_rate': '0.0005763', 'epoch': '0.1448'}
	{'loss': '3.348', 'grad_norm': '0.3764', 'learning_rate': '0.0005761', 'epoch': '0.1455'}
	{'loss': '3.351', 'grad_norm': '0.4298', 'learning_rate': '0.0005758', 'epoch': '0.1461'}
	{'loss': '3.347', 'grad_norm': '0.4231', 'learning_rate': '0.0005756', 'epoch': '0.1468'}
	{'loss': '3.347', 'grad_norm': '0.4313', 'learning_rate': '0.0005753', 'epoch': '0.1475'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.84it/s]
	{'loss': '3.342', 'grad_norm': '0.4146', 'learning_rate': '0.0005751', 'epoch': '0.1481'}
	{'loss': '3.346', 'grad_norm': '0.394', 'learning_rate': '0.0005748', 'epoch': '0.1488'}
	{'loss': '3.345', 'grad_norm': '0.4244', 'learning_rate': '0.0005746', 'epoch': '0.1494'}
	{'loss': '3.349', 'grad_norm': '0.4101', 'learning_rate': '0.0005743', 'epoch': '0.1501'}
	{'loss': '3.337', 'grad_norm': '0.3851', 'learning_rate': '0.000574', 'epoch': '0.1507'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.32it/s]
	{'loss': '3.344', 'grad_norm': '0.3972', 'learning_rate': '0.0005738', 'epoch': '0.1514'}
	{'loss': '3.343', 'grad_norm': '0.4008', 'learning_rate': '0.0005735', 'epoch': '0.152'}
	{'loss': '3.345', 'grad_norm': '0.4243', 'learning_rate': '0.0005733', 'epoch': '0.1527'}
	{'loss': '3.335', 'grad_norm': '0.4064', 'learning_rate': '0.000573', 'epoch': '0.1534'}
	{'loss': '3.337', 'grad_norm': '0.3827', 'learning_rate': '0.0005727', 'epoch': '0.154'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.94it/s]
	{'loss': '3.338', 'grad_norm': '0.3717', 'learning_rate': '0.0005725', 'epoch': '0.1547'}
	{'loss': '3.339', 'grad_norm': '0.3652', 'learning_rate': '0.0005722', 'epoch': '0.1553'}
	{'loss': '3.333', 'grad_norm': '0.38', 'learning_rate': '0.000572', 'epoch': '0.156'}
	{'loss': '3.34', 'grad_norm': '0.3919', 'learning_rate': '0.0005717', 'epoch': '0.1566'}
	{'loss': '3.339', 'grad_norm': '0.424', 'learning_rate': '0.0005714', 'epoch': '0.1573'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.18it/s]
	{'loss': '3.338', 'grad_norm': '0.3888', 'learning_rate': '0.0005711', 'epoch': '0.1579'}
	{'loss': '3.342', 'grad_norm': '0.3861', 'learning_rate': '0.0005709', 'epoch': '0.1586'}
	{'loss': '3.337', 'grad_norm': '0.4329', 'learning_rate': '0.0005706', 'epoch': '0.1593'}
	{'loss': '3.332', 'grad_norm': '0.3949', 'learning_rate': '0.0005703', 'epoch': '0.1599'}
	{'loss': '3.341', 'grad_norm': '0.3942', 'learning_rate': '0.0005701', 'epoch': '0.1606'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.51it/s]
	{'loss': '3.337', 'grad_norm': '0.3761', 'learning_rate': '0.0005698', 'epoch': '0.1612'}
	{'loss': '3.332', 'grad_norm': '0.4193', 'learning_rate': '0.0005695', 'epoch': '0.1619'}
	{'loss': '3.336', 'grad_norm': '0.3785', 'learning_rate': '0.0005692', 'epoch': '0.1625'}
	{'loss': '3.342', 'grad_norm': '0.407', 'learning_rate': '0.000569', 'epoch': '0.1632'}
	{'loss': '3.332', 'grad_norm': '0.3972', 'learning_rate': '0.0005687', 'epoch': '0.1638'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.63it/s]
	{'loss': '3.335', 'grad_norm': '0.4236', 'learning_rate': '0.0005684', 'epoch': '0.1645'}
	{'loss': '3.339', 'grad_norm': '0.4263', 'learning_rate': '0.0005681', 'epoch': '0.1652'}
	{'loss': '3.332', 'grad_norm': '0.4147', 'learning_rate': '0.0005678', 'epoch': '0.1658'}
	{'loss': '3.332', 'grad_norm': '0.4093', 'learning_rate': '0.0005675', 'epoch': '0.1665'}
	{'loss': '3.331', 'grad_norm': '0.4688', 'learning_rate': '0.0005673', 'epoch': '0.1671'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.28it/s]
	{'loss': '3.33', 'grad_norm': '0.4011', 'learning_rate': '0.000567', 'epoch': '0.1678'}
	{'loss': '3.328', 'grad_norm': '0.3979', 'learning_rate': '0.0005667', 'epoch': '0.1684'}
	{'loss': '3.331', 'grad_norm': '0.3958', 'learning_rate': '0.0005664', 'epoch': '0.1691'}
	{'loss': '3.33', 'grad_norm': '0.4354', 'learning_rate': '0.0005661', 'epoch': '0.1697'}
	{'loss': '3.331', 'grad_norm': '0.4233', 'learning_rate': '0.0005658', 'epoch': '0.1704'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.34it/s]
	{'loss': '3.327', 'grad_norm': '0.3645', 'learning_rate': '0.0005655', 'epoch': '0.171'}
	{'loss': '3.33', 'grad_norm': '0.4305', 'learning_rate': '0.0005652', 'epoch': '0.1717'}
	{'loss': '3.33', 'grad_norm': '0.3957', 'learning_rate': '0.0005649', 'epoch': '0.1724'}
	{'loss': '3.333', 'grad_norm': '0.3876', 'learning_rate': '0.0005646', 'epoch': '0.173'}
	{'loss': '3.327', 'grad_norm': '0.4283', 'learning_rate': '0.0005643', 'epoch': '0.1737'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.27it/s]
	{'loss': '3.323', 'grad_norm': '0.4096', 'learning_rate': '0.000564', 'epoch': '0.1743'}
	{'loss': '3.328', 'grad_norm': '0.4385', 'learning_rate': '0.0005637', 'epoch': '0.175'}
	{'loss': '3.326', 'grad_norm': '0.4151', 'learning_rate': '0.0005634', 'epoch': '0.1756'}
	{'loss': '3.328', 'grad_norm': '0.4207', 'learning_rate': '0.0005631', 'epoch': '0.1763'}
	{'loss': '3.327', 'grad_norm': '0.4172', 'learning_rate': '0.0005628', 'epoch': '0.1769'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.16it/s]
	{'loss': '3.328', 'grad_norm': '0.4056', 'learning_rate': '0.0005625', 'epoch': '0.1776'}
	{'loss': '3.329', 'grad_norm': '0.4142', 'learning_rate': '0.0005622', 'epoch': '0.1783'}
	{'loss': '3.326', 'grad_norm': '0.4323', 'learning_rate': '0.0005619', 'epoch': '0.1789'}
	{'loss': '3.323', 'grad_norm': '0.3874', 'learning_rate': '0.0005616', 'epoch': '0.1796'}
	{'loss': '3.325', 'grad_norm': '0.4138', 'learning_rate': '0.0005613', 'epoch': '0.1802'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.98it/s]
	{'loss': '3.326', 'grad_norm': '0.4033', 'learning_rate': '0.000561', 'epoch': '0.1809'}
	{'loss': '3.324', 'grad_norm': '0.3812', 'learning_rate': '0.0005607', 'epoch': '0.1815'}
	{'loss': '3.333', 'grad_norm': '0.4189', 'learning_rate': '0.0005604', 'epoch': '0.1822'}
	{'loss': '3.322', 'grad_norm': '0.4055', 'learning_rate': '0.00056', 'epoch': '0.1828'}
	{'loss': '3.326', 'grad_norm': '0.4067', 'learning_rate': '0.0005597', 'epoch': '0.1835'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.86it/s]
	{'loss': '3.319', 'grad_norm': '0.3985', 'learning_rate': '0.0005594', 'epoch': '0.1842'}
	{'loss': '3.318', 'grad_norm': '0.3674', 'learning_rate': '0.0005591', 'epoch': '0.1848'}
	{'loss': '3.318', 'grad_norm': '0.4153', 'learning_rate': '0.0005588', 'epoch': '0.1855'}
	{'loss': '3.323', 'grad_norm': '0.4415', 'learning_rate': '0.0005585', 'epoch': '0.1861'}
	{'loss': '3.317', 'grad_norm': '0.4189', 'learning_rate': '0.0005581', 'epoch': '0.1868'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.64it/s]
	{'loss': '3.319', 'grad_norm': '0.4219', 'learning_rate': '0.0005578', 'epoch': '0.1874'}
	{'loss': '3.324', 'grad_norm': '0.4226', 'learning_rate': '0.0005575', 'epoch': '0.1881'}
	{'loss': '3.318', 'grad_norm': '0.3861', 'learning_rate': '0.0005572', 'epoch': '0.1887'}
	{'loss': '3.321', 'grad_norm': '0.4099', 'learning_rate': '0.0005568', 'epoch': '0.1894'}
	{'loss': '3.317', 'grad_norm': '0.4526', 'learning_rate': '0.0005565', 'epoch': '0.1901'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.84it/s]
	{'loss': '3.323', 'grad_norm': '0.4115', 'learning_rate': '0.0005562', 'epoch': '0.1907'}
	{'loss': '3.32', 'grad_norm': '0.3804', 'learning_rate': '0.0005559', 'epoch': '0.1914'}
	{'loss': '3.323', 'grad_norm': '0.4126', 'learning_rate': '0.0005555', 'epoch': '0.192'}
	{'loss': '3.32', 'grad_norm': '0.397', 'learning_rate': '0.0005552', 'epoch': '0.1927'}
	{'loss': '3.315', 'grad_norm': '0.4178', 'learning_rate': '0.0005549', 'epoch': '0.1933'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.60it/s]
	{'loss': '3.323', 'grad_norm': '0.4269', 'learning_rate': '0.0005545', 'epoch': '0.194'}
	{'loss': '3.309', 'grad_norm': '0.3857', 'learning_rate': '0.0005542', 'epoch': '0.1946'}
	{'loss': '3.31', 'grad_norm': '0.4207', 'learning_rate': '0.0005539', 'epoch': '0.1953'}
	{'loss': '3.315', 'grad_norm': '0.4172', 'learning_rate': '0.0005535', 'epoch': '0.196'}
	{'loss': '3.318', 'grad_norm': '0.4196', 'learning_rate': '0.0005532', 'epoch': '0.1966'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.51it/s]
	{'loss': '3.317', 'grad_norm': '0.4169', 'learning_rate': '0.0005529', 'epoch': '0.1973'}
	{'loss': '3.317', 'grad_norm': '0.4135', 'learning_rate': '0.0005525', 'epoch': '0.1979'}
	{'loss': '3.31', 'grad_norm': '0.4213', 'learning_rate': '0.0005522', 'epoch': '0.1986'}
	{'loss': '3.312', 'grad_norm': '0.3907', 'learning_rate': '0.0005518', 'epoch': '0.1992'}
	{'loss': '3.308', 'grad_norm': '0.4401', 'learning_rate': '0.0005515', 'epoch': '0.1999'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.49it/s]
	{'loss': '3.309', 'grad_norm': '0.4019', 'learning_rate': '0.0005511', 'epoch': '0.2005'}
	{'loss': '3.314', 'grad_norm': '0.4282', 'learning_rate': '0.0005508', 'epoch': '0.2012'}
	{'loss': '3.312', 'grad_norm': '0.3946', 'learning_rate': '0.0005505', 'epoch': '0.2019'}
	{'loss': '3.309', 'grad_norm': '0.3791', 'learning_rate': '0.0005501', 'epoch': '0.2025'}
	{'loss': '3.314', 'grad_norm': '0.4115', 'learning_rate': '0.0005498', 'epoch': '0.2032'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.30it/s]
	{'loss': '3.315', 'grad_norm': '0.4361', 'learning_rate': '0.0005494', 'epoch': '0.2038'}
	{'loss': '3.311', 'grad_norm': '0.3919', 'learning_rate': '0.0005491', 'epoch': '0.2045'}
	{'loss': '3.309', 'grad_norm': '0.417', 'learning_rate': '0.0005487', 'epoch': '0.2051'}
	{'loss': '3.308', 'grad_norm': '0.434', 'learning_rate': '0.0005484', 'epoch': '0.2058'}
	{'loss': '3.311', 'grad_norm': '0.3879', 'learning_rate': '0.000548', 'epoch': '0.2064'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.15it/s]
	{'loss': '3.309', 'grad_norm': '0.4034', 'learning_rate': '0.0005476', 'epoch': '0.2071'}
	{'loss': '3.312', 'grad_norm': '0.429', 'learning_rate': '0.0005473', 'epoch': '0.2077'}
	{'loss': '3.315', 'grad_norm': '0.405', 'learning_rate': '0.0005469', 'epoch': '0.2084'}
	{'loss': '3.305', 'grad_norm': '0.4224', 'learning_rate': '0.0005466', 'epoch': '0.2091'}
	{'loss': '3.307', 'grad_norm': '0.4002', 'learning_rate': '0.0005462', 'epoch': '0.2097'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.63it/s]
	{'loss': '3.315', 'grad_norm': '0.4299', 'learning_rate': '0.0005459', 'epoch': '0.2104'}
	{'loss': '3.303', 'grad_norm': '0.3953', 'learning_rate': '0.0005455', 'epoch': '0.211'}
	{'loss': '3.31', 'grad_norm': '0.4181', 'learning_rate': '0.0005451', 'epoch': '0.2117'}
	{'loss': '3.307', 'grad_norm': '0.4256', 'learning_rate': '0.0005448', 'epoch': '0.2123'}
	{'loss': '3.307', 'grad_norm': '0.4429', 'learning_rate': '0.0005444', 'epoch': '0.213'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.07it/s]
	{'loss': '3.303', 'grad_norm': '0.4143', 'learning_rate': '0.000544', 'epoch': '0.2136'}
	{'loss': '3.311', 'grad_norm': '0.4011', 'learning_rate': '0.0005437', 'epoch': '0.2143'}
	{'loss': '3.305', 'grad_norm': '0.4365', 'learning_rate': '0.0005433', 'epoch': '0.215'}
	{'loss': '3.309', 'grad_norm': '0.4251', 'learning_rate': '0.0005429', 'epoch': '0.2156'}
	{'loss': '3.31', 'grad_norm': '0.4824', 'learning_rate': '0.0005426', 'epoch': '0.2163'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.88it/s]
	{'loss': '3.306', 'grad_norm': '0.3786', 'learning_rate': '0.0005422', 'epoch': '0.2169'}
	{'loss': '3.308', 'grad_norm': '0.4208', 'learning_rate': '0.0005418', 'epoch': '0.2176'}
	{'loss': '3.298', 'grad_norm': '0.4428', 'learning_rate': '0.0005414', 'epoch': '0.2182'}
	{'loss': '3.307', 'grad_norm': '0.4398', 'learning_rate': '0.0005411', 'epoch': '0.2189'}
	{'loss': '3.303', 'grad_norm': '0.4392', 'learning_rate': '0.0005407', 'epoch': '0.2195'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.61it/s]
	{'loss': '3.308', 'grad_norm': '0.3917', 'learning_rate': '0.0005403', 'epoch': '0.2202'}
	{'loss': '3.31', 'grad_norm': '0.3676', 'learning_rate': '0.0005399', 'epoch': '0.2209'}
	{'loss': '3.304', 'grad_norm': '0.4456', 'learning_rate': '0.0005396', 'epoch': '0.2215'}
	{'loss': '3.307', 'grad_norm': '0.4102', 'learning_rate': '0.0005392', 'epoch': '0.2222'}
	{'loss': '3.303', 'grad_norm': '0.4049', 'learning_rate': '0.0005388', 'epoch': '0.2228'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.06it/s]
	{'loss': '3.313', 'grad_norm': '0.4135', 'learning_rate': '0.0005384', 'epoch': '0.2235'}
	{'loss': '3.303', 'grad_norm': '0.4272', 'learning_rate': '0.000538', 'epoch': '0.2241'}
	{'loss': '3.301', 'grad_norm': '0.3994', 'learning_rate': '0.0005376', 'epoch': '0.2248'}
	{'loss': '3.299', 'grad_norm': '0.3901', 'learning_rate': '0.0005373', 'epoch': '0.2254'}
	{'loss': '3.308', 'grad_norm': '0.4429', 'learning_rate': '0.0005369', 'epoch': '0.2261'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.41it/s]
	{'loss': '3.306', 'grad_norm': '0.4178', 'learning_rate': '0.0005365', 'epoch': '0.2268'}
	{'loss': '3.302', 'grad_norm': '0.4027', 'learning_rate': '0.0005361', 'epoch': '0.2274'}
	{'loss': '3.3', 'grad_norm': '0.4094', 'learning_rate': '0.0005357', 'epoch': '0.2281'}
	{'loss': '3.303', 'grad_norm': '0.4042', 'learning_rate': '0.0005353', 'epoch': '0.2287'}
	{'loss': '3.302', 'grad_norm': '0.4301', 'learning_rate': '0.0005349', 'epoch': '0.2294'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.63it/s]
	{'loss': '3.295', 'grad_norm': '0.4202', 'learning_rate': '0.0005345', 'epoch': '0.23'}
	{'loss': '3.298', 'grad_norm': '0.4166', 'learning_rate': '0.0005341', 'epoch': '0.2307'}
	{'loss': '3.298', 'grad_norm': '0.4179', 'learning_rate': '0.0005337', 'epoch': '0.2313'}
	{'loss': '3.297', 'grad_norm': '0.4093', 'learning_rate': '0.0005334', 'epoch': '0.232'}
	{'loss': '3.297', 'grad_norm': '0.4061', 'learning_rate': '0.000533', 'epoch': '0.2327'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.39it/s]
	{'loss': '3.298', 'grad_norm': '0.4248', 'learning_rate': '0.0005326', 'epoch': '0.2333'}
	{'loss': '3.302', 'grad_norm': '0.4083', 'learning_rate': '0.0005322', 'epoch': '0.234'}
	{'loss': '3.307', 'grad_norm': '0.436', 'learning_rate': '0.0005318', 'epoch': '0.2346'}
	{'loss': '3.295', 'grad_norm': '0.4644', 'learning_rate': '0.0005314', 'epoch': '0.2353'}
	{'loss': '3.299', 'grad_norm': '0.4748', 'learning_rate': '0.000531', 'epoch': '0.2359'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.80it/s]
	{'loss': '3.298', 'grad_norm': '0.4075', 'learning_rate': '0.0005306', 'epoch': '0.2366'}
	{'loss': '3.296', 'grad_norm': '0.4763', 'learning_rate': '0.0005302', 'epoch': '0.2372'}
	{'loss': '3.301', 'grad_norm': '0.4135', 'learning_rate': '0.0005297', 'epoch': '0.2379'}
	{'loss': '3.29', 'grad_norm': '0.4013', 'learning_rate': '0.0005293', 'epoch': '0.2386'}
	{'loss': '3.295', 'grad_norm': '0.4345', 'learning_rate': '0.0005289', 'epoch': '0.2392'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.57it/s]
	{'loss': '3.291', 'grad_norm': '0.4374', 'learning_rate': '0.0005285', 'epoch': '0.2399'}
	{'loss': '3.294', 'grad_norm': '0.3919', 'learning_rate': '0.0005281', 'epoch': '0.2405'}
	{'loss': '3.292', 'grad_norm': '0.3981', 'learning_rate': '0.0005277', 'epoch': '0.2412'}
	{'loss': '3.291', 'grad_norm': '0.4253', 'learning_rate': '0.0005273', 'epoch': '0.2418'}
	{'loss': '3.292', 'grad_norm': '0.4287', 'learning_rate': '0.0005269', 'epoch': '0.2425'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.31it/s]
	{'loss': '3.294', 'grad_norm': '0.4415', 'learning_rate': '0.0005265', 'epoch': '0.2431'}
	{'loss': '3.292', 'grad_norm': '0.4087', 'learning_rate': '0.0005261', 'epoch': '0.2438'}
	{'loss': '3.297', 'grad_norm': '0.4502', 'learning_rate': '0.0005256', 'epoch': '0.2444'}
	{'loss': '3.291', 'grad_norm': '0.3993', 'learning_rate': '0.0005252', 'epoch': '0.2451'}
	{'loss': '3.291', 'grad_norm': '0.4159', 'learning_rate': '0.0005248', 'epoch': '0.2458'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.84it/s]
	{'loss': '3.295', 'grad_norm': '0.4288', 'learning_rate': '0.0005244', 'epoch': '0.2464'}
	{'loss': '3.29', 'grad_norm': '0.4135', 'learning_rate': '0.000524', 'epoch': '0.2471'}
	{'loss': '3.289', 'grad_norm': '0.3979', 'learning_rate': '0.0005236', 'epoch': '0.2477'}
	{'loss': '3.288', 'grad_norm': '0.46', 'learning_rate': '0.0005231', 'epoch': '0.2484'}
	{'loss': '3.292', 'grad_norm': '0.4309', 'learning_rate': '0.0005227', 'epoch': '0.249'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.29it/s]
	{'loss': '3.287', 'grad_norm': '0.4198', 'learning_rate': '0.0005223', 'epoch': '0.2497'}
	{'loss': '3.292', 'grad_norm': '0.4363', 'learning_rate': '0.0005219', 'epoch': '0.2503'}
	{'loss': '3.294', 'grad_norm': '0.4288', 'learning_rate': '0.0005214', 'epoch': '0.251'}
	{'loss': '3.285', 'grad_norm': '0.467', 'learning_rate': '0.000521', 'epoch': '0.2517'}
	{'loss': '3.297', 'grad_norm': '0.423', 'learning_rate': '0.0005206', 'epoch': '0.2523'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.91it/s]
	{'loss': '3.292', 'grad_norm': '0.4233', 'learning_rate': '0.0005202', 'epoch': '0.253'}
	{'loss': '3.293', 'grad_norm': '0.39', 'learning_rate': '0.0005197', 'epoch': '0.2536'}
	{'loss': '3.287', 'grad_norm': '0.4068', 'learning_rate': '0.0005193', 'epoch': '0.2543'}
	{'loss': '3.294', 'grad_norm': '0.4774', 'learning_rate': '0.0005189', 'epoch': '0.2549'}
	{'loss': '3.289', 'grad_norm': '0.4119', 'learning_rate': '0.0005184', 'epoch': '0.2556'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.22it/s]
	{'loss': '3.285', 'grad_norm': '0.4129', 'learning_rate': '0.000518', 'epoch': '0.2562'}
	{'loss': '3.289', 'grad_norm': '0.4281', 'learning_rate': '0.0005176', 'epoch': '0.2569'}
	{'loss': '3.296', 'grad_norm': '0.4259', 'learning_rate': '0.0005171', 'epoch': '0.2576'}
	{'loss': '3.285', 'grad_norm': '0.4517', 'learning_rate': '0.0005167', 'epoch': '0.2582'}
	{'loss': '3.291', 'grad_norm': '0.4411', 'learning_rate': '0.0005163', 'epoch': '0.2589'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.82it/s]
	{'loss': '3.293', 'grad_norm': '0.4366', 'learning_rate': '0.0005158', 'epoch': '0.2595'}
	{'loss': '3.286', 'grad_norm': '0.4526', 'learning_rate': '0.0005154', 'epoch': '0.2602'}
	{'loss': '3.287', 'grad_norm': '0.4371', 'learning_rate': '0.000515', 'epoch': '0.2608'}
	{'loss': '3.288', 'grad_norm': '0.4736', 'learning_rate': '0.0005145', 'epoch': '0.2615'}
	{'loss': '3.284', 'grad_norm': '0.4448', 'learning_rate': '0.0005141', 'epoch': '0.2621'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.47it/s]
	{'loss': '3.289', 'grad_norm': '0.4361', 'learning_rate': '0.0005136', 'epoch': '0.2628'}
	{'loss': '3.292', 'grad_norm': '0.4069', 'learning_rate': '0.0005132', 'epoch': '0.2635'}
	{'loss': '3.285', 'grad_norm': '0.429', 'learning_rate': '0.0005127', 'epoch': '0.2641'}
	{'loss': '3.29', 'grad_norm': '0.45', 'learning_rate': '0.0005123', 'epoch': '0.2648'}
	{'loss': '3.29', 'grad_norm': '0.4603', 'learning_rate': '0.0005119', 'epoch': '0.2654'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.59it/s]
	{'loss': '3.286', 'grad_norm': '0.4661', 'learning_rate': '0.0005114', 'epoch': '0.2661'}
	{'loss': '3.283', 'grad_norm': '0.4116', 'learning_rate': '0.000511', 'epoch': '0.2667'}
	{'loss': '3.289', 'grad_norm': '0.4033', 'learning_rate': '0.0005105', 'epoch': '0.2674'}
	{'loss': '3.287', 'grad_norm': '0.4275', 'learning_rate': '0.0005101', 'epoch': '0.268'}
	{'loss': '3.285', 'grad_norm': '0.4323', 'learning_rate': '0.0005096', 'epoch': '0.2687'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.46it/s]
	{'loss': '3.287', 'grad_norm': '0.4436', 'learning_rate': '0.0005092', 'epoch': '0.2694'}
	{'loss': '3.283', 'grad_norm': '0.4717', 'learning_rate': '0.0005087', 'epoch': '0.27'}
	{'loss': '3.282', 'grad_norm': '0.4171', 'learning_rate': '0.0005083', 'epoch': '0.2707'}
	{'loss': '3.285', 'grad_norm': '0.466', 'learning_rate': '0.0005078', 'epoch': '0.2713'}
	{'loss': '3.288', 'grad_norm': '0.4331', 'learning_rate': '0.0005073', 'epoch': '0.272'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.88it/s]
	{'loss': '3.282', 'grad_norm': '0.4762', 'learning_rate': '0.0005069', 'epoch': '0.2726'}
	{'loss': '3.279', 'grad_norm': '0.4448', 'learning_rate': '0.0005064', 'epoch': '0.2733'}
	{'loss': '3.283', 'grad_norm': '0.417', 'learning_rate': '0.000506', 'epoch': '0.2739'}
	{'loss': '3.283', 'grad_norm': '0.4176', 'learning_rate': '0.0005055', 'epoch': '0.2746'}
	{'loss': '3.281', 'grad_norm': '0.4735', 'learning_rate': '0.0005051', 'epoch': '0.2753'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.03it/s]
	{'loss': '3.291', 'grad_norm': '0.4538', 'learning_rate': '0.0005046', 'epoch': '0.2759'}
	{'loss': '3.283', 'grad_norm': '0.4483', 'learning_rate': '0.0005041', 'epoch': '0.2766'}
	{'loss': '3.287', 'grad_norm': '0.3931', 'learning_rate': '0.0005037', 'epoch': '0.2772'}
	{'loss': '3.281', 'grad_norm': '0.4505', 'learning_rate': '0.0005032', 'epoch': '0.2779'}
	{'loss': '3.277', 'grad_norm': '0.4187', 'learning_rate': '0.0005027', 'epoch': '0.2785'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.26it/s]
	{'loss': '3.282', 'grad_norm': '0.4115', 'learning_rate': '0.0005023', 'epoch': '0.2792'}
	{'loss': '3.282', 'grad_norm': '0.4723', 'learning_rate': '0.0005018', 'epoch': '0.2798'}
	{'loss': '3.288', 'grad_norm': '0.4022', 'learning_rate': '0.0005013', 'epoch': '0.2805'}
	{'loss': '3.279', 'grad_norm': '0.4272', 'learning_rate': '0.0005009', 'epoch': '0.2811'}
	{'loss': '3.287', 'grad_norm': '0.4183', 'learning_rate': '0.0005004', 'epoch': '0.2818'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.06it/s]
	{'loss': '3.28', 'grad_norm': '0.4252', 'learning_rate': '0.0004999', 'epoch': '0.2825'}
	{'loss': '3.283', 'grad_norm': '0.4789', 'learning_rate': '0.0004995', 'epoch': '0.2831'}
	{'loss': '3.282', 'grad_norm': '0.41', 'learning_rate': '0.000499', 'epoch': '0.2838'}
	{'loss': '3.279', 'grad_norm': '0.505', 'learning_rate': '0.0004985', 'epoch': '0.2844'}
	{'loss': '3.281', 'grad_norm': '0.4099', 'learning_rate': '0.0004981', 'epoch': '0.2851'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.59it/s]
	{'loss': '3.277', 'grad_norm': '0.4219', 'learning_rate': '0.0004976', 'epoch': '0.2857'}
	{'loss': '3.279', 'grad_norm': '0.4118', 'learning_rate': '0.0004971', 'epoch': '0.2864'}
	{'loss': '3.278', 'grad_norm': '0.4192', 'learning_rate': '0.0004966', 'epoch': '0.287'}
	{'loss': '3.277', 'grad_norm': '0.4265', 'learning_rate': '0.0004962', 'epoch': '0.2877'}
	{'loss': '3.279', 'grad_norm': '0.421', 'learning_rate': '0.0004957', 'epoch': '0.2884'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.02it/s]
	{'loss': '3.28', 'grad_norm': '0.4099', 'learning_rate': '0.0004952', 'epoch': '0.289'}
	{'loss': '3.28', 'grad_norm': '0.4933', 'learning_rate': '0.0004947', 'epoch': '0.2897'}
	{'loss': '3.28', 'grad_norm': '0.4045', 'learning_rate': '0.0004942', 'epoch': '0.2903'}
	{'loss': '3.276', 'grad_norm': '0.4753', 'learning_rate': '0.0004938', 'epoch': '0.291'}
	{'loss': '3.273', 'grad_norm': '0.4605', 'learning_rate': '0.0004933', 'epoch': '0.2916'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.78it/s]
	{'loss': '3.275', 'grad_norm': '0.4532', 'learning_rate': '0.0004928', 'epoch': '0.2923'}
	{'loss': '3.273', 'grad_norm': '0.4628', 'learning_rate': '0.0004923', 'epoch': '0.2929'}
	{'loss': '3.28', 'grad_norm': '0.4034', 'learning_rate': '0.0004918', 'epoch': '0.2936'}
	{'loss': '3.272', 'grad_norm': '0.4407', 'learning_rate': '0.0004913', 'epoch': '0.2943'}
	{'loss': '3.279', 'grad_norm': '0.4513', 'learning_rate': '0.0004909', 'epoch': '0.2949'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.65it/s]
	{'loss': '3.282', 'grad_norm': '0.4502', 'learning_rate': '0.0004904', 'epoch': '0.2956'}
	{'loss': '3.276', 'grad_norm': '0.417', 'learning_rate': '0.0004899', 'epoch': '0.2962'}
	{'loss': '3.272', 'grad_norm': '0.4675', 'learning_rate': '0.0004894', 'epoch': '0.2969'}
	{'loss': '3.272', 'grad_norm': '0.4454', 'learning_rate': '0.0004889', 'epoch': '0.2975'}
	{'loss': '3.27', 'grad_norm': '0.4224', 'learning_rate': '0.0004884', 'epoch': '0.2982'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.38it/s]
	{'loss': '3.277', 'grad_norm': '0.4185', 'learning_rate': '0.0004879', 'epoch': '0.2988'}
	{'loss': '3.272', 'grad_norm': '0.4154', 'learning_rate': '0.0004874', 'epoch': '0.2995'}
	{'loss': '3.274', 'grad_norm': '0.4373', 'learning_rate': '0.0004869', 'epoch': '0.3002'}
	{'loss': '3.273', 'grad_norm': '0.4612', 'learning_rate': '0.0004864', 'epoch': '0.3008'}
	{'loss': '3.269', 'grad_norm': '0.4317', 'learning_rate': '0.0004859', 'epoch': '0.3015'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.40it/s]
	{'loss': '3.272', 'grad_norm': '0.4245', 'learning_rate': '0.0004855', 'epoch': '0.3021'}
	{'loss': '3.277', 'grad_norm': '0.459', 'learning_rate': '0.000485', 'epoch': '0.3028'}
	{'loss': '3.279', 'grad_norm': '0.4376', 'learning_rate': '0.0004845', 'epoch': '0.3034'}
	{'loss': '3.274', 'grad_norm': '0.4456', 'learning_rate': '0.000484', 'epoch': '0.3041'}
	{'loss': '3.271', 'grad_norm': '0.4329', 'learning_rate': '0.0004835', 'epoch': '0.3047'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.95it/s]
	{'loss': '3.275', 'grad_norm': '0.475', 'learning_rate': '0.000483', 'epoch': '0.3054'}
	{'loss': '3.274', 'grad_norm': '0.4173', 'learning_rate': '0.0004825', 'epoch': '0.3061'}
	{'loss': '3.269', 'grad_norm': '0.4307', 'learning_rate': '0.000482', 'epoch': '0.3067'}
	{'loss': '3.272', 'grad_norm': '0.4991', 'learning_rate': '0.0004815', 'epoch': '0.3074'}
	{'loss': '3.271', 'grad_norm': '0.4149', 'learning_rate': '0.000481', 'epoch': '0.308'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.07it/s]
	{'loss': '3.272', 'grad_norm': '0.4634', 'learning_rate': '0.0004805', 'epoch': '0.3087'}
	{'loss': '3.276', 'grad_norm': '0.4536', 'learning_rate': '0.00048', 'epoch': '0.3093'}
	{'loss': '3.269', 'grad_norm': '0.4109', 'learning_rate': '0.0004795', 'epoch': '0.31'}
	{'loss': '3.265', 'grad_norm': '0.4222', 'learning_rate': '0.0004789', 'epoch': '0.3106'}
	{'loss': '3.274', 'grad_norm': '0.4168', 'learning_rate': '0.0004784', 'epoch': '0.3113'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.28it/s]
	{'loss': '3.272', 'grad_norm': '0.4087', 'learning_rate': '0.0004779', 'epoch': '0.312'}
	{'loss': '3.273', 'grad_norm': '0.4815', 'learning_rate': '0.0004774', 'epoch': '0.3126'}
	{'loss': '3.27', 'grad_norm': '0.4261', 'learning_rate': '0.0004769', 'epoch': '0.3133'}
	{'loss': '3.275', 'grad_norm': '0.4388', 'learning_rate': '0.0004764', 'epoch': '0.3139'}
	{'loss': '3.267', 'grad_norm': '0.4312', 'learning_rate': '0.0004759', 'epoch': '0.3146'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.70it/s]
	{'loss': '3.269', 'grad_norm': '0.4429', 'learning_rate': '0.0004754', 'epoch': '0.3152'}
	{'loss': '3.27', 'grad_norm': '0.4504', 'learning_rate': '0.0004749', 'epoch': '0.3159'}
	{'loss': '3.275', 'grad_norm': '0.4439', 'learning_rate': '0.0004744', 'epoch': '0.3165'}
	{'loss': '3.268', 'grad_norm': '0.445', 'learning_rate': '0.0004738', 'epoch': '0.3172'}
	{'loss': '3.269', 'grad_norm': '0.4463', 'learning_rate': '0.0004733', 'epoch': '0.3178'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.78it/s]
	{'loss': '3.271', 'grad_norm': '0.4737', 'learning_rate': '0.0004728', 'epoch': '0.3185'}
	{'loss': '3.27', 'grad_norm': '0.4419', 'learning_rate': '0.0004723', 'epoch': '0.3192'}
	{'loss': '3.266', 'grad_norm': '0.4606', 'learning_rate': '0.0004718', 'epoch': '0.3198'}
	{'loss': '3.264', 'grad_norm': '0.4492', 'learning_rate': '0.0004713', 'epoch': '0.3205'}
	{'loss': '3.266', 'grad_norm': '0.4502', 'learning_rate': '0.0004708', 'epoch': '0.3211'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.32it/s]
	{'loss': '3.266', 'grad_norm': '0.4692', 'learning_rate': '0.0004702', 'epoch': '0.3218'}
	{'loss': '3.263', 'grad_norm': '0.4328', 'learning_rate': '0.0004697', 'epoch': '0.3224'}
	{'loss': '3.268', 'grad_norm': '0.4387', 'learning_rate': '0.0004692', 'epoch': '0.3231'}
	{'loss': '3.265', 'grad_norm': '0.4508', 'learning_rate': '0.0004687', 'epoch': '0.3237'}
	{'loss': '3.263', 'grad_norm': '0.4707', 'learning_rate': '0.0004682', 'epoch': '0.3244'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.48it/s]
	{'loss': '3.27', 'grad_norm': '0.456', 'learning_rate': '0.0004676', 'epoch': '0.3251'}
	{'loss': '3.263', 'grad_norm': '0.4588', 'learning_rate': '0.0004671', 'epoch': '0.3257'}
	{'loss': '3.263', 'grad_norm': '0.4057', 'learning_rate': '0.0004666', 'epoch': '0.3264'}
	{'loss': '3.265', 'grad_norm': '0.45', 'learning_rate': '0.0004661', 'epoch': '0.327'}
	{'loss': '3.264', 'grad_norm': '0.4766', 'learning_rate': '0.0004655', 'epoch': '0.3277'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.50it/s]
	{'loss': '3.263', 'grad_norm': '0.4782', 'learning_rate': '0.000465', 'epoch': '0.3283'}
	{'loss': '3.27', 'grad_norm': '0.4372', 'learning_rate': '0.0004645', 'epoch': '0.329'}
	{'loss': '3.268', 'grad_norm': '0.4519', 'learning_rate': '0.000464', 'epoch': '0.3296'}
	{'loss': '3.255', 'grad_norm': '0.4323', 'learning_rate': '0.0004634', 'epoch': '0.3303'}
	{'loss': '3.264', 'grad_norm': '0.4575', 'learning_rate': '0.0004629', 'epoch': '0.331'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.83it/s]
	{'loss': '3.27', 'grad_norm': '0.4476', 'learning_rate': '0.0004624', 'epoch': '0.3316'}
	{'loss': '3.262', 'grad_norm': '0.4528', 'learning_rate': '0.0004618', 'epoch': '0.3323'}
	{'loss': '3.262', 'grad_norm': '0.4844', 'learning_rate': '0.0004613', 'epoch': '0.3329'}
	{'loss': '3.264', 'grad_norm': '0.4795', 'learning_rate': '0.0004608', 'epoch': '0.3336'}
	{'loss': '3.267', 'grad_norm': '0.4845', 'learning_rate': '0.0004602', 'epoch': '0.3342'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.45it/s]
	{'loss': '3.26', 'grad_norm': '0.4406', 'learning_rate': '0.0004597', 'epoch': '0.3349'}
	{'loss': '3.263', 'grad_norm': '0.4481', 'learning_rate': '0.0004592', 'epoch': '0.3355'}
	{'loss': '3.26', 'grad_norm': '0.452', 'learning_rate': '0.0004586', 'epoch': '0.3362'}
	{'loss': '3.26', 'grad_norm': '0.469', 'learning_rate': '0.0004581', 'epoch': '0.3369'}
	{'loss': '3.253', 'grad_norm': '0.4089', 'learning_rate': '0.0004576', 'epoch': '0.3375'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.17it/s]
	{'loss': '3.262', 'grad_norm': '0.4312', 'learning_rate': '0.000457', 'epoch': '0.3382'}
	{'loss': '3.259', 'grad_norm': '0.4376', 'learning_rate': '0.0004565', 'epoch': '0.3388'}
	{'loss': '3.257', 'grad_norm': '0.4248', 'learning_rate': '0.000456', 'epoch': '0.3395'}
	{'loss': '3.26', 'grad_norm': '0.4705', 'learning_rate': '0.0004554', 'epoch': '0.3401'}
	{'loss': '3.26', 'grad_norm': '0.4164', 'learning_rate': '0.0004549', 'epoch': '0.3408'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.79it/s]
	{'loss': '3.266', 'grad_norm': '0.4457', 'learning_rate': '0.0004543', 'epoch': '0.3414'}
	{'loss': '3.259', 'grad_norm': '0.4463', 'learning_rate': '0.0004538', 'epoch': '0.3421'}
	{'loss': '3.259', 'grad_norm': '0.4603', 'learning_rate': '0.0004533', 'epoch': '0.3428'}
	{'loss': '3.259', 'grad_norm': '0.4435', 'learning_rate': '0.0004527', 'epoch': '0.3434'}
	{'loss': '3.262', 'grad_norm': '0.4214', 'learning_rate': '0.0004522', 'epoch': '0.3441'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.42it/s]
	{'loss': '3.26', 'grad_norm': '0.4644', 'learning_rate': '0.0004516', 'epoch': '0.3447'}
	{'loss': '3.256', 'grad_norm': '0.4562', 'learning_rate': '0.0004511', 'epoch': '0.3454'}
	{'loss': '3.262', 'grad_norm': '0.4455', 'learning_rate': '0.0004505', 'epoch': '0.346'}
	{'loss': '3.259', 'grad_norm': '0.4552', 'learning_rate': '0.00045', 'epoch': '0.3467'}
	{'loss': '3.257', 'grad_norm': '0.4198', 'learning_rate': '0.0004494', 'epoch': '0.3473'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.60it/s]
	{'loss': '3.261', 'grad_norm': '0.4728', 'learning_rate': '0.0004489', 'epoch': '0.348'}
	{'loss': '3.259', 'grad_norm': '0.4621', 'learning_rate': '0.0004484', 'epoch': '0.3487'}
	{'loss': '3.256', 'grad_norm': '0.468', 'learning_rate': '0.0004478', 'epoch': '0.3493'}
	{'loss': '3.26', 'grad_norm': '0.452', 'learning_rate': '0.0004473', 'epoch': '0.35'}
	{'loss': '3.257', 'grad_norm': '0.4327', 'learning_rate': '0.0004467', 'epoch': '0.3506'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.22it/s]
	{'loss': '3.26', 'grad_norm': '0.4696', 'learning_rate': '0.0004462', 'epoch': '0.3513'}
	{'loss': '3.259', 'grad_norm': '0.4474', 'learning_rate': '0.0004456', 'epoch': '0.3519'}
	{'loss': '3.254', 'grad_norm': '0.4496', 'learning_rate': '0.0004451', 'epoch': '0.3526'}
	{'loss': '3.26', 'grad_norm': '0.4078', 'learning_rate': '0.0004445', 'epoch': '0.3532'}
	{'loss': '3.252', 'grad_norm': '0.4482', 'learning_rate': '0.0004439', 'epoch': '0.3539'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.79it/s]
	{'loss': '3.257', 'grad_norm': '0.4473', 'learning_rate': '0.0004434', 'epoch': '0.3545'}
	{'loss': '3.254', 'grad_norm': '0.4646', 'learning_rate': '0.0004428', 'epoch': '0.3552'}
	{'loss': '3.255', 'grad_norm': '0.4673', 'learning_rate': '0.0004423', 'epoch': '0.3559'}
	{'loss': '3.249', 'grad_norm': '0.4286', 'learning_rate': '0.0004417', 'epoch': '0.3565'}
	{'loss': '3.248', 'grad_norm': '0.463', 'learning_rate': '0.0004412', 'epoch': '0.3572'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.55it/s]
	{'loss': '3.256', 'grad_norm': '0.4485', 'learning_rate': '0.0004406', 'epoch': '0.3578'}
	{'loss': '3.257', 'grad_norm': '0.4817', 'learning_rate': '0.0004401', 'epoch': '0.3585'}
	{'loss': '3.256', 'grad_norm': '0.4897', 'learning_rate': '0.0004395', 'epoch': '0.3591'}
	{'loss': '3.255', 'grad_norm': '0.4551', 'learning_rate': '0.0004389', 'epoch': '0.3598'}
	{'loss': '3.255', 'grad_norm': '0.4687', 'learning_rate': '0.0004384', 'epoch': '0.3604'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.29it/s]
	{'loss': '3.264', 'grad_norm': '0.4215', 'learning_rate': '0.0004378', 'epoch': '0.3611'}
	{'loss': '3.255', 'grad_norm': '0.4536', 'learning_rate': '0.0004373', 'epoch': '0.3618'}
	{'loss': '3.252', 'grad_norm': '0.5059', 'learning_rate': '0.0004367', 'epoch': '0.3624'}
	{'loss': '3.253', 'grad_norm': '0.4578', 'learning_rate': '0.0004361', 'epoch': '0.3631'}
	{'loss': '3.255', 'grad_norm': '0.4677', 'learning_rate': '0.0004356', 'epoch': '0.3637'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.16it/s]
	{'loss': '3.258', 'grad_norm': '0.4477', 'learning_rate': '0.000435', 'epoch': '0.3644'}
	{'loss': '3.247', 'grad_norm': '0.4775', 'learning_rate': '0.0004345', 'epoch': '0.365'}
	{'loss': '3.257', 'grad_norm': '0.4636', 'learning_rate': '0.0004339', 'epoch': '0.3657'}
	{'loss': '3.256', 'grad_norm': '0.491', 'learning_rate': '0.0004333', 'epoch': '0.3663'}
	{'loss': '3.251', 'grad_norm': '0.4513', 'learning_rate': '0.0004328', 'epoch': '0.367'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.75it/s]
	{'loss': '3.251', 'grad_norm': '0.4497', 'learning_rate': '0.0004322', 'epoch': '0.3677'}
	{'loss': '3.258', 'grad_norm': '0.4543', 'learning_rate': '0.0004316', 'epoch': '0.3683'}
	{'loss': '3.255', 'grad_norm': '0.4645', 'learning_rate': '0.0004311', 'epoch': '0.369'}
	{'loss': '3.252', 'grad_norm': '0.4636', 'learning_rate': '0.0004305', 'epoch': '0.3696'}
	{'loss': '3.247', 'grad_norm': '0.4725', 'learning_rate': '0.0004299', 'epoch': '0.3703'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.44it/s]
	{'loss': '3.25', 'grad_norm': '0.4311', 'learning_rate': '0.0004294', 'epoch': '0.3709'}
	{'loss': '3.253', 'grad_norm': '0.4578', 'learning_rate': '0.0004288', 'epoch': '0.3716'}
	{'loss': '3.25', 'grad_norm': '0.4468', 'learning_rate': '0.0004282', 'epoch': '0.3722'}
	{'loss': '3.248', 'grad_norm': '0.4504', 'learning_rate': '0.0004277', 'epoch': '0.3729'}
	{'loss': '3.244', 'grad_norm': '0.4893', 'learning_rate': '0.0004271', 'epoch': '0.3736'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.96it/s]
	{'loss': '3.247', 'grad_norm': '0.4625', 'learning_rate': '0.0004265', 'epoch': '0.3742'}
	{'loss': '3.254', 'grad_norm': '0.4205', 'learning_rate': '0.0004259', 'epoch': '0.3749'}
	{'loss': '3.252', 'grad_norm': '0.4396', 'learning_rate': '0.0004254', 'epoch': '0.3755'}
	{'loss': '3.254', 'grad_norm': '0.4752', 'learning_rate': '0.0004248', 'epoch': '0.3762'}
	{'loss': '3.25', 'grad_norm': '0.4604', 'learning_rate': '0.0004242', 'epoch': '0.3768'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.26it/s]
	{'loss': '3.242', 'grad_norm': '0.4707', 'learning_rate': '0.0004236', 'epoch': '0.3775'}
	{'loss': '3.244', 'grad_norm': '0.4613', 'learning_rate': '0.0004231', 'epoch': '0.3781'}
	{'loss': '3.249', 'grad_norm': '0.4585', 'learning_rate': '0.0004225', 'epoch': '0.3788'}
	{'loss': '3.249', 'grad_norm': '0.4497', 'learning_rate': '0.0004219', 'epoch': '0.3795'}
	{'loss': '3.252', 'grad_norm': '0.4544', 'learning_rate': '0.0004213', 'epoch': '0.3801'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.35it/s]
	{'loss': '3.249', 'grad_norm': '0.4723', 'learning_rate': '0.0004208', 'epoch': '0.3808'}
	{'loss': '3.249', 'grad_norm': '0.477', 'learning_rate': '0.0004202', 'epoch': '0.3814'}
	{'loss': '3.253', 'grad_norm': '0.4469', 'learning_rate': '0.0004196', 'epoch': '0.3821'}
	{'loss': '3.246', 'grad_norm': '0.4561', 'learning_rate': '0.000419', 'epoch': '0.3827'}
	{'loss': '3.247', 'grad_norm': '0.4483', 'learning_rate': '0.0004185', 'epoch': '0.3834'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.60it/s]
	{'loss': '3.251', 'grad_norm': '0.4371', 'learning_rate': '0.0004179', 'epoch': '0.384'}
	{'loss': '3.245', 'grad_norm': '0.472', 'learning_rate': '0.0004173', 'epoch': '0.3847'}
	{'loss': '3.251', 'grad_norm': '0.4505', 'learning_rate': '0.0004167', 'epoch': '0.3854'}
	{'loss': '3.246', 'grad_norm': '0.4938', 'learning_rate': '0.0004161', 'epoch': '0.386'}
	{'loss': '3.243', 'grad_norm': '0.4633', 'learning_rate': '0.0004156', 'epoch': '0.3867'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.06it/s]
	{'loss': '3.247', 'grad_norm': '0.4648', 'learning_rate': '0.000415', 'epoch': '0.3873'}
	{'loss': '3.247', 'grad_norm': '0.4496', 'learning_rate': '0.0004144', 'epoch': '0.388'}
	{'loss': '3.245', 'grad_norm': '0.4622', 'learning_rate': '0.0004138', 'epoch': '0.3886'}
	{'loss': '3.244', 'grad_norm': '0.4612', 'learning_rate': '0.0004132', 'epoch': '0.3893'}
	{'loss': '3.241', 'grad_norm': '0.4886', 'learning_rate': '0.0004126', 'epoch': '0.3899'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.27it/s]
	{'loss': '3.242', 'grad_norm': '0.4501', 'learning_rate': '0.0004121', 'epoch': '0.3906'}
	{'loss': '3.242', 'grad_norm': '0.4612', 'learning_rate': '0.0004115', 'epoch': '0.3912'}
	{'loss': '3.246', 'grad_norm': '0.453', 'learning_rate': '0.0004109', 'epoch': '0.3919'}
	{'loss': '3.241', 'grad_norm': '0.4666', 'learning_rate': '0.0004103', 'epoch': '0.3926'}
	{'loss': '3.24', 'grad_norm': '0.4556', 'learning_rate': '0.0004097', 'epoch': '0.3932'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.24it/s]
	{'loss': '3.246', 'grad_norm': '0.4626', 'learning_rate': '0.0004091', 'epoch': '0.3939'}
	{'loss': '3.24', 'grad_norm': '0.4649', 'learning_rate': '0.0004085', 'epoch': '0.3945'}
	{'loss': '3.242', 'grad_norm': '0.4926', 'learning_rate': '0.000408', 'epoch': '0.3952'}
	{'loss': '3.241', 'grad_norm': '0.4654', 'learning_rate': '0.0004074', 'epoch': '0.3958'}
	{'loss': '3.242', 'grad_norm': '0.4665', 'learning_rate': '0.0004068', 'epoch': '0.3965'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.11it/s]
	{'loss': '3.239', 'grad_norm': '0.4301', 'learning_rate': '0.0004062', 'epoch': '0.3971'}
	{'loss': '3.239', 'grad_norm': '0.4961', 'learning_rate': '0.0004056', 'epoch': '0.3978'}
	{'loss': '3.243', 'grad_norm': '0.4698', 'learning_rate': '0.000405', 'epoch': '0.3985'}
	{'loss': '3.242', 'grad_norm': '0.4147', 'learning_rate': '0.0004044', 'epoch': '0.3991'}
	{'loss': '3.244', 'grad_norm': '0.4621', 'learning_rate': '0.0004038', 'epoch': '0.3998'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.11it/s]
	{'loss': '3.241', 'grad_norm': '0.5477', 'learning_rate': '0.0004032', 'epoch': '0.4004'}
	{'loss': '3.241', 'grad_norm': '0.4406', 'learning_rate': '0.0004026', 'epoch': '0.4011'}
	{'loss': '3.238', 'grad_norm': '0.4559', 'learning_rate': '0.000402', 'epoch': '0.4017'}
	{'loss': '3.239', 'grad_norm': '0.4655', 'learning_rate': '0.0004015', 'epoch': '0.4024'}
	{'loss': '3.236', 'grad_norm': '0.4437', 'learning_rate': '0.0004009', 'epoch': '0.403'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.54it/s]
	{'loss': '3.238', 'grad_norm': '0.4322', 'learning_rate': '0.0004003', 'epoch': '0.4037'}
	{'loss': '3.246', 'grad_norm': '0.4784', 'learning_rate': '0.0003997', 'epoch': '0.4044'}
	{'loss': '3.237', 'grad_norm': '0.4521', 'learning_rate': '0.0003991', 'epoch': '0.405'}
	{'loss': '3.239', 'grad_norm': '0.456', 'learning_rate': '0.0003985', 'epoch': '0.4057'}
	{'loss': '3.239', 'grad_norm': '0.4769', 'learning_rate': '0.0003979', 'epoch': '0.4063'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.69it/s]
	{'loss': '3.237', 'grad_norm': '0.439', 'learning_rate': '0.0003973', 'epoch': '0.407'}
	{'loss': '3.239', 'grad_norm': '0.4867', 'learning_rate': '0.0003967', 'epoch': '0.4076'}
	{'loss': '3.24', 'grad_norm': '0.4515', 'learning_rate': '0.0003961', 'epoch': '0.4083'}
	{'loss': '3.242', 'grad_norm': '0.5506', 'learning_rate': '0.0003955', 'epoch': '0.4089'}
	{'loss': '3.234', 'grad_norm': '0.4816', 'learning_rate': '0.0003949', 'epoch': '0.4096'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.12it/s]
	{'loss': '3.234', 'grad_norm': '0.4501', 'learning_rate': '0.0003943', 'epoch': '0.4103'}
	{'loss': '3.238', 'grad_norm': '0.4657', 'learning_rate': '0.0003937', 'epoch': '0.4109'}
	{'loss': '3.241', 'grad_norm': '0.4681', 'learning_rate': '0.0003931', 'epoch': '0.4116'}
	{'loss': '3.239', 'grad_norm': '0.4949', 'learning_rate': '0.0003925', 'epoch': '0.4122'}
	{'loss': '3.24', 'grad_norm': '0.4786', 'learning_rate': '0.0003919', 'epoch': '0.4129'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.70it/s]
	{'loss': '3.229', 'grad_norm': '0.4773', 'learning_rate': '0.0003913', 'epoch': '0.4135'}
	{'loss': '3.235', 'grad_norm': '0.4632', 'learning_rate': '0.0003907', 'epoch': '0.4142'}
	{'loss': '3.234', 'grad_norm': '0.5151', 'learning_rate': '0.0003901', 'epoch': '0.4148'}
	{'loss': '3.236', 'grad_norm': '0.4856', 'learning_rate': '0.0003895', 'epoch': '0.4155'}
	{'loss': '3.24', 'grad_norm': '0.4583', 'learning_rate': '0.0003889', 'epoch': '0.4162'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.90it/s]
	{'loss': '3.232', 'grad_norm': '0.4249', 'learning_rate': '0.0003883', 'epoch': '0.4168'}
	{'loss': '3.236', 'grad_norm': '0.4633', 'learning_rate': '0.0003877', 'epoch': '0.4175'}
	{'loss': '3.234', 'grad_norm': '0.4659', 'learning_rate': '0.0003871', 'epoch': '0.4181'}
	{'loss': '3.24', 'grad_norm': '0.4802', 'learning_rate': '0.0003865', 'epoch': '0.4188'}
	{'loss': '3.233', 'grad_norm': '0.4773', 'learning_rate': '0.0003859', 'epoch': '0.4194'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.32it/s]
	{'loss': '3.234', 'grad_norm': '0.4949', 'learning_rate': '0.0003853', 'epoch': '0.4201'}
	{'loss': '3.231', 'grad_norm': '0.4951', 'learning_rate': '0.0003847', 'epoch': '0.4207'}
	{'loss': '3.236', 'grad_norm': '0.4363', 'learning_rate': '0.0003841', 'epoch': '0.4214'}
	{'loss': '3.235', 'grad_norm': '0.4838', 'learning_rate': '0.0003835', 'epoch': '0.4221'}
	{'loss': '3.235', 'grad_norm': '0.4485', 'learning_rate': '0.0003829', 'epoch': '0.4227'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.52it/s]
	{'loss': '3.236', 'grad_norm': '0.5036', 'learning_rate': '0.0003823', 'epoch': '0.4234'}
	{'loss': '3.237', 'grad_norm': '0.4519', 'learning_rate': '0.0003817', 'epoch': '0.424'}
	{'loss': '3.233', 'grad_norm': '0.4726', 'learning_rate': '0.000381', 'epoch': '0.4247'}
	{'loss': '3.234', 'grad_norm': '0.4456', 'learning_rate': '0.0003804', 'epoch': '0.4253'}
	{'loss': '3.232', 'grad_norm': '0.4678', 'learning_rate': '0.0003798', 'epoch': '0.426'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.34it/s]
	{'loss': '3.237', 'grad_norm': '0.4973', 'learning_rate': '0.0003792', 'epoch': '0.4266'}
	{'loss': '3.224', 'grad_norm': '0.4893', 'learning_rate': '0.0003786', 'epoch': '0.4273'}
	{'loss': '3.232', 'grad_norm': '0.5094', 'learning_rate': '0.000378', 'epoch': '0.4279'}
	{'loss': '3.234', 'grad_norm': '0.4931', 'learning_rate': '0.0003774', 'epoch': '0.4286'}
	{'loss': '3.233', 'grad_norm': '0.4649', 'learning_rate': '0.0003768', 'epoch': '0.4293'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.69it/s]
	{'loss': '3.23', 'grad_norm': '0.4462', 'learning_rate': '0.0003762', 'epoch': '0.4299'}
	{'loss': '3.233', 'grad_norm': '0.4557', 'learning_rate': '0.0003756', 'epoch': '0.4306'}
	{'loss': '3.235', 'grad_norm': '0.4757', 'learning_rate': '0.000375', 'epoch': '0.4312'}
	{'loss': '3.237', 'grad_norm': '0.5045', 'learning_rate': '0.0003744', 'epoch': '0.4319'}
	{'loss': '3.231', 'grad_norm': '0.4782', 'learning_rate': '0.0003737', 'epoch': '0.4325'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.15it/s]
	{'loss': '3.234', 'grad_norm': '0.4713', 'learning_rate': '0.0003731', 'epoch': '0.4332'}
	{'loss': '3.229', 'grad_norm': '0.4605', 'learning_rate': '0.0003725', 'epoch': '0.4338'}
	{'loss': '3.233', 'grad_norm': '0.482', 'learning_rate': '0.0003719', 'epoch': '0.4345'}
	{'loss': '3.232', 'grad_norm': '0.4597', 'learning_rate': '0.0003713', 'epoch': '0.4352'}
	{'loss': '3.229', 'grad_norm': '0.4956', 'learning_rate': '0.0003707', 'epoch': '0.4358'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.45it/s]
	{'loss': '3.235', 'grad_norm': '0.4755', 'learning_rate': '0.0003701', 'epoch': '0.4365'}
	{'loss': '3.235', 'grad_norm': '0.4881', 'learning_rate': '0.0003695', 'epoch': '0.4371'}
	{'loss': '3.229', 'grad_norm': '0.4577', 'learning_rate': '0.0003688', 'epoch': '0.4378'}
	{'loss': '3.227', 'grad_norm': '0.4374', 'learning_rate': '0.0003682', 'epoch': '0.4384'}
	{'loss': '3.227', 'grad_norm': '0.4808', 'learning_rate': '0.0003676', 'epoch': '0.4391'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.71it/s]
	{'loss': '3.231', 'grad_norm': '0.4652', 'learning_rate': '0.000367', 'epoch': '0.4397'}
	{'loss': '3.23', 'grad_norm': '0.4981', 'learning_rate': '0.0003664', 'epoch': '0.4404'}
	{'loss': '3.228', 'grad_norm': '0.4604', 'learning_rate': '0.0003658', 'epoch': '0.4411'}
	{'loss': '3.227', 'grad_norm': '0.4543', 'learning_rate': '0.0003652', 'epoch': '0.4417'}
	{'loss': '3.225', 'grad_norm': '0.4936', 'learning_rate': '0.0003645', 'epoch': '0.4424'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.59it/s]
	{'loss': '3.22', 'grad_norm': '0.4366', 'learning_rate': '0.0003639', 'epoch': '0.443'}
	{'loss': '3.221', 'grad_norm': '0.4697', 'learning_rate': '0.0003633', 'epoch': '0.4437'}
	{'loss': '3.225', 'grad_norm': '0.5409', 'learning_rate': '0.0003627', 'epoch': '0.4443'}
	{'loss': '3.218', 'grad_norm': '0.4559', 'learning_rate': '0.0003621', 'epoch': '0.445'}
	{'loss': '3.229', 'grad_norm': '0.4595', 'learning_rate': '0.0003615', 'epoch': '0.4456'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.75it/s]
	{'loss': '3.227', 'grad_norm': '0.4986', 'learning_rate': '0.0003608', 'epoch': '0.4463'}
	{'loss': '3.222', 'grad_norm': '0.4858', 'learning_rate': '0.0003602', 'epoch': '0.447'}
	{'loss': '3.223', 'grad_norm': '0.5112', 'learning_rate': '0.0003596', 'epoch': '0.4476'}
	{'loss': '3.23', 'grad_norm': '0.4357', 'learning_rate': '0.000359', 'epoch': '0.4483'}
	{'loss': '3.227', 'grad_norm': '0.4464', 'learning_rate': '0.0003584', 'epoch': '0.4489'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.75it/s]
	{'loss': '3.228', 'grad_norm': '0.5098', 'learning_rate': '0.0003578', 'epoch': '0.4496'}
	{'loss': '3.232', 'grad_norm': '0.4553', 'learning_rate': '0.0003571', 'epoch': '0.4502'}
	{'loss': '3.226', 'grad_norm': '0.4563', 'learning_rate': '0.0003565', 'epoch': '0.4509'}
	{'loss': '3.227', 'grad_norm': '0.4658', 'learning_rate': '0.0003559', 'epoch': '0.4515'}
	{'loss': '3.231', 'grad_norm': '0.5049', 'learning_rate': '0.0003553', 'epoch': '0.4522'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.83it/s]
	{'loss': '3.223', 'grad_norm': '0.4598', 'learning_rate': '0.0003547', 'epoch': '0.4529'}
	{'loss': '3.223', 'grad_norm': '0.4721', 'learning_rate': '0.000354', 'epoch': '0.4535'}
	{'loss': '3.225', 'grad_norm': '0.4694', 'learning_rate': '0.0003534', 'epoch': '0.4542'}
	{'loss': '3.229', 'grad_norm': '0.4915', 'learning_rate': '0.0003528', 'epoch': '0.4548'}
	{'loss': '3.224', 'grad_norm': '0.4837', 'learning_rate': '0.0003522', 'epoch': '0.4555'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.94it/s]
	{'loss': '3.224', 'grad_norm': '0.4628', 'learning_rate': '0.0003516', 'epoch': '0.4561'}
	{'loss': '3.221', 'grad_norm': '0.4819', 'learning_rate': '0.0003509', 'epoch': '0.4568'}
	{'loss': '3.228', 'grad_norm': '0.4556', 'learning_rate': '0.0003503', 'epoch': '0.4574'}
	{'loss': '3.221', 'grad_norm': '0.5048', 'learning_rate': '0.0003497', 'epoch': '0.4581'}
	{'loss': '3.222', 'grad_norm': '0.4743', 'learning_rate': '0.0003491', 'epoch': '0.4588'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.10it/s]
	{'loss': '3.22', 'grad_norm': '0.4812', 'learning_rate': '0.0003484', 'epoch': '0.4594'}
	{'loss': '3.22', 'grad_norm': '0.4922', 'learning_rate': '0.0003478', 'epoch': '0.4601'}
	{'loss': '3.22', 'grad_norm': '0.4928', 'learning_rate': '0.0003472', 'epoch': '0.4607'}
	{'loss': '3.226', 'grad_norm': '0.5083', 'learning_rate': '0.0003466', 'epoch': '0.4614'}
	{'loss': '3.223', 'grad_norm': '0.4728', 'learning_rate': '0.000346', 'epoch': '0.462'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.18it/s]
	{'loss': '3.224', 'grad_norm': '0.4942', 'learning_rate': '0.0003453', 'epoch': '0.4627'}
	{'loss': '3.222', 'grad_norm': '0.4995', 'learning_rate': '0.0003447', 'epoch': '0.4633'}
	{'loss': '3.222', 'grad_norm': '0.4649', 'learning_rate': '0.0003441', 'epoch': '0.464'}
	{'loss': '3.223', 'grad_norm': '0.4704', 'learning_rate': '0.0003435', 'epoch': '0.4646'}
	{'loss': '3.227', 'grad_norm': '0.47', 'learning_rate': '0.0003428', 'epoch': '0.4653'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.24it/s]
	{'loss': '3.223', 'grad_norm': '0.4915', 'learning_rate': '0.0003422', 'epoch': '0.466'}
	{'loss': '3.22', 'grad_norm': '0.4776', 'learning_rate': '0.0003416', 'epoch': '0.4666'}
	{'loss': '3.221', 'grad_norm': '0.4778', 'learning_rate': '0.000341', 'epoch': '0.4673'}
	{'loss': '3.22', 'grad_norm': '0.5041', 'learning_rate': '0.0003403', 'epoch': '0.4679'}
	{'loss': '3.219', 'grad_norm': '0.4567', 'learning_rate': '0.0003397', 'epoch': '0.4686'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.32it/s]
	{'loss': '3.213', 'grad_norm': '0.4878', 'learning_rate': '0.0003391', 'epoch': '0.4692'}
	{'loss': '3.22', 'grad_norm': '0.4518', 'learning_rate': '0.0003385', 'epoch': '0.4699'}
	{'loss': '3.219', 'grad_norm': '0.4839', 'learning_rate': '0.0003378', 'epoch': '0.4705'}
	{'loss': '3.218', 'grad_norm': '0.4706', 'learning_rate': '0.0003372', 'epoch': '0.4712'}
	{'loss': '3.217', 'grad_norm': '0.4595', 'learning_rate': '0.0003366', 'epoch': '0.4719'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.86it/s]
	{'loss': '3.217', 'grad_norm': '0.5183', 'learning_rate': '0.000336', 'epoch': '0.4725'}
	{'loss': '3.221', 'grad_norm': '0.4675', 'learning_rate': '0.0003353', 'epoch': '0.4732'}
	{'loss': '3.218', 'grad_norm': '0.467', 'learning_rate': '0.0003347', 'epoch': '0.4738'}
	{'loss': '3.214', 'grad_norm': '0.478', 'learning_rate': '0.0003341', 'epoch': '0.4745'}
	{'loss': '3.218', 'grad_norm': '0.4651', 'learning_rate': '0.0003335', 'epoch': '0.4751'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.69it/s]
	{'loss': '3.216', 'grad_norm': '0.4744', 'learning_rate': '0.0003328', 'epoch': '0.4758'}
	{'loss': '3.215', 'grad_norm': '0.4911', 'learning_rate': '0.0003322', 'epoch': '0.4764'}
	{'loss': '3.217', 'grad_norm': '0.4939', 'learning_rate': '0.0003316', 'epoch': '0.4771'}
	{'loss': '3.216', 'grad_norm': '0.4626', 'learning_rate': '0.000331', 'epoch': '0.4778'}
	{'loss': '3.222', 'grad_norm': '0.4866', 'learning_rate': '0.0003303', 'epoch': '0.4784'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.48it/s]
	{'loss': '3.219', 'grad_norm': '0.4775', 'learning_rate': '0.0003297', 'epoch': '0.4791'}
	{'loss': '3.218', 'grad_norm': '0.489', 'learning_rate': '0.0003291', 'epoch': '0.4797'}
	{'loss': '3.215', 'grad_norm': '0.4488', 'learning_rate': '0.0003285', 'epoch': '0.4804'}
	{'loss': '3.217', 'grad_norm': '0.4772', 'learning_rate': '0.0003278', 'epoch': '0.481'}
	{'loss': '3.218', 'grad_norm': '0.49', 'learning_rate': '0.0003272', 'epoch': '0.4817'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.48it/s]
	{'loss': '3.218', 'grad_norm': '0.4655', 'learning_rate': '0.0003266', 'epoch': '0.4823'}
	{'loss': '3.22', 'grad_norm': '0.469', 'learning_rate': '0.0003259', 'epoch': '0.483'}
	{'loss': '3.217', 'grad_norm': '0.4918', 'learning_rate': '0.0003253', 'epoch': '0.4837'}
	{'loss': '3.217', 'grad_norm': '0.4977', 'learning_rate': '0.0003247', 'epoch': '0.4843'}
	{'loss': '3.213', 'grad_norm': '0.4964', 'learning_rate': '0.0003241', 'epoch': '0.485'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.21it/s]
	{'loss': '3.218', 'grad_norm': '0.4903', 'learning_rate': '0.0003234', 'epoch': '0.4856'}
	{'loss': '3.215', 'grad_norm': '0.48', 'learning_rate': '0.0003228', 'epoch': '0.4863'}
	{'loss': '3.211', 'grad_norm': '0.4788', 'learning_rate': '0.0003222', 'epoch': '0.4869'}
	{'loss': '3.214', 'grad_norm': '0.4856', 'learning_rate': '0.0003215', 'epoch': '0.4876'}
	{'loss': '3.221', 'grad_norm': '0.4608', 'learning_rate': '0.0003209', 'epoch': '0.4882'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.48it/s]
	{'loss': '3.215', 'grad_norm': '0.4789', 'learning_rate': '0.0003203', 'epoch': '0.4889'}
	{'loss': '3.214', 'grad_norm': '0.4828', 'learning_rate': '0.0003197', 'epoch': '0.4896'}
	{'loss': '3.21', 'grad_norm': '0.4582', 'learning_rate': '0.000319', 'epoch': '0.4902'}
	{'loss': '3.21', 'grad_norm': '0.4786', 'learning_rate': '0.0003184', 'epoch': '0.4909'}
	{'loss': '3.214', 'grad_norm': '0.5587', 'learning_rate': '0.0003178', 'epoch': '0.4915'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.26it/s]
	{'loss': '3.214', 'grad_norm': '0.4929', 'learning_rate': '0.0003171', 'epoch': '0.4922'}
	{'loss': '3.21', 'grad_norm': '0.4704', 'learning_rate': '0.0003165', 'epoch': '0.4928'}
	{'loss': '3.21', 'grad_norm': '0.4733', 'learning_rate': '0.0003159', 'epoch': '0.4935'}
	{'loss': '3.208', 'grad_norm': '0.4682', 'learning_rate': '0.0003153', 'epoch': '0.4941'}
	{'loss': '3.207', 'grad_norm': '0.5116', 'learning_rate': '0.0003146', 'epoch': '0.4948'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.42it/s]
	{'loss': '3.211', 'grad_norm': '0.5282', 'learning_rate': '0.000314', 'epoch': '0.4955'}
	{'loss': '3.206', 'grad_norm': '0.4986', 'learning_rate': '0.0003134', 'epoch': '0.4961'}
	{'loss': '3.211', 'grad_norm': '0.4897', 'learning_rate': '0.0003127', 'epoch': '0.4968'}
	{'loss': '3.208', 'grad_norm': '0.4994', 'learning_rate': '0.0003121', 'epoch': '0.4974'}
	{'loss': '3.213', 'grad_norm': '0.501', 'learning_rate': '0.0003115', 'epoch': '0.4981'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.42it/s]
	{'loss': '3.211', 'grad_norm': '0.5263', 'learning_rate': '0.0003108', 'epoch': '0.4987'}
	{'loss': '3.207', 'grad_norm': '0.4611', 'learning_rate': '0.0003102', 'epoch': '0.4994'}
	{'loss': '3.211', 'grad_norm': '0.5102', 'learning_rate': '0.0003096', 'epoch': '0.5'}
	{'loss': '3.212', 'grad_norm': '0.4581', 'learning_rate': '0.000309', 'epoch': '0.5007'}
	{'loss': '3.208', 'grad_norm': '0.4724', 'learning_rate': '0.0003083', 'epoch': '0.5014'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.69it/s]
	{'loss': '3.21', 'grad_norm': '0.4635', 'learning_rate': '0.0003077', 'epoch': '0.502'}
	{'loss': '3.21', 'grad_norm': '0.4868', 'learning_rate': '0.0003071', 'epoch': '0.5027'}
	{'loss': '3.207', 'grad_norm': '0.4789', 'learning_rate': '0.0003064', 'epoch': '0.5033'}
	{'loss': '3.209', 'grad_norm': '0.4851', 'learning_rate': '0.0003058', 'epoch': '0.504'}
	{'loss': '3.211', 'grad_norm': '0.4733', 'learning_rate': '0.0003052', 'epoch': '0.5046'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.46it/s]
	{'loss': '3.2', 'grad_norm': '0.5023', 'learning_rate': '0.0003045', 'epoch': '0.5053'}
	{'loss': '3.206', 'grad_norm': '0.4644', 'learning_rate': '0.0003039', 'epoch': '0.5059'}
	{'loss': '3.205', 'grad_norm': '0.4844', 'learning_rate': '0.0003033', 'epoch': '0.5066'}
	{'loss': '3.205', 'grad_norm': '0.4935', 'learning_rate': '0.0003027', 'epoch': '0.5072'}
	{'loss': '3.206', 'grad_norm': '0.5377', 'learning_rate': '0.000302', 'epoch': '0.5079'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.63it/s]
	{'loss': '3.213', 'grad_norm': '0.4874', 'learning_rate': '0.0003014', 'epoch': '0.5086'}
	{'loss': '3.207', 'grad_norm': '0.4904', 'learning_rate': '0.0003008', 'epoch': '0.5092'}
	{'loss': '3.202', 'grad_norm': '0.4684', 'learning_rate': '0.0003001', 'epoch': '0.5099'}
	{'loss': '3.212', 'grad_norm': '0.5016', 'learning_rate': '0.0002995', 'epoch': '0.5105'}
	{'loss': '3.203', 'grad_norm': '0.5012', 'learning_rate': '0.0002989', 'epoch': '0.5112'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.16it/s]
	{'loss': '3.206', 'grad_norm': '0.5526', 'learning_rate': '0.0002982', 'epoch': '0.5118'}
	{'loss': '3.207', 'grad_norm': '0.4914', 'learning_rate': '0.0002976', 'epoch': '0.5125'}
	{'loss': '3.207', 'grad_norm': '0.4688', 'learning_rate': '0.000297', 'epoch': '0.5131'}
	{'loss': '3.2', 'grad_norm': '0.4405', 'learning_rate': '0.0002964', 'epoch': '0.5138'}
	{'loss': '3.203', 'grad_norm': '0.4888', 'learning_rate': '0.0002957', 'epoch': '0.5145'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.73it/s]
	{'loss': '3.206', 'grad_norm': '0.5016', 'learning_rate': '0.0002951', 'epoch': '0.5151'}
	{'loss': '3.205', 'grad_norm': '0.4752', 'learning_rate': '0.0002945', 'epoch': '0.5158'}
	{'loss': '3.208', 'grad_norm': '0.4911', 'learning_rate': '0.0002938', 'epoch': '0.5164'}
	{'loss': '3.198', 'grad_norm': '0.5026', 'learning_rate': '0.0002932', 'epoch': '0.5171'}
	{'loss': '3.199', 'grad_norm': '0.5133', 'learning_rate': '0.0002926', 'epoch': '0.5177'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.49it/s]
	{'loss': '3.196', 'grad_norm': '0.506', 'learning_rate': '0.0002919', 'epoch': '0.5184'}
	{'loss': '3.198', 'grad_norm': '0.4965', 'learning_rate': '0.0002913', 'epoch': '0.519'}
	{'loss': '3.203', 'grad_norm': '0.5265', 'learning_rate': '0.0002907', 'epoch': '0.5197'}
	{'loss': '3.204', 'grad_norm': '0.4985', 'learning_rate': '0.00029', 'epoch': '0.5204'}
	{'loss': '3.201', 'grad_norm': '0.5248', 'learning_rate': '0.0002894', 'epoch': '0.521'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.00it/s]
	{'loss': '3.197', 'grad_norm': '0.5066', 'learning_rate': '0.0002888', 'epoch': '0.5217'}
	{'loss': '3.192', 'grad_norm': '0.4923', 'learning_rate': '0.0002882', 'epoch': '0.5223'}
	{'loss': '3.206', 'grad_norm': '0.5089', 'learning_rate': '0.0002875', 'epoch': '0.523'}
	{'loss': '3.202', 'grad_norm': '0.5294', 'learning_rate': '0.0002869', 'epoch': '0.5236'}
	{'loss': '3.198', 'grad_norm': '0.5118', 'learning_rate': '0.0002863', 'epoch': '0.5243'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.23it/s]
	{'loss': '3.203', 'grad_norm': '0.4945', 'learning_rate': '0.0002856', 'epoch': '0.5249'}
	{'loss': '3.205', 'grad_norm': '0.4752', 'learning_rate': '0.000285', 'epoch': '0.5256'}
	{'loss': '3.2', 'grad_norm': '0.4892', 'learning_rate': '0.0002844', 'epoch': '0.5263'}
	{'loss': '3.201', 'grad_norm': '0.4925', 'learning_rate': '0.0002838', 'epoch': '0.5269'}
	{'loss': '3.196', 'grad_norm': '0.5137', 'learning_rate': '0.0002831', 'epoch': '0.5276'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.96it/s]
	{'loss': '3.197', 'grad_norm': '0.48', 'learning_rate': '0.0002825', 'epoch': '0.5282'}
	{'loss': '3.194', 'grad_norm': '0.5007', 'learning_rate': '0.0002819', 'epoch': '0.5289'}
	{'loss': '3.201', 'grad_norm': '0.4906', 'learning_rate': '0.0002812', 'epoch': '0.5295'}
	{'loss': '3.202', 'grad_norm': '0.4941', 'learning_rate': '0.0002806', 'epoch': '0.5302'}
	{'loss': '3.202', 'grad_norm': '0.5366', 'learning_rate': '0.00028', 'epoch': '0.5308'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.70it/s]
	{'loss': '3.202', 'grad_norm': '0.4959', 'learning_rate': '0.0002793', 'epoch': '0.5315'}
	{'loss': '3.196', 'grad_norm': '0.4736', 'learning_rate': '0.0002787', 'epoch': '0.5322'}
	{'loss': '3.202', 'grad_norm': '0.4696', 'learning_rate': '0.0002781', 'epoch': '0.5328'}
	{'loss': '3.197', 'grad_norm': '0.517', 'learning_rate': '0.0002775', 'epoch': '0.5335'}
	{'loss': '3.197', 'grad_norm': '0.5044', 'learning_rate': '0.0002768', 'epoch': '0.5341'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.56it/s]
	{'loss': '3.194', 'grad_norm': '0.4654', 'learning_rate': '0.0002762', 'epoch': '0.5348'}
	{'loss': '3.196', 'grad_norm': '0.5031', 'learning_rate': '0.0002756', 'epoch': '0.5354'}
	{'loss': '3.197', 'grad_norm': '0.4724', 'learning_rate': '0.000275', 'epoch': '0.5361'}
	{'loss': '3.194', 'grad_norm': '0.5004', 'learning_rate': '0.0002743', 'epoch': '0.5367'}
	{'loss': '3.193', 'grad_norm': '0.5276', 'learning_rate': '0.0002737', 'epoch': '0.5374'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.06it/s]
	{'loss': '3.2', 'grad_norm': '0.4736', 'learning_rate': '0.0002731', 'epoch': '0.5381'}
	{'loss': '3.195', 'grad_norm': '0.4756', 'learning_rate': '0.0002724', 'epoch': '0.5387'}
	{'loss': '3.196', 'grad_norm': '0.4828', 'learning_rate': '0.0002718', 'epoch': '0.5394'}
	{'loss': '3.196', 'grad_norm': '0.5102', 'learning_rate': '0.0002712', 'epoch': '0.54'}
	{'loss': '3.195', 'grad_norm': '0.5154', 'learning_rate': '0.0002706', 'epoch': '0.5407'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.25it/s]
	{'loss': '3.194', 'grad_norm': '0.5212', 'learning_rate': '0.0002699', 'epoch': '0.5413'}
	{'loss': '3.194', 'grad_norm': '0.5162', 'learning_rate': '0.0002693', 'epoch': '0.542'}
	{'loss': '3.189', 'grad_norm': '0.4899', 'learning_rate': '0.0002687', 'epoch': '0.5426'}
	{'loss': '3.199', 'grad_norm': '0.5448', 'learning_rate': '0.000268', 'epoch': '0.5433'}
	{'loss': '3.194', 'grad_norm': '0.4566', 'learning_rate': '0.0002674', 'epoch': '0.5439'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.27it/s]
	{'loss': '3.191', 'grad_norm': '0.4878', 'learning_rate': '0.0002668', 'epoch': '0.5446'}
	{'loss': '3.191', 'grad_norm': '0.4991', 'learning_rate': '0.0002662', 'epoch': '0.5453'}
	{'loss': '3.196', 'grad_norm': '0.4875', 'learning_rate': '0.0002655', 'epoch': '0.5459'}
	{'loss': '3.188', 'grad_norm': '0.4875', 'learning_rate': '0.0002649', 'epoch': '0.5466'}
	{'loss': '3.194', 'grad_norm': '0.4746', 'learning_rate': '0.0002643', 'epoch': '0.5472'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.18it/s]
	{'loss': '3.19', 'grad_norm': '0.5066', 'learning_rate': '0.0002637', 'epoch': '0.5479'}
	{'loss': '3.193', 'grad_norm': '0.5393', 'learning_rate': '0.000263', 'epoch': '0.5485'}
	{'loss': '3.193', 'grad_norm': '0.4919', 'learning_rate': '0.0002624', 'epoch': '0.5492'}
	{'loss': '3.192', 'grad_norm': '0.493', 'learning_rate': '0.0002618', 'epoch': '0.5498'}
	{'loss': '3.194', 'grad_norm': '0.5546', 'learning_rate': '0.0002612', 'epoch': '0.5505'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 1.90it/s]
	{'loss': '3.191', 'grad_norm': '0.4898', 'learning_rate': '0.0002605', 'epoch': '0.5512'}
	{'loss': '3.193', 'grad_norm': '0.4823', 'learning_rate': '0.0002599', 'epoch': '0.5518'}
	{'loss': '3.2', 'grad_norm': '0.5015', 'learning_rate': '0.0002593', 'epoch': '0.5525'}
	{'loss': '3.184', 'grad_norm': '0.49', 'learning_rate': '0.0002587', 'epoch': '0.5531'}
	{'loss': '3.187', 'grad_norm': '0.4773', 'learning_rate': '0.000258', 'epoch': '0.5538'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.87it/s]
	{'loss': '3.194', 'grad_norm': '0.4765', 'learning_rate': '0.0002574', 'epoch': '0.5544'}
	{'loss': '3.191', 'grad_norm': '0.5152', 'learning_rate': '0.0002568', 'epoch': '0.5551'}
	{'loss': '3.192', 'grad_norm': '0.476', 'learning_rate': '0.0002562', 'epoch': '0.5557'}
	{'loss': '3.189', 'grad_norm': '0.5036', 'learning_rate': '0.0002555', 'epoch': '0.5564'}
	{'loss': '3.187', 'grad_norm': '0.5126', 'learning_rate': '0.0002549', 'epoch': '0.5571'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.69it/s]
	{'loss': '3.188', 'grad_norm': '0.476', 'learning_rate': '0.0002543', 'epoch': '0.5577'}
	{'loss': '3.194', 'grad_norm': '0.5298', 'learning_rate': '0.0002537', 'epoch': '0.5584'}
	{'loss': '3.192', 'grad_norm': '0.5278', 'learning_rate': '0.0002531', 'epoch': '0.559'}
	{'loss': '3.195', 'grad_norm': '0.502', 'learning_rate': '0.0002524', 'epoch': '0.5597'}
	{'loss': '3.191', 'grad_norm': '0.5166', 'learning_rate': '0.0002518', 'epoch': '0.5603'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.31it/s]
	{'loss': '3.191', 'grad_norm': '0.5105', 'learning_rate': '0.0002512', 'epoch': '0.561'}
	{'loss': '3.19', 'grad_norm': '0.4926', 'learning_rate': '0.0002506', 'epoch': '0.5616'}
	{'loss': '3.19', 'grad_norm': '0.5134', 'learning_rate': '0.0002499', 'epoch': '0.5623'}
	{'loss': '3.186', 'grad_norm': '0.4979', 'learning_rate': '0.0002493', 'epoch': '0.563'}
	{'loss': '3.191', 'grad_norm': '0.4789', 'learning_rate': '0.0002487', 'epoch': '0.5636'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.44it/s]
	{'loss': '3.189', 'grad_norm': '0.4892', 'learning_rate': '0.0002481', 'epoch': '0.5643'}
	{'loss': '3.184', 'grad_norm': '0.5408', 'learning_rate': '0.0002475', 'epoch': '0.5649'}
	{'loss': '3.191', 'grad_norm': '0.5111', 'learning_rate': '0.0002468', 'epoch': '0.5656'}
	{'loss': '3.185', 'grad_norm': '0.5074', 'learning_rate': '0.0002462', 'epoch': '0.5662'}
	{'loss': '3.186', 'grad_norm': '0.508', 'learning_rate': '0.0002456', 'epoch': '0.5669'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.04it/s]
	{'loss': '3.182', 'grad_norm': '0.4808', 'learning_rate': '0.000245', 'epoch': '0.5675'}
	{'loss': '3.186', 'grad_norm': '0.5043', 'learning_rate': '0.0002444', 'epoch': '0.5682'}
	{'loss': '3.186', 'grad_norm': '0.5155', 'learning_rate': '0.0002437', 'epoch': '0.5689'}
	{'loss': '3.18', 'grad_norm': '0.5322', 'learning_rate': '0.0002431', 'epoch': '0.5695'}
	{'loss': '3.181', 'grad_norm': '0.5248', 'learning_rate': '0.0002425', 'epoch': '0.5702'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.53it/s]
	{'loss': '3.183', 'grad_norm': '0.4909', 'learning_rate': '0.0002419', 'epoch': '0.5708'}
	{'loss': '3.182', 'grad_norm': '0.49', 'learning_rate': '0.0002413', 'epoch': '0.5715'}
	{'loss': '3.182', 'grad_norm': '0.5144', 'learning_rate': '0.0002407', 'epoch': '0.5721'}
	{'loss': '3.19', 'grad_norm': '0.4774', 'learning_rate': '0.00024', 'epoch': '0.5728'}
	{'loss': '3.182', 'grad_norm': '0.5148', 'learning_rate': '0.0002394', 'epoch': '0.5734'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.58it/s]
	{'loss': '3.186', 'grad_norm': '0.5123', 'learning_rate': '0.0002388', 'epoch': '0.5741'}
	{'loss': '3.183', 'grad_norm': '0.4903', 'learning_rate': '0.0002382', 'epoch': '0.5748'}
	{'loss': '3.184', 'grad_norm': '0.5072', 'learning_rate': '0.0002376', 'epoch': '0.5754'}
	{'loss': '3.187', 'grad_norm': '0.475', 'learning_rate': '0.0002369', 'epoch': '0.5761'}
	{'loss': '3.183', 'grad_norm': '0.5192', 'learning_rate': '0.0002363', 'epoch': '0.5767'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.63it/s]
	{'loss': '3.183', 'grad_norm': '0.5417', 'learning_rate': '0.0002357', 'epoch': '0.5774'}
	{'loss': '3.187', 'grad_norm': '0.5046', 'learning_rate': '0.0002351', 'epoch': '0.578'}
	{'loss': '3.182', 'grad_norm': '0.512', 'learning_rate': '0.0002345', 'epoch': '0.5787'}
	{'loss': '3.182', 'grad_norm': '0.5204', 'learning_rate': '0.0002339', 'epoch': '0.5793'}
	{'loss': '3.18', 'grad_norm': '0.5054', 'learning_rate': '0.0002333', 'epoch': '0.58'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.64it/s]
	{'loss': '3.185', 'grad_norm': '0.4974', 'learning_rate': '0.0002326', 'epoch': '0.5806'}
	{'loss': '3.182', 'grad_norm': '0.5186', 'learning_rate': '0.000232', 'epoch': '0.5813'}
	{'loss': '3.176', 'grad_norm': '0.4747', 'learning_rate': '0.0002314', 'epoch': '0.582'}
	{'loss': '3.179', 'grad_norm': '0.517', 'learning_rate': '0.0002308', 'epoch': '0.5826'}
	{'loss': '3.178', 'grad_norm': '0.5182', 'learning_rate': '0.0002302', 'epoch': '0.5833'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.11it/s]
	{'loss': '3.173', 'grad_norm': '0.5144', 'learning_rate': '0.0002296', 'epoch': '0.5839'}
	{'loss': '3.178', 'grad_norm': '0.5407', 'learning_rate': '0.000229', 'epoch': '0.5846'}
	{'loss': '3.179', 'grad_norm': '0.504', 'learning_rate': '0.0002284', 'epoch': '0.5852'}
	{'loss': '3.181', 'grad_norm': '0.5402', 'learning_rate': '0.0002277', 'epoch': '0.5859'}
	{'loss': '3.182', 'grad_norm': '0.5216', 'learning_rate': '0.0002271', 'epoch': '0.5865'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.21it/s]
	{'loss': '3.174', 'grad_norm': '0.4905', 'learning_rate': '0.0002265', 'epoch': '0.5872'}
	{'loss': '3.178', 'grad_norm': '0.5149', 'learning_rate': '0.0002259', 'epoch': '0.5879'}
	{'loss': '3.179', 'grad_norm': '0.5395', 'learning_rate': '0.0002253', 'epoch': '0.5885'}
	{'loss': '3.179', 'grad_norm': '0.5102', 'learning_rate': '0.0002247', 'epoch': '0.5892'}
	{'loss': '3.179', 'grad_norm': '0.5097', 'learning_rate': '0.0002241', 'epoch': '0.5898'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.08it/s]
	{'loss': '3.18', 'grad_norm': '0.5185', 'learning_rate': '0.0002235', 'epoch': '0.5905'}
	{'loss': '3.173', 'grad_norm': '0.5301', 'learning_rate': '0.0002229', 'epoch': '0.5911'}
	{'loss': '3.18', 'grad_norm': '0.5129', 'learning_rate': '0.0002222', 'epoch': '0.5918'}
	{'loss': '3.173', 'grad_norm': '0.4803', 'learning_rate': '0.0002216', 'epoch': '0.5924'}
	{'loss': '3.173', 'grad_norm': '0.5046', 'learning_rate': '0.000221', 'epoch': '0.5931'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.36it/s]
	{'loss': '3.174', 'grad_norm': '0.525', 'learning_rate': '0.0002204', 'epoch': '0.5938'}
	{'loss': '3.178', 'grad_norm': '0.539', 'learning_rate': '0.0002198', 'epoch': '0.5944'}
	{'loss': '3.167', 'grad_norm': '0.5354', 'learning_rate': '0.0002192', 'epoch': '0.5951'}
	{'loss': '3.181', 'grad_norm': '0.5387', 'learning_rate': '0.0002186', 'epoch': '0.5957'}
	{'loss': '3.176', 'grad_norm': '0.5296', 'learning_rate': '0.000218', 'epoch': '0.5964'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.48it/s]
	{'loss': '3.178', 'grad_norm': '0.5171', 'learning_rate': '0.0002174', 'epoch': '0.597'}
	{'loss': '3.176', 'grad_norm': '0.5112', 'learning_rate': '0.0002168', 'epoch': '0.5977'}
	{'loss': '3.179', 'grad_norm': '0.5747', 'learning_rate': '0.0002162', 'epoch': '0.5983'}
	{'loss': '3.17', 'grad_norm': '0.5282', 'learning_rate': '0.0002156', 'epoch': '0.599'}
	{'loss': '3.176', 'grad_norm': '0.5876', 'learning_rate': '0.000215', 'epoch': '0.5997'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.66it/s]
	{'loss': '3.171', 'grad_norm': '0.5339', 'learning_rate': '0.0002144', 'epoch': '0.6003'}
	{'loss': '3.174', 'grad_norm': '0.5226', 'learning_rate': '0.0002138', 'epoch': '0.601'}
	{'loss': '3.174', 'grad_norm': '0.5338', 'learning_rate': '0.0002132', 'epoch': '0.6016'}
	{'loss': '3.173', 'grad_norm': '0.5094', 'learning_rate': '0.0002126', 'epoch': '0.6023'}
	{'loss': '3.176', 'grad_norm': '0.5306', 'learning_rate': '0.000212', 'epoch': '0.6029'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.95it/s]
	{'loss': '3.175', 'grad_norm': '0.5294', 'learning_rate': '0.0002113', 'epoch': '0.6036'}
	{'loss': '3.173', 'grad_norm': '0.5798', 'learning_rate': '0.0002107', 'epoch': '0.6042'}
	{'loss': '3.175', 'grad_norm': '0.5204', 'learning_rate': '0.0002101', 'epoch': '0.6049'}
	{'loss': '3.172', 'grad_norm': '1.071', 'learning_rate': '0.0002095', 'epoch': '0.6056'}
	{'loss': '3.173', 'grad_norm': '0.5092', 'learning_rate': '0.0002089', 'epoch': '0.6062'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.48it/s]
	{'loss': '3.168', 'grad_norm': '0.5041', 'learning_rate': '0.0002083', 'epoch': '0.6069'}
	{'loss': '3.169', 'grad_norm': '0.504', 'learning_rate': '0.0002077', 'epoch': '0.6075'}
	{'loss': '3.17', 'grad_norm': '0.4974', 'learning_rate': '0.0002071', 'epoch': '0.6082'}
	{'loss': '3.177', 'grad_norm': '0.5456', 'learning_rate': '0.0002065', 'epoch': '0.6088'}
	{'loss': '3.17', 'grad_norm': '0.5426', 'learning_rate': '0.0002059', 'epoch': '0.6095'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.67it/s]
	{'loss': '3.164', 'grad_norm': '0.5177', 'learning_rate': '0.0002053', 'epoch': '0.6101'}
	{'loss': '3.173', 'grad_norm': '0.5066', 'learning_rate': '0.0002047', 'epoch': '0.6108'}
	{'loss': '3.163', 'grad_norm': '0.5179', 'learning_rate': '0.0002042', 'epoch': '0.6115'}
	{'loss': '3.173', 'grad_norm': '0.5473', 'learning_rate': '0.0002036', 'epoch': '0.6121'}
	{'loss': '3.168', 'grad_norm': '0.5406', 'learning_rate': '0.000203', 'epoch': '0.6128'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.45it/s]
	{'loss': '3.174', 'grad_norm': '0.5623', 'learning_rate': '0.0002024', 'epoch': '0.6134'}
	{'loss': '3.176', 'grad_norm': '0.5514', 'learning_rate': '0.0002018', 'epoch': '0.6141'}
	{'loss': '3.17', 'grad_norm': '0.508', 'learning_rate': '0.0002012', 'epoch': '0.6147'}
	{'loss': '3.169', 'grad_norm': '0.5315', 'learning_rate': '0.0002006', 'epoch': '0.6154'}
	{'loss': '3.17', 'grad_norm': '0.5205', 'learning_rate': '0.0002', 'epoch': '0.616'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.73it/s]
	{'loss': '3.167', 'grad_norm': '0.5443', 'learning_rate': '0.0001994', 'epoch': '0.6167'}
	{'loss': '3.17', 'grad_norm': '0.5174', 'learning_rate': '0.0001988', 'epoch': '0.6173'}
	{'loss': '3.17', 'grad_norm': '0.5217', 'learning_rate': '0.0001982', 'epoch': '0.618'}
	{'loss': '3.168', 'grad_norm': '0.5222', 'learning_rate': '0.0001976', 'epoch': '0.6187'}
	{'loss': '3.17', 'grad_norm': '0.5357', 'learning_rate': '0.000197', 'epoch': '0.6193'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.18it/s]
	{'loss': '3.159', 'grad_norm': '0.5494', 'learning_rate': '0.0001964', 'epoch': '0.62'}
	{'loss': '3.166', 'grad_norm': '0.5646', 'learning_rate': '0.0001958', 'epoch': '0.6206'}
	{'loss': '3.173', 'grad_norm': '0.5311', 'learning_rate': '0.0001952', 'epoch': '0.6213'}
	{'loss': '3.163', 'grad_norm': '0.5358', 'learning_rate': '0.0001947', 'epoch': '0.6219'}
	{'loss': '3.168', 'grad_norm': '0.5401', 'learning_rate': '0.0001941', 'epoch': '0.6226'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.14it/s]
	{'loss': '3.169', 'grad_norm': '0.5432', 'learning_rate': '0.0001935', 'epoch': '0.6232'}
	{'loss': '3.17', 'grad_norm': '0.5396', 'learning_rate': '0.0001929', 'epoch': '0.6239'}
	{'loss': '3.162', 'grad_norm': '0.5662', 'learning_rate': '0.0001923', 'epoch': '0.6246'}
	{'loss': '3.163', 'grad_norm': '0.5535', 'learning_rate': '0.0001917', 'epoch': '0.6252'}
	{'loss': '3.166', 'grad_norm': '0.5391', 'learning_rate': '0.0001911', 'epoch': '0.6259'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.23it/s]
	{'loss': '3.166', 'grad_norm': '0.5118', 'learning_rate': '0.0001905', 'epoch': '0.6265'}
	{'loss': '3.163', 'grad_norm': '0.5524', 'learning_rate': '0.0001899', 'epoch': '0.6272'}
	{'loss': '3.163', 'grad_norm': '0.5239', 'learning_rate': '0.0001894', 'epoch': '0.6278'}
	{'loss': '3.166', 'grad_norm': '0.5643', 'learning_rate': '0.0001888', 'epoch': '0.6285'}
	{'loss': '3.168', 'grad_norm': '0.5382', 'learning_rate': '0.0001882', 'epoch': '0.6291'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.24it/s]
	{'loss': '3.162', 'grad_norm': '0.5235', 'learning_rate': '0.0001876', 'epoch': '0.6298'}
	{'loss': '3.163', 'grad_norm': '0.5406', 'learning_rate': '0.000187', 'epoch': '0.6305'}
	{'loss': '3.163', 'grad_norm': '0.5208', 'learning_rate': '0.0001864', 'epoch': '0.6311'}
	{'loss': '3.163', 'grad_norm': '0.5627', 'learning_rate': '0.0001859', 'epoch': '0.6318'}
	{'loss': '3.167', 'grad_norm': '0.5496', 'learning_rate': '0.0001853', 'epoch': '0.6324'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.25it/s]
	{'loss': '3.159', 'grad_norm': '0.5695', 'learning_rate': '0.0001847', 'epoch': '0.6331'}
	{'loss': '3.165', 'grad_norm': '0.543', 'learning_rate': '0.0001841', 'epoch': '0.6337'}
	{'loss': '3.168', 'grad_norm': '0.5322', 'learning_rate': '0.0001835', 'epoch': '0.6344'}
	{'loss': '3.164', 'grad_norm': '0.5374', 'learning_rate': '0.0001829', 'epoch': '0.635'}
	{'loss': '3.162', 'grad_norm': '0.5852', 'learning_rate': '0.0001824', 'epoch': '0.6357'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.02it/s]
	{'loss': '3.166', 'grad_norm': '0.5389', 'learning_rate': '0.0001818', 'epoch': '0.6364'}
	{'loss': '3.163', 'grad_norm': '0.5538', 'learning_rate': '0.0001812', 'epoch': '0.637'}
	{'loss': '3.16', 'grad_norm': '0.5125', 'learning_rate': '0.0001806', 'epoch': '0.6377'}
	{'loss': '3.164', 'grad_norm': '0.5276', 'learning_rate': '0.0001801', 'epoch': '0.6383'}
	{'loss': '3.161', 'grad_norm': '0.5108', 'learning_rate': '0.0001795', 'epoch': '0.639'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.64it/s]
	{'loss': '3.159', 'grad_norm': '0.56', 'learning_rate': '0.0001789', 'epoch': '0.6396'}
	{'loss': '3.16', 'grad_norm': '0.521', 'learning_rate': '0.0001783', 'epoch': '0.6403'}
	{'loss': '3.165', 'grad_norm': '0.5607', 'learning_rate': '0.0001777', 'epoch': '0.6409'}
	{'loss': '3.16', 'grad_norm': '0.5172', 'learning_rate': '0.0001772', 'epoch': '0.6416'}
	{'loss': '3.159', 'grad_norm': '0.549', 'learning_rate': '0.0001766', 'epoch': '0.6423'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.81it/s]
	{'loss': '3.166', 'grad_norm': '0.5457', 'learning_rate': '0.000176', 'epoch': '0.6429'}
	{'loss': '3.165', 'grad_norm': '0.5586', 'learning_rate': '0.0001754', 'epoch': '0.6436'}
	{'loss': '3.155', 'grad_norm': '0.5298', 'learning_rate': '0.0001749', 'epoch': '0.6442'}
	{'loss': '3.157', 'grad_norm': '0.5386', 'learning_rate': '0.0001743', 'epoch': '0.6449'}
	{'loss': '3.16', 'grad_norm': '0.5544', 'learning_rate': '0.0001737', 'epoch': '0.6455'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.89it/s]
	{'loss': '3.156', 'grad_norm': '0.5515', 'learning_rate': '0.0001732', 'epoch': '0.6462'}
	{'loss': '3.161', 'grad_norm': '0.5372', 'learning_rate': '0.0001726', 'epoch': '0.6468'}
	{'loss': '3.152', 'grad_norm': '0.558', 'learning_rate': '0.000172', 'epoch': '0.6475'}
	{'loss': '3.151', 'grad_norm': '0.5763', 'learning_rate': '0.0001714', 'epoch': '0.6482'}
	{'loss': '3.155', 'grad_norm': '0.5592', 'learning_rate': '0.0001709', 'epoch': '0.6488'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.64it/s]
	{'loss': '3.157', 'grad_norm': '0.5608', 'learning_rate': '0.0001703', 'epoch': '0.6495'}
	{'loss': '3.153', 'grad_norm': '0.5551', 'learning_rate': '0.0001697', 'epoch': '0.6501'}
	{'loss': '3.156', 'grad_norm': '0.5657', 'learning_rate': '0.0001692', 'epoch': '0.6508'}
	{'loss': '3.156', 'grad_norm': '0.5577', 'learning_rate': '0.0001686', 'epoch': '0.6514'}
	{'loss': '3.15', 'grad_norm': '0.602', 'learning_rate': '0.000168', 'epoch': '0.6521'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.68it/s]
	{'loss': '3.157', 'grad_norm': '0.5451', 'learning_rate': '0.0001675', 'epoch': '0.6527'}
	{'loss': '3.153', 'grad_norm': '0.6076', 'learning_rate': '0.0001669', 'epoch': '0.6534'}
	{'loss': '3.156', 'grad_norm': '0.5373', 'learning_rate': '0.0001663', 'epoch': '0.654'}
	{'loss': '3.153', 'grad_norm': '0.5865', 'learning_rate': '0.0001658', 'epoch': '0.6547'}
	{'loss': '3.151', 'grad_norm': '0.5465', 'learning_rate': '0.0001652', 'epoch': '0.6554'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.42it/s]
	{'loss': '3.153', 'grad_norm': '0.5427', 'learning_rate': '0.0001647', 'epoch': '0.656'}
	{'loss': '3.156', 'grad_norm': '0.6229', 'learning_rate': '0.0001641', 'epoch': '0.6567'}
	{'loss': '3.155', 'grad_norm': '0.6797', 'learning_rate': '0.0001635', 'epoch': '0.6573'}
	{'loss': '3.151', 'grad_norm': '0.5807', 'learning_rate': '0.000163', 'epoch': '0.658'}
	{'loss': '3.151', 'grad_norm': '0.5284', 'learning_rate': '0.0001624', 'epoch': '0.6586'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.82it/s]
	{'loss': '3.153', 'grad_norm': '0.5532', 'learning_rate': '0.0001618', 'epoch': '0.6593'}
	{'loss': '3.15', 'grad_norm': '0.6013', 'learning_rate': '0.0001613', 'epoch': '0.6599'}
	{'loss': '3.154', 'grad_norm': '0.5649', 'learning_rate': '0.0001607', 'epoch': '0.6606'}
	{'loss': '3.147', 'grad_norm': '0.5472', 'learning_rate': '0.0001602', 'epoch': '0.6613'}
	{'loss': '3.154', 'grad_norm': '0.5299', 'learning_rate': '0.0001596', 'epoch': '0.6619'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.78it/s]
	{'loss': '3.155', 'grad_norm': '0.5921', 'learning_rate': '0.0001591', 'epoch': '0.6626'}
	{'loss': '3.15', 'grad_norm': '0.6007', 'learning_rate': '0.0001585', 'epoch': '0.6632'}
	{'loss': '3.157', 'grad_norm': '0.5583', 'learning_rate': '0.0001579', 'epoch': '0.6639'}
	{'loss': '3.151', 'grad_norm': '0.5939', 'learning_rate': '0.0001574', 'epoch': '0.6645'}
	{'loss': '3.149', 'grad_norm': '1.452', 'learning_rate': '0.0001568', 'epoch': '0.6652'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.61it/s]
	{'loss': '3.155', 'grad_norm': '0.5665', 'learning_rate': '0.0001563', 'epoch': '0.6658'}
	{'loss': '3.154', 'grad_norm': '0.5714', 'learning_rate': '0.0001557', 'epoch': '0.6665'}
	{'loss': '3.147', 'grad_norm': '0.5902', 'learning_rate': '0.0001552', 'epoch': '0.6672'}
	{'loss': '3.149', 'grad_norm': '0.6296', 'learning_rate': '0.0001546', 'epoch': '0.6678'}
	{'loss': '3.15', 'grad_norm': '0.5713', 'learning_rate': '0.0001541', 'epoch': '0.6685'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.70it/s]
	{'loss': '3.15', 'grad_norm': '0.5553', 'learning_rate': '0.0001535', 'epoch': '0.6691'}
	{'loss': '3.157', 'grad_norm': '0.5912', 'learning_rate': '0.000153', 'epoch': '0.6698'}
	{'loss': '3.149', 'grad_norm': '0.5765', 'learning_rate': '0.0001524', 'epoch': '0.6704'}
	{'loss': '3.152', 'grad_norm': '0.5983', 'learning_rate': '0.0001519', 'epoch': '0.6711'}
	{'loss': '3.148', 'grad_norm': '0.5928', 'learning_rate': '0.0001513', 'epoch': '0.6717'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.53it/s]
	{'loss': '3.144', 'grad_norm': '0.5669', 'learning_rate': '0.0001508', 'epoch': '0.6724'}
	{'loss': '3.148', 'grad_norm': '0.5714', 'learning_rate': '0.0001502', 'epoch': '0.6731'}
	{'loss': '3.152', 'grad_norm': '0.5747', 'learning_rate': '0.0001497', 'epoch': '0.6737'}
	{'loss': '3.148', 'grad_norm': '0.5512', 'learning_rate': '0.0001491', 'epoch': '0.6744'}
	{'loss': '3.149', 'grad_norm': '0.5569', 'learning_rate': '0.0001486', 'epoch': '0.675'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.23it/s]
	{'loss': '3.143', 'grad_norm': '0.5966', 'learning_rate': '0.0001481', 'epoch': '0.6757'}
	{'loss': '3.144', 'grad_norm': '0.5712', 'learning_rate': '0.0001475', 'epoch': '0.6763'}
	{'loss': '3.146', 'grad_norm': '0.5782', 'learning_rate': '0.000147', 'epoch': '0.677'}
	{'loss': '3.146', 'grad_norm': '0.5699', 'learning_rate': '0.0001464', 'epoch': '0.6776'}
	{'loss': '3.147', 'grad_norm': '0.5496', 'learning_rate': '0.0001459', 'epoch': '0.6783'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.75it/s]
	{'loss': '3.145', 'grad_norm': '0.5719', 'learning_rate': '0.0001454', 'epoch': '0.679'}
	{'loss': '3.141', 'grad_norm': '0.607', 'learning_rate': '0.0001448', 'epoch': '0.6796'}
	{'loss': '3.146', 'grad_norm': '0.5804', 'learning_rate': '0.0001443', 'epoch': '0.6803'}
	{'loss': '3.143', 'grad_norm': '0.5717', 'learning_rate': '0.0001437', 'epoch': '0.6809'}
	{'loss': '3.15', 'grad_norm': '0.5833', 'learning_rate': '0.0001432', 'epoch': '0.6816'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.20it/s]
	{'loss': '3.147', 'grad_norm': '0.5545', 'learning_rate': '0.0001427', 'epoch': '0.6822'}
	{'loss': '3.147', 'grad_norm': '0.5901', 'learning_rate': '0.0001421', 'epoch': '0.6829'}
	{'loss': '3.141', 'grad_norm': '0.5919', 'learning_rate': '0.0001416', 'epoch': '0.6835'}
	{'loss': '3.144', 'grad_norm': '0.5657', 'learning_rate': '0.0001411', 'epoch': '0.6842'}
	{'loss': '3.141', 'grad_norm': '0.5798', 'learning_rate': '0.0001405', 'epoch': '0.6849'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.79it/s]
	{'loss': '3.143', 'grad_norm': '0.571', 'learning_rate': '0.00014', 'epoch': '0.6855'}
	{'loss': '3.141', 'grad_norm': '0.5803', 'learning_rate': '0.0001395', 'epoch': '0.6862'}
	{'loss': '3.147', 'grad_norm': '0.5813', 'learning_rate': '0.0001389', 'epoch': '0.6868'}
	{'loss': '3.142', 'grad_norm': '0.5874', 'learning_rate': '0.0001384', 'epoch': '0.6875'}
	{'loss': '3.142', 'grad_norm': '0.6025', 'learning_rate': '0.0001379', 'epoch': '0.6881'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.43it/s]
	{'loss': '3.143', 'grad_norm': '0.6342', 'learning_rate': '0.0001373', 'epoch': '0.6888'}
	{'loss': '3.14', 'grad_norm': '0.5826', 'learning_rate': '0.0001368', 'epoch': '0.6894'}
	{'loss': '3.144', 'grad_norm': '0.6076', 'learning_rate': '0.0001363', 'epoch': '0.6901'}
	{'loss': '3.146', 'grad_norm': '0.55', 'learning_rate': '0.0001357', 'epoch': '0.6907'}
	{'loss': '3.14', 'grad_norm': '0.6183', 'learning_rate': '0.0001352', 'epoch': '0.6914'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.67it/s]
	{'loss': '3.141', 'grad_norm': '0.568', 'learning_rate': '0.0001347', 'epoch': '0.6921'}
	{'loss': '3.141', 'grad_norm': '0.5741', 'learning_rate': '0.0001342', 'epoch': '0.6927'}
	{'loss': '3.143', 'grad_norm': '0.5948', 'learning_rate': '0.0001336', 'epoch': '0.6934'}
	{'loss': '3.149', 'grad_norm': '0.5456', 'learning_rate': '0.0001331', 'epoch': '0.694'}
	{'loss': '3.138', 'grad_norm': '0.5717', 'learning_rate': '0.0001326', 'epoch': '0.6947'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.28it/s]
	{'loss': '3.138', 'grad_norm': '0.5628', 'learning_rate': '0.0001321', 'epoch': '0.6953'}
	{'loss': '3.14', 'grad_norm': '0.5818', 'learning_rate': '0.0001315', 'epoch': '0.696'}
	{'loss': '3.139', 'grad_norm': '0.583', 'learning_rate': '0.000131', 'epoch': '0.6966'}
	{'loss': '3.139', 'grad_norm': '0.5855', 'learning_rate': '0.0001305', 'epoch': '0.6973'}
	{'loss': '3.139', 'grad_norm': '0.5954', 'learning_rate': '0.00013', 'epoch': '0.698'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.36it/s]
	{'loss': '3.138', 'grad_norm': '0.5906', 'learning_rate': '0.0001295', 'epoch': '0.6986'}
	{'loss': '3.138', 'grad_norm': '0.5608', 'learning_rate': '0.0001289', 'epoch': '0.6993'}
	{'loss': '3.139', 'grad_norm': '0.5546', 'learning_rate': '0.0001284', 'epoch': '0.6999'}
	{'loss': '3.136', 'grad_norm': '0.601', 'learning_rate': '0.0001279', 'epoch': '0.7006'}
	{'loss': '3.131', 'grad_norm': '0.5743', 'learning_rate': '0.0001274', 'epoch': '0.7012'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.17it/s]
	{'loss': '3.139', 'grad_norm': '0.5747', 'learning_rate': '0.0001269', 'epoch': '0.7019'}
	{'loss': '3.135', 'grad_norm': '0.5832', 'learning_rate': '0.0001264', 'epoch': '0.7025'}
	{'loss': '3.138', 'grad_norm': '0.574', 'learning_rate': '0.0001259', 'epoch': '0.7032'}
	{'loss': '3.132', 'grad_norm': '0.5809', 'learning_rate': '0.0001253', 'epoch': '0.7039'}
	{'loss': '3.14', 'grad_norm': '0.5787', 'learning_rate': '0.0001248', 'epoch': '0.7045'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.54it/s]
	{'loss': '3.138', 'grad_norm': '0.622', 'learning_rate': '0.0001243', 'epoch': '0.7052'}
	{'loss': '3.136', 'grad_norm': '0.5596', 'learning_rate': '0.0001238', 'epoch': '0.7058'}
	{'loss': '3.135', 'grad_norm': '0.5907', 'learning_rate': '0.0001233', 'epoch': '0.7065'}
	{'loss': '3.136', 'grad_norm': '0.5579', 'learning_rate': '0.0001228', 'epoch': '0.7071'}
	{'loss': '3.136', 'grad_norm': '0.5956', 'learning_rate': '0.0001223', 'epoch': '0.7078'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.17it/s]
	{'loss': '3.135', 'grad_norm': '0.5904', 'learning_rate': '0.0001218', 'epoch': '0.7084'}
	{'loss': '3.14', 'grad_norm': '0.5702', 'learning_rate': '0.0001213', 'epoch': '0.7091'}
	{'loss': '3.132', 'grad_norm': '0.5849', 'learning_rate': '0.0001208', 'epoch': '0.7098'}
	{'loss': '3.132', 'grad_norm': '0.5682', 'learning_rate': '0.0001203', 'epoch': '0.7104'}
	{'loss': '3.134', 'grad_norm': '0.582', 'learning_rate': '0.0001198', 'epoch': '0.7111'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.39it/s]
	{'loss': '3.135', 'grad_norm': '0.5797', 'learning_rate': '0.0001192', 'epoch': '0.7117'}
	{'loss': '3.139', 'grad_norm': '0.6054', 'learning_rate': '0.0001187', 'epoch': '0.7124'}
	{'loss': '3.133', 'grad_norm': '0.5864', 'learning_rate': '0.0001182', 'epoch': '0.713'}
	{'loss': '3.131', 'grad_norm': '0.5758', 'learning_rate': '0.0001177', 'epoch': '0.7137'}
	{'loss': '3.136', 'grad_norm': '0.6006', 'learning_rate': '0.0001172', 'epoch': '0.7143'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.64it/s]
	{'loss': '3.134', 'grad_norm': '0.5658', 'learning_rate': '0.0001167', 'epoch': '0.715'}
	{'loss': '3.132', 'grad_norm': '0.5958', 'learning_rate': '0.0001162', 'epoch': '0.7157'}
	{'loss': '3.13', 'grad_norm': '0.5866', 'learning_rate': '0.0001157', 'epoch': '0.7163'}
	{'loss': '3.13', 'grad_norm': '0.5767', 'learning_rate': '0.0001153', 'epoch': '0.717'}
	{'loss': '3.122', 'grad_norm': '0.6066', 'learning_rate': '0.0001148', 'epoch': '0.7176'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.29it/s]
	{'loss': '3.131', 'grad_norm': '0.5783', 'learning_rate': '0.0001143', 'epoch': '0.7183'}
	{'loss': '3.135', 'grad_norm': '0.6035', 'learning_rate': '0.0001138', 'epoch': '0.7189'}
	{'loss': '3.126', 'grad_norm': '0.6012', 'learning_rate': '0.0001133', 'epoch': '0.7196'}
	{'loss': '3.129', 'grad_norm': '0.6369', 'learning_rate': '0.0001128', 'epoch': '0.7202'}
	{'loss': '3.125', 'grad_norm': '0.6026', 'learning_rate': '0.0001123', 'epoch': '0.7209'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.27it/s]
	{'loss': '3.132', 'grad_norm': '0.5961', 'learning_rate': '0.0001118', 'epoch': '0.7216'}
	{'loss': '3.127', 'grad_norm': '0.601', 'learning_rate': '0.0001113', 'epoch': '0.7222'}
	{'loss': '3.122', 'grad_norm': '0.5667', 'learning_rate': '0.0001108', 'epoch': '0.7229'}
	{'loss': '3.124', 'grad_norm': '0.6108', 'learning_rate': '0.0001103', 'epoch': '0.7235'}
	{'loss': '3.124', 'grad_norm': '0.5747', 'learning_rate': '0.0001098', 'epoch': '0.7242'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.27it/s]
	{'loss': '3.131', 'grad_norm': '0.5828', 'learning_rate': '0.0001094', 'epoch': '0.7248'}
	{'loss': '3.123', 'grad_norm': '0.664', 'learning_rate': '0.0001089', 'epoch': '0.7255'}
	{'loss': '3.123', 'grad_norm': '0.5727', 'learning_rate': '0.0001084', 'epoch': '0.7261'}
	{'loss': '3.12', 'grad_norm': '0.5916', 'learning_rate': '0.0001079', 'epoch': '0.7268'}
	{'loss': '3.134', 'grad_norm': '0.5927', 'learning_rate': '0.0001074', 'epoch': '0.7274'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.32it/s]
	{'loss': '3.129', 'grad_norm': '0.5993', 'learning_rate': '0.0001069', 'epoch': '0.7281'}
	{'loss': '3.127', 'grad_norm': '0.6461', 'learning_rate': '0.0001064', 'epoch': '0.7288'}
	{'loss': '3.126', 'grad_norm': '0.628', 'learning_rate': '0.000106', 'epoch': '0.7294'}
	{'loss': '3.131', 'grad_norm': '0.5937', 'learning_rate': '0.0001055', 'epoch': '0.7301'}
	{'loss': '3.125', 'grad_norm': '0.601', 'learning_rate': '0.000105', 'epoch': '0.7307'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.63it/s]
	{'loss': '3.128', 'grad_norm': '0.6029', 'learning_rate': '0.0001045', 'epoch': '0.7314'}
	{'loss': '3.123', 'grad_norm': '0.5728', 'learning_rate': '0.000104', 'epoch': '0.732'}
	{'loss': '3.12', 'grad_norm': '0.6318', 'learning_rate': '0.0001036', 'epoch': '0.7327'}
	{'loss': '3.125', 'grad_norm': '0.6638', 'learning_rate': '0.0001031', 'epoch': '0.7333'}
	{'loss': '3.127', 'grad_norm': '0.5983', 'learning_rate': '0.0001026', 'epoch': '0.734'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.68it/s]
	{'loss': '3.129', 'grad_norm': '0.5987', 'learning_rate': '0.0001021', 'epoch': '0.7347'}
	{'loss': '3.125', 'grad_norm': '0.6129', 'learning_rate': '0.0001017', 'epoch': '0.7353'}
	{'loss': '3.129', 'grad_norm': '0.6193', 'learning_rate': '0.0001012', 'epoch': '0.736'}
	{'loss': '3.123', 'grad_norm': '0.6388', 'learning_rate': '0.0001007', 'epoch': '0.7366'}
	{'loss': '3.124', 'grad_norm': '0.6258', 'learning_rate': '0.0001003', 'epoch': '0.7373'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.78it/s]
	{'loss': '3.123', 'grad_norm': '0.6015', 'learning_rate': '9.979e-05', 'epoch': '0.7379'}
	{'loss': '3.127', 'grad_norm': '0.6257', 'learning_rate': '9.932e-05', 'epoch': '0.7386'}
	{'loss': '3.125', 'grad_norm': '0.5986', 'learning_rate': '9.885e-05', 'epoch': '0.7392'}
	{'loss': '3.126', 'grad_norm': '0.5819', 'learning_rate': '9.839e-05', 'epoch': '0.7399'}
	{'loss': '3.12', 'grad_norm': '0.6157', 'learning_rate': '9.792e-05', 'epoch': '0.7406'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.04it/s]
	{'loss': '3.122', 'grad_norm': '0.5748', 'learning_rate': '9.745e-05', 'epoch': '0.7412'}
	{'loss': '3.125', 'grad_norm': '0.6364', 'learning_rate': '9.699e-05', 'epoch': '0.7419'}
	{'loss': '3.125', 'grad_norm': '0.6087', 'learning_rate': '9.653e-05', 'epoch': '0.7425'}
	{'loss': '3.121', 'grad_norm': '0.5976', 'learning_rate': '9.606e-05', 'epoch': '0.7432'}
	{'loss': '3.125', 'grad_norm': '0.5827', 'learning_rate': '9.56e-05', 'epoch': '0.7438'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.37it/s]
	{'loss': '3.126', 'grad_norm': '0.6309', 'learning_rate': '9.514e-05', 'epoch': '0.7445'}
	{'loss': '3.121', 'grad_norm': '0.6744', 'learning_rate': '9.468e-05', 'epoch': '0.7451'}
	{'loss': '3.124', 'grad_norm': '0.6307', 'learning_rate': '9.422e-05', 'epoch': '0.7458'}
	{'loss': '3.123', 'grad_norm': '0.6349', 'learning_rate': '9.376e-05', 'epoch': '0.7465'}
	{'loss': '3.12', 'grad_norm': '0.5944', 'learning_rate': '9.331e-05', 'epoch': '0.7471'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.95it/s]
	{'loss': '3.124', 'grad_norm': '0.5762', 'learning_rate': '9.285e-05', 'epoch': '0.7478'}
	{'loss': '3.122', 'grad_norm': '0.6068', 'learning_rate': '9.239e-05', 'epoch': '0.7484'}
	{'loss': '3.115', 'grad_norm': '0.6304', 'learning_rate': '9.194e-05', 'epoch': '0.7491'}
	{'loss': '3.117', 'grad_norm': '0.6145', 'learning_rate': '9.149e-05', 'epoch': '0.7497'}
	{'loss': '3.117', 'grad_norm': '0.6105', 'learning_rate': '9.103e-05', 'epoch': '0.7504'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.31it/s]
	{'loss': '3.117', 'grad_norm': '0.6165', 'learning_rate': '9.058e-05', 'epoch': '0.751'}
	{'loss': '3.118', 'grad_norm': '0.6108', 'learning_rate': '9.013e-05', 'epoch': '0.7517'}
	{'loss': '3.113', 'grad_norm': '0.6264', 'learning_rate': '8.968e-05', 'epoch': '0.7524'}
	{'loss': '3.118', 'grad_norm': '0.6408', 'learning_rate': '8.923e-05', 'epoch': '0.753'}
	{'loss': '3.121', 'grad_norm': '0.5837', 'learning_rate': '8.878e-05', 'epoch': '0.7537'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.39it/s]
	{'loss': '3.118', 'grad_norm': '0.6373', 'learning_rate': '8.834e-05', 'epoch': '0.7543'}
	{'loss': '3.117', 'grad_norm': '0.5999', 'learning_rate': '8.789e-05', 'epoch': '0.755'}
	{'loss': '3.121', 'grad_norm': '0.6219', 'learning_rate': '8.745e-05', 'epoch': '0.7556'}
	{'loss': '3.117', 'grad_norm': '0.6014', 'learning_rate': '8.7e-05', 'epoch': '0.7563'}
	{'loss': '3.113', 'grad_norm': '0.6236', 'learning_rate': '8.656e-05', 'epoch': '0.7569'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.94it/s]
	{'loss': '3.118', 'grad_norm': '0.6067', 'learning_rate': '8.611e-05', 'epoch': '0.7576'}
	{'loss': '3.115', 'grad_norm': '0.6211', 'learning_rate': '8.567e-05', 'epoch': '0.7583'}
	{'loss': '3.119', 'grad_norm': '0.642', 'learning_rate': '8.523e-05', 'epoch': '0.7589'}
	{'loss': '3.116', 'grad_norm': '0.619', 'learning_rate': '8.479e-05', 'epoch': '0.7596'}
	{'loss': '3.112', 'grad_norm': '0.62', 'learning_rate': '8.435e-05', 'epoch': '0.7602'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.99it/s]
	{'loss': '3.113', 'grad_norm': '0.6389', 'learning_rate': '8.392e-05', 'epoch': '0.7609'}
	{'loss': '3.113', 'grad_norm': '0.6062', 'learning_rate': '8.348e-05', 'epoch': '0.7615'}
	{'loss': '3.119', 'grad_norm': '0.613', 'learning_rate': '8.304e-05', 'epoch': '0.7622'}
	{'loss': '3.118', 'grad_norm': '0.6003', 'learning_rate': '8.261e-05', 'epoch': '0.7628'}
	{'loss': '3.116', 'grad_norm': '0.6023', 'learning_rate': '8.218e-05', 'epoch': '0.7635'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.55it/s]
	{'loss': '3.113', 'grad_norm': '0.6265', 'learning_rate': '8.174e-05', 'epoch': '0.7641'}
	{'loss': '3.116', 'grad_norm': '0.5955', 'learning_rate': '8.131e-05', 'epoch': '0.7648'}
	{'loss': '3.117', 'grad_norm': '0.6189', 'learning_rate': '8.088e-05', 'epoch': '0.7655'}
	{'loss': '3.115', 'grad_norm': '0.6251', 'learning_rate': '8.045e-05', 'epoch': '0.7661'}
	{'loss': '3.113', 'grad_norm': '0.652', 'learning_rate': '8.002e-05', 'epoch': '0.7668'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.07it/s]
	{'loss': '3.12', 'grad_norm': '0.6518', 'learning_rate': '7.959e-05', 'epoch': '0.7674'}
	{'loss': '3.112', 'grad_norm': '0.6251', 'learning_rate': '7.917e-05', 'epoch': '0.7681'}
	{'loss': '3.106', 'grad_norm': '0.6289', 'learning_rate': '7.874e-05', 'epoch': '0.7687'}
	{'loss': '3.118', 'grad_norm': '0.6065', 'learning_rate': '7.831e-05', 'epoch': '0.7694'}
	{'loss': '3.112', 'grad_norm': '0.6435', 'learning_rate': '7.789e-05', 'epoch': '0.77'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.12it/s]
	{'loss': '3.115', 'grad_norm': '0.626', 'learning_rate': '7.747e-05', 'epoch': '0.7707'}
	{'loss': '3.112', 'grad_norm': '0.614', 'learning_rate': '7.705e-05', 'epoch': '0.7714'}
	{'loss': '3.112', 'grad_norm': '0.618', 'learning_rate': '7.662e-05', 'epoch': '0.772'}
	{'loss': '3.112', 'grad_norm': '0.6314', 'learning_rate': '7.62e-05', 'epoch': '0.7727'}
	{'loss': '3.11', 'grad_norm': '0.6665', 'learning_rate': '7.578e-05', 'epoch': '0.7733'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.75it/s]
	{'loss': '3.108', 'grad_norm': '0.6265', 'learning_rate': '7.537e-05', 'epoch': '0.774'}
	{'loss': '3.112', 'grad_norm': '0.6313', 'learning_rate': '7.495e-05', 'epoch': '0.7746'}
	{'loss': '3.11', 'grad_norm': '0.6252', 'learning_rate': '7.453e-05', 'epoch': '0.7753'}
	{'loss': '3.11', 'grad_norm': '0.6468', 'learning_rate': '7.412e-05', 'epoch': '0.7759'}
	{'loss': '3.107', 'grad_norm': '0.6373', 'learning_rate': '7.37e-05', 'epoch': '0.7766'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.37it/s]
	{'loss': '3.11', 'grad_norm': '0.6131', 'learning_rate': '7.329e-05', 'epoch': '0.7773'}
	{'loss': '3.108', 'grad_norm': '0.6232', 'learning_rate': '7.288e-05', 'epoch': '0.7779'}
	{'loss': '3.111', 'grad_norm': '0.5948', 'learning_rate': '7.247e-05', 'epoch': '0.7786'}
	{'loss': '3.105', 'grad_norm': '0.613', 'learning_rate': '7.206e-05', 'epoch': '0.7792'}
	{'loss': '3.113', 'grad_norm': '0.6153', 'learning_rate': '7.165e-05', 'epoch': '0.7799'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.74it/s]
	{'loss': '3.107', 'grad_norm': '0.5967', 'learning_rate': '7.124e-05', 'epoch': '0.7805'}
	{'loss': '3.108', 'grad_norm': '0.6167', 'learning_rate': '7.083e-05', 'epoch': '0.7812'}
	{'loss': '3.108', 'grad_norm': '0.6449', 'learning_rate': '7.042e-05', 'epoch': '0.7818'}
	{'loss': '3.111', 'grad_norm': '0.6085', 'learning_rate': '7.002e-05', 'epoch': '0.7825'}
	{'loss': '3.108', 'grad_norm': '0.6634', 'learning_rate': '6.962e-05', 'epoch': '0.7832'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.46it/s]
	{'loss': '3.103', 'grad_norm': '0.6057', 'learning_rate': '6.921e-05', 'epoch': '0.7838'}
	{'loss': '3.108', 'grad_norm': '0.6245', 'learning_rate': '6.881e-05', 'epoch': '0.7845'}
	{'loss': '3.111', 'grad_norm': '0.6097', 'learning_rate': '6.841e-05', 'epoch': '0.7851'}
	{'loss': '3.106', 'grad_norm': '0.6323', 'learning_rate': '6.801e-05', 'epoch': '0.7858'}
	{'loss': '3.12', 'grad_norm': '0.6374', 'learning_rate': '6.761e-05', 'epoch': '0.7864'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.70it/s]
	{'loss': '3.104', 'grad_norm': '0.6175', 'learning_rate': '6.721e-05', 'epoch': '0.7871'}
	{'loss': '3.111', 'grad_norm': '0.6686', 'learning_rate': '6.681e-05', 'epoch': '0.7877'}
	{'loss': '3.109', 'grad_norm': '0.6653', 'learning_rate': '6.642e-05', 'epoch': '0.7884'}
	{'loss': '3.098', 'grad_norm': '0.6189', 'learning_rate': '6.602e-05', 'epoch': '0.7891'}
	{'loss': '3.105', 'grad_norm': '0.6326', 'learning_rate': '6.563e-05', 'epoch': '0.7897'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.19it/s]
	{'loss': '3.103', 'grad_norm': '0.6348', 'learning_rate': '6.524e-05', 'epoch': '0.7904'}
	{'loss': '3.113', 'grad_norm': '0.6418', 'learning_rate': '6.484e-05', 'epoch': '0.791'}
	{'loss': '3.102', 'grad_norm': '0.6452', 'learning_rate': '6.445e-05', 'epoch': '0.7917'}
	{'loss': '3.11', 'grad_norm': '0.5985', 'learning_rate': '6.406e-05', 'epoch': '0.7923'}
	{'loss': '3.109', 'grad_norm': '0.6277', 'learning_rate': '6.368e-05', 'epoch': '0.793'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.36it/s]
	{'loss': '3.107', 'grad_norm': '0.6696', 'learning_rate': '6.329e-05', 'epoch': '0.7936'}
	{'loss': '3.11', 'grad_norm': '0.6501', 'learning_rate': '6.29e-05', 'epoch': '0.7943'}
	{'loss': '3.108', 'grad_norm': '0.6391', 'learning_rate': '6.252e-05', 'epoch': '0.795'}
	{'loss': '3.101', 'grad_norm': '0.6252', 'learning_rate': '6.213e-05', 'epoch': '0.7956'}
	{'loss': '3.107', 'grad_norm': '0.6313', 'learning_rate': '6.175e-05', 'epoch': '0.7963'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.39it/s]
	{'loss': '3.1', 'grad_norm': '0.6392', 'learning_rate': '6.136e-05', 'epoch': '0.7969'}
	{'loss': '3.1', 'grad_norm': '0.6078', 'learning_rate': '6.098e-05', 'epoch': '0.7976'}
	{'loss': '3.101', 'grad_norm': '0.6698', 'learning_rate': '6.06e-05', 'epoch': '0.7982'}
	{'loss': '3.101', 'grad_norm': '0.6372', 'learning_rate': '6.022e-05', 'epoch': '0.7989'}
	{'loss': '3.108', 'grad_norm': '0.6285', 'learning_rate': '5.985e-05', 'epoch': '0.7995'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.45it/s]
	{'loss': '3.101', 'grad_norm': '0.6547', 'learning_rate': '5.947e-05', 'epoch': '0.8002'}
	{'loss': '3.102', 'grad_norm': '0.6253', 'learning_rate': '5.909e-05', 'epoch': '0.8008'}
	{'loss': '3.105', 'grad_norm': '0.6125', 'learning_rate': '5.872e-05', 'epoch': '0.8015'}
	{'loss': '3.099', 'grad_norm': '0.6552', 'learning_rate': '5.834e-05', 'epoch': '0.8022'}
	{'loss': '3.103', 'grad_norm': '0.6274', 'learning_rate': '5.797e-05', 'epoch': '0.8028'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.94it/s]
	{'loss': '3.103', 'grad_norm': '0.6341', 'learning_rate': '5.76e-05', 'epoch': '0.8035'}
	{'loss': '3.103', 'grad_norm': '0.6262', 'learning_rate': '5.723e-05', 'epoch': '0.8041'}
	{'loss': '3.108', 'grad_norm': '0.6374', 'learning_rate': '5.686e-05', 'epoch': '0.8048'}
	{'loss': '3.099', 'grad_norm': '0.65', 'learning_rate': '5.649e-05', 'epoch': '0.8054'}
	{'loss': '3.104', 'grad_norm': '0.6207', 'learning_rate': '5.612e-05', 'epoch': '0.8061'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.77it/s]
	{'loss': '3.098', 'grad_norm': '0.6371', 'learning_rate': '5.576e-05', 'epoch': '0.8067'}
	{'loss': '3.09', 'grad_norm': '0.6499', 'learning_rate': '5.539e-05', 'epoch': '0.8074'}
	{'loss': '3.096', 'grad_norm': '0.6082', 'learning_rate': '5.503e-05', 'epoch': '0.8081'}
	{'loss': '3.097', 'grad_norm': '0.6333', 'learning_rate': '5.466e-05', 'epoch': '0.8087'}
	{'loss': '3.101', 'grad_norm': '0.6255', 'learning_rate': '5.43e-05', 'epoch': '0.8094'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.59it/s]
	{'loss': '3.1', 'grad_norm': '0.6589', 'learning_rate': '5.394e-05', 'epoch': '0.81'}
	{'loss': '3.097', 'grad_norm': '0.6141', 'learning_rate': '5.358e-05', 'epoch': '0.8107'}
	{'loss': '3.094', 'grad_norm': '0.6351', 'learning_rate': '5.322e-05', 'epoch': '0.8113'}
	{'loss': '3.099', 'grad_norm': '0.633', 'learning_rate': '5.286e-05', 'epoch': '0.812'}
	{'loss': '3.098', 'grad_norm': '0.6227', 'learning_rate': '5.251e-05', 'epoch': '0.8126'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.37it/s]
	{'loss': '3.108', 'grad_norm': '0.6204', 'learning_rate': '5.215e-05', 'epoch': '0.8133'}
	{'loss': '3.093', 'grad_norm': '0.6097', 'learning_rate': '5.179e-05', 'epoch': '0.814'}
	{'loss': '3.095', 'grad_norm': '0.672', 'learning_rate': '5.144e-05', 'epoch': '0.8146'}
	{'loss': '3.097', 'grad_norm': '0.6189', 'learning_rate': '5.109e-05', 'epoch': '0.8153'}
	{'loss': '3.1', 'grad_norm': '0.6341', 'learning_rate': '5.074e-05', 'epoch': '0.8159'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.74it/s]
	{'loss': '3.1', 'grad_norm': '0.6408', 'learning_rate': '5.039e-05', 'epoch': '0.8166'}
	{'loss': '3.091', 'grad_norm': '0.6513', 'learning_rate': '5.004e-05', 'epoch': '0.8172'}
	{'loss': '3.098', 'grad_norm': '0.6188', 'learning_rate': '4.969e-05', 'epoch': '0.8179'}
	{'loss': '3.092', 'grad_norm': '0.6241', 'learning_rate': '4.934e-05', 'epoch': '0.8185'}
	{'loss': '3.092', 'grad_norm': '0.6283', 'learning_rate': '4.9e-05', 'epoch': '0.8192'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.67it/s]
	{'loss': '3.097', 'grad_norm': '0.6626', 'learning_rate': '4.865e-05', 'epoch': '0.8199'}
	{'loss': '3.098', 'grad_norm': '0.6264', 'learning_rate': '4.831e-05', 'epoch': '0.8205'}
	{'loss': '3.094', 'grad_norm': '0.6382', 'learning_rate': '4.797e-05', 'epoch': '0.8212'}
	{'loss': '3.088', 'grad_norm': '0.5975', 'learning_rate': '4.763e-05', 'epoch': '0.8218'}
	{'loss': '3.096', 'grad_norm': '0.616', 'learning_rate': '4.729e-05', 'epoch': '0.8225'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.99it/s]
	{'loss': '3.101', 'grad_norm': '0.6172', 'learning_rate': '4.695e-05', 'epoch': '0.8231'}
	{'loss': '3.09', 'grad_norm': '0.6163', 'learning_rate': '4.661e-05', 'epoch': '0.8238'}
	{'loss': '3.094', 'grad_norm': '0.6191', 'learning_rate': '4.627e-05', 'epoch': '0.8244'}
	{'loss': '3.093', 'grad_norm': '0.6242', 'learning_rate': '4.594e-05', 'epoch': '0.8251'}
	{'loss': '3.089', 'grad_norm': '0.6498', 'learning_rate': '4.56e-05', 'epoch': '0.8258'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.79it/s]
	{'loss': '3.093', 'grad_norm': '0.6488', 'learning_rate': '4.527e-05', 'epoch': '0.8264'}
	{'loss': '3.095', 'grad_norm': '0.626', 'learning_rate': '4.494e-05', 'epoch': '0.8271'}
	{'loss': '3.095', 'grad_norm': '0.6518', 'learning_rate': '4.46e-05', 'epoch': '0.8277'}
	{'loss': '3.087', 'grad_norm': '0.6512', 'learning_rate': '4.427e-05', 'epoch': '0.8284'}
	{'loss': '3.092', 'grad_norm': '0.6292', 'learning_rate': '4.395e-05', 'epoch': '0.829'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.27it/s]
	{'loss': '3.09', 'grad_norm': '0.6151', 'learning_rate': '4.362e-05', 'epoch': '0.8297'}
	{'loss': '3.096', 'grad_norm': '0.6268', 'learning_rate': '4.329e-05', 'epoch': '0.8303'}
	{'loss': '3.097', 'grad_norm': '0.6287', 'learning_rate': '4.297e-05', 'epoch': '0.831'}
	{'loss': '3.092', 'grad_norm': '0.6075', 'learning_rate': '4.264e-05', 'epoch': '0.8317'}
	{'loss': '3.087', 'grad_norm': '0.6037', 'learning_rate': '4.232e-05', 'epoch': '0.8323'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.76it/s]
	{'loss': '3.087', 'grad_norm': '0.6239', 'learning_rate': '4.2e-05', 'epoch': '0.833'}
	{'loss': '3.091', 'grad_norm': '0.6161', 'learning_rate': '4.167e-05', 'epoch': '0.8336'}
	{'loss': '3.091', 'grad_norm': '0.6112', 'learning_rate': '4.135e-05', 'epoch': '0.8343'}
	{'loss': '3.09', 'grad_norm': '0.6804', 'learning_rate': '4.104e-05', 'epoch': '0.8349'}
	{'loss': '3.091', 'grad_norm': '0.6317', 'learning_rate': '4.072e-05', 'epoch': '0.8356'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.26it/s]
	{'loss': '3.101', 'grad_norm': '0.6333', 'learning_rate': '4.04e-05', 'epoch': '0.8362'}
	{'loss': '3.097', 'grad_norm': '0.5939', 'learning_rate': '4.009e-05', 'epoch': '0.8369'}
	{'loss': '3.088', 'grad_norm': '0.6334', 'learning_rate': '3.977e-05', 'epoch': '0.8375'}
	{'loss': '3.099', 'grad_norm': '0.6321', 'learning_rate': '3.946e-05', 'epoch': '0.8382'}
	{'loss': '3.09', 'grad_norm': '0.6519', 'learning_rate': '3.915e-05', 'epoch': '0.8389'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.11it/s]
	{'loss': '3.094', 'grad_norm': '0.6287', 'learning_rate': '3.884e-05', 'epoch': '0.8395'}
	{'loss': '3.085', 'grad_norm': '0.6018', 'learning_rate': '3.853e-05', 'epoch': '0.8402'}
	{'loss': '3.089', 'grad_norm': '0.6308', 'learning_rate': '3.822e-05', 'epoch': '0.8408'}
	{'loss': '3.09', 'grad_norm': '0.6488', 'learning_rate': '3.791e-05', 'epoch': '0.8415'}
	{'loss': '3.094', 'grad_norm': '0.6538', 'learning_rate': '3.761e-05', 'epoch': '0.8421'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.60it/s]
	{'loss': '3.088', 'grad_norm': '0.6571', 'learning_rate': '3.73e-05', 'epoch': '0.8428'}
	{'loss': '3.092', 'grad_norm': '0.6458', 'learning_rate': '3.7e-05', 'epoch': '0.8434'}
	{'loss': '3.087', 'grad_norm': '0.6269', 'learning_rate': '3.669e-05', 'epoch': '0.8441'}
	{'loss': '3.092', 'grad_norm': '0.6375', 'learning_rate': '3.639e-05', 'epoch': '0.8448'}
	{'loss': '3.089', 'grad_norm': '0.6501', 'learning_rate': '3.609e-05', 'epoch': '0.8454'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.04it/s]
	{'loss': '3.088', 'grad_norm': '0.63', 'learning_rate': '3.579e-05', 'epoch': '0.8461'}
	{'loss': '3.087', 'grad_norm': '0.6549', 'learning_rate': '3.549e-05', 'epoch': '0.8467'}
	{'loss': '3.085', 'grad_norm': '0.6008', 'learning_rate': '3.52e-05', 'epoch': '0.8474'}
	{'loss': '3.087', 'grad_norm': '0.6403', 'learning_rate': '3.49e-05', 'epoch': '0.848'}
	{'loss': '3.094', 'grad_norm': '0.6625', 'learning_rate': '3.461e-05', 'epoch': '0.8487'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.84it/s]
	{'loss': '3.084', 'grad_norm': '0.6461', 'learning_rate': '3.431e-05', 'epoch': '0.8493'}
	{'loss': '3.083', 'grad_norm': '0.6318', 'learning_rate': '3.402e-05', 'epoch': '0.85'}
	{'loss': '3.091', 'grad_norm': '0.6709', 'learning_rate': '3.373e-05', 'epoch': '0.8507'}
	{'loss': '3.083', 'grad_norm': '0.6835', 'learning_rate': '3.344e-05', 'epoch': '0.8513'}
	{'loss': '3.091', 'grad_norm': '0.6315', 'learning_rate': '3.315e-05', 'epoch': '0.852'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.20it/s]
	{'loss': '3.087', 'grad_norm': '0.6687', 'learning_rate': '3.287e-05', 'epoch': '0.8526'}
	{'loss': '3.086', 'grad_norm': '0.6351', 'learning_rate': '3.258e-05', 'epoch': '0.8533'}
	{'loss': '3.086', 'grad_norm': '0.6432', 'learning_rate': '3.229e-05', 'epoch': '0.8539'}
	{'loss': '3.087', 'grad_norm': '0.6356', 'learning_rate': '3.201e-05', 'epoch': '0.8546'}
	{'loss': '3.087', 'grad_norm': '0.6576', 'learning_rate': '3.173e-05', 'epoch': '0.8552'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.56it/s]
	{'loss': '3.09', 'grad_norm': '0.6351', 'learning_rate': '3.145e-05', 'epoch': '0.8559'}
	{'loss': '3.085', 'grad_norm': '0.6415', 'learning_rate': '3.117e-05', 'epoch': '0.8566'}
	{'loss': '3.08', 'grad_norm': '0.6342', 'learning_rate': '3.089e-05', 'epoch': '0.8572'}
	{'loss': '3.081', 'grad_norm': '0.6257', 'learning_rate': '3.061e-05', 'epoch': '0.8579'}
	{'loss': '3.085', 'grad_norm': '0.6447', 'learning_rate': '3.033e-05', 'epoch': '0.8585'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.76it/s]
	{'loss': '3.083', 'grad_norm': '0.6242', 'learning_rate': '3.006e-05', 'epoch': '0.8592'}
	{'loss': '3.08', 'grad_norm': '0.6469', 'learning_rate': '2.978e-05', 'epoch': '0.8598'}
	{'loss': '3.084', 'grad_norm': '0.6203', 'learning_rate': '2.951e-05', 'epoch': '0.8605'}
	{'loss': '3.083', 'grad_norm': '0.6534', 'learning_rate': '2.924e-05', 'epoch': '0.8611'}
	{'loss': '3.084', 'grad_norm': '0.6662', 'learning_rate': '2.897e-05', 'epoch': '0.8618'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.52it/s]
	{'loss': '3.082', 'grad_norm': '0.6394', 'learning_rate': '2.87e-05', 'epoch': '0.8625'}
	{'loss': '3.085', 'grad_norm': '0.6713', 'learning_rate': '2.843e-05', 'epoch': '0.8631'}
	{'loss': '3.084', 'grad_norm': '0.643', 'learning_rate': '2.816e-05', 'epoch': '0.8638'}
	{'loss': '3.087', 'grad_norm': '0.6698', 'learning_rate': '2.79e-05', 'epoch': '0.8644'}
	{'loss': '3.08', 'grad_norm': '0.6403', 'learning_rate': '2.763e-05', 'epoch': '0.8651'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.24it/s]
	{'loss': '3.084', 'grad_norm': '0.6504', 'learning_rate': '2.737e-05', 'epoch': '0.8657'}
	{'loss': '3.085', 'grad_norm': '0.623', 'learning_rate': '2.71e-05', 'epoch': '0.8664'}
	{'loss': '3.08', 'grad_norm': '0.6216', 'learning_rate': '2.684e-05', 'epoch': '0.867'}
	{'loss': '3.082', 'grad_norm': '0.6374', 'learning_rate': '2.658e-05', 'epoch': '0.8677'}
	{'loss': '3.078', 'grad_norm': '0.6831', 'learning_rate': '2.632e-05', 'epoch': '0.8684'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.96it/s]
	{'loss': '3.085', 'grad_norm': '0.6528', 'learning_rate': '2.607e-05', 'epoch': '0.869'}
	{'loss': '3.08', 'grad_norm': '0.6289', 'learning_rate': '2.581e-05', 'epoch': '0.8697'}
	{'loss': '3.077', 'grad_norm': '0.6318', 'learning_rate': '2.556e-05', 'epoch': '0.8703'}
	{'loss': '3.078', 'grad_norm': '0.6657', 'learning_rate': '2.53e-05', 'epoch': '0.871'}
	{'loss': '3.08', 'grad_norm': '0.6297', 'learning_rate': '2.505e-05', 'epoch': '0.8716'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.77it/s]
	{'loss': '3.078', 'grad_norm': '0.6604', 'learning_rate': '2.48e-05', 'epoch': '0.8723'}
	{'loss': '3.082', 'grad_norm': '0.6406', 'learning_rate': '2.455e-05', 'epoch': '0.8729'}
	{'loss': '3.085', 'grad_norm': '0.6484', 'learning_rate': '2.43e-05', 'epoch': '0.8736'}
	{'loss': '3.077', 'grad_norm': '0.632', 'learning_rate': '2.405e-05', 'epoch': '0.8742'}
	{'loss': '3.078', 'grad_norm': '0.639', 'learning_rate': '2.38e-05', 'epoch': '0.8749'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.51it/s]
	{'loss': '3.081', 'grad_norm': '0.6376', 'learning_rate': '2.356e-05', 'epoch': '0.8756'}
	{'loss': '3.075', 'grad_norm': '0.6321', 'learning_rate': '2.331e-05', 'epoch': '0.8762'}
	{'loss': '3.077', 'grad_norm': '0.6607', 'learning_rate': '2.307e-05', 'epoch': '0.8769'}
	{'loss': '3.082', 'grad_norm': '0.7398', 'learning_rate': '2.283e-05', 'epoch': '0.8775'}
	{'loss': '3.082', 'grad_norm': '0.6342', 'learning_rate': '2.259e-05', 'epoch': '0.8782'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.07it/s]
	{'loss': '3.079', 'grad_norm': '0.6187', 'learning_rate': '2.235e-05', 'epoch': '0.8788'}
	{'loss': '3.076', 'grad_norm': '0.6446', 'learning_rate': '2.211e-05', 'epoch': '0.8795'}
	{'loss': '3.075', 'grad_norm': '0.6186', 'learning_rate': '2.187e-05', 'epoch': '0.8801'}
	{'loss': '3.075', 'grad_norm': '0.6268', 'learning_rate': '2.164e-05', 'epoch': '0.8808'}
	{'loss': '3.076', 'grad_norm': '0.6597', 'learning_rate': '2.14e-05', 'epoch': '0.8815'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.37it/s]
	{'loss': '3.081', 'grad_norm': '0.6454', 'learning_rate': '2.117e-05', 'epoch': '0.8821'}
	{'loss': '3.084', 'grad_norm': '0.6401', 'learning_rate': '2.094e-05', 'epoch': '0.8828'}
	{'loss': '3.08', 'grad_norm': '0.6363', 'learning_rate': '2.071e-05', 'epoch': '0.8834'}
	{'loss': '3.082', 'grad_norm': '0.6486', 'learning_rate': '2.048e-05', 'epoch': '0.8841'}
	{'loss': '3.077', 'grad_norm': '0.6501', 'learning_rate': '2.025e-05', 'epoch': '0.8847'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.04it/s]
	{'loss': '3.082', 'grad_norm': '0.6356', 'learning_rate': '2.002e-05', 'epoch': '0.8854'}
	{'loss': '3.078', 'grad_norm': '0.6306', 'learning_rate': '1.98e-05', 'epoch': '0.886'}
	{'loss': '3.085', 'grad_norm': '0.644', 'learning_rate': '1.957e-05', 'epoch': '0.8867'}
	{'loss': '3.08', 'grad_norm': '0.6425', 'learning_rate': '1.935e-05', 'epoch': '0.8874'}
	{'loss': '3.079', 'grad_norm': '0.6338', 'learning_rate': '1.913e-05', 'epoch': '0.888'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.25it/s]
	{'loss': '3.078', 'grad_norm': '0.6506', 'learning_rate': '1.891e-05', 'epoch': '0.8887'}
	{'loss': '3.078', 'grad_norm': '0.6191', 'learning_rate': '1.869e-05', 'epoch': '0.8893'}
	{'loss': '3.075', 'grad_norm': '0.6515', 'learning_rate': '1.847e-05', 'epoch': '0.89'}
	{'loss': '3.073', 'grad_norm': '0.6753', 'learning_rate': '1.825e-05', 'epoch': '0.8906'}
	{'loss': '3.072', 'grad_norm': '0.6671', 'learning_rate': '1.804e-05', 'epoch': '0.8913'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.86it/s]
	{'loss': '3.078', 'grad_norm': '0.6234', 'learning_rate': '1.782e-05', 'epoch': '0.8919'}
	{'loss': '3.072', 'grad_norm': '0.6311', 'learning_rate': '1.761e-05', 'epoch': '0.8926'}
	{'loss': '3.075', 'grad_norm': '0.6438', 'learning_rate': '1.74e-05', 'epoch': '0.8933'}
	{'loss': '3.071', 'grad_norm': '0.6311', 'learning_rate': '1.718e-05', 'epoch': '0.8939'}
	{'loss': '3.076', 'grad_norm': '0.6256', 'learning_rate': '1.698e-05', 'epoch': '0.8946'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.93it/s]
	{'loss': '3.079', 'grad_norm': '0.6462', 'learning_rate': '1.677e-05', 'epoch': '0.8952'}
	{'loss': '3.079', 'grad_norm': '0.636', 'learning_rate': '1.656e-05', 'epoch': '0.8959'}
	{'loss': '3.076', 'grad_norm': '0.6386', 'learning_rate': '1.635e-05', 'epoch': '0.8965'}
	{'loss': '3.081', 'grad_norm': '0.6233', 'learning_rate': '1.615e-05', 'epoch': '0.8972'}
	{'loss': '3.069', 'grad_norm': '0.6368', 'learning_rate': '1.595e-05', 'epoch': '0.8978'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.44it/s]
	{'loss': '3.074', 'grad_norm': '0.6314', 'learning_rate': '1.574e-05', 'epoch': '0.8985'}
	{'loss': '3.075', 'grad_norm': '0.6271', 'learning_rate': '1.554e-05', 'epoch': '0.8992'}
	{'loss': '3.073', 'grad_norm': '0.634', 'learning_rate': '1.534e-05', 'epoch': '0.8998'}
	{'loss': '3.078', 'grad_norm': '0.645', 'learning_rate': '1.515e-05', 'epoch': '0.9005'}
	{'loss': '3.078', 'grad_norm': '0.6711', 'learning_rate': '1.495e-05', 'epoch': '0.9011'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.93it/s]
	{'loss': '3.074', 'grad_norm': '0.6349', 'learning_rate': '1.475e-05', 'epoch': '0.9018'}
	{'loss': '3.074', 'grad_norm': '0.6345', 'learning_rate': '1.456e-05', 'epoch': '0.9024'}
	{'loss': '3.075', 'grad_norm': '0.6464', 'learning_rate': '1.436e-05', 'epoch': '0.9031'}
	{'loss': '3.079', 'grad_norm': '0.6274', 'learning_rate': '1.417e-05', 'epoch': '0.9037'}
	{'loss': '3.074', 'grad_norm': '0.6355', 'learning_rate': '1.398e-05', 'epoch': '0.9044'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.02it/s]
	{'loss': '3.075', 'grad_norm': '0.6217', 'learning_rate': '1.379e-05', 'epoch': '0.9051'}
	{'loss': '3.074', 'grad_norm': '0.6245', 'learning_rate': '1.36e-05', 'epoch': '0.9057'}
	{'loss': '3.072', 'grad_norm': '0.6193', 'learning_rate': '1.342e-05', 'epoch': '0.9064'}
	{'loss': '3.077', 'grad_norm': '0.6435', 'learning_rate': '1.323e-05', 'epoch': '0.907'}
	{'loss': '3.078', 'grad_norm': '0.6243', 'learning_rate': '1.305e-05', 'epoch': '0.9077'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.76it/s]
	{'loss': '3.076', 'grad_norm': '0.6273', 'learning_rate': '1.286e-05', 'epoch': '0.9083'}
	{'loss': '3.074', 'grad_norm': '0.6271', 'learning_rate': '1.268e-05', 'epoch': '0.909'}
	{'loss': '3.072', 'grad_norm': '0.63', 'learning_rate': '1.25e-05', 'epoch': '0.9096'}
	{'loss': '3.076', 'grad_norm': '0.6378', 'learning_rate': '1.232e-05', 'epoch': '0.9103'}
	{'loss': '3.077', 'grad_norm': '0.6329', 'learning_rate': '1.214e-05', 'epoch': '0.9109'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.80it/s]
	{'loss': '3.078', 'grad_norm': '0.6295', 'learning_rate': '1.197e-05', 'epoch': '0.9116'}
	{'loss': '3.071', 'grad_norm': '0.649', 'learning_rate': '1.179e-05', 'epoch': '0.9123'}
	{'loss': '3.073', 'grad_norm': '0.6377', 'learning_rate': '1.162e-05', 'epoch': '0.9129'}
	{'loss': '3.08', 'grad_norm': '0.6557', 'learning_rate': '1.144e-05', 'epoch': '0.9136'}
	{'loss': '3.074', 'grad_norm': '0.6369', 'learning_rate': '1.127e-05', 'epoch': '0.9142'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.94it/s]
	{'loss': '3.073', 'grad_norm': '0.6011', 'learning_rate': '1.11e-05', 'epoch': '0.9149'}
	{'loss': '3.071', 'grad_norm': '0.6239', 'learning_rate': '1.093e-05', 'epoch': '0.9155'}
	{'loss': '3.07', 'grad_norm': '0.638', 'learning_rate': '1.076e-05', 'epoch': '0.9162'}
	{'loss': '3.073', 'grad_norm': '0.6384', 'learning_rate': '1.06e-05', 'epoch': '0.9168'}
	{'loss': '3.071', 'grad_norm': '0.6404', 'learning_rate': '1.043e-05', 'epoch': '0.9175'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.03it/s]
	{'loss': '3.075', 'grad_norm': '0.6294', 'learning_rate': '1.027e-05', 'epoch': '0.9182'}
	{'loss': '3.073', 'grad_norm': '0.6271', 'learning_rate': '1.01e-05', 'epoch': '0.9188'}
	{'loss': '3.072', 'grad_norm': '0.6266', 'learning_rate': '9.943e-06', 'epoch': '0.9195'}
	{'loss': '3.07', 'grad_norm': '0.6384', 'learning_rate': '9.783e-06', 'epoch': '0.9201'}
	{'loss': '3.066', 'grad_norm': '0.6363', 'learning_rate': '9.624e-06', 'epoch': '0.9208'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.71it/s]
	{'loss': '3.074', 'grad_norm': '0.6663', 'learning_rate': '9.466e-06', 'epoch': '0.9214'}
	{'loss': '3.072', 'grad_norm': '0.6378', 'learning_rate': '9.31e-06', 'epoch': '0.9221'}
	{'loss': '3.075', 'grad_norm': '0.6404', 'learning_rate': '9.154e-06', 'epoch': '0.9227'}
	{'loss': '3.069', 'grad_norm': '0.6214', 'learning_rate': '9.001e-06', 'epoch': '0.9234'}
	{'loss': '3.067', 'grad_norm': '0.6255', 'learning_rate': '8.848e-06', 'epoch': '0.9241'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.68it/s]
	{'loss': '3.07', 'grad_norm': '0.658', 'learning_rate': '8.697e-06', 'epoch': '0.9247'}
	{'loss': '3.074', 'grad_norm': '0.6355', 'learning_rate': '8.547e-06', 'epoch': '0.9254'}
	{'loss': '3.064', 'grad_norm': '0.639', 'learning_rate': '8.398e-06', 'epoch': '0.926'}
	{'loss': '3.076', 'grad_norm': '0.6207', 'learning_rate': '8.251e-06', 'epoch': '0.9267'}
	{'loss': '3.066', 'grad_norm': '0.6397', 'learning_rate': '8.104e-06', 'epoch': '0.9273'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.74it/s]
	{'loss': '3.075', 'grad_norm': '0.6619', 'learning_rate': '7.96e-06', 'epoch': '0.928'}
	{'loss': '3.072', 'grad_norm': '0.6326', 'learning_rate': '7.816e-06', 'epoch': '0.9286'}
	{'loss': '3.073', 'grad_norm': '0.6189', 'learning_rate': '7.674e-06', 'epoch': '0.9293'}
	{'loss': '3.071', 'grad_norm': '0.6381', 'learning_rate': '7.533e-06', 'epoch': '0.93'}
	{'loss': '3.074', 'grad_norm': '0.6502', 'learning_rate': '7.393e-06', 'epoch': '0.9306'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.69it/s]
	{'loss': '3.072', 'grad_norm': '0.6347', 'learning_rate': '7.255e-06', 'epoch': '0.9313'}
	{'loss': '3.074', 'grad_norm': '0.6605', 'learning_rate': '7.117e-06', 'epoch': '0.9319'}
	{'loss': '3.067', 'grad_norm': '0.6154', 'learning_rate': '6.982e-06', 'epoch': '0.9326'}
	{'loss': '3.07', 'grad_norm': '0.6206', 'learning_rate': '6.847e-06', 'epoch': '0.9332'}
	{'loss': '3.079', 'grad_norm': '0.6341', 'learning_rate': '6.714e-06', 'epoch': '0.9339'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.44it/s]
	{'loss': '3.07', 'grad_norm': '0.6226', 'learning_rate': '6.582e-06', 'epoch': '0.9345'}
	{'loss': '3.075', 'grad_norm': '0.6262', 'learning_rate': '6.451e-06', 'epoch': '0.9352'}
	{'loss': '3.069', 'grad_norm': '0.6522', 'learning_rate': '6.322e-06', 'epoch': '0.9359'}
	{'loss': '3.072', 'grad_norm': '0.6267', 'learning_rate': '6.194e-06', 'epoch': '0.9365'}
	{'loss': '3.067', 'grad_norm': '0.6446', 'learning_rate': '6.067e-06', 'epoch': '0.9372'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.72it/s]
	{'loss': '3.065', 'grad_norm': '0.6418', 'learning_rate': '5.942e-06', 'epoch': '0.9378'}
	{'loss': '3.063', 'grad_norm': '0.642', 'learning_rate': '5.817e-06', 'epoch': '0.9385'}
	{'loss': '3.073', 'grad_norm': '0.6267', 'learning_rate': '5.695e-06', 'epoch': '0.9391'}
	{'loss': '3.072', 'grad_norm': '0.6296', 'learning_rate': '5.573e-06', 'epoch': '0.9398'}
	{'loss': '3.071', 'grad_norm': '0.642', 'learning_rate': '5.453e-06', 'epoch': '0.9404'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.25it/s]
	{'loss': '3.073', 'grad_norm': '0.6269', 'learning_rate': '5.334e-06', 'epoch': '0.9411'}
	{'loss': '3.066', 'grad_norm': '0.6304', 'learning_rate': '5.216e-06', 'epoch': '0.9418'}
	{'loss': '3.073', 'grad_norm': '0.6287', 'learning_rate': '5.1e-06', 'epoch': '0.9424'}
	{'loss': '3.068', 'grad_norm': '0.6149', 'learning_rate': '4.985e-06', 'epoch': '0.9431'}
	{'loss': '3.067', 'grad_norm': '0.6215', 'learning_rate': '4.871e-06', 'epoch': '0.9437'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.65it/s]
	{'loss': '3.071', 'grad_norm': '0.6201', 'learning_rate': '4.758e-06', 'epoch': '0.9444'}
	{'loss': '3.067', 'grad_norm': '0.649', 'learning_rate': '4.647e-06', 'epoch': '0.945'}
	{'loss': '3.067', 'grad_norm': '0.6585', 'learning_rate': '4.537e-06', 'epoch': '0.9457'}
	{'loss': '3.072', 'grad_norm': '0.6165', 'learning_rate': '4.429e-06', 'epoch': '0.9463'}
	{'loss': '3.071', 'grad_norm': '0.6314', 'learning_rate': '4.322e-06', 'epoch': '0.947'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.75it/s]
	{'loss': '3.069', 'grad_norm': '0.6282', 'learning_rate': '4.216e-06', 'epoch': '0.9476'}
	{'loss': '3.066', 'grad_norm': '0.6435', 'learning_rate': '4.111e-06', 'epoch': '0.9483'}
	{'loss': '3.067', 'grad_norm': '0.6286', 'learning_rate': '4.008e-06', 'epoch': '0.949'}
	{'loss': '3.074', 'grad_norm': '0.6373', 'learning_rate': '3.906e-06', 'epoch': '0.9496'}
	{'loss': '3.068', 'grad_norm': '0.6283', 'learning_rate': '3.805e-06', 'epoch': '0.9503'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.93it/s]
	{'loss': '3.07', 'grad_norm': '0.6298', 'learning_rate': '3.706e-06', 'epoch': '0.9509'}
	{'loss': '3.069', 'grad_norm': '0.6145', 'learning_rate': '3.607e-06', 'epoch': '0.9516'}
	{'loss': '3.064', 'grad_norm': '0.6296', 'learning_rate': '3.511e-06', 'epoch': '0.9522'}
	{'loss': '3.064', 'grad_norm': '0.6225', 'learning_rate': '3.415e-06', 'epoch': '0.9529'}
	{'loss': '3.068', 'grad_norm': '0.6201', 'learning_rate': '3.321e-06', 'epoch': '0.9535'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.93it/s]
	{'loss': '3.067', 'grad_norm': '0.6384', 'learning_rate': '3.228e-06', 'epoch': '0.9542'}
	{'loss': '3.068', 'grad_norm': '0.623', 'learning_rate': '3.137e-06', 'epoch': '0.9549'}
	{'loss': '3.071', 'grad_norm': '0.639', 'learning_rate': '3.046e-06', 'epoch': '0.9555'}
	{'loss': '3.06', 'grad_norm': '0.639', 'learning_rate': '2.957e-06', 'epoch': '0.9562'}
	{'loss': '3.072', 'grad_norm': '0.6321', 'learning_rate': '2.87e-06', 'epoch': '0.9568'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.49it/s]
	{'loss': '3.074', 'grad_norm': '0.6452', 'learning_rate': '2.783e-06', 'epoch': '0.9575'}
	{'loss': '3.067', 'grad_norm': '0.6178', 'learning_rate': '2.698e-06', 'epoch': '0.9581'}
	{'loss': '3.068', 'grad_norm': '0.6036', 'learning_rate': '2.615e-06', 'epoch': '0.9588'}
	{'loss': '3.071', 'grad_norm': '0.6093', 'learning_rate': '2.532e-06', 'epoch': '0.9594'}
	{'loss': '3.067', 'grad_norm': '0.6378', 'learning_rate': '2.451e-06', 'epoch': '0.9601'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.66it/s]
	{'loss': '3.067', 'grad_norm': '0.6776', 'learning_rate': '2.372e-06', 'epoch': '0.9608'}
	{'loss': '3.066', 'grad_norm': '0.6275', 'learning_rate': '2.293e-06', 'epoch': '0.9614'}
	{'loss': '3.072', 'grad_norm': '0.6393', 'learning_rate': '2.216e-06', 'epoch': '0.9621'}
	{'loss': '3.07', 'grad_norm': '0.6164', 'learning_rate': '2.14e-06', 'epoch': '0.9627'}
	{'loss': '3.067', 'grad_norm': '0.6251', 'learning_rate': '2.066e-06', 'epoch': '0.9634'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.52it/s]
	{'loss': '3.064', 'grad_norm': '0.6521', 'learning_rate': '1.993e-06', 'epoch': '0.964'}
	{'loss': '3.071', 'grad_norm': '0.6272', 'learning_rate': '1.921e-06', 'epoch': '0.9647'}
	{'loss': '3.07', 'grad_norm': '0.602', 'learning_rate': '1.85e-06', 'epoch': '0.9653'}
	{'loss': '3.074', 'grad_norm': '0.6393', 'learning_rate': '1.781e-06', 'epoch': '0.966'}
	{'loss': '3.075', 'grad_norm': '0.6397', 'learning_rate': '1.713e-06', 'epoch': '0.9667'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.51it/s]
	{'loss': '3.071', 'grad_norm': '0.618', 'learning_rate': '1.646e-06', 'epoch': '0.9673'}
	{'loss': '3.066', 'grad_norm': '0.6098', 'learning_rate': '1.581e-06', 'epoch': '0.968'}
	{'loss': '3.069', 'grad_norm': '0.6137', 'learning_rate': '1.517e-06', 'epoch': '0.9686'}
	{'loss': '3.065', 'grad_norm': '0.6376', 'learning_rate': '1.454e-06', 'epoch': '0.9693'}
	{'loss': '3.069', 'grad_norm': '0.6404', 'learning_rate': '1.393e-06', 'epoch': '0.9699'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.27it/s]
	{'loss': '3.064', 'grad_norm': '0.6353', 'learning_rate': '1.333e-06', 'epoch': '0.9706'}
	{'loss': '3.066', 'grad_norm': '0.6159', 'learning_rate': '1.274e-06', 'epoch': '0.9712'}
	{'loss': '3.068', 'grad_norm': '0.619', 'learning_rate': '1.217e-06', 'epoch': '0.9719'}
	{'loss': '3.071', 'grad_norm': '0.6164', 'learning_rate': '1.161e-06', 'epoch': '0.9726'}
	{'loss': '3.072', 'grad_norm': '0.6158', 'learning_rate': '1.106e-06', 'epoch': '0.9732'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.81it/s]
	{'loss': '3.06', 'grad_norm': '0.6324', 'learning_rate': '1.053e-06', 'epoch': '0.9739'}
	{'loss': '3.067', 'grad_norm': '0.6276', 'learning_rate': '1.001e-06', 'epoch': '0.9745'}
	{'loss': '3.067', 'grad_norm': '0.6294', 'learning_rate': '9.5e-07', 'epoch': '0.9752'}
	{'loss': '3.071', 'grad_norm': '0.6368', 'learning_rate': '9.005e-07', 'epoch': '0.9758'}
	{'loss': '3.061', 'grad_norm': '0.6432', 'learning_rate': '8.524e-07', 'epoch': '0.9765'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.73it/s]
	{'loss': '3.066', 'grad_norm': '0.6291', 'learning_rate': '8.056e-07', 'epoch': '0.9771'}
	{'loss': '3.062', 'grad_norm': '0.6361', 'learning_rate': '7.601e-07', 'epoch': '0.9778'}
	{'loss': '3.061', 'grad_norm': '0.6068', 'learning_rate': '7.159e-07', 'epoch': '0.9785'}
	{'loss': '3.063', 'grad_norm': '0.6391', 'learning_rate': '6.73e-07', 'epoch': '0.9791'}
	{'loss': '3.077', 'grad_norm': '0.6224', 'learning_rate': '6.315e-07', 'epoch': '0.9798'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 2.92it/s]
	{'loss': '3.067', 'grad_norm': '0.6116', 'learning_rate': '5.913e-07', 'epoch': '0.9804'}
	{'loss': '3.065', 'grad_norm': '0.6334', 'learning_rate': '5.524e-07', 'epoch': '0.9811'}
	{'loss': '3.072', 'grad_norm': '0.6061', 'learning_rate': '5.148e-07', 'epoch': '0.9817'}
	{'loss': '3.07', 'grad_norm': '0.643', 'learning_rate': '4.786e-07', 'epoch': '0.9824'}
	{'loss': '3.065', 'grad_norm': '0.6425', 'learning_rate': '4.437e-07', 'epoch': '0.983'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.65it/s]
	{'loss': '3.068', 'grad_norm': '0.6226', 'learning_rate': '4.101e-07', 'epoch': '0.9837'}
	{'loss': '3.065', 'grad_norm': '0.6083', 'learning_rate': '3.778e-07', 'epoch': '0.9844'}
	{'loss': '3.067', 'grad_norm': '0.6412', 'learning_rate': '3.468e-07', 'epoch': '0.985'}
	{'loss': '3.069', 'grad_norm': '0.6097', 'learning_rate': '3.172e-07', 'epoch': '0.9857'}
	{'loss': '3.061', 'grad_norm': '0.6264', 'learning_rate': '2.889e-07', 'epoch': '0.9863'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.04it/s]
	{'loss': '3.073', 'grad_norm': '0.6309', 'learning_rate': '2.619e-07', 'epoch': '0.987'}
	{'loss': '3.068', 'grad_norm': '0.6195', 'learning_rate': '2.362e-07', 'epoch': '0.9876'}
	{'loss': '3.066', 'grad_norm': '0.6339', 'learning_rate': '2.119e-07', 'epoch': '0.9883'}
	{'loss': '3.068', 'grad_norm': '0.6069', 'learning_rate': '1.888e-07', 'epoch': '0.9889'}
	{'loss': '3.069', 'grad_norm': '0.6255', 'learning_rate': '1.672e-07', 'epoch': '0.9896'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 3.28it/s]
	{'loss': '3.074', 'grad_norm': '0.6384', 'learning_rate': '1.468e-07', 'epoch': '0.9902'}
	{'loss': '3.075', 'grad_norm': '0.6445', 'learning_rate': '1.277e-07', 'epoch': '0.9909'}
	{'loss': '3.067', 'grad_norm': '0.6542', 'learning_rate': '1.1e-07', 'epoch': '0.9916'}
	{'loss': '3.068', 'grad_norm': '0.6511', 'learning_rate': '9.359e-08', 'epoch': '0.9922'}
	{'loss': '3.068', 'grad_norm': '0.626', 'learning_rate': '7.851e-08', 'epoch': '0.9929'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 4.03it/s]
	{'loss': '3.064', 'grad_norm': '0.637', 'learning_rate': '6.476e-08', 'epoch': '0.9935'}
	{'loss': '3.062', 'grad_norm': '0.6444', 'learning_rate': '5.232e-08', 'epoch': '0.9942'}
	{'loss': '3.064', 'grad_norm': '0.626', 'learning_rate': '4.121e-08', 'epoch': '0.9948'}
	{'loss': '3.072', 'grad_norm': '0.6168', 'learning_rate': '3.143e-08', 'epoch': '0.9955'}
	{'loss': '3.066', 'grad_norm': '0.6374', 'learning_rate': '2.297e-08', 'epoch': '0.9961'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.86it/s]
	{'loss': '3.066', 'grad_norm': '0.6623', 'learning_rate': '1.583e-08', 'epoch': '0.9968'}
	{'loss': '3.067', 'grad_norm': '0.6331', 'learning_rate': '1.002e-08', 'epoch': '0.9975'}
	{'loss': '3.07', 'grad_norm': '0.6147', 'learning_rate': '5.53e-09', 'epoch': '0.9981'}
	{'loss': '3.069', 'grad_norm': '0.6511', 'learning_rate': '2.365e-09', 'epoch': '0.9988'}
	{'loss': '3.072', 'grad_norm': '0.6274', 'learning_rate': '5.244e-10', 'epoch': '0.9994'}
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.92it/s]
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 6.04it/s]
	{'train_runtime': '2.965e+05', 'train_samples_per_second': '65.86', 'train_steps_per_second': '0.515', 'train_loss': '3.259', 'epoch': '1'}
	100%\|███████████████████████████████████████████████████████████████████████████████████████████████████████████\| 152588/152588 [82:22:20<00:00, 1.94s/it]
	Writing model shards: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 1/1 [00:00<00:00, 5.65it/s]
	[*] Training finished.