nvan15 commited on Jan 15

Commit

1360496

verified ·

1 Parent(s): ba22426

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

reproduction/env.yaml +63 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/CoLA.tsv +1064 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/all_results.json +9 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/eval_results.json +9 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/added_tokens.json +3 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/special_tokens_map.json +15 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/tokenizer.json +0 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/tokenizer_config.json +60 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft2/README.md +205 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft2/adapter_config.json +30 -0
reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/trainer_state.json +1499 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/MNLI-m.tsv +0 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/MNLI-mm.tsv +0 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/all_results.json +16 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/eval_results.json +16 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/added_tokens.json +3 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/special_tokens_map.json +15 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/tokenizer.json +0 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/tokenizer_config.json +60 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft2/README.md +205 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft2/adapter_config.json +30 -0
reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/trainer_state.json +1611 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/MRPC.tsv +1726 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/all_results.json +11 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/eval_results.json +11 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/added_tokens.json +3 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/special_tokens_map.json +15 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/tokenizer.json +0 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/tokenizer_config.json +60 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft2/README.md +205 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft2/adapter_config.json +30 -0
reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/trainer_state.json +1285 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/QNLI.tsv +0 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/all_results.json +9 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/eval_results.json +9 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/added_tokens.json +3 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/special_tokens_map.json +15 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/tokenizer.json +0 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/tokenizer_config.json +60 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft2/README.md +205 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft2/adapter_config.json +30 -0
reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/trainer_state.json +1291 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/QQP.tsv +0 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/all_results.json +11 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/eval_results.json +11 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/added_tokens.json +3 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/special_tokens_map.json +15 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/tokenizer.json +0 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/tokenizer_config.json +60 -0
reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft2/README.md +205 -0

reproduction/env.yaml ADDED Viewed

	@@ -0,0 +1,63 @@

+# environment.yml
+name: an_rep # The name of the environment
+channels: # The conda channels to search for packages
+  # - pytorch
+  - conda-forge
+  # - dnachun
+  # - anaconda
+channel_priority: strict
+dependencies:
+  # Packages to install with conda
+  # - python=3.11.3
+  #- pytorch-cuda=12.4
+  # - pytorch >= 2.6
+  # - numpy
+  # - tensorboard
+  # - omegaconf
+  - wandb
+  - scipy
+  - pandas
+  - matplotlib
+  - scikit-image
+  - scikit-learn
+  - joblib
+  - pillow
+  ## NO - huggingface_hub
+  - tqdm
+  - nltk
+  # - future
+  # - defusedxml
+  # - ipdb
+  # - torchinfo
+  # - timm
+  # - graphviz #anaconda::graphviz
+  # - dnachun::torchviz
+  - pip:
+    - --index-url https://download.pytorch.org/whl/cu126
+    - torch
+    - torchvision
+    - torchaudio
+    - --index-url https://pypi.org/simple
+    - transformers>=4.55
+    - accelerate
+    - einops
+    - jaxtyping
+    - peft
+    - datasets
+     # - fraction
+    - draccus
+    - vllm
+    - evaluate

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/CoLA.tsv ADDED Viewed

	@@ -0,0 +1,1064 @@

+index	prediction
+0	1
+1	1
+2	1
+3	1
+4	1
+5	1
+6	1
+7	1
+8	1
+9	1
+10	1
+11	1
+12	1
+13	1
+14	1
+15	1
+16	1
+17	1
+18	1
+19	1
+20	1
+21	1
+22	1
+23	1
+24	1
+25	1
+26	1
+27	1
+28	1
+29	1
+30	1
+31	1
+32	1
+33	1
+34	1
+35	1
+36	1
+37	1
+38	1
+39	1
+40	1
+41	1
+42	1
+43	1
+44	1
+45	1
+46	1
+47	1
+48	1
+49	1
+50	1
+51	1
+52	1
+53	1
+54	1
+55	1
+56	1
+57	1
+58	1
+59	1
+60	1
+61	1
+62	1
+63	1
+64	1
+65	1
+66	1
+67	1
+68	1
+69	1
+70	1
+71	1
+72	1
+73	1
+74	1
+75	1
+76	1
+77	1
+78	1
+79	1
+80	1
+81	1
+82	1
+83	1
+84	1
+85	1
+86	1
+87	1
+88	1
+89	1
+90	1
+91	1
+92	1
+93	1
+94	1
+95	1
+96	1
+97	1
+98	1
+99	1
+100	1
+101	1
+102	1
+103	1
+104	1
+105	1
+106	1
+107	1
+108	1
+109	1
+110	1
+111	1
+112	1
+113	1
+114	1
+115	1
+116	1
+117	1
+118	1
+119	1
+120	1
+121	1
+122	1
+123	1
+124	1
+125	1
+126	1
+127	1
+128	1
+129	1
+130	1
+131	1
+132	1
+133	1
+134	1
+135	1
+136	1
+137	1
+138	1
+139	1
+140	1
+141	1
+142	1
+143	1
+144	1
+145	1
+146	1
+147	1
+148	1
+149	1
+150	1
+151	1
+152	1
+153	1
+154	1
+155	1
+156	1
+157	1
+158	1
+159	1
+160	1
+161	1
+162	1
+163	1
+164	1
+165	1
+166	1
+167	1
+168	1
+169	1
+170	1
+171	1
+172	1
+173	1
+174	1
+175	1
+176	1
+177	1
+178	1
+179	1
+180	1
+181	1
+182	1
+183	1
+184	1
+185	1
+186	1
+187	1
+188	1
+189	1
+190	1
+191	1
+192	1
+193	1
+194	1
+195	1
+196	1
+197	1
+198	1
+199	1
+200	1
+201	1
+202	1
+203	1
+204	1
+205	1
+206	1
+207	1
+208	1
+209	1
+210	1
+211	1
+212	1
+213	1
+214	1
+215	1
+216	1
+217	1
+218	1
+219	1
+220	1
+221	1
+222	1
+223	1
+224	1
+225	1
+226	1
+227	1
+228	1
+229	1
+230	1
+231	1
+232	1
+233	1
+234	1
+235	1
+236	1
+237	1
+238	1
+239	1
+240	1
+241	1
+242	1
+243	1
+244	1
+245	1
+246	1
+247	1
+248	1
+249	1
+250	1
+251	1
+252	1
+253	1
+254	1
+255	1
+256	1
+257	1
+258	1
+259	1
+260	1
+261	1
+262	1
+263	1
+264	1
+265	1
+266	1
+267	1
+268	1
+269	1
+270	1
+271	1
+272	1
+273	1
+274	1
+275	1
+276	1
+277	1
+278	1
+279	1
+280	1
+281	1
+282	1
+283	1
+284	1
+285	1
+286	1
+287	1
+288	1
+289	1
+290	1
+291	1
+292	1
+293	1
+294	1
+295	1
+296	1
+297	1
+298	1
+299	1
+300	1
+301	1
+302	1
+303	1
+304	1
+305	1
+306	1
+307	1
+308	1
+309	1
+310	1
+311	1
+312	1
+313	1
+314	1
+315	1
+316	1
+317	1
+318	1
+319	1
+320	1
+321	1
+322	1
+323	1
+324	1
+325	1
+326	1
+327	1
+328	1
+329	1
+330	1
+331	1
+332	1
+333	1
+334	1
+335	1
+336	1
+337	1
+338	1
+339	1
+340	1
+341	1
+342	1
+343	1
+344	1
+345	1
+346	1
+347	1
+348	1
+349	1
+350	1
+351	1
+352	1
+353	1
+354	1
+355	1
+356	1
+357	1
+358	1
+359	1
+360	1
+361	1
+362	1
+363	1
+364	1
+365	1
+366	1
+367	1
+368	1
+369	1
+370	1
+371	1
+372	1
+373	1
+374	1
+375	1
+376	1
+377	1
+378	1
+379	1
+380	1
+381	1
+382	1
+383	1
+384	1
+385	1
+386	1
+387	1
+388	1
+389	1
+390	1
+391	1
+392	1
+393	1
+394	1
+395	1
+396	1
+397	1
+398	1
+399	1
+400	1
+401	1
+402	1
+403	1
+404	1
+405	1
+406	1
+407	1
+408	1
+409	1
+410	1
+411	1
+412	1
+413	1
+414	1
+415	1
+416	1
+417	1
+418	1
+419	1
+420	1
+421	1
+422	1
+423	1
+424	1
+425	1
+426	1
+427	1
+428	1
+429	1
+430	1
+431	1
+432	1
+433	1
+434	1
+435	1
+436	1
+437	1
+438	1
+439	1
+440	1
+441	1
+442	1
+443	1
+444	1
+445	1
+446	1
+447	1
+448	1
+449	1
+450	1
+451	1
+452	1
+453	1
+454	1
+455	1
+456	1
+457	1
+458	1
+459	1
+460	1
+461	1
+462	1
+463	1
+464	1
+465	1
+466	1
+467	1
+468	1
+469	1
+470	1
+471	1
+472	1
+473	1
+474	1
+475	1
+476	1
+477	1
+478	1
+479	1
+480	1
+481	1
+482	1
+483	1
+484	1
+485	1
+486	1
+487	1
+488	1
+489	1
+490	1
+491	1
+492	1
+493	1
+494	1
+495	1
+496	1
+497	1
+498	1
+499	1
+500	1
+501	1
+502	1
+503	1
+504	1
+505	1
+506	1
+507	1
+508	1
+509	1
+510	1
+511	1
+512	1
+513	1
+514	1
+515	1
+516	1
+517	1
+518	1
+519	1
+520	1
+521	1
+522	1
+523	1
+524	1
+525	1
+526	1
+527	1
+528	1
+529	1
+530	1
+531	1
+532	1
+533	1
+534	1
+535	1
+536	1
+537	1
+538	1
+539	1
+540	1
+541	1
+542	1
+543	1
+544	1
+545	1
+546	1
+547	1
+548	1
+549	1
+550	1
+551	1
+552	1
+553	1
+554	1
+555	1
+556	1
+557	1
+558	1
+559	1
+560	1
+561	1
+562	1
+563	1
+564	1
+565	1
+566	1
+567	1
+568	1
+569	1
+570	1
+571	1
+572	1
+573	1
+574	1
+575	1
+576	1
+577	1
+578	1
+579	1
+580	1
+581	1
+582	1
+583	1
+584	1
+585	1
+586	1
+587	1
+588	1
+589	1
+590	1
+591	1
+592	1
+593	1
+594	1
+595	1
+596	1
+597	1
+598	1
+599	1
+600	1
+601	1
+602	1
+603	1
+604	1
+605	1
+606	1
+607	1
+608	1
+609	1
+610	1
+611	1
+612	1
+613	1
+614	1
+615	1
+616	1
+617	1
+618	1
+619	1
+620	1
+621	1
+622	1
+623	1
+624	1
+625	1
+626	1
+627	1
+628	1
+629	1
+630	1
+631	1
+632	1
+633	1
+634	1
+635	1
+636	1
+637	1
+638	1
+639	1
+640	1
+641	1
+642	1
+643	1
+644	1
+645	1
+646	1
+647	1
+648	1
+649	1
+650	1
+651	1
+652	1
+653	1
+654	1
+655	1
+656	1
+657	1
+658	1
+659	1
+660	1
+661	1
+662	1
+663	1
+664	1
+665	1
+666	1
+667	1
+668	1
+669	1
+670	1
+671	1
+672	1
+673	1
+674	1
+675	1
+676	1
+677	1
+678	1
+679	1
+680	1
+681	1
+682	1
+683	1
+684	1
+685	1
+686	1
+687	1
+688	1
+689	1
+690	1
+691	1
+692	1
+693	1
+694	1
+695	1
+696	1
+697	1
+698	1
+699	1
+700	1
+701	1
+702	1
+703	1
+704	1
+705	1
+706	1
+707	1
+708	1
+709	1
+710	1
+711	1
+712	1
+713	1
+714	1
+715	1
+716	1
+717	1
+718	1
+719	1
+720	1
+721	1
+722	1
+723	1
+724	1
+725	1
+726	1
+727	1
+728	1
+729	1
+730	1
+731	1
+732	1
+733	1
+734	1
+735	1
+736	1
+737	1
+738	1
+739	1
+740	1
+741	1
+742	1
+743	1
+744	1
+745	1
+746	1
+747	1
+748	1
+749	1
+750	1
+751	1
+752	1
+753	1
+754	1
+755	1
+756	1
+757	1
+758	1
+759	1
+760	1
+761	1
+762	1
+763	1
+764	1
+765	1
+766	1
+767	1
+768	1
+769	1
+770	1
+771	1
+772	1
+773	1
+774	1
+775	1
+776	1
+777	1
+778	1
+779	1
+780	1
+781	1
+782	1
+783	1
+784	1
+785	1
+786	1
+787	1
+788	1
+789	1
+790	1
+791	1
+792	1
+793	1
+794	1
+795	1
+796	1
+797	1
+798	1
+799	1
+800	1
+801	1
+802	1
+803	1
+804	1
+805	1
+806	1
+807	1
+808	1
+809	1
+810	1
+811	1
+812	1
+813	1
+814	1
+815	1
+816	1
+817	1
+818	1
+819	1
+820	1
+821	1
+822	1
+823	1
+824	1
+825	1
+826	1
+827	1
+828	1
+829	1
+830	1
+831	1
+832	1
+833	1
+834	1
+835	1
+836	1
+837	1
+838	1
+839	1
+840	1
+841	1
+842	1
+843	1
+844	1
+845	1
+846	1
+847	1
+848	1
+849	1
+850	1
+851	1
+852	1
+853	1
+854	1
+855	1
+856	1
+857	1
+858	1
+859	1
+860	1
+861	1
+862	1
+863	1
+864	1
+865	1
+866	1
+867	1
+868	1
+869	1
+870	1
+871	1
+872	1
+873	1
+874	1
+875	1
+876	1
+877	1
+878	1
+879	1
+880	1
+881	1
+882	1
+883	1
+884	1
+885	1
+886	1
+887	1
+888	1
+889	1
+890	1
+891	1
+892	1
+893	1
+894	1
+895	1
+896	1
+897	1
+898	1
+899	1
+900	1
+901	1
+902	1
+903	1
+904	1
+905	1
+906	1
+907	1
+908	1
+909	1
+910	1
+911	1
+912	1
+913	1
+914	1
+915	1
+916	1
+917	1
+918	1
+919	1
+920	1
+921	1
+922	1
+923	1
+924	1
+925	1
+926	1
+927	1
+928	1
+929	1
+930	1
+931	1
+932	1
+933	1
+934	1
+935	1
+936	1
+937	1
+938	1
+939	1
+940	1
+941	1
+942	1
+943	1
+944	1
+945	1
+946	1
+947	1
+948	1
+949	1
+950	1
+951	1
+952	1
+953	1
+954	1
+955	1
+956	1
+957	1
+958	1
+959	1
+960	1
+961	1
+962	1
+963	1
+964	1
+965	1
+966	1
+967	1
+968	1
+969	1
+970	1
+971	1
+972	1
+973	1
+974	1
+975	1
+976	1
+977	1
+978	1
+979	1
+980	1
+981	1
+982	1
+983	1
+984	1
+985	1
+986	1
+987	1
+988	1
+989	1
+990	1
+991	1
+992	1
+993	1
+994	1
+995	1
+996	1
+997	1
+998	1
+999	1
+1000	1
+1001	1
+1002	1
+1003	1
+1004	1
+1005	1
+1006	1
+1007	1
+1008	1
+1009	1
+1010	1
+1011	1
+1012	1
+1013	1
+1014	1
+1015	1
+1016	1
+1017	1
+1018	1
+1019	1
+1020	1
+1021	1
+1022	1
+1023	1
+1024	1
+1025	1
+1026	1
+1027	1
+1028	1
+1029	1
+1030	1
+1031	1
+1032	1
+1033	1
+1034	1
+1035	1
+1036	1
+1037	1
+1038	1
+1039	1
+1040	1
+1041	1
+1042	1
+1043	1
+1044	1
+1045	1
+1046	1
+1047	1
+1048	1
+1049	1
+1050	1
+1051	1
+1052	1
+1053	1
+1054	1
+1055	1
+1056	1
+1057	1
+1058	1
+1059	1
+1060	1
+1061	1
+1062	1

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 34.0,
+    "eval_loss": 0.6913050413131714,
+    "eval_matthews_correlation": 0.0,
+    "eval_runtime": 0.4247,
+    "eval_samples": 1043,
+    "eval_samples_per_second": 2455.672,
+    "eval_steps_per_second": 7.063
+}

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 34.0,
+    "eval_loss": 0.6913050413131714,
+    "eval_matthews_correlation": 0.0,
+    "eval_runtime": 0.4247,
+    "eval_samples": 1043,
+    "eval_samples_per_second": 2455.672,
+    "eval_steps_per_second": 7.063
+}

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "apply_GS": false,
+  "auto_mapping": null,
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "exclude_modules": null,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler",
+    "classifier",
+    "score"
+  ],
+  "peft_type": "HRA",
+  "peft_version": "0.18.0",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "attention.output.dense",
+    "intermediate.dense",
+    "value_proj",
+    "output.dense",
+    "key_proj",
+    "query_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

reproduction/glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1499 @@

+{
+  "best_global_step": 100,
+  "best_metric": 0.0,
+  "best_model_checkpoint": "./glue_exp/cola/dr0.0,mlr9e-03,clr9e-03,ep=34.0t=21d10h53m36/checkpoint-100",
+  "epoch": 34.0,
+  "eval_steps": 100,
+  "global_step": 9112,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.373134328358209,
+      "grad_norm": 2.7437047958374023,
+      "learning_rate": 0.00891,
+      "loss": 0.597,
+      "step": 100
+    },
+    {
+      "epoch": 0.373134328358209,
+      "eval_loss": 0.6913050413131714,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.5068,
+      "eval_samples_per_second": 2057.829,
+      "eval_steps_per_second": 5.919,
+      "step": 100
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 0.46689021587371826,
+      "learning_rate": 0.00899730008546003,
+      "loss": 0.6175,
+      "step": 200
+    },
+    {
+      "epoch": 0.746268656716418,
+      "eval_loss": 0.6228563785552979,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4323,
+      "eval_samples_per_second": 2412.816,
+      "eval_steps_per_second": 6.94,
+      "step": 200
+    },
+    {
+      "epoch": 1.1194029850746268,
+      "grad_norm": 0.27211815118789673,
+      "learning_rate": 0.008989094295694706,
+      "loss": 0.63,
+      "step": 300
+    },
+    {
+      "epoch": 1.1194029850746268,
+      "eval_loss": 0.623540997505188,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4265,
+      "eval_samples_per_second": 2445.319,
+      "eval_steps_per_second": 7.034,
+      "step": 300
+    },
+    {
+      "epoch": 1.4925373134328357,
+      "grad_norm": 0.8687720894813538,
+      "learning_rate": 0.00897539240174535,
+      "loss": 0.6336,
+      "step": 400
+    },
+    {
+      "epoch": 1.4925373134328357,
+      "eval_loss": 0.6220645308494568,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4279,
+      "eval_samples_per_second": 2437.49,
+      "eval_steps_per_second": 7.011,
+      "step": 400
+    },
+    {
+      "epoch": 1.8656716417910446,
+      "grad_norm": 0.050571564584970474,
+      "learning_rate": 0.008956211179164375,
+      "loss": 0.6548,
+      "step": 500
+    },
+    {
+      "epoch": 1.8656716417910446,
+      "eval_loss": 0.6198702454566956,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4234,
+      "eval_samples_per_second": 2463.12,
+      "eval_steps_per_second": 7.085,
+      "step": 500
+    },
+    {
+      "epoch": 2.2388059701492535,
+      "grad_norm": 0.22496835887432098,
+      "learning_rate": 0.008931574111975675,
+      "loss": 0.6166,
+      "step": 600
+    },
+    {
+      "epoch": 2.2388059701492535,
+      "eval_loss": 0.6180900931358337,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4225,
+      "eval_samples_per_second": 2468.392,
+      "eval_steps_per_second": 7.1,
+      "step": 600
+    },
+    {
+      "epoch": 2.611940298507463,
+      "grad_norm": 0.14902736246585846,
+      "learning_rate": 0.008901511363922565,
+      "loss": 0.6049,
+      "step": 700
+    },
+    {
+      "epoch": 2.611940298507463,
+      "eval_loss": 0.6187416911125183,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4299,
+      "eval_samples_per_second": 2426.415,
+      "eval_steps_per_second": 6.979,
+      "step": 700
+    },
+    {
+      "epoch": 2.9850746268656714,
+      "grad_norm": 0.10430820286273956,
+      "learning_rate": 0.008866059741537603,
+      "loss": 0.5999,
+      "step": 800
+    },
+    {
+      "epoch": 2.9850746268656714,
+      "eval_loss": 0.6188157200813293,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.428,
+      "eval_samples_per_second": 2437.088,
+      "eval_steps_per_second": 7.01,
+      "step": 800
+    },
+    {
+      "epoch": 3.3582089552238807,
+      "grad_norm": 0.18977157771587372,
+      "learning_rate": 0.008825262649079487,
+      "loss": 0.618,
+      "step": 900
+    },
+    {
+      "epoch": 3.3582089552238807,
+      "eval_loss": 0.6181120872497559,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4218,
+      "eval_samples_per_second": 2472.875,
+      "eval_steps_per_second": 7.113,
+      "step": 900
+    },
+    {
+      "epoch": 3.7313432835820897,
+      "grad_norm": 0.024376844987273216,
+      "learning_rate": 0.008779170035392189,
+      "loss": 0.6018,
+      "step": 1000
+    },
+    {
+      "epoch": 3.7313432835820897,
+      "eval_loss": 0.6186581254005432,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4232,
+      "eval_samples_per_second": 2464.683,
+      "eval_steps_per_second": 7.089,
+      "step": 1000
+    },
+    {
+      "epoch": 4.104477611940299,
+      "grad_norm": 0.04904789477586746,
+      "learning_rate": 0.008727838332751408,
+      "loss": 0.602,
+      "step": 1100
+    },
+    {
+      "epoch": 4.104477611940299,
+      "eval_loss": 0.6193557381629944,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4255,
+      "eval_samples_per_second": 2451.227,
+      "eval_steps_per_second": 7.051,
+      "step": 1100
+    },
+    {
+      "epoch": 4.477611940298507,
+      "grad_norm": 0.17297646403312683,
+      "learning_rate": 0.008671330387773206,
+      "loss": 0.6021,
+      "step": 1200
+    },
+    {
+      "epoch": 4.477611940298507,
+      "eval_loss": 0.618083655834198,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4223,
+      "eval_samples_per_second": 2469.707,
+      "eval_steps_per_second": 7.104,
+      "step": 1200
+    },
+    {
+      "epoch": 4.850746268656716,
+      "grad_norm": 0.2165410965681076,
+      "learning_rate": 0.008609715384469405,
+      "loss": 0.6144,
+      "step": 1300
+    },
+    {
+      "epoch": 4.850746268656716,
+      "eval_loss": 0.6193823218345642,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 1.379,
+      "eval_samples_per_second": 756.328,
+      "eval_steps_per_second": 2.175,
+      "step": 1300
+    },
+    {
+      "epoch": 5.223880597014926,
+      "grad_norm": 0.033694978803396225,
+      "learning_rate": 0.00854306875954397,
+      "loss": 0.6039,
+      "step": 1400
+    },
+    {
+      "epoch": 5.223880597014926,
+      "eval_loss": 0.618939220905304,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.426,
+      "eval_samples_per_second": 2448.118,
+      "eval_steps_per_second": 7.042,
+      "step": 1400
+    },
+    {
+      "epoch": 5.597014925373134,
+      "grad_norm": 0.245077446103096,
+      "learning_rate": 0.008471472110034071,
+      "loss": 0.6012,
+      "step": 1500
+    },
+    {
+      "epoch": 5.597014925373134,
+      "eval_loss": 0.6183524131774902,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4218,
+      "eval_samples_per_second": 2472.844,
+      "eval_steps_per_second": 7.113,
+      "step": 1500
+    },
+    {
+      "epoch": 5.970149253731344,
+      "grad_norm": 0.14359234273433685,
+      "learning_rate": 0.008395013093408902,
+      "loss": 0.6142,
+      "step": 1600
+    },
+    {
+      "epoch": 5.970149253731344,
+      "eval_loss": 0.6183721423149109,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4212,
+      "eval_samples_per_second": 2476.373,
+      "eval_steps_per_second": 7.123,
+      "step": 1600
+    },
+    {
+      "epoch": 6.343283582089552,
+      "grad_norm": 0.12752141058444977,
+      "learning_rate": 0.008313785320248571,
+      "loss": 0.6068,
+      "step": 1700
+    },
+    {
+      "epoch": 6.343283582089552,
+      "eval_loss": 0.6180772185325623,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4259,
+      "eval_samples_per_second": 2448.766,
+      "eval_steps_per_second": 7.043,
+      "step": 1700
+    },
+    {
+      "epoch": 6.7164179104477615,
+      "grad_norm": 0.012222304940223694,
+      "learning_rate": 0.008227888239634457,
+      "loss": 0.6014,
+      "step": 1800
+    },
+    {
+      "epoch": 6.7164179104477615,
+      "eval_loss": 0.6189431548118591,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4217,
+      "eval_samples_per_second": 2473.387,
+      "eval_steps_per_second": 7.114,
+      "step": 1800
+    },
+    {
+      "epoch": 7.08955223880597,
+      "grad_norm": 0.24005922675132751,
+      "learning_rate": 0.008137427017391348,
+      "loss": 0.6138,
+      "step": 1900
+    },
+    {
+      "epoch": 7.08955223880597,
+      "eval_loss": 0.6186363101005554,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4261,
+      "eval_samples_per_second": 2447.668,
+      "eval_steps_per_second": 7.04,
+      "step": 1900
+    },
+    {
+      "epoch": 7.462686567164179,
+      "grad_norm": 0.046122558414936066,
+      "learning_rate": 0.008042512407330438,
+      "loss": 0.6127,
+      "step": 2000
+    },
+    {
+      "epoch": 7.462686567164179,
+      "eval_loss": 0.6181656718254089,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4259,
+      "eval_samples_per_second": 2448.791,
+      "eval_steps_per_second": 7.044,
+      "step": 2000
+    },
+    {
+      "epoch": 7.835820895522388,
+      "grad_norm": 0.10897961258888245,
+      "learning_rate": 0.007943260615650823,
+      "loss": 0.6052,
+      "step": 2100
+    },
+    {
+      "epoch": 7.835820895522388,
+      "eval_loss": 0.618504524230957,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4215,
+      "eval_samples_per_second": 2474.598,
+      "eval_steps_per_second": 7.118,
+      "step": 2100
+    },
+    {
+      "epoch": 8.208955223880597,
+      "grad_norm": 0.0767781138420105,
+      "learning_rate": 0.007839793158665505,
+      "loss": 0.6021,
+      "step": 2200
+    },
+    {
+      "epoch": 8.208955223880597,
+      "eval_loss": 0.6189298629760742,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4304,
+      "eval_samples_per_second": 2423.202,
+      "eval_steps_per_second": 6.97,
+      "step": 2200
+    },
+    {
+      "epoch": 8.582089552238806,
+      "grad_norm": 0.012093938887119293,
+      "learning_rate": 0.007732236714026093,
+      "loss": 0.6103,
+      "step": 2300
+    },
+    {
+      "epoch": 8.582089552238806,
+      "eval_loss": 0.6190155148506165,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4283,
+      "eval_samples_per_second": 2435.13,
+      "eval_steps_per_second": 7.004,
+      "step": 2300
+    },
+    {
+      "epoch": 8.955223880597014,
+      "grad_norm": 0.10195652395486832,
+      "learning_rate": 0.007620722965628375,
+      "loss": 0.6084,
+      "step": 2400
+    },
+    {
+      "epoch": 8.955223880597014,
+      "eval_loss": 0.618133008480072,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4257,
+      "eval_samples_per_second": 2450.299,
+      "eval_steps_per_second": 7.048,
+      "step": 2400
+    },
+    {
+      "epoch": 9.328358208955224,
+      "grad_norm": 0.14498992264270782,
+      "learning_rate": 0.007505388442388603,
+      "loss": 0.6028,
+      "step": 2500
+    },
+    {
+      "epoch": 9.328358208955224,
+      "eval_loss": 0.6181071400642395,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.426,
+      "eval_samples_per_second": 2448.253,
+      "eval_steps_per_second": 7.042,
+      "step": 2500
+    },
+    {
+      "epoch": 9.701492537313433,
+      "grad_norm": 0.16252005100250244,
+      "learning_rate": 0.007386374351087919,
+      "loss": 0.6104,
+      "step": 2600
+    },
+    {
+      "epoch": 9.701492537313433,
+      "eval_loss": 0.6188204288482666,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.414,
+      "eval_samples_per_second": 2519.216,
+      "eval_steps_per_second": 7.246,
+      "step": 2600
+    },
+    {
+      "epoch": 10.074626865671641,
+      "grad_norm": 0.07220250368118286,
+      "learning_rate": 0.007263826403489559,
+      "loss": 0.6066,
+      "step": 2700
+    },
+    {
+      "epoch": 10.074626865671641,
+      "eval_loss": 0.6182201504707336,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4238,
+      "eval_samples_per_second": 2461.247,
+      "eval_steps_per_second": 7.079,
+      "step": 2700
+    },
+    {
+      "epoch": 10.447761194029852,
+      "grad_norm": 0.022631853818893433,
+      "learning_rate": 0.007137894637940499,
+      "loss": 0.602,
+      "step": 2800
+    },
+    {
+      "epoch": 10.447761194029852,
+      "eval_loss": 0.6184264421463013,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4255,
+      "eval_samples_per_second": 2451.035,
+      "eval_steps_per_second": 7.05,
+      "step": 2800
+    },
+    {
+      "epoch": 10.82089552238806,
+      "grad_norm": 0.03383394703269005,
+      "learning_rate": 0.007008733235675957,
+      "loss": 0.6063,
+      "step": 2900
+    },
+    {
+      "epoch": 10.82089552238806,
+      "eval_loss": 0.6181037425994873,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4243,
+      "eval_samples_per_second": 2458.313,
+      "eval_steps_per_second": 7.071,
+      "step": 2900
+    },
+    {
+      "epoch": 11.194029850746269,
+      "grad_norm": 0.09707663208246231,
+      "learning_rate": 0.006876500332051677,
+      "loss": 0.6069,
+      "step": 3000
+    },
+    {
+      "epoch": 11.194029850746269,
+      "eval_loss": 0.6191997528076172,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4275,
+      "eval_samples_per_second": 2439.676,
+      "eval_steps_per_second": 7.017,
+      "step": 3000
+    },
+    {
+      "epoch": 11.567164179104477,
+      "grad_norm": 0.051615312695503235,
+      "learning_rate": 0.006741357822935066,
+      "loss": 0.6116,
+      "step": 3100
+    },
+    {
+      "epoch": 11.567164179104477,
+      "eval_loss": 0.6180777549743652,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4269,
+      "eval_samples_per_second": 2443.257,
+      "eval_steps_per_second": 7.028,
+      "step": 3100
+    },
+    {
+      "epoch": 11.940298507462687,
+      "grad_norm": 0.07059226930141449,
+      "learning_rate": 0.006603471166492263,
+      "loss": 0.6106,
+      "step": 3200
+    },
+    {
+      "epoch": 11.940298507462687,
+      "eval_loss": 0.6182488203048706,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.3997,
+      "eval_samples_per_second": 2609.668,
+      "eval_steps_per_second": 7.506,
+      "step": 3200
+    },
+    {
+      "epoch": 12.313432835820896,
+      "grad_norm": 0.08970490097999573,
+      "learning_rate": 0.006463009180613802,
+      "loss": 0.6014,
+      "step": 3300
+    },
+    {
+      "epoch": 12.313432835820896,
+      "eval_loss": 0.6201241612434387,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4247,
+      "eval_samples_per_second": 2455.698,
+      "eval_steps_per_second": 7.063,
+      "step": 3300
+    },
+    {
+      "epoch": 12.686567164179104,
+      "grad_norm": 0.038416266441345215,
+      "learning_rate": 0.006320143836226874,
+      "loss": 0.6143,
+      "step": 3400
+    },
+    {
+      "epoch": 12.686567164179104,
+      "eval_loss": 0.6180766820907593,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4246,
+      "eval_samples_per_second": 2456.156,
+      "eval_steps_per_second": 7.065,
+      "step": 3400
+    },
+    {
+      "epoch": 13.059701492537313,
+      "grad_norm": 0.10318686068058014,
+      "learning_rate": 0.006175050046747262,
+      "loss": 0.6053,
+      "step": 3500
+    },
+    {
+      "epoch": 13.059701492537313,
+      "eval_loss": 0.6187887191772461,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4219,
+      "eval_samples_per_second": 2472.32,
+      "eval_steps_per_second": 7.111,
+      "step": 3500
+    },
+    {
+      "epoch": 13.432835820895523,
+      "grad_norm": 0.08013023436069489,
+      "learning_rate": 0.0060279054539287185,
+      "loss": 0.5995,
+      "step": 3600
+    },
+    {
+      "epoch": 13.432835820895523,
+      "eval_loss": 0.619225800037384,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4284,
+      "eval_samples_per_second": 2434.517,
+      "eval_steps_per_second": 7.002,
+      "step": 3600
+    },
+    {
+      "epoch": 13.805970149253731,
+      "grad_norm": 0.04627981036901474,
+      "learning_rate": 0.005878890210371962,
+      "loss": 0.6185,
+      "step": 3700
+    },
+    {
+      "epoch": 13.805970149253731,
+      "eval_loss": 0.6181351542472839,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4275,
+      "eval_samples_per_second": 2439.928,
+      "eval_steps_per_second": 7.018,
+      "step": 3700
+    },
+    {
+      "epoch": 14.17910447761194,
+      "grad_norm": 0.07548993080854416,
+      "learning_rate": 0.0057281867589596,
+      "loss": 0.6032,
+      "step": 3800
+    },
+    {
+      "epoch": 14.17910447761194,
+      "eval_loss": 0.6188670992851257,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.427,
+      "eval_samples_per_second": 2442.391,
+      "eval_steps_per_second": 7.025,
+      "step": 3800
+    },
+    {
+      "epoch": 14.552238805970148,
+      "grad_norm": 0.037377819418907166,
+      "learning_rate": 0.005575979609486994,
+      "loss": 0.6177,
+      "step": 3900
+    },
+    {
+      "epoch": 14.552238805970148,
+      "eval_loss": 0.6180774569511414,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.428,
+      "eval_samples_per_second": 2437.098,
+      "eval_steps_per_second": 7.01,
+      "step": 3900
+    },
+    {
+      "epoch": 14.925373134328359,
+      "grad_norm": 0.010882982052862644,
+      "learning_rate": 0.005422455112762556,
+      "loss": 0.605,
+      "step": 4000
+    },
+    {
+      "epoch": 14.925373134328359,
+      "eval_loss": 0.6190503835678101,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4278,
+      "eval_samples_per_second": 2437.827,
+      "eval_steps_per_second": 7.012,
+      "step": 4000
+    },
+    {
+      "epoch": 15.298507462686567,
+      "grad_norm": 0.17184129357337952,
+      "learning_rate": 0.005267801232454065,
+      "loss": 0.6104,
+      "step": 4100
+    },
+    {
+      "epoch": 15.298507462686567,
+      "eval_loss": 0.6180769801139832,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4282,
+      "eval_samples_per_second": 2435.989,
+      "eval_steps_per_second": 7.007,
+      "step": 4100
+    },
+    {
+      "epoch": 15.671641791044776,
+      "grad_norm": 0.16398368775844574,
+      "learning_rate": 0.005112207314960288,
+      "loss": 0.637,
+      "step": 4200
+    },
+    {
+      "epoch": 15.671641791044776,
+      "eval_loss": 0.618771493434906,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.427,
+      "eval_samples_per_second": 2442.389,
+      "eval_steps_per_second": 7.025,
+      "step": 4200
+    },
+    {
+      "epoch": 16.044776119402986,
+      "grad_norm": 0.09540565311908722,
+      "learning_rate": 0.004955863857589732,
+      "loss": 0.5997,
+      "step": 4300
+    },
+    {
+      "epoch": 16.044776119402986,
+      "eval_loss": 0.6193976998329163,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4275,
+      "eval_samples_per_second": 2439.988,
+      "eval_steps_per_second": 7.018,
+      "step": 4300
+    },
+    {
+      "epoch": 16.417910447761194,
+      "grad_norm": 0.057080455124378204,
+      "learning_rate": 0.004798962275330275,
+      "loss": 0.6051,
+      "step": 4400
+    },
+    {
+      "epoch": 16.417910447761194,
+      "eval_loss": 0.6188737750053406,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 1.4148,
+      "eval_samples_per_second": 737.205,
+      "eval_steps_per_second": 2.12,
+      "step": 4400
+    },
+    {
+      "epoch": 16.791044776119403,
+      "grad_norm": 0.11938146501779556,
+      "learning_rate": 0.004641694666495282,
+      "loss": 0.61,
+      "step": 4500
+    },
+    {
+      "epoch": 16.791044776119403,
+      "eval_loss": 0.6181567907333374,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4265,
+      "eval_samples_per_second": 2445.718,
+      "eval_steps_per_second": 7.035,
+      "step": 4500
+    },
+    {
+      "epoch": 17.16417910447761,
+      "grad_norm": 0.06280449777841568,
+      "learning_rate": 0.004484253577533101,
+      "loss": 0.6067,
+      "step": 4600
+    },
+    {
+      "epoch": 17.16417910447761,
+      "eval_loss": 0.6186078786849976,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.427,
+      "eval_samples_per_second": 2442.396,
+      "eval_steps_per_second": 7.025,
+      "step": 4600
+    },
+    {
+      "epoch": 17.53731343283582,
+      "grad_norm": 0.04914025962352753,
+      "learning_rate": 0.004326831767287894,
+      "loss": 0.6025,
+      "step": 4700
+    },
+    {
+      "epoch": 17.53731343283582,
+      "eval_loss": 0.6194823384284973,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4279,
+      "eval_samples_per_second": 2437.228,
+      "eval_steps_per_second": 7.01,
+      "step": 4700
+    },
+    {
+      "epoch": 17.91044776119403,
+      "grad_norm": 0.05280961096286774,
+      "learning_rate": 0.00416962197100044,
+      "loss": 0.6198,
+      "step": 4800
+    },
+    {
+      "epoch": 17.91044776119403,
+      "eval_loss": 0.6180894374847412,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4304,
+      "eval_samples_per_second": 2423.377,
+      "eval_steps_per_second": 6.97,
+      "step": 4800
+    },
+    {
+      "epoch": 18.28358208955224,
+      "grad_norm": 0.12214235216379166,
+      "learning_rate": 0.004012816664337817,
+      "loss": 0.6092,
+      "step": 4900
+    },
+    {
+      "epoch": 18.28358208955224,
+      "eval_loss": 0.6181216239929199,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4239,
+      "eval_samples_per_second": 2460.505,
+      "eval_steps_per_second": 7.077,
+      "step": 4900
+    },
+    {
+      "epoch": 18.65671641791045,
+      "grad_norm": 0.16166962683200836,
+      "learning_rate": 0.0038566078277409025,
+      "loss": 0.6072,
+      "step": 5000
+    },
+    {
+      "epoch": 18.65671641791045,
+      "eval_loss": 0.6187422275543213,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4252,
+      "eval_samples_per_second": 2452.844,
+      "eval_steps_per_second": 7.055,
+      "step": 5000
+    },
+    {
+      "epoch": 19.029850746268657,
+      "grad_norm": 0.23016615211963654,
+      "learning_rate": 0.003701186711378183,
+      "loss": 0.6004,
+      "step": 5100
+    },
+    {
+      "epoch": 19.029850746268657,
+      "eval_loss": 0.6192060708999634,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4288,
+      "eval_samples_per_second": 2432.269,
+      "eval_steps_per_second": 6.996,
+      "step": 5100
+    },
+    {
+      "epoch": 19.402985074626866,
+      "grad_norm": 0.0806824266910553,
+      "learning_rate": 0.003546743600993655,
+      "loss": 0.5981,
+      "step": 5200
+    },
+    {
+      "epoch": 19.402985074626866,
+      "eval_loss": 0.6192720532417297,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4228,
+      "eval_samples_per_second": 2466.987,
+      "eval_steps_per_second": 7.096,
+      "step": 5200
+    },
+    {
+      "epoch": 19.776119402985074,
+      "grad_norm": 0.007001778110861778,
+      "learning_rate": 0.0033934675849354953,
+      "loss": 0.6196,
+      "step": 5300
+    },
+    {
+      "epoch": 19.776119402985074,
+      "eval_loss": 0.6180797815322876,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.428,
+      "eval_samples_per_second": 2436.791,
+      "eval_steps_per_second": 7.009,
+      "step": 5300
+    },
+    {
+      "epoch": 20.149253731343283,
+      "grad_norm": 0.15153659880161285,
+      "learning_rate": 0.0032415463226507265,
+      "loss": 0.605,
+      "step": 5400
+    },
+    {
+      "epoch": 20.149253731343283,
+      "eval_loss": 0.618575930595398,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4015,
+      "eval_samples_per_second": 2597.772,
+      "eval_steps_per_second": 7.472,
+      "step": 5400
+    },
+    {
+      "epoch": 20.52238805970149,
+      "grad_norm": 0.030688393861055374,
+      "learning_rate": 0.0030911658149293288,
+      "loss": 0.6121,
+      "step": 5500
+    },
+    {
+      "epoch": 20.52238805970149,
+      "eval_loss": 0.6181564331054688,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4236,
+      "eval_samples_per_second": 2462.078,
+      "eval_steps_per_second": 7.082,
+      "step": 5500
+    },
+    {
+      "epoch": 20.895522388059703,
+      "grad_norm": 0.15170888602733612,
+      "learning_rate": 0.0029425101761790745,
+      "loss": 0.603,
+      "step": 5600
+    },
+    {
+      "epoch": 20.895522388059703,
+      "eval_loss": 0.6185344457626343,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4255,
+      "eval_samples_per_second": 2451.138,
+      "eval_steps_per_second": 7.05,
+      "step": 5600
+    },
+    {
+      "epoch": 21.26865671641791,
+      "grad_norm": 0.2022939920425415,
+      "learning_rate": 0.002795761409009909,
+      "loss": 0.6104,
+      "step": 5700
+    },
+    {
+      "epoch": 21.26865671641791,
+      "eval_loss": 0.6182953715324402,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4293,
+      "eval_samples_per_second": 2429.467,
+      "eval_steps_per_second": 6.988,
+      "step": 5700
+    },
+    {
+      "epoch": 21.64179104477612,
+      "grad_norm": 0.019533611834049225,
+      "learning_rate": 0.0026510991814038634,
+      "loss": 0.6059,
+      "step": 5800
+    },
+    {
+      "epoch": 21.64179104477612,
+      "eval_loss": 0.6185408234596252,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4215,
+      "eval_samples_per_second": 2474.539,
+      "eval_steps_per_second": 7.118,
+      "step": 5800
+    },
+    {
+      "epoch": 22.01492537313433,
+      "grad_norm": 0.014536094851791859,
+      "learning_rate": 0.002508700606743287,
+      "loss": 0.6067,
+      "step": 5900
+    },
+    {
+      "epoch": 22.01492537313433,
+      "eval_loss": 0.618817150592804,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4272,
+      "eval_samples_per_second": 2441.747,
+      "eval_steps_per_second": 7.023,
+      "step": 5900
+    },
+    {
+      "epoch": 22.388059701492537,
+      "grad_norm": 0.03431111201643944,
+      "learning_rate": 0.002368740026966765,
+      "loss": 0.5992,
+      "step": 6000
+    },
+    {
+      "epoch": 22.388059701492537,
+      "eval_loss": 0.6190950870513916,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4256,
+      "eval_samples_per_second": 2450.522,
+      "eval_steps_per_second": 7.048,
+      "step": 6000
+    },
+    {
+      "epoch": 22.761194029850746,
+      "grad_norm": 0.11788914352655411,
+      "learning_rate": 0.002231388799118156,
+      "loss": 0.6037,
+      "step": 6100
+    },
+    {
+      "epoch": 22.761194029850746,
+      "eval_loss": 0.6187638640403748,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4282,
+      "eval_samples_per_second": 2435.607,
+      "eval_steps_per_second": 7.006,
+      "step": 6100
+    },
+    {
+      "epoch": 23.134328358208954,
+      "grad_norm": 0.03254074975848198,
+      "learning_rate": 0.002096815085550116,
+      "loss": 0.6222,
+      "step": 6200
+    },
+    {
+      "epoch": 23.134328358208954,
+      "eval_loss": 0.6181178092956543,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4246,
+      "eval_samples_per_second": 2456.419,
+      "eval_steps_per_second": 7.065,
+      "step": 6200
+    },
+    {
+      "epoch": 23.507462686567163,
+      "grad_norm": 0.019555965438485146,
+      "learning_rate": 0.001965183648038961,
+      "loss": 0.6021,
+      "step": 6300
+    },
+    {
+      "epoch": 23.507462686567163,
+      "eval_loss": 0.6185086369514465,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4245,
+      "eval_samples_per_second": 2456.833,
+      "eval_steps_per_second": 7.067,
+      "step": 6300
+    },
+    {
+      "epoch": 23.880597014925375,
+      "grad_norm": 0.15938392281532288,
+      "learning_rate": 0.001836655646062926,
+      "loss": 0.6107,
+      "step": 6400
+    },
+    {
+      "epoch": 23.880597014925375,
+      "eval_loss": 0.6182588934898376,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.426,
+      "eval_samples_per_second": 2448.279,
+      "eval_steps_per_second": 7.042,
+      "step": 6400
+    },
+    {
+      "epoch": 24.253731343283583,
+      "grad_norm": 0.11047554016113281,
+      "learning_rate": 0.0017113884394908182,
+      "loss": 0.6059,
+      "step": 6500
+    },
+    {
+      "epoch": 24.253731343283583,
+      "eval_loss": 0.6184186339378357,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4223,
+      "eval_samples_per_second": 2469.805,
+      "eval_steps_per_second": 7.104,
+      "step": 6500
+    },
+    {
+      "epoch": 24.62686567164179,
+      "grad_norm": 0.19051669538021088,
+      "learning_rate": 0.0015895353959226057,
+      "loss": 0.6227,
+      "step": 6600
+    },
+    {
+      "epoch": 24.62686567164179,
+      "eval_loss": 0.6181543469429016,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4244,
+      "eval_samples_per_second": 2457.726,
+      "eval_steps_per_second": 7.069,
+      "step": 6600
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.21268145740032196,
+      "learning_rate": 0.0014712457029178454,
+      "loss": 0.5919,
+      "step": 6700
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.618682861328125,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4275,
+      "eval_samples_per_second": 2439.493,
+      "eval_steps_per_second": 7.017,
+      "step": 6700
+    },
+    {
+      "epoch": 25.37313432835821,
+      "grad_norm": 0.057016950100660324,
+      "learning_rate": 0.001356664185341829,
+      "loss": 0.6053,
+      "step": 6800
+    },
+    {
+      "epoch": 25.37313432835821,
+      "eval_loss": 0.6188849806785583,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.426,
+      "eval_samples_per_second": 2448.377,
+      "eval_steps_per_second": 7.042,
+      "step": 6800
+    },
+    {
+      "epoch": 25.746268656716417,
+      "grad_norm": 0.19724732637405396,
+      "learning_rate": 0.0012459311280530751,
+      "loss": 0.616,
+      "step": 6900
+    },
+    {
+      "epoch": 25.746268656716417,
+      "eval_loss": 0.6183460354804993,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4235,
+      "eval_samples_per_second": 2462.79,
+      "eval_steps_per_second": 7.084,
+      "step": 6900
+    },
+    {
+      "epoch": 26.119402985074625,
+      "grad_norm": 0.017139364033937454,
+      "learning_rate": 0.0011391821041492733,
+      "loss": 0.5993,
+      "step": 7000
+    },
+    {
+      "epoch": 26.119402985074625,
+      "eval_loss": 0.6186425089836121,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4225,
+      "eval_samples_per_second": 2468.694,
+      "eval_steps_per_second": 7.101,
+      "step": 7000
+    },
+    {
+      "epoch": 26.492537313432837,
+      "grad_norm": 0.16466005146503448,
+      "learning_rate": 0.001036547808981928,
+      "loss": 0.6017,
+      "step": 7100
+    },
+    {
+      "epoch": 26.492537313432837,
+      "eval_loss": 0.6189157366752625,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4295,
+      "eval_samples_per_second": 2428.64,
+      "eval_steps_per_second": 6.986,
+      "step": 7100
+    },
+    {
+      "epoch": 26.865671641791046,
+      "grad_norm": 0.11627840995788574,
+      "learning_rate": 0.0009381539001429589,
+      "loss": 0.6066,
+      "step": 7200
+    },
+    {
+      "epoch": 26.865671641791046,
+      "eval_loss": 0.6186762452125549,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4269,
+      "eval_samples_per_second": 2443.358,
+      "eval_steps_per_second": 7.028,
+      "step": 7200
+    },
+    {
+      "epoch": 27.238805970149254,
+      "grad_norm": 0.025689436122775078,
+      "learning_rate": 0.000844120843619142,
+      "loss": 0.6188,
+      "step": 7300
+    },
+    {
+      "epoch": 27.238805970149254,
+      "eval_loss": 0.6182805299758911,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4281,
+      "eval_samples_per_second": 2436.449,
+      "eval_steps_per_second": 7.008,
+      "step": 7300
+    },
+    {
+      "epoch": 27.611940298507463,
+      "grad_norm": 0.06709582358598709,
+      "learning_rate": 0.0007545637663027499,
+      "loss": 0.6024,
+      "step": 7400
+    },
+    {
+      "epoch": 27.611940298507463,
+      "eval_loss": 0.6183831691741943,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4261,
+      "eval_samples_per_second": 2447.942,
+      "eval_steps_per_second": 7.041,
+      "step": 7400
+    },
+    {
+      "epoch": 27.98507462686567,
+      "grad_norm": 0.15548723936080933,
+      "learning_rate": 0.0006695923150389905,
+      "loss": 0.6074,
+      "step": 7500
+    },
+    {
+      "epoch": 27.98507462686567,
+      "eval_loss": 0.6184422373771667,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.3918,
+      "eval_samples_per_second": 2661.921,
+      "eval_steps_per_second": 7.657,
+      "step": 7500
+    },
+    {
+      "epoch": 28.35820895522388,
+      "grad_norm": 0.11029838770627975,
+      "learning_rate": 0.0005893105223827713,
+      "loss": 0.606,
+      "step": 7600
+    },
+    {
+      "epoch": 28.35820895522388,
+      "eval_loss": 0.6184215545654297,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4213,
+      "eval_samples_per_second": 2475.871,
+      "eval_steps_per_second": 7.121,
+      "step": 7600
+    },
+    {
+      "epoch": 28.73134328358209,
+      "grad_norm": 0.02234813943505287,
+      "learning_rate": 0.000513816679229194,
+      "loss": 0.6088,
+      "step": 7700
+    },
+    {
+      "epoch": 28.73134328358209,
+      "eval_loss": 0.6184214949607849,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4289,
+      "eval_samples_per_second": 2431.751,
+      "eval_steps_per_second": 6.994,
+      "step": 7700
+    },
+    {
+      "epoch": 29.104477611940297,
+      "grad_norm": 0.06740151345729828,
+      "learning_rate": 0.00044320321447369003,
+      "loss": 0.6091,
+      "step": 7800
+    },
+    {
+      "epoch": 29.104477611940297,
+      "eval_loss": 0.6184511780738831,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.429,
+      "eval_samples_per_second": 2431.159,
+      "eval_steps_per_second": 6.993,
+      "step": 7800
+    },
+    {
+      "epoch": 29.47761194029851,
+      "grad_norm": 0.1996515542268753,
+      "learning_rate": 0.00037755658184913206,
+      "loss": 0.6042,
+      "step": 7900
+    },
+    {
+      "epoch": 29.47761194029851,
+      "eval_loss": 0.6184438467025757,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4206,
+      "eval_samples_per_second": 2480.062,
+      "eval_steps_per_second": 7.133,
+      "step": 7900
+    },
+    {
+      "epoch": 29.850746268656717,
+      "grad_norm": 0.020066693425178528,
+      "learning_rate": 0.00031695715407849663,
+      "loss": 0.6022,
+      "step": 8000
+    },
+    {
+      "epoch": 29.850746268656717,
+      "eval_loss": 0.6184985041618347,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4229,
+      "eval_samples_per_second": 2466.537,
+      "eval_steps_per_second": 7.095,
+      "step": 8000
+    },
+    {
+      "epoch": 30.223880597014926,
+      "grad_norm": 0.11092804372310638,
+      "learning_rate": 0.00026147912447263273,
+      "loss": 0.6168,
+      "step": 8100
+    },
+    {
+      "epoch": 30.223880597014926,
+      "eval_loss": 0.6184263229370117,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.424,
+      "eval_samples_per_second": 2459.842,
+      "eval_steps_per_second": 7.075,
+      "step": 8100
+    },
+    {
+      "epoch": 30.597014925373134,
+      "grad_norm": 0.06512635201215744,
+      "learning_rate": 0.00021119041609364567,
+      "loss": 0.6047,
+      "step": 8200
+    },
+    {
+      "epoch": 30.597014925373134,
+      "eval_loss": 0.6184566617012024,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4256,
+      "eval_samples_per_second": 2450.699,
+      "eval_steps_per_second": 7.049,
+      "step": 8200
+    },
+    {
+      "epoch": 30.970149253731343,
+      "grad_norm": 0.19852015376091003,
+      "learning_rate": 0.00016615259859508396,
+      "loss": 0.6074,
+      "step": 8300
+    },
+    {
+      "epoch": 30.970149253731343,
+      "eval_loss": 0.6184257864952087,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4249,
+      "eval_samples_per_second": 2454.848,
+      "eval_steps_per_second": 7.061,
+      "step": 8300
+    },
+    {
+      "epoch": 31.34328358208955,
+      "grad_norm": 0.11174537986516953,
+      "learning_rate": 0.00012642081284075857,
+      "loss": 0.6022,
+      "step": 8400
+    },
+    {
+      "epoch": 31.34328358208955,
+      "eval_loss": 0.618462860584259,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4246,
+      "eval_samples_per_second": 2456.502,
+      "eval_steps_per_second": 7.066,
+      "step": 8400
+    },
+    {
+      "epoch": 31.71641791044776,
+      "grad_norm": 0.1555200070142746,
+      "learning_rate": 9.204370339448152e-05,
+      "loss": 0.6144,
+      "step": 8500
+    },
+    {
+      "epoch": 31.71641791044776,
+      "eval_loss": 0.6184436082839966,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 1.379,
+      "eval_samples_per_second": 756.349,
+      "eval_steps_per_second": 2.175,
+      "step": 8500
+    },
+    {
+      "epoch": 32.08955223880597,
+      "grad_norm": 0.022661428898572922,
+      "learning_rate": 6.306335896337538e-05,
+      "loss": 0.6129,
+      "step": 8600
+    },
+    {
+      "epoch": 32.08955223880597,
+      "eval_loss": 0.6184321641921997,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4274,
+      "eval_samples_per_second": 2440.463,
+      "eval_steps_per_second": 7.02,
+      "step": 8600
+    },
+    {
+      "epoch": 32.46268656716418,
+      "grad_norm": 0.15528610348701477,
+      "learning_rate": 3.951526086767903e-05,
+      "loss": 0.6028,
+      "step": 8700
+    },
+    {
+      "epoch": 32.46268656716418,
+      "eval_loss": 0.6184345483779907,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4242,
+      "eval_samples_per_second": 2458.86,
+      "eval_steps_per_second": 7.072,
+      "step": 8700
+    },
+    {
+      "epoch": 32.83582089552239,
+      "grad_norm": 0.24232083559036255,
+      "learning_rate": 2.142823960012463e-05,
+      "loss": 0.6033,
+      "step": 8800
+    },
+    {
+      "epoch": 32.83582089552239,
+      "eval_loss": 0.6184403896331787,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4234,
+      "eval_samples_per_second": 2463.571,
+      "eval_steps_per_second": 7.086,
+      "step": 8800
+    },
+    {
+      "epoch": 33.208955223880594,
+      "grad_norm": 0.022899480536580086,
+      "learning_rate": 8.82443952808798e-06,
+      "loss": 0.6058,
+      "step": 8900
+    },
+    {
+      "epoch": 33.208955223880594,
+      "eval_loss": 0.6184419989585876,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4208,
+      "eval_samples_per_second": 2478.774,
+      "eval_steps_per_second": 7.13,
+      "step": 8900
+    },
+    {
+      "epoch": 33.582089552238806,
+      "grad_norm": 0.1096784919500351,
+      "learning_rate": 1.719291781713761e-06,
+      "loss": 0.596,
+      "step": 9000
+    },
+    {
+      "epoch": 33.582089552238806,
+      "eval_loss": 0.618442952632904,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4249,
+      "eval_samples_per_second": 2454.479,
+      "eval_steps_per_second": 7.06,
+      "step": 9000
+    },
+    {
+      "epoch": 33.95522388059702,
+      "grad_norm": 0.1113029196858406,
+      "learning_rate": 1.2149536122013637e-07,
+      "loss": 0.6187,
+      "step": 9100
+    },
+    {
+      "epoch": 33.95522388059702,
+      "eval_loss": 0.618442952632904,
+      "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.4223,
+      "eval_samples_per_second": 2469.6,
+      "eval_steps_per_second": 7.103,
+      "step": 9100
+    },
+    {
+      "epoch": 34.0,
+      "step": 9112,
+      "total_flos": 9702274347045888.0,
+      "train_loss": 0.608722202394802,
+      "train_runtime": 3174.1388,
+      "train_samples_per_second": 91.595,
+      "train_steps_per_second": 2.871
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 9112,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 34,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9702274347045888.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/MNLI-m.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/MNLI-mm.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 8.0,
+    "epoch_mm": 8.0,
+    "eval_accuracy": 0.9054508405501783,
+    "eval_accuracy_mm": 0.9054508405501783,
+    "eval_loss": 0.3119710385799408,
+    "eval_loss_mm": 0.3119710385799408,
+    "eval_runtime": 7.482,
+    "eval_runtime_mm": 7.4867,
+    "eval_samples": 9815,
+    "eval_samples_mm": 9832,
+    "eval_samples_per_second": 1311.821,
+    "eval_samples_per_second_mm": 1310.991,
+    "eval_steps_per_second": 2.673,
+    "eval_steps_per_second_mm": 2.671
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/eval_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 8.0,
+    "epoch_mm": 8.0,
+    "eval_accuracy": 0.9054508405501783,
+    "eval_accuracy_mm": 0.9054508405501783,
+    "eval_loss": 0.3119710385799408,
+    "eval_loss_mm": 0.3119710385799408,
+    "eval_runtime": 7.482,
+    "eval_runtime_mm": 7.4867,
+    "eval_samples": 9815,
+    "eval_samples_mm": 9832,
+    "eval_samples_per_second": 1311.821,
+    "eval_samples_per_second_mm": 1310.991,
+    "eval_steps_per_second": 2.673,
+    "eval_steps_per_second_mm": 2.671
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "apply_GS": false,
+  "auto_mapping": null,
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "exclude_modules": null,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler",
+    "classifier",
+    "score"
+  ],
+  "peft_type": "HRA",
+  "peft_version": "0.18.0",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "query_proj",
+    "output.dense",
+    "value_proj",
+    "attention.output.dense",
+    "intermediate.dense",
+    "key_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

reproduction/glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1611 @@

+{
+  "best_global_step": 89000,
+  "best_metric": 0.9054508405501783,
+  "best_model_checkpoint": "./glue_exp/mnli/dr0.0,mlr1e-02,clr1e-02,ep=8.0t=20d22h22m35/checkpoint-89000",
+  "epoch": 8.0,
+  "eval_steps": 1000,
+  "global_step": 98176,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08148631029986962,
+      "grad_norm": 2.2060513496398926,
+      "learning_rate": 0.00999,
+      "loss": 0.6185,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08148631029986962,
+      "eval_accuracy": 0.83015792154865,
+      "eval_loss": 0.4527137875556946,
+      "eval_runtime": 7.5871,
+      "eval_samples_per_second": 1293.637,
+      "eval_steps_per_second": 2.636,
+      "step": 1000
+    },
+    {
+      "epoch": 0.16297262059973924,
+      "grad_norm": 2.3141701221466064,
+      "learning_rate": 0.00999739212694888,
+      "loss": 0.5538,
+      "step": 2000
+    },
+    {
+      "epoch": 0.16297262059973924,
+      "eval_accuracy": 0.8308711156393276,
+      "eval_loss": 0.48633873462677,
+      "eval_runtime": 6.5933,
+      "eval_samples_per_second": 1488.627,
+      "eval_steps_per_second": 3.033,
+      "step": 2000
+    },
+    {
+      "epoch": 0.24445893089960888,
+      "grad_norm": 1.5351825952529907,
+      "learning_rate": 0.009989560790007823,
+      "loss": 0.5116,
+      "step": 3000
+    },
+    {
+      "epoch": 0.24445893089960888,
+      "eval_accuracy": 0.8529801324503311,
+      "eval_loss": 0.46232548356056213,
+      "eval_runtime": 8.0442,
+      "eval_samples_per_second": 1220.131,
+      "eval_steps_per_second": 2.486,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3259452411994785,
+      "grad_norm": 1.9609521627426147,
+      "learning_rate": 0.009976514172178154,
+      "loss": 0.4814,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3259452411994785,
+      "eval_accuracy": 0.8528782475802343,
+      "eval_loss": 0.44729259610176086,
+      "eval_runtime": 8.0863,
+      "eval_samples_per_second": 1213.785,
+      "eval_steps_per_second": 2.473,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4074315514993481,
+      "grad_norm": 1.7375686168670654,
+      "learning_rate": 0.009958265910286741,
+      "loss": 0.4778,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4074315514993481,
+      "eval_accuracy": 0.8511462047885889,
+      "eval_loss": 0.4127245545387268,
+      "eval_runtime": 8.0582,
+      "eval_samples_per_second": 1218.011,
+      "eval_steps_per_second": 2.482,
+      "step": 5000
+    },
+    {
+      "epoch": 0.48891786179921776,
+      "grad_norm": 1.112365484237671,
+      "learning_rate": 0.009934835078118927,
+      "loss": 0.462,
+      "step": 6000
+    },
+    {
+      "epoch": 0.48891786179921776,
+      "eval_accuracy": 0.8568517575140092,
+      "eval_loss": 0.40465885400772095,
+      "eval_runtime": 8.0396,
+      "eval_samples_per_second": 1220.826,
+      "eval_steps_per_second": 2.488,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5704041720990873,
+      "grad_norm": 1.2553290128707886,
+      "learning_rate": 0.009906246166481895,
+      "loss": 0.4442,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5704041720990873,
+      "eval_accuracy": 0.8553234844625573,
+      "eval_loss": 0.39058223366737366,
+      "eval_runtime": 8.063,
+      "eval_samples_per_second": 1217.286,
+      "eval_steps_per_second": 2.48,
+      "step": 7000
+    },
+    {
+      "epoch": 0.651890482398957,
+      "grad_norm": 0.8650873303413391,
+      "learning_rate": 0.009872529057605913,
+      "loss": 0.447,
+      "step": 8000
+    },
+    {
+      "epoch": 0.651890482398957,
+      "eval_accuracy": 0.8709118695873663,
+      "eval_loss": 0.35326236486434937,
+      "eval_runtime": 8.0589,
+      "eval_samples_per_second": 1217.909,
+      "eval_steps_per_second": 2.482,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7333767926988266,
+      "grad_norm": 0.7614707946777344,
+      "learning_rate": 0.009833718993910296,
+      "loss": 0.4425,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7333767926988266,
+      "eval_accuracy": 0.8624554253693326,
+      "eval_loss": 0.4045211970806122,
+      "eval_runtime": 7.9662,
+      "eval_samples_per_second": 1232.085,
+      "eval_steps_per_second": 2.511,
+      "step": 9000
+    },
+    {
+      "epoch": 0.8148631029986962,
+      "grad_norm": 1.2573055028915405,
+      "learning_rate": 0.009789856541166658,
+      "loss": 0.4291,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8148631029986962,
+      "eval_accuracy": 0.8760061130922058,
+      "eval_loss": 0.3816593289375305,
+      "eval_runtime": 8.0807,
+      "eval_samples_per_second": 1214.621,
+      "eval_steps_per_second": 2.475,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8963494132985659,
+      "grad_norm": 0.9861263036727905,
+      "learning_rate": 0.00974098754609802,
+      "loss": 0.4305,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8963494132985659,
+      "eval_accuracy": 0.8772287315333673,
+      "eval_loss": 0.3414895534515381,
+      "eval_runtime": 8.0756,
+      "eval_samples_per_second": 1215.385,
+      "eval_steps_per_second": 2.477,
+      "step": 11000
+    },
+    {
+      "epoch": 0.9778357235984355,
+      "grad_norm": 1.3806720972061157,
+      "learning_rate": 0.009687163088458042,
+      "loss": 0.4161,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9778357235984355,
+      "eval_accuracy": 0.8665308201732043,
+      "eval_loss": 0.34990960359573364,
+      "eval_runtime": 8.084,
+      "eval_samples_per_second": 1214.129,
+      "eval_steps_per_second": 2.474,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0593220338983051,
+      "grad_norm": 1.9694197177886963,
+      "learning_rate": 0.0096284394276405,
+      "loss": 0.406,
+      "step": 13000
+    },
+    {
+      "epoch": 1.0593220338983051,
+      "eval_accuracy": 0.8722363728986245,
+      "eval_loss": 0.34625330567359924,
+      "eval_runtime": 8.0547,
+      "eval_samples_per_second": 1218.537,
+      "eval_steps_per_second": 2.483,
+      "step": 13000
+    },
+    {
+      "epoch": 1.1408083441981747,
+      "grad_norm": 0.6525322198867798,
+      "learning_rate": 0.009564877943874813,
+      "loss": 0.4115,
+      "step": 14000
+    },
+    {
+      "epoch": 1.1408083441981747,
+      "eval_accuracy": 0.8772287315333673,
+      "eval_loss": 0.3376229405403137,
+      "eval_runtime": 8.0754,
+      "eval_samples_per_second": 1215.421,
+      "eval_steps_per_second": 2.477,
+      "step": 14000
+    },
+    {
+      "epoch": 1.2222946544980444,
+      "grad_norm": 0.8454155325889587,
+      "learning_rate": 0.009496545074069052,
+      "loss": 0.4013,
+      "step": 15000
+    },
+    {
+      "epoch": 1.2222946544980444,
+      "eval_accuracy": 0.8723382577687213,
+      "eval_loss": 0.37961477041244507,
+      "eval_runtime": 8.0556,
+      "eval_samples_per_second": 1218.412,
+      "eval_steps_per_second": 2.483,
+      "step": 15000
+    },
+    {
+      "epoch": 1.303780964797914,
+      "grad_norm": 2.028202533721924,
+      "learning_rate": 0.00942351224236754,
+      "loss": 0.4032,
+      "step": 16000
+    },
+    {
+      "epoch": 1.303780964797914,
+      "eval_accuracy": 0.8673458991339786,
+      "eval_loss": 0.36960068345069885,
+      "eval_runtime": 11.6809,
+      "eval_samples_per_second": 840.26,
+      "eval_steps_per_second": 1.712,
+      "step": 16000
+    },
+    {
+      "epoch": 1.3852672750977835,
+      "grad_norm": 1.3635278940200806,
+      "learning_rate": 0.009345855785495578,
+      "loss": 0.4042,
+      "step": 17000
+    },
+    {
+      "epoch": 1.3852672750977835,
+      "eval_accuracy": 0.8787570045848192,
+      "eval_loss": 0.3371247947216034,
+      "eval_runtime": 16.8955,
+      "eval_samples_per_second": 580.925,
+      "eval_steps_per_second": 1.184,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4667535853976532,
+      "grad_norm": 0.8526794910430908,
+      "learning_rate": 0.009263656872969374,
+      "loss": 0.4046,
+      "step": 18000
+    },
+    {
+      "epoch": 1.4667535853976532,
+      "eval_accuracy": 0.87396841569027,
+      "eval_loss": 0.37868475914001465,
+      "eval_runtime": 16.7972,
+      "eval_samples_per_second": 584.325,
+      "eval_steps_per_second": 1.191,
+      "step": 18000
+    },
+    {
+      "epoch": 1.548239895697523,
+      "grad_norm": 0.8174905180931091,
+      "learning_rate": 0.009177001422254532,
+      "loss": 0.4021,
+      "step": 19000
+    },
+    {
+      "epoch": 1.548239895697523,
+      "eval_accuracy": 0.8821192052980132,
+      "eval_loss": 0.3413024842739105,
+      "eval_runtime": 14.5484,
+      "eval_samples_per_second": 674.643,
+      "eval_steps_per_second": 1.375,
+      "step": 19000
+    },
+    {
+      "epoch": 1.6297262059973925,
+      "grad_norm": 0.7442933917045593,
+      "learning_rate": 0.00908598000896182,
+      "loss": 0.3978,
+      "step": 20000
+    },
+    {
+      "epoch": 1.6297262059973925,
+      "eval_accuracy": 0.8796739684156902,
+      "eval_loss": 0.3163932263851166,
+      "eval_runtime": 8.0598,
+      "eval_samples_per_second": 1217.765,
+      "eval_steps_per_second": 2.481,
+      "step": 20000
+    },
+    {
+      "epoch": 1.711212516297262,
+      "grad_norm": 2.230134963989258,
+      "learning_rate": 0.008990687772174046,
+      "loss": 0.3981,
+      "step": 21000
+    },
+    {
+      "epoch": 1.711212516297262,
+      "eval_accuracy": 0.873458991339786,
+      "eval_loss": 0.38318774104118347,
+      "eval_runtime": 8.0862,
+      "eval_samples_per_second": 1213.802,
+      "eval_steps_per_second": 2.473,
+      "step": 21000
+    },
+    {
+      "epoch": 1.7926988265971318,
+      "grad_norm": 0.8759768009185791,
+      "learning_rate": 0.008891224315003048,
+      "loss": 0.3969,
+      "step": 22000
+    },
+    {
+      "epoch": 1.7926988265971318,
+      "eval_accuracy": 0.8774325012735609,
+      "eval_loss": 0.3344375491142273,
+      "eval_runtime": 8.0567,
+      "eval_samples_per_second": 1218.245,
+      "eval_steps_per_second": 2.482,
+      "step": 22000
+    },
+    {
+      "epoch": 1.8741851368970013,
+      "grad_norm": 1.1339051723480225,
+      "learning_rate": 0.008787693600480663,
+      "loss": 0.4036,
+      "step": 23000
+    },
+    {
+      "epoch": 1.8741851368970013,
+      "eval_accuracy": 0.8791645440652063,
+      "eval_loss": 0.3310340344905853,
+      "eval_runtime": 8.0576,
+      "eval_samples_per_second": 1218.11,
+      "eval_steps_per_second": 2.482,
+      "step": 23000
+    },
+    {
+      "epoch": 1.9556714471968708,
+      "grad_norm": 0.7995139360427856,
+      "learning_rate": 0.008680203842892588,
+      "loss": 0.3967,
+      "step": 24000
+    },
+    {
+      "epoch": 1.9556714471968708,
+      "eval_accuracy": 0.8821192052980132,
+      "eval_loss": 0.3221582770347595,
+      "eval_runtime": 8.042,
+      "eval_samples_per_second": 1220.462,
+      "eval_steps_per_second": 2.487,
+      "step": 24000
+    },
+    {
+      "epoch": 2.0371577574967406,
+      "grad_norm": 1.8584222793579102,
+      "learning_rate": 0.008568867394668646,
+      "loss": 0.3872,
+      "step": 25000
+    },
+    {
+      "epoch": 2.0371577574967406,
+      "eval_accuracy": 0.8768211920529801,
+      "eval_loss": 0.32817786931991577,
+      "eval_runtime": 8.0703,
+      "eval_samples_per_second": 1216.184,
+      "eval_steps_per_second": 2.478,
+      "step": 25000
+    },
+    {
+      "epoch": 2.1186440677966103,
+      "grad_norm": 0.7538495063781738,
+      "learning_rate": 0.008453800628947683,
+      "loss": 0.3793,
+      "step": 26000
+    },
+    {
+      "epoch": 2.1186440677966103,
+      "eval_accuracy": 0.8758023433520122,
+      "eval_loss": 0.3552575707435608,
+      "eval_runtime": 8.0675,
+      "eval_samples_per_second": 1216.614,
+      "eval_steps_per_second": 2.479,
+      "step": 26000
+    },
+    {
+      "epoch": 2.2001303780964796,
+      "grad_norm": 0.8285762071609497,
+      "learning_rate": 0.008335123817939908,
+      "loss": 0.3765,
+      "step": 27000
+    },
+    {
+      "epoch": 2.2001303780964796,
+      "eval_accuracy": 0.8812022414671421,
+      "eval_loss": 0.3156055510044098,
+      "eval_runtime": 8.0952,
+      "eval_samples_per_second": 1212.442,
+      "eval_steps_per_second": 2.471,
+      "step": 27000
+    },
+    {
+      "epoch": 2.2816166883963493,
+      "grad_norm": 1.013386845588684,
+      "learning_rate": 0.008212961007213745,
+      "loss": 0.3834,
+      "step": 28000
+    },
+    {
+      "epoch": 2.2816166883963493,
+      "eval_accuracy": 0.8802852776362711,
+      "eval_loss": 0.32749319076538086,
+      "eval_runtime": 8.0328,
+      "eval_samples_per_second": 1221.871,
+      "eval_steps_per_second": 2.49,
+      "step": 28000
+    },
+    {
+      "epoch": 2.363102998696219,
+      "grad_norm": 0.3707163333892822,
+      "learning_rate": 0.008087439886038625,
+      "loss": 0.3705,
+      "step": 29000
+    },
+    {
+      "epoch": 2.363102998696219,
+      "eval_accuracy": 0.8877228731533368,
+      "eval_loss": 0.3311881124973297,
+      "eval_runtime": 8.083,
+      "eval_samples_per_second": 1214.28,
+      "eval_steps_per_second": 2.474,
+      "step": 29000
+    },
+    {
+      "epoch": 2.444589308996089,
+      "grad_norm": 0.6465876698493958,
+      "learning_rate": 0.007958691653919263,
+      "loss": 0.3749,
+      "step": 30000
+    },
+    {
+      "epoch": 2.444589308996089,
+      "eval_accuracy": 0.8703005603667855,
+      "eval_loss": 0.3598898947238922,
+      "eval_runtime": 8.1121,
+      "eval_samples_per_second": 1209.92,
+      "eval_steps_per_second": 2.465,
+      "step": 30000
+    },
+    {
+      "epoch": 2.526075619295958,
+      "grad_norm": 1.221585750579834,
+      "learning_rate": 0.007826850883460879,
+      "loss": 0.3838,
+      "step": 31000
+    },
+    {
+      "epoch": 2.526075619295958,
+      "eval_accuracy": 0.8767193071828834,
+      "eval_loss": 0.34019705653190613,
+      "eval_runtime": 8.0675,
+      "eval_samples_per_second": 1216.612,
+      "eval_steps_per_second": 2.479,
+      "step": 31000
+    },
+    {
+      "epoch": 2.607561929595828,
+      "grad_norm": 2.0899202823638916,
+      "learning_rate": 0.0076920553797087355,
+      "loss": 0.3761,
+      "step": 32000
+    },
+    {
+      "epoch": 2.607561929595828,
+      "eval_accuracy": 0.8805909322465614,
+      "eval_loss": 0.33326148986816406,
+      "eval_runtime": 8.0683,
+      "eval_samples_per_second": 1216.494,
+      "eval_steps_per_second": 2.479,
+      "step": 32000
+    },
+    {
+      "epoch": 2.6890482398956976,
+      "grad_norm": 0.9150403738021851,
+      "learning_rate": 0.007554446036109006,
+      "loss": 0.3829,
+      "step": 33000
+    },
+    {
+      "epoch": 2.6890482398956976,
+      "eval_accuracy": 0.878349465104432,
+      "eval_loss": 0.3460722267627716,
+      "eval_runtime": 8.0705,
+      "eval_samples_per_second": 1216.154,
+      "eval_steps_per_second": 2.478,
+      "step": 33000
+    },
+    {
+      "epoch": 2.770534550195567,
+      "grad_norm": 1.091302752494812,
+      "learning_rate": 0.0074141666872415204,
+      "loss": 0.3816,
+      "step": 34000
+    },
+    {
+      "epoch": 2.770534550195567,
+      "eval_accuracy": 0.875904228222109,
+      "eval_loss": 0.35716861486434937,
+      "eval_runtime": 8.0896,
+      "eval_samples_per_second": 1213.281,
+      "eval_steps_per_second": 2.472,
+      "step": 34000
+    },
+    {
+      "epoch": 2.8520208604954367,
+      "grad_norm": 0.9538711309432983,
+      "learning_rate": 0.00727136395847833,
+      "loss": 0.3739,
+      "step": 35000
+    },
+    {
+      "epoch": 2.8520208604954367,
+      "eval_accuracy": 0.8781456953642384,
+      "eval_loss": 0.3289404809474945,
+      "eval_runtime": 8.0726,
+      "eval_samples_per_second": 1215.843,
+      "eval_steps_per_second": 2.478,
+      "step": 35000
+    },
+    {
+      "epoch": 2.9335071707953064,
+      "grad_norm": 0.9174529314041138,
+      "learning_rate": 0.0071261871127252345,
+      "loss": 0.3749,
+      "step": 36000
+    },
+    {
+      "epoch": 2.9335071707953064,
+      "eval_accuracy": 0.8872134488028528,
+      "eval_loss": 0.3154527246952057,
+      "eval_runtime": 8.0759,
+      "eval_samples_per_second": 1215.351,
+      "eval_steps_per_second": 2.477,
+      "step": 36000
+    },
+    {
+      "epoch": 3.014993481095176,
+      "grad_norm": 0.7346525192260742,
+      "learning_rate": 0.006978787894406435,
+      "loss": 0.3665,
+      "step": 37000
+    },
+    {
+      "epoch": 3.014993481095176,
+      "eval_accuracy": 0.8840550178298523,
+      "eval_loss": 0.3637458086013794,
+      "eval_runtime": 8.0723,
+      "eval_samples_per_second": 1215.881,
+      "eval_steps_per_second": 2.478,
+      "step": 37000
+    },
+    {
+      "epoch": 3.0964797913950455,
+      "grad_norm": 1.5922387838363647,
+      "learning_rate": 0.006829320370855446,
+      "loss": 0.3504,
+      "step": 38000
+    },
+    {
+      "epoch": 3.0964797913950455,
+      "eval_accuracy": 0.8765155374426897,
+      "eval_loss": 0.35780608654022217,
+      "eval_runtime": 8.0625,
+      "eval_samples_per_second": 1217.363,
+      "eval_steps_per_second": 2.481,
+      "step": 38000
+    },
+    {
+      "epoch": 3.1779661016949152,
+      "grad_norm": 0.9475153088569641,
+      "learning_rate": 0.006677940771277968,
+      "loss": 0.3589,
+      "step": 39000
+    },
+    {
+      "epoch": 3.1779661016949152,
+      "eval_accuracy": 0.8893530310748854,
+      "eval_loss": 0.3214789628982544,
+      "eval_runtime": 8.0814,
+      "eval_samples_per_second": 1214.512,
+      "eval_steps_per_second": 2.475,
+      "step": 39000
+    },
+    {
+      "epoch": 3.259452411994785,
+      "grad_norm": 1.2292866706848145,
+      "learning_rate": 0.006524807323455133,
+      "loss": 0.3534,
+      "step": 40000
+    },
+    {
+      "epoch": 3.259452411994785,
+      "eval_accuracy": 0.8806928171166581,
+      "eval_loss": 0.37568399310112,
+      "eval_runtime": 8.0686,
+      "eval_samples_per_second": 1216.449,
+      "eval_steps_per_second": 2.479,
+      "step": 40000
+    },
+    {
+      "epoch": 3.3409387222946547,
+      "grad_norm": 0.9425502419471741,
+      "learning_rate": 0.006370080088357722,
+      "loss": 0.3501,
+      "step": 41000
+    },
+    {
+      "epoch": 3.3409387222946547,
+      "eval_accuracy": 0.8826286296484972,
+      "eval_loss": 0.3434010446071625,
+      "eval_runtime": 8.0828,
+      "eval_samples_per_second": 1214.31,
+      "eval_steps_per_second": 2.474,
+      "step": 41000
+    },
+    {
+      "epoch": 3.422425032594524,
+      "grad_norm": 0.6420383453369141,
+      "learning_rate": 0.006213920792844295,
+      "loss": 0.352,
+      "step": 42000
+    },
+    {
+      "epoch": 3.422425032594524,
+      "eval_accuracy": 0.8902699949057565,
+      "eval_loss": 0.30623751878738403,
+      "eval_runtime": 6.591,
+      "eval_samples_per_second": 1489.15,
+      "eval_steps_per_second": 3.034,
+      "step": 42000
+    },
+    {
+      "epoch": 3.5039113428943938,
+      "grad_norm": 1.2944601774215698,
+      "learning_rate": 0.006056492660618047,
+      "loss": 0.3504,
+      "step": 43000
+    },
+    {
+      "epoch": 3.5039113428943938,
+      "eval_accuracy": 0.8889454915944982,
+      "eval_loss": 0.31484460830688477,
+      "eval_runtime": 7.3757,
+      "eval_samples_per_second": 1330.722,
+      "eval_steps_per_second": 2.712,
+      "step": 43000
+    },
+    {
+      "epoch": 3.5853976531942635,
+      "grad_norm": 2.653141498565674,
+      "learning_rate": 0.00589796024161912,
+      "loss": 0.3533,
+      "step": 44000
+    },
+    {
+      "epoch": 3.5853976531942635,
+      "eval_accuracy": 0.8906775343861436,
+      "eval_loss": 0.3489537835121155,
+      "eval_runtime": 7.3968,
+      "eval_samples_per_second": 1326.921,
+      "eval_steps_per_second": 2.704,
+      "step": 44000
+    },
+    {
+      "epoch": 3.666883963494133,
+      "grad_norm": 0.9806082248687744,
+      "learning_rate": 0.005738489240030675,
+      "loss": 0.3538,
+      "step": 45000
+    },
+    {
+      "epoch": 3.666883963494133,
+      "eval_accuracy": 0.8881304126337239,
+      "eval_loss": 0.3089299499988556,
+      "eval_runtime": 7.3711,
+      "eval_samples_per_second": 1331.544,
+      "eval_steps_per_second": 2.713,
+      "step": 45000
+    },
+    {
+      "epoch": 3.7483702737940026,
+      "grad_norm": 0.6134408712387085,
+      "learning_rate": 0.005578246341078499,
+      "loss": 0.3438,
+      "step": 46000
+    },
+    {
+      "epoch": 3.7483702737940026,
+      "eval_accuracy": 0.8898624554253693,
+      "eval_loss": 0.30195650458335876,
+      "eval_runtime": 7.4856,
+      "eval_samples_per_second": 1311.177,
+      "eval_steps_per_second": 2.672,
+      "step": 46000
+    },
+    {
+      "epoch": 3.8298565840938723,
+      "grad_norm": 1.5439763069152832,
+      "learning_rate": 0.005417399036805203,
+      "loss": 0.3461,
+      "step": 47000
+    },
+    {
+      "epoch": 3.8298565840938723,
+      "eval_accuracy": 0.8915944982170148,
+      "eval_loss": 0.33832383155822754,
+      "eval_runtime": 7.5014,
+      "eval_samples_per_second": 1308.424,
+      "eval_steps_per_second": 2.666,
+      "step": 47000
+    },
+    {
+      "epoch": 3.9113428943937416,
+      "grad_norm": 0.9223654270172119,
+      "learning_rate": 0.005256115451001088,
+      "loss": 0.355,
+      "step": 48000
+    },
+    {
+      "epoch": 3.9113428943937416,
+      "eval_accuracy": 0.8920020376974019,
+      "eval_loss": 0.30014675855636597,
+      "eval_runtime": 7.4942,
+      "eval_samples_per_second": 1309.68,
+      "eval_steps_per_second": 2.669,
+      "step": 48000
+    },
+    {
+      "epoch": 3.9928292046936114,
+      "grad_norm": 1.4363678693771362,
+      "learning_rate": 0.0050945641634746975,
+      "loss": 0.3435,
+      "step": 49000
+    },
+    {
+      "epoch": 3.9928292046936114,
+      "eval_accuracy": 0.8847682119205298,
+      "eval_loss": 0.3268650770187378,
+      "eval_runtime": 7.503,
+      "eval_samples_per_second": 1308.136,
+      "eval_steps_per_second": 2.666,
+      "step": 49000
+    },
+    {
+      "epoch": 4.074315514993481,
+      "grad_norm": 0.8659418821334839,
+      "learning_rate": 0.004932914033846713,
+      "loss": 0.316,
+      "step": 50000
+    },
+    {
+      "epoch": 4.074315514993481,
+      "eval_accuracy": 0.8877228731533368,
+      "eval_loss": 0.2992446720600128,
+      "eval_runtime": 7.4725,
+      "eval_samples_per_second": 1313.479,
+      "eval_steps_per_second": 2.676,
+      "step": 50000
+    },
+    {
+      "epoch": 4.15580182529335,
+      "grad_norm": 0.6110065579414368,
+      "learning_rate": 0.004771334025051382,
+      "loss": 0.3138,
+      "step": 51000
+    },
+    {
+      "epoch": 4.15580182529335,
+      "eval_accuracy": 0.8908813041263373,
+      "eval_loss": 0.29451584815979004,
+      "eval_runtime": 7.4809,
+      "eval_samples_per_second": 1312.002,
+      "eval_steps_per_second": 2.673,
+      "step": 51000
+    },
+    {
+      "epoch": 4.237288135593221,
+      "grad_norm": 1.414892554283142,
+      "learning_rate": 0.004609993026729961,
+      "loss": 0.3189,
+      "step": 52000
+    },
+    {
+      "epoch": 4.237288135593221,
+      "eval_accuracy": 0.8854814060112073,
+      "eval_loss": 0.3163043260574341,
+      "eval_runtime": 7.4918,
+      "eval_samples_per_second": 1310.097,
+      "eval_steps_per_second": 2.67,
+      "step": 52000
+    },
+    {
+      "epoch": 4.31877444589309,
+      "grad_norm": 1.5064332485198975,
+      "learning_rate": 0.004449059678700766,
+      "loss": 0.3222,
+      "step": 53000
+    },
+    {
+      "epoch": 4.31877444589309,
+      "eval_accuracy": 0.8927152317880794,
+      "eval_loss": 0.31491199135780334,
+      "eval_runtime": 7.4988,
+      "eval_samples_per_second": 1308.87,
+      "eval_steps_per_second": 2.667,
+      "step": 53000
+    },
+    {
+      "epoch": 4.400260756192959,
+      "grad_norm": 0.49173757433891296,
+      "learning_rate": 0.004288702194690342,
+      "loss": 0.3194,
+      "step": 54000
+    },
+    {
+      "epoch": 4.400260756192959,
+      "eval_accuracy": 0.8904737646459501,
+      "eval_loss": 0.30408918857574463,
+      "eval_runtime": 7.5071,
+      "eval_samples_per_second": 1307.425,
+      "eval_steps_per_second": 2.664,
+      "step": 54000
+    },
+    {
+      "epoch": 4.481747066492829,
+      "grad_norm": 0.6415348649024963,
+      "learning_rate": 0.00412908818651001,
+      "loss": 0.3214,
+      "step": 55000
+    },
+    {
+      "epoch": 4.481747066492829,
+      "eval_accuracy": 0.8858889454915945,
+      "eval_loss": 0.30896589159965515,
+      "eval_runtime": 7.4849,
+      "eval_samples_per_second": 1311.309,
+      "eval_steps_per_second": 2.672,
+      "step": 55000
+    },
+    {
+      "epoch": 4.563233376792699,
+      "grad_norm": 0.7397938370704651,
+      "learning_rate": 0.003970384488861551,
+      "loss": 0.3167,
+      "step": 56000
+    },
+    {
+      "epoch": 4.563233376792699,
+      "eval_accuracy": 0.8891492613346917,
+      "eval_loss": 0.2900329530239105,
+      "eval_runtime": 7.4757,
+      "eval_samples_per_second": 1312.918,
+      "eval_steps_per_second": 2.675,
+      "step": 56000
+    },
+    {
+      "epoch": 4.644719687092568,
+      "grad_norm": 0.8142307996749878,
+      "learning_rate": 0.003812756984955154,
+      "loss": 0.321,
+      "step": 57000
+    },
+    {
+      "epoch": 4.644719687092568,
+      "eval_accuracy": 0.8921039225674987,
+      "eval_loss": 0.3090360760688782,
+      "eval_runtime": 7.4786,
+      "eval_samples_per_second": 1312.415,
+      "eval_steps_per_second": 2.674,
+      "step": 57000
+    },
+    {
+      "epoch": 4.726205997392438,
+      "grad_norm": 1.6489217281341553,
+      "learning_rate": 0.0036563704331219154,
+      "loss": 0.316,
+      "step": 58000
+    },
+    {
+      "epoch": 4.726205997392438,
+      "eval_accuracy": 0.8911869587366276,
+      "eval_loss": 0.31844472885131836,
+      "eval_runtime": 7.5116,
+      "eval_samples_per_second": 1306.645,
+      "eval_steps_per_second": 2.663,
+      "step": 58000
+    },
+    {
+      "epoch": 4.8076923076923075,
+      "grad_norm": 0.6077815890312195,
+      "learning_rate": 0.00350138829460208,
+      "loss": 0.3212,
+      "step": 59000
+    },
+    {
+      "epoch": 4.8076923076923075,
+      "eval_accuracy": 0.8929190015282731,
+      "eval_loss": 0.30086687207221985,
+      "eval_runtime": 7.4977,
+      "eval_samples_per_second": 1309.06,
+      "eval_steps_per_second": 2.667,
+      "step": 59000
+    },
+    {
+      "epoch": 4.889178617992178,
+      "grad_norm": 0.4297344386577606,
+      "learning_rate": 0.0033479725626890658,
+      "loss": 0.3129,
+      "step": 60000
+    },
+    {
+      "epoch": 4.889178617992178,
+      "eval_accuracy": 0.8930208863983699,
+      "eval_loss": 0.3006724417209625,
+      "eval_runtime": 7.4834,
+      "eval_samples_per_second": 1311.564,
+      "eval_steps_per_second": 2.673,
+      "step": 60000
+    },
+    {
+      "epoch": 4.970664928292047,
+      "grad_norm": 0.5105591416358948,
+      "learning_rate": 0.0031962835934078488,
+      "loss": 0.3093,
+      "step": 61000
+    },
+    {
+      "epoch": 4.970664928292047,
+      "eval_accuracy": 0.8922058074375955,
+      "eval_loss": 0.2791294753551483,
+      "eval_runtime": 7.4805,
+      "eval_samples_per_second": 1312.076,
+      "eval_steps_per_second": 2.674,
+      "step": 61000
+    },
+    {
+      "epoch": 5.052151238591916,
+      "grad_norm": 1.757141351699829,
+      "learning_rate": 0.0030464799379046744,
+      "loss": 0.2951,
+      "step": 62000
+    },
+    {
+      "epoch": 5.052151238591916,
+      "eval_accuracy": 0.8961793173713704,
+      "eval_loss": 0.3046811521053314,
+      "eval_runtime": 7.5049,
+      "eval_samples_per_second": 1307.809,
+      "eval_steps_per_second": 2.665,
+      "step": 62000
+    },
+    {
+      "epoch": 5.1336375488917865,
+      "grad_norm": 0.8879550099372864,
+      "learning_rate": 0.0028987181767232946,
+      "loss": 0.2752,
+      "step": 63000
+    },
+    {
+      "epoch": 5.1336375488917865,
+      "eval_accuracy": 0.8965868568517575,
+      "eval_loss": 0.28206223249435425,
+      "eval_runtime": 14.9757,
+      "eval_samples_per_second": 655.394,
+      "eval_steps_per_second": 1.335,
+      "step": 63000
+    },
+    {
+      "epoch": 5.215123859191656,
+      "grad_norm": 1.276357650756836,
+      "learning_rate": 0.0027531527561409663,
+      "loss": 0.2813,
+      "step": 64000
+    },
+    {
+      "epoch": 5.215123859191656,
+      "eval_accuracy": 0.8965868568517575,
+      "eval_loss": 0.30695512890815735,
+      "eval_runtime": 7.4973,
+      "eval_samples_per_second": 1309.135,
+      "eval_steps_per_second": 2.668,
+      "step": 64000
+    },
+    {
+      "epoch": 5.296610169491525,
+      "grad_norm": 0.6619582176208496,
+      "learning_rate": 0.0026099358267352548,
+      "loss": 0.2838,
+      "step": 65000
+    },
+    {
+      "epoch": 5.296610169491525,
+      "eval_accuracy": 0.8966887417218543,
+      "eval_loss": 0.2938063144683838,
+      "eval_runtime": 7.4918,
+      "eval_samples_per_second": 1310.108,
+      "eval_steps_per_second": 2.67,
+      "step": 65000
+    },
+    {
+      "epoch": 5.378096479791395,
+      "grad_norm": 0.8515479564666748,
+      "learning_rate": 0.002469217084350399,
+      "loss": 0.2782,
+      "step": 66000
+    },
+    {
+      "epoch": 5.378096479791395,
+      "eval_accuracy": 0.8956698930208864,
+      "eval_loss": 0.29661813378334045,
+      "eval_runtime": 7.494,
+      "eval_samples_per_second": 1309.711,
+      "eval_steps_per_second": 2.669,
+      "step": 66000
+    },
+    {
+      "epoch": 5.459582790091265,
+      "grad_norm": 1.3585212230682373,
+      "learning_rate": 0.0023311436136294657,
+      "loss": 0.2812,
+      "step": 67000
+    },
+    {
+      "epoch": 5.459582790091265,
+      "eval_accuracy": 0.8964849719816608,
+      "eval_loss": 0.2987619638442993,
+      "eval_runtime": 7.5037,
+      "eval_samples_per_second": 1308.029,
+      "eval_steps_per_second": 2.665,
+      "step": 67000
+    },
+    {
+      "epoch": 5.541069100391134,
+      "grad_norm": 0.3554459512233734,
+      "learning_rate": 0.0021958597342758073,
+      "loss": 0.2838,
+      "step": 68000
+    },
+    {
+      "epoch": 5.541069100391134,
+      "eval_accuracy": 0.8991339786041773,
+      "eval_loss": 0.2801837921142578,
+      "eval_runtime": 7.4834,
+      "eval_samples_per_second": 1311.562,
+      "eval_steps_per_second": 2.673,
+      "step": 68000
+    },
+    {
+      "epoch": 5.622555410691004,
+      "grad_norm": 1.9772554636001587,
+      "learning_rate": 0.0020635068502045583,
+      "loss": 0.2755,
+      "step": 69000
+    },
+    {
+      "epoch": 5.622555410691004,
+      "eval_accuracy": 0.9006622516556292,
+      "eval_loss": 0.2981088161468506,
+      "eval_runtime": 7.4836,
+      "eval_samples_per_second": 1311.527,
+      "eval_steps_per_second": 2.672,
+      "step": 69000
+    },
+    {
+      "epoch": 5.704041720990873,
+      "grad_norm": 0.5913628935813904,
+      "learning_rate": 0.0019342233017418326,
+      "loss": 0.2817,
+      "step": 70000
+    },
+    {
+      "epoch": 5.704041720990873,
+      "eval_accuracy": 0.894854814060112,
+      "eval_loss": 0.2903667092323303,
+      "eval_runtime": 7.4986,
+      "eval_samples_per_second": 1308.911,
+      "eval_steps_per_second": 2.667,
+      "step": 70000
+    },
+    {
+      "epoch": 5.7855280312907436,
+      "grad_norm": 0.5924209952354431,
+      "learning_rate": 0.001808144221026089,
+      "loss": 0.2783,
+      "step": 71000
+    },
+    {
+      "epoch": 5.7855280312907436,
+      "eval_accuracy": 0.8975038206826287,
+      "eval_loss": 0.29570597410202026,
+      "eval_runtime": 7.4989,
+      "eval_samples_per_second": 1308.859,
+      "eval_steps_per_second": 2.667,
+      "step": 71000
+    },
+    {
+      "epoch": 5.867014341590613,
+      "grad_norm": 0.6399027109146118,
+      "learning_rate": 0.0016854013907628169,
+      "loss": 0.2733,
+      "step": 72000
+    },
+    {
+      "epoch": 5.867014341590613,
+      "eval_accuracy": 0.8976057055527255,
+      "eval_loss": 0.2965139150619507,
+      "eval_runtime": 7.4938,
+      "eval_samples_per_second": 1309.743,
+      "eval_steps_per_second": 2.669,
+      "step": 72000
+    },
+    {
+      "epoch": 5.948500651890482,
+      "grad_norm": 0.46064063906669617,
+      "learning_rate": 0.0015661231064801817,
+      "loss": 0.2698,
+      "step": 73000
+    },
+    {
+      "epoch": 5.948500651890482,
+      "eval_accuracy": 0.894854814060112,
+      "eval_loss": 0.3313537836074829,
+      "eval_runtime": 7.5019,
+      "eval_samples_per_second": 1308.336,
+      "eval_steps_per_second": 2.666,
+      "step": 73000
+    },
+    {
+      "epoch": 6.029986962190352,
+      "grad_norm": 0.9792414903640747,
+      "learning_rate": 0.001450434042429613,
+      "loss": 0.2617,
+      "step": 74000
+    },
+    {
+      "epoch": 6.029986962190352,
+      "eval_accuracy": 0.8960774325012736,
+      "eval_loss": 0.32309064269065857,
+      "eval_runtime": 7.4944,
+      "eval_samples_per_second": 1309.64,
+      "eval_steps_per_second": 2.669,
+      "step": 74000
+    },
+    {
+      "epoch": 6.111473272490222,
+      "grad_norm": 0.49711874127388,
+      "learning_rate": 0.0013384551212714713,
+      "loss": 0.2349,
+      "step": 75000
+    },
+    {
+      "epoch": 6.111473272490222,
+      "eval_accuracy": 0.8949566989302089,
+      "eval_loss": 0.3282994329929352,
+      "eval_runtime": 7.4789,
+      "eval_samples_per_second": 1312.363,
+      "eval_steps_per_second": 2.674,
+      "step": 75000
+    },
+    {
+      "epoch": 6.192959582790091,
+      "grad_norm": 0.6636607646942139,
+      "learning_rate": 0.0012303033876820402,
+      "loss": 0.2359,
+      "step": 76000
+    },
+    {
+      "epoch": 6.192959582790091,
+      "eval_accuracy": 0.903616912888436,
+      "eval_loss": 0.3025311529636383,
+      "eval_runtime": 7.5059,
+      "eval_samples_per_second": 1307.643,
+      "eval_steps_per_second": 2.665,
+      "step": 76000
+    },
+    {
+      "epoch": 6.274445893089961,
+      "grad_norm": 0.6344679594039917,
+      "learning_rate": 0.0011260918860139136,
+      "loss": 0.2384,
+      "step": 77000
+    },
+    {
+      "epoch": 6.274445893089961,
+      "eval_accuracy": 0.900254712175242,
+      "eval_loss": 0.30031833052635193,
+      "eval_runtime": 7.5071,
+      "eval_samples_per_second": 1307.423,
+      "eval_steps_per_second": 2.664,
+      "step": 77000
+    },
+    {
+      "epoch": 6.3559322033898304,
+      "grad_norm": 0.8250097036361694,
+      "learning_rate": 0.0010259295421377063,
+      "loss": 0.2356,
+      "step": 78000
+    },
+    {
+      "epoch": 6.3559322033898304,
+      "eval_accuracy": 0.8990320937340804,
+      "eval_loss": 0.31037458777427673,
+      "eval_runtime": 7.5017,
+      "eval_samples_per_second": 1308.377,
+      "eval_steps_per_second": 2.666,
+      "step": 78000
+    },
+    {
+      "epoch": 6.4374185136897,
+      "grad_norm": 0.41535335779190063,
+      "learning_rate": 0.0009299210495885319,
+      "loss": 0.237,
+      "step": 79000
+    },
+    {
+      "epoch": 6.4374185136897,
+      "eval_accuracy": 0.8959755476311768,
+      "eval_loss": 0.3192022144794464,
+      "eval_runtime": 7.5095,
+      "eval_samples_per_second": 1307.011,
+      "eval_steps_per_second": 2.663,
+      "step": 79000
+    },
+    {
+      "epoch": 6.51890482398957,
+      "grad_norm": 1.490874171257019,
+      "learning_rate": 0.000838166760136298,
+      "loss": 0.2377,
+      "step": 80000
+    },
+    {
+      "epoch": 6.51890482398957,
+      "eval_accuracy": 0.9045338767193072,
+      "eval_loss": 0.2835454046726227,
+      "eval_runtime": 7.4926,
+      "eval_samples_per_second": 1309.951,
+      "eval_steps_per_second": 2.669,
+      "step": 80000
+    },
+    {
+      "epoch": 6.600391134289439,
+      "grad_norm": 1.9151830673217773,
+      "learning_rate": 0.0007507625788941736,
+      "loss": 0.2327,
+      "step": 81000
+    },
+    {
+      "epoch": 6.600391134289439,
+      "eval_accuracy": 0.9035150280183393,
+      "eval_loss": 0.3065315783023834,
+      "eval_runtime": 7.4827,
+      "eval_samples_per_second": 1311.698,
+      "eval_steps_per_second": 2.673,
+      "step": 81000
+    },
+    {
+      "epoch": 6.681877444589309,
+      "grad_norm": 0.849884033203125,
+      "learning_rate": 0.0006677998640748751,
+      "loss": 0.2337,
+      "step": 82000
+    },
+    {
+      "epoch": 6.681877444589309,
+      "eval_accuracy": 0.9020886398369842,
+      "eval_loss": 0.29341772198677063,
+      "eval_runtime": 7.4817,
+      "eval_samples_per_second": 1311.872,
+      "eval_steps_per_second": 2.673,
+      "step": 82000
+    },
+    {
+      "epoch": 6.763363754889179,
+      "grad_norm": 1.3731963634490967,
+      "learning_rate": 0.000589365331499549,
+      "loss": 0.2319,
+      "step": 83000
+    },
+    {
+      "epoch": 6.763363754889179,
+      "eval_accuracy": 0.9004584819154355,
+      "eval_loss": 0.3038472533226013,
+      "eval_runtime": 7.5,
+      "eval_samples_per_second": 1308.675,
+      "eval_steps_per_second": 2.667,
+      "step": 83000
+    },
+    {
+      "epoch": 6.844850065189048,
+      "grad_norm": 1.3203397989273071,
+      "learning_rate": 0.0005155409639590586,
+      "loss": 0.2318,
+      "step": 84000
+    },
+    {
+      "epoch": 6.844850065189048,
+      "eval_accuracy": 0.9033112582781457,
+      "eval_loss": 0.2874143421649933,
+      "eval_runtime": 7.5053,
+      "eval_samples_per_second": 1307.745,
+      "eval_steps_per_second": 2.665,
+      "step": 84000
+    },
+    {
+      "epoch": 6.926336375488918,
+      "grad_norm": 0.5277544856071472,
+      "learning_rate": 0.0004464039255224173,
+      "loss": 0.2251,
+      "step": 85000
+    },
+    {
+      "epoch": 6.926336375488918,
+      "eval_accuracy": 0.9032093734080489,
+      "eval_loss": 0.29026326537132263,
+      "eval_runtime": 11.8762,
+      "eval_samples_per_second": 826.439,
+      "eval_steps_per_second": 1.684,
+      "step": 85000
+    },
+    {
+      "epoch": 7.0078226857887875,
+      "grad_norm": 0.9861716628074646,
+      "learning_rate": 0.0003820264808819357,
+      "loss": 0.2212,
+      "step": 86000
+    },
+    {
+      "epoch": 7.0078226857887875,
+      "eval_accuracy": 0.9033112582781457,
+      "eval_loss": 0.3097410500049591,
+      "eval_runtime": 7.5021,
+      "eval_samples_per_second": 1308.292,
+      "eval_steps_per_second": 2.666,
+      "step": 86000
+    },
+    {
+      "epoch": 7.089308996088657,
+      "grad_norm": 0.5879834890365601,
+      "learning_rate": 0.0003224759198193844,
+      "loss": 0.2014,
+      "step": 87000
+    },
+    {
+      "epoch": 7.089308996088657,
+      "eval_accuracy": 0.90412633723892,
+      "eval_loss": 0.31044328212738037,
+      "eval_runtime": 7.4793,
+      "eval_samples_per_second": 1312.29,
+      "eval_steps_per_second": 2.674,
+      "step": 87000
+    },
+    {
+      "epoch": 7.170795306388527,
+      "grad_norm": 0.5867053270339966,
+      "learning_rate": 0.00026781448687212606,
+      "loss": 0.201,
+      "step": 88000
+    },
+    {
+      "epoch": 7.170795306388527,
+      "eval_accuracy": 0.9038206826286297,
+      "eval_loss": 0.3128410577774048,
+      "eval_runtime": 7.5118,
+      "eval_samples_per_second": 1306.612,
+      "eval_steps_per_second": 2.662,
+      "step": 88000
+    },
+    {
+      "epoch": 7.252281616688396,
+      "grad_norm": 0.5377621650695801,
+      "learning_rate": 0.0002180993162727296,
+      "loss": 0.2005,
+      "step": 89000
+    },
+    {
+      "epoch": 7.252281616688396,
+      "eval_accuracy": 0.9054508405501783,
+      "eval_loss": 0.3119710385799408,
+      "eval_runtime": 7.4957,
+      "eval_samples_per_second": 1309.416,
+      "eval_steps_per_second": 2.668,
+      "step": 89000
+    },
+    {
+      "epoch": 7.333767926988266,
+      "grad_norm": 0.5833735466003418,
+      "learning_rate": 0.00017338237223007313,
+      "loss": 0.2062,
+      "step": 90000
+    },
+    {
+      "epoch": 7.333767926988266,
+      "eval_accuracy": 0.9047376464595007,
+      "eval_loss": 0.3042852580547333,
+      "eval_runtime": 7.4986,
+      "eval_samples_per_second": 1308.908,
+      "eval_steps_per_second": 2.667,
+      "step": 90000
+    },
+    {
+      "epoch": 7.415254237288136,
+      "grad_norm": 0.7836347222328186,
+      "learning_rate": 0.00013371039461435253,
+      "loss": 0.2047,
+      "step": 91000
+    },
+    {
+      "epoch": 7.415254237288136,
+      "eval_accuracy": 0.9048395313295976,
+      "eval_loss": 0.3043782711029053,
+      "eval_runtime": 7.4753,
+      "eval_samples_per_second": 1312.983,
+      "eval_steps_per_second": 2.675,
+      "step": 91000
+    },
+    {
+      "epoch": 7.496740547588005,
+      "grad_norm": 0.4800412654876709,
+      "learning_rate": 9.912485010277361e-05,
+      "loss": 0.2038,
+      "step": 92000
+    },
+    {
+      "epoch": 7.496740547588005,
+      "eval_accuracy": 0.9048395313295976,
+      "eval_loss": 0.3026777505874634,
+      "eval_runtime": 7.5009,
+      "eval_samples_per_second": 1308.515,
+      "eval_steps_per_second": 2.666,
+      "step": 92000
+    },
+    {
+      "epoch": 7.578226857887875,
+      "grad_norm": 0.3577961325645447,
+      "learning_rate": 6.966188883698266e-05,
+      "loss": 0.2043,
+      "step": 93000
+    },
+    {
+      "epoch": 7.578226857887875,
+      "eval_accuracy": 0.9043301069791136,
+      "eval_loss": 0.2996033728122711,
+      "eval_runtime": 7.4793,
+      "eval_samples_per_second": 1312.283,
+      "eval_steps_per_second": 2.674,
+      "step": 93000
+    },
+    {
+      "epoch": 7.659713168187745,
+      "grad_norm": 0.7479351162910461,
+      "learning_rate": 4.53523066375483e-05,
+      "loss": 0.1958,
+      "step": 94000
+    },
+    {
+      "epoch": 7.659713168187745,
+      "eval_accuracy": 0.9039225674987265,
+      "eval_loss": 0.3070015609264374,
+      "eval_runtime": 7.4944,
+      "eval_samples_per_second": 1309.642,
+      "eval_steps_per_second": 2.669,
+      "step": 94000
+    },
+    {
+      "epoch": 7.741199478487614,
+      "grad_norm": 0.593128502368927,
+      "learning_rate": 2.6221512814988413e-05,
+      "loss": 0.2021,
+      "step": 95000
+    },
+    {
+      "epoch": 7.741199478487614,
+      "eval_accuracy": 0.9050433010697911,
+      "eval_loss": 0.3058023154735565,
+      "eval_runtime": 7.5046,
+      "eval_samples_per_second": 1307.858,
+      "eval_steps_per_second": 2.665,
+      "step": 95000
+    },
+    {
+      "epoch": 7.822685788787483,
+      "grad_norm": 0.8814780116081238,
+      "learning_rate": 1.2289503610977692e-05,
+      "loss": 0.2039,
+      "step": 96000
+    },
+    {
+      "epoch": 7.822685788787483,
+      "eval_accuracy": 0.9054508405501783,
+      "eval_loss": 0.30380532145500183,
+      "eval_runtime": 7.4946,
+      "eval_samples_per_second": 1309.603,
+      "eval_steps_per_second": 2.669,
+      "step": 96000
+    },
+    {
+      "epoch": 7.904172099087353,
+      "grad_norm": 1.0658342838287354,
+      "learning_rate": 3.570841297507177e-06,
+      "loss": 0.2,
+      "step": 97000
+    },
+    {
+      "epoch": 7.904172099087353,
+      "eval_accuracy": 0.9051451859398879,
+      "eval_loss": 0.30474814772605896,
+      "eval_runtime": 7.4886,
+      "eval_samples_per_second": 1310.65,
+      "eval_steps_per_second": 2.671,
+      "step": 97000
+    },
+    {
+      "epoch": 7.985658409387223,
+      "grad_norm": 0.4510676860809326,
+      "learning_rate": 7.463895583814661e-08,
+      "loss": 0.2031,
+      "step": 98000
+    },
+    {
+      "epoch": 7.985658409387223,
+      "eval_accuracy": 0.9050433010697911,
+      "eval_loss": 0.3046664297580719,
+      "eval_runtime": 7.4982,
+      "eval_samples_per_second": 1308.98,
+      "eval_steps_per_second": 2.667,
+      "step": 98000
+    },
+    {
+      "epoch": 8.0,
+      "step": 98176,
+      "total_flos": 4.1937110564010394e+17,
+      "train_loss": 0.3294937685617723,
+      "train_runtime": 35336.2891,
+      "train_samples_per_second": 88.906,
+      "train_steps_per_second": 2.778
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 98176,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.1937110564010394e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/MRPC.tsv ADDED Viewed

	@@ -0,0 +1,1726 @@

+index	prediction
+0	1
+1	1
+2	1
+3	0
+4	0
+5	1
+6	0
+7	1
+8	1
+9	0
+10	1
+11	1
+12	1
+13	0
+14	1
+15	0
+16	1
+17	1
+18	1
+19	1
+20	1
+21	1
+22	1
+23	1
+24	0
+25	1
+26	1
+27	1
+28	0
+29	0
+30	1
+31	0
+32	0
+33	0
+34	0
+35	0
+36	1
+37	1
+38	0
+39	1
+40	1
+41	1
+42	0
+43	1
+44	1
+45	0
+46	0
+47	0
+48	1
+49	1
+50	1
+51	1
+52	0
+53	1
+54	0
+55	1
+56	1
+57	1
+58	0
+59	0
+60	1
+61	1
+62	1
+63	1
+64	1
+65	1
+66	1
+67	1
+68	1
+69	1
+70	0
+71	1
+72	1
+73	0
+74	1
+75	0
+76	1
+77	1
+78	0
+79	0
+80	1
+81	0
+82	1
+83	0
+84	0
+85	0
+86	1
+87	1
+88	0
+89	0
+90	1
+91	1
+92	1
+93	0
+94	1
+95	0
+96	0
+97	1
+98	0
+99	1
+100	1
+101	0
+102	1
+103	1
+104	1
+105	0
+106	0
+107	1
+108	1
+109	1
+110	1
+111	0
+112	0
+113	1
+114	1
+115	0
+116	0
+117	0
+118	1
+119	1
+120	1
+121	0
+122	1
+123	1
+124	1
+125	1
+126	1
+127	1
+128	0
+129	1
+130	0
+131	1
+132	1
+133	0
+134	1
+135	0
+136	1
+137	1
+138	1
+139	1
+140	1
+141	1
+142	1
+143	1
+144	1
+145	1
+146	0
+147	1
+148	1
+149	1
+150	1
+151	1
+152	0
+153	0
+154	1
+155	1
+156	1
+157	1
+158	1
+159	1
+160	1
+161	1
+162	1
+163	1
+164	0
+165	1
+166	1
+167	0
+168	1
+169	0
+170	1
+171	1
+172	1
+173	0
+174	0
+175	1
+176	1
+177	0
+178	1
+179	1
+180	0
+181	0
+182	1
+183	1
+184	1
+185	1
+186	0
+187	0
+188	1
+189	1
+190	0
+191	0
+192	1
+193	1
+194	0
+195	0
+196	0
+197	1
+198	1
+199	0
+200	0
+201	1
+202	1
+203	1
+204	0
+205	0
+206	1
+207	1
+208	0
+209	1
+210	0
+211	0
+212	1
+213	0
+214	1
+215	0
+216	1
+217	1
+218	1
+219	1
+220	1
+221	0
+222	1
+223	0
+224	1
+225	1
+226	1
+227	0
+228	0
+229	1
+230	1
+231	1
+232	1
+233	1
+234	0
+235	0
+236	1
+237	1
+238	0
+239	0
+240	1
+241	1
+242	1
+243	1
+244	0
+245	1
+246	1
+247	0
+248	1
+249	0
+250	1
+251	0
+252	0
+253	1
+254	1
+255	1
+256	1
+257	1
+258	1
+259	1
+260	1
+261	1
+262	1
+263	1
+264	0
+265	1
+266	0
+267	1
+268	1
+269	1
+270	1
+271	0
+272	1
+273	0
+274	0
+275	0
+276	0
+277	1
+278	1
+279	1
+280	1
+281	0
+282	1
+283	1
+284	1
+285	0
+286	1
+287	0
+288	0
+289	0
+290	0
+291	1
+292	1
+293	1
+294	1
+295	0
+296	0
+297	0
+298	1
+299	1
+300	1
+301	1
+302	0
+303	1
+304	1
+305	0
+306	1
+307	1
+308	0
+309	1
+310	1
+311	1
+312	0
+313	1
+314	1
+315	1
+316	1
+317	1
+318	1
+319	0
+320	1
+321	0
+322	1
+323	0
+324	1
+325	1
+326	1
+327	0
+328	0
+329	0
+330	0
+331	1
+332	1
+333	1
+334	1
+335	0
+336	1
+337	1
+338	1
+339	1
+340	1
+341	1
+342	1
+343	0
+344	0
+345	1
+346	0
+347	0
+348	1
+349	0
+350	1
+351	1
+352	0
+353	1
+354	0
+355	0
+356	0
+357	0
+358	1
+359	0
+360	0
+361	0
+362	0
+363	1
+364	0
+365	1
+366	0
+367	0
+368	0
+369	0
+370	1
+371	1
+372	1
+373	1
+374	1
+375	0
+376	0
+377	1
+378	0
+379	0
+380	1
+381	1
+382	0
+383	1
+384	1
+385	0
+386	1
+387	0
+388	1
+389	1
+390	1
+391	0
+392	0
+393	1
+394	0
+395	1
+396	1
+397	1
+398	0
+399	0
+400	1
+401	0
+402	1
+403	1
+404	1
+405	0
+406	0
+407	1
+408	1
+409	1
+410	0
+411	0
+412	1
+413	1
+414	1
+415	0
+416	0
+417	1
+418	1
+419	1
+420	1
+421	1
+422	1
+423	1
+424	0
+425	0
+426	0
+427	1
+428	0
+429	1
+430	0
+431	1
+432	1
+433	1
+434	1
+435	1
+436	1
+437	0
+438	1
+439	0
+440	0
+441	0
+442	1
+443	1
+444	1
+445	1
+446	1
+447	1
+448	1
+449	1
+450	0
+451	1
+452	1
+453	0
+454	1
+455	1
+456	1
+457	1
+458	0
+459	1
+460	1
+461	1
+462	1
+463	0
+464	0
+465	0
+466	1
+467	1
+468	1
+469	1
+470	0
+471	1
+472	1
+473	1
+474	1
+475	1
+476	1
+477	1
+478	1
+479	0
+480	1
+481	1
+482	1
+483	1
+484	0
+485	1
+486	1
+487	1
+488	1
+489	1
+490	1
+491	1
+492	1
+493	1
+494	0
+495	1
+496	0
+497	1
+498	0
+499	1
+500	1
+501	1
+502	1
+503	0
+504	1
+505	1
+506	0
+507	1
+508	0
+509	0
+510	1
+511	1
+512	0
+513	1
+514	1
+515	1
+516	1
+517	0
+518	1
+519	1
+520	1
+521	0
+522	1
+523	1
+524	1
+525	1
+526	0
+527	1
+528	1
+529	1
+530	1
+531	1
+532	1
+533	0
+534	1
+535	1
+536	1
+537	1
+538	0
+539	1
+540	1
+541	1
+542	1
+543	1
+544	1
+545	1
+546	1
+547	0
+548	0
+549	0
+550	0
+551	1
+552	0
+553	1
+554	0
+555	1
+556	0
+557	1
+558	1
+559	1
+560	1
+561	0
+562	0
+563	0
+564	0
+565	1
+566	1
+567	1
+568	0
+569	0
+570	0
+571	1
+572	1
+573	0
+574	1
+575	0
+576	1
+577	0
+578	1
+579	0
+580	1
+581	0
+582	1
+583	1
+584	1
+585	1
+586	0
+587	1
+588	1
+589	1
+590	1
+591	1
+592	1
+593	0
+594	0
+595	1
+596	1
+597	0
+598	1
+599	1
+600	1
+601	1
+602	1
+603	1
+604	1
+605	1
+606	1
+607	0
+608	0
+609	1
+610	1
+611	1
+612	0
+613	1
+614	1
+615	1
+616	1
+617	0
+618	1
+619	1
+620	1
+621	0
+622	1
+623	0
+624	1
+625	0
+626	1
+627	1
+628	0
+629	1
+630	0
+631	1
+632	1
+633	0
+634	0
+635	1
+636	0
+637	1
+638	1
+639	1
+640	1
+641	1
+642	1
+643	1
+644	1
+645	0
+646	1
+647	1
+648	1
+649	1
+650	1
+651	0
+652	0
+653	1
+654	0
+655	1
+656	1
+657	1
+658	1
+659	1
+660	1
+661	1
+662	1
+663	1
+664	1
+665	0
+666	1
+667	0
+668	0
+669	0
+670	1
+671	1
+672	0
+673	1
+674	1
+675	0
+676	1
+677	1
+678	1
+679	1
+680	0
+681	1
+682	1
+683	1
+684	0
+685	1
+686	1
+687	0
+688	1
+689	1
+690	1
+691	0
+692	0
+693	1
+694	0
+695	0
+696	0
+697	1
+698	0
+699	1
+700	0
+701	1
+702	1
+703	0
+704	1
+705	0
+706	0
+707	0
+708	1
+709	1
+710	0
+711	0
+712	1
+713	1
+714	1
+715	1
+716	1
+717	0
+718	1
+719	1
+720	1
+721	1
+722	0
+723	0
+724	1
+725	1
+726	1
+727	1
+728	1
+729	0
+730	1
+731	1
+732	1
+733	0
+734	1
+735	1
+736	1
+737	1
+738	1
+739	1
+740	1
+741	1
+742	1
+743	1
+744	1
+745	0
+746	0
+747	0
+748	1
+749	0
+750	1
+751	1
+752	1
+753	0
+754	1
+755	1
+756	1
+757	0
+758	1
+759	1
+760	1
+761	1
+762	1
+763	1
+764	1
+765	1
+766	1
+767	1
+768	1
+769	1
+770	1
+771	1
+772	1
+773	1
+774	1
+775	1
+776	1
+777	1
+778	0
+779	1
+780	0
+781	1
+782	1
+783	0
+784	1
+785	1
+786	1
+787	0
+788	1
+789	1
+790	1
+791	1
+792	0
+793	1
+794	1
+795	1
+796	0
+797	0
+798	1
+799	0
+800	0
+801	0
+802	1
+803	1
+804	0
+805	1
+806	1
+807	0
+808	1
+809	0
+810	1
+811	1
+812	1
+813	1
+814	0
+815	1
+816	0
+817	0
+818	0
+819	1
+820	0
+821	0
+822	0
+823	1
+824	1
+825	1
+826	1
+827	0
+828	0
+829	1
+830	1
+831	1
+832	1
+833	0
+834	1
+835	0
+836	1
+837	1
+838	1
+839	0
+840	0
+841	0
+842	1
+843	1
+844	0
+845	1
+846	1
+847	1
+848	0
+849	1
+850	0
+851	1
+852	1
+853	0
+854	1
+855	0
+856	1
+857	1
+858	0
+859	1
+860	1
+861	1
+862	1
+863	1
+864	0
+865	1
+866	1
+867	1
+868	1
+869	1
+870	0
+871	1
+872	1
+873	1
+874	1
+875	0
+876	0
+877	0
+878	0
+879	0
+880	0
+881	0
+882	1
+883	0
+884	0
+885	1
+886	1
+887	1
+888	0
+889	1
+890	1
+891	1
+892	0
+893	0
+894	0
+895	1
+896	0
+897	1
+898	1
+899	1
+900	1
+901	1
+902	0
+903	1
+904	1
+905	1
+906	1
+907	1
+908	1
+909	1
+910	1
+911	1
+912	1
+913	0
+914	1
+915	1
+916	1
+917	1
+918	0
+919	1
+920	1
+921	1
+922	1
+923	1
+924	1
+925	1
+926	1
+927	0
+928	1
+929	1
+930	1
+931	0
+932	0
+933	0
+934	0
+935	1
+936	0
+937	0
+938	1
+939	1
+940	1
+941	1
+942	0
+943	1
+944	1
+945	1
+946	1
+947	1
+948	0
+949	1
+950	0
+951	1
+952	0
+953	1
+954	1
+955	1
+956	1
+957	1
+958	1
+959	1
+960	1
+961	1
+962	1
+963	0
+964	0
+965	1
+966	1
+967	1
+968	1
+969	1
+970	1
+971	0
+972	0
+973	1
+974	1
+975	1
+976	1
+977	1
+978	1
+979	1
+980	1
+981	1
+982	0
+983	1
+984	0
+985	0
+986	1
+987	0
+988	1
+989	0
+990	0
+991	1
+992	1
+993	1
+994	0
+995	1
+996	1
+997	1
+998	1
+999	1
+1000	0
+1001	1
+1002	0
+1003	0
+1004	1
+1005	1
+1006	1
+1007	1
+1008	1
+1009	0
+1010	1
+1011	0
+1012	1
+1013	1
+1014	1
+1015	1
+1016	1
+1017	1
+1018	1
+1019	1
+1020	1
+1021	1
+1022	1
+1023	0
+1024	1
+1025	0
+1026	0
+1027	1
+1028	0
+1029	1
+1030	0
+1031	1
+1032	1
+1033	1
+1034	1
+1035	0
+1036	1
+1037	0
+1038	1
+1039	0
+1040	0
+1041	1
+1042	0
+1043	0
+1044	1
+1045	1
+1046	0
+1047	1
+1048	1
+1049	1
+1050	1
+1051	1
+1052	0
+1053	1
+1054	0
+1055	1
+1056	1
+1057	1
+1058	1
+1059	1
+1060	1
+1061	1
+1062	1
+1063	1
+1064	1
+1065	1
+1066	1
+1067	1
+1068	0
+1069	1
+1070	1
+1071	1
+1072	1
+1073	1
+1074	1
+1075	1
+1076	1
+1077	1
+1078	1
+1079	1
+1080	0
+1081	0
+1082	1
+1083	1
+1084	1
+1085	1
+1086	1
+1087	1
+1088	1
+1089	1
+1090	1
+1091	0
+1092	1
+1093	0
+1094	1
+1095	1
+1096	1
+1097	1
+1098	1
+1099	1
+1100	1
+1101	1
+1102	0
+1103	1
+1104	1
+1105	0
+1106	1
+1107	0
+1108	1
+1109	1
+1110	1
+1111	1
+1112	0
+1113	0
+1114	1
+1115	1
+1116	0
+1117	1
+1118	1
+1119	1
+1120	0
+1121	0
+1122	1
+1123	1
+1124	0
+1125	1
+1126	0
+1127	0
+1128	1
+1129	1
+1130	0
+1131	1
+1132	0
+1133	1
+1134	0
+1135	1
+1136	0
+1137	1
+1138	0
+1139	0
+1140	1
+1141	1
+1142	1
+1143	1
+1144	1
+1145	1
+1146	1
+1147	1
+1148	0
+1149	1
+1150	0
+1151	1
+1152	0
+1153	0
+1154	0
+1155	1
+1156	1
+1157	0
+1158	0
+1159	1
+1160	0
+1161	0
+1162	1
+1163	1
+1164	1
+1165	0
+1166	0
+1167	1
+1168	1
+1169	0
+1170	0
+1171	1
+1172	1
+1173	1
+1174	1
+1175	0
+1176	1
+1177	0
+1178	1
+1179	1
+1180	0
+1181	1
+1182	1
+1183	1
+1184	1
+1185	1
+1186	0
+1187	1
+1188	1
+1189	0
+1190	0
+1191	0
+1192	1
+1193	1
+1194	1
+1195	0
+1196	0
+1197	1
+1198	1
+1199	1
+1200	1
+1201	1
+1202	0
+1203	1
+1204	0
+1205	1
+1206	0
+1207	0
+1208	1
+1209	1
+1210	1
+1211	1
+1212	1
+1213	1
+1214	1
+1215	1
+1216	1
+1217	1
+1218	1
+1219	1
+1220	1
+1221	0
+1222	1
+1223	1
+1224	0
+1225	1
+1226	0
+1227	1
+1228	1
+1229	1
+1230	1
+1231	0
+1232	1
+1233	1
+1234	1
+1235	1
+1236	1
+1237	1
+1238	1
+1239	1
+1240	1
+1241	0
+1242	1
+1243	1
+1244	1
+1245	1
+1246	0
+1247	0
+1248	0
+1249	1
+1250	1
+1251	1
+1252	1
+1253	1
+1254	1
+1255	1
+1256	1
+1257	1
+1258	0
+1259	1
+1260	1
+1261	1
+1262	1
+1263	1
+1264	1
+1265	1
+1266	1
+1267	1
+1268	1
+1269	1
+1270	1
+1271	1
+1272	0
+1273	0
+1274	0
+1275	1
+1276	0
+1277	1
+1278	0
+1279	0
+1280	0
+1281	1
+1282	0
+1283	0
+1284	1
+1285	1
+1286	1
+1287	0
+1288	1
+1289	1
+1290	1
+1291	1
+1292	0
+1293	0
+1294	0
+1295	1
+1296	1
+1297	1
+1298	1
+1299	1
+1300	0
+1301	1
+1302	1
+1303	1
+1304	1
+1305	0
+1306	0
+1307	1
+1308	1
+1309	0
+1310	1
+1311	1
+1312	1
+1313	1
+1314	1
+1315	1
+1316	1
+1317	1
+1318	0
+1319	1
+1320	1
+1321	0
+1322	1
+1323	1
+1324	1
+1325	1
+1326	0
+1327	1
+1328	1
+1329	0
+1330	0
+1331	1
+1332	1
+1333	0
+1334	1
+1335	0
+1336	1
+1337	0
+1338	0
+1339	1
+1340	0
+1341	1
+1342	0
+1343	0
+1344	1
+1345	1
+1346	1
+1347	1
+1348	1
+1349	1
+1350	1
+1351	1
+1352	1
+1353	1
+1354	0
+1355	0
+1356	1
+1357	1
+1358	0
+1359	1
+1360	1
+1361	1
+1362	1
+1363	0
+1364	1
+1365	0
+1366	0
+1367	0
+1368	1
+1369	1
+1370	0
+1371	0
+1372	1
+1373	1
+1374	0
+1375	1
+1376	0
+1377	1
+1378	1
+1379	1
+1380	1
+1381	1
+1382	1
+1383	0
+1384	1
+1385	1
+1386	0
+1387	0
+1388	1
+1389	1
+1390	1
+1391	0
+1392	0
+1393	1
+1394	1
+1395	1
+1396	0
+1397	1
+1398	1
+1399	1
+1400	0
+1401	0
+1402	1
+1403	0
+1404	1
+1405	0
+1406	1
+1407	1
+1408	1
+1409	1
+1410	0
+1411	0
+1412	1
+1413	1
+1414	0
+1415	1
+1416	1
+1417	0
+1418	1
+1419	1
+1420	1
+1421	1
+1422	0
+1423	0
+1424	0
+1425	1
+1426	0
+1427	1
+1428	0
+1429	1
+1430	0
+1431	1
+1432	1
+1433	0
+1434	0
+1435	0
+1436	1
+1437	1
+1438	1
+1439	1
+1440	0
+1441	1
+1442	0
+1443	0
+1444	0
+1445	1
+1446	1
+1447	1
+1448	0
+1449	1
+1450	1
+1451	0
+1452	1
+1453	1
+1454	1
+1455	1
+1456	1
+1457	1
+1458	1
+1459	1
+1460	1
+1461	1
+1462	1
+1463	0
+1464	1
+1465	1
+1466	1
+1467	0
+1468	1
+1469	0
+1470	1
+1471	1
+1472	0
+1473	0
+1474	1
+1475	0
+1476	0
+1477	1
+1478	0
+1479	0
+1480	1
+1481	0
+1482	1
+1483	0
+1484	0
+1485	1
+1486	0
+1487	1
+1488	1
+1489	1
+1490	0
+1491	1
+1492	1
+1493	0
+1494	0
+1495	1
+1496	1
+1497	0
+1498	0
+1499	0
+1500	1
+1501	1
+1502	0
+1503	0
+1504	0
+1505	1
+1506	1
+1507	1
+1508	1
+1509	0
+1510	1
+1511	1
+1512	1
+1513	1
+1514	0
+1515	1
+1516	0
+1517	1
+1518	0
+1519	0
+1520	0
+1521	0
+1522	0
+1523	1
+1524	1
+1525	1
+1526	1
+1527	1
+1528	0
+1529	1
+1530	1
+1531	1
+1532	1
+1533	1
+1534	1
+1535	0
+1536	1
+1537	1
+1538	1
+1539	0
+1540	0
+1541	1
+1542	0
+1543	1
+1544	0
+1545	0
+1546	1
+1547	0
+1548	1
+1549	1
+1550	1
+1551	0
+1552	0
+1553	0
+1554	1
+1555	1
+1556	0
+1557	1
+1558	0
+1559	1
+1560	1
+1561	0
+1562	1
+1563	1
+1564	0
+1565	0
+1566	1
+1567	1
+1568	1
+1569	1
+1570	1
+1571	1
+1572	1
+1573	0
+1574	1
+1575	1
+1576	1
+1577	0
+1578	0
+1579	1
+1580	1
+1581	1
+1582	0
+1583	1
+1584	0
+1585	1
+1586	1
+1587	1
+1588	1
+1589	1
+1590	0
+1591	1
+1592	1
+1593	0
+1594	1
+1595	1
+1596	1
+1597	0
+1598	0
+1599	1
+1600	0
+1601	1
+1602	1
+1603	0
+1604	0
+1605	0
+1606	1
+1607	1
+1608	0
+1609	1
+1610	0
+1611	1
+1612	1
+1613	1
+1614	1
+1615	1
+1616	1
+1617	0
+1618	1
+1619	1
+1620	0
+1621	0
+1622	1
+1623	1
+1624	0
+1625	0
+1626	1
+1627	1
+1628	1
+1629	0
+1630	0
+1631	1
+1632	1
+1633	1
+1634	1
+1635	1
+1636	1
+1637	1
+1638	0
+1639	0
+1640	0
+1641	1
+1642	1
+1643	1
+1644	1
+1645	1
+1646	1
+1647	0
+1648	1
+1649	1
+1650	0
+1651	0
+1652	0
+1653	1
+1654	0
+1655	1
+1656	0
+1657	0
+1658	1
+1659	1
+1660	0
+1661	0
+1662	0
+1663	1
+1664	1
+1665	0
+1666	0
+1667	1
+1668	0
+1669	1
+1670	0
+1671	0
+1672	1
+1673	1
+1674	1
+1675	0
+1676	1
+1677	1
+1678	1
+1679	1
+1680	0
+1681	1
+1682	1
+1683	0
+1684	1
+1685	1
+1686	0
+1687	0
+1688	1
+1689	1
+1690	1
+1691	0
+1692	1
+1693	1
+1694	1
+1695	1
+1696	1
+1697	0
+1698	0
+1699	1
+1700	0
+1701	1
+1702	0
+1703	1
+1704	1
+1705	1
+1706	0
+1707	0
+1708	1
+1709	1
+1710	1
+1711	1
+1712	1
+1713	1
+1714	1
+1715	1
+1716	1
+1717	1
+1718	0
+1719	1
+1720	0
+1721	0
+1722	0
+1723	1
+1724	1

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 60.0,
+    "eval_accuracy": 0.9068627450980392,
+    "eval_combined_score": 0.9196235433675249,
+    "eval_f1": 0.9323843416370107,
+    "eval_loss": 0.38074013590812683,
+    "eval_runtime": 0.5403,
+    "eval_samples": 408,
+    "eval_samples_per_second": 755.198,
+    "eval_steps_per_second": 1.851
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 60.0,
+    "eval_accuracy": 0.9068627450980392,
+    "eval_combined_score": 0.9196235433675249,
+    "eval_f1": 0.9323843416370107,
+    "eval_loss": 0.38074013590812683,
+    "eval_runtime": 0.5403,
+    "eval_samples": 408,
+    "eval_samples_per_second": 755.198,
+    "eval_steps_per_second": 1.851
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "apply_GS": false,
+  "auto_mapping": null,
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "exclude_modules": null,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler",
+    "classifier",
+    "score"
+  ],
+  "peft_type": "HRA",
+  "peft_version": "0.18.0",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "key_proj",
+    "value_proj",
+    "output.dense",
+    "intermediate.dense",
+    "query_proj",
+    "attention.output.dense"
+  ],
+  "task_type": "SEQ_CLS"
+}

reproduction/glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1285 @@

+{
+  "best_global_step": 500,
+  "best_metric": 0.9068627450980392,
+  "best_model_checkpoint": "./glue_exp/mrpc/dr0.0,mlr6e-03,clr6e-03,ep=60.0t=22d12h19m17/checkpoint-500",
+  "epoch": 60.0,
+  "eval_steps": 100,
+  "global_step": 6900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 2.6364493370056152,
+      "learning_rate": 0.0059992290521279626,
+      "loss": 0.5476,
+      "step": 100
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_accuracy": 0.8848039215686274,
+      "eval_combined_score": 0.9006612858287186,
+      "eval_f1": 0.91651865008881,
+      "eval_loss": 0.28565412759780884,
+      "eval_runtime": 0.8654,
+      "eval_samples_per_second": 471.485,
+      "eval_steps_per_second": 1.156,
+      "step": 100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.4555858075618744,
+      "learning_rate": 0.005992873898843122,
+      "loss": 0.399,
+      "step": 200
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_accuracy": 0.8553921568627451,
+      "eval_combined_score": 0.8792560127499276,
+      "eval_f1": 0.90311986863711,
+      "eval_loss": 0.34397462010383606,
+      "eval_runtime": 0.7166,
+      "eval_samples_per_second": 569.383,
+      "eval_steps_per_second": 1.396,
+      "step": 200
+    },
+    {
+      "epoch": 2.608695652173913,
+      "grad_norm": 2.3028626441955566,
+      "learning_rate": 0.0059801129785423835,
+      "loss": 0.3385,
+      "step": 300
+    },
+    {
+      "epoch": 2.608695652173913,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_combined_score": 0.8851679285575617,
+      "eval_f1": 0.9075907590759076,
+      "eval_loss": 0.3621212840080261,
+      "eval_runtime": 0.7189,
+      "eval_samples_per_second": 567.504,
+      "eval_steps_per_second": 1.391,
+      "step": 300
+    },
+    {
+      "epoch": 3.4782608695652173,
+      "grad_norm": 0.3876798152923584,
+      "learning_rate": 0.005960973603930901,
+      "loss": 0.2599,
+      "step": 400
+    },
+    {
+      "epoch": 3.4782608695652173,
+      "eval_accuracy": 0.8774509803921569,
+      "eval_combined_score": 0.8963526088401462,
+      "eval_f1": 0.9152542372881356,
+      "eval_loss": 0.3706170618534088,
+      "eval_runtime": 0.7175,
+      "eval_samples_per_second": 568.678,
+      "eval_steps_per_second": 1.394,
+      "step": 400
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "grad_norm": 2.169461965560913,
+      "learning_rate": 0.00593549673977322,
+      "loss": 0.2635,
+      "step": 500
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "eval_accuracy": 0.9068627450980392,
+      "eval_combined_score": 0.9196235433675249,
+      "eval_f1": 0.9323843416370107,
+      "eval_loss": 0.38074013590812683,
+      "eval_runtime": 0.7024,
+      "eval_samples_per_second": 580.861,
+      "eval_steps_per_second": 1.424,
+      "step": 500
+    },
+    {
+      "epoch": 5.217391304347826,
+      "grad_norm": 1.3256586790084839,
+      "learning_rate": 0.005903736915214777,
+      "loss": 0.2076,
+      "step": 600
+    },
+    {
+      "epoch": 5.217391304347826,
+      "eval_accuracy": 0.875,
+      "eval_combined_score": 0.8946428571428571,
+      "eval_f1": 0.9142857142857143,
+      "eval_loss": 0.3881168067455292,
+      "eval_runtime": 0.7474,
+      "eval_samples_per_second": 545.861,
+      "eval_steps_per_second": 1.338,
+      "step": 600
+    },
+    {
+      "epoch": 6.086956521739131,
+      "grad_norm": 0.6423662900924683,
+      "learning_rate": 0.005865762107070985,
+      "loss": 0.1466,
+      "step": 700
+    },
+    {
+      "epoch": 6.086956521739131,
+      "eval_accuracy": 0.8504901960784313,
+      "eval_combined_score": 0.8736376530307555,
+      "eval_f1": 0.8967851099830795,
+      "eval_loss": 0.6260377764701843,
+      "eval_runtime": 0.7506,
+      "eval_samples_per_second": 543.577,
+      "eval_steps_per_second": 1.332,
+      "step": 700
+    },
+    {
+      "epoch": 6.956521739130435,
+      "grad_norm": 1.2912263870239258,
+      "learning_rate": 0.005821653594333766,
+      "loss": 0.125,
+      "step": 800
+    },
+    {
+      "epoch": 6.956521739130435,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9041085506367494,
+      "eval_f1": 0.9209621993127147,
+      "eval_loss": 0.34258151054382324,
+      "eval_runtime": 0.7263,
+      "eval_samples_per_second": 561.786,
+      "eval_steps_per_second": 1.377,
+      "step": 800
+    },
+    {
+      "epoch": 7.826086956521739,
+      "grad_norm": 1.239829182624817,
+      "learning_rate": 0.005771505784206885,
+      "loss": 0.109,
+      "step": 900
+    },
+    {
+      "epoch": 7.826086956521739,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9065224471389919,
+      "eval_f1": 0.9233390119250426,
+      "eval_loss": 0.5580412149429321,
+      "eval_runtime": 0.7066,
+      "eval_samples_per_second": 577.381,
+      "eval_steps_per_second": 1.415,
+      "step": 900
+    },
+    {
+      "epoch": 8.695652173913043,
+      "grad_norm": 0.47330760955810547,
+      "learning_rate": 0.005715426010042459,
+      "loss": 0.0882,
+      "step": 1000
+    },
+    {
+      "epoch": 8.695652173913043,
+      "eval_accuracy": 0.875,
+      "eval_combined_score": 0.8949290484140233,
+      "eval_f1": 0.9148580968280468,
+      "eval_loss": 0.4662654995918274,
+      "eval_runtime": 0.5408,
+      "eval_samples_per_second": 754.477,
+      "eval_steps_per_second": 1.849,
+      "step": 1000
+    },
+    {
+      "epoch": 9.565217391304348,
+      "grad_norm": 0.23926566541194916,
+      "learning_rate": 0.00565353430161112,
+      "loss": 0.0773,
+      "step": 1100
+    },
+    {
+      "epoch": 9.565217391304348,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9108950031625553,
+      "eval_f1": 0.9247311827956989,
+      "eval_loss": 0.3885922133922577,
+      "eval_runtime": 0.5403,
+      "eval_samples_per_second": 755.163,
+      "eval_steps_per_second": 1.851,
+      "step": 1100
+    },
+    {
+      "epoch": 10.434782608695652,
+      "grad_norm": 0.9964650869369507,
+      "learning_rate": 0.005585963128197517,
+      "loss": 0.0588,
+      "step": 1200
+    },
+    {
+      "epoch": 10.434782608695652,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9133428238080312,
+      "eval_f1": 0.9271758436944938,
+      "eval_loss": 0.6083597540855408,
+      "eval_runtime": 0.5378,
+      "eval_samples_per_second": 758.652,
+      "eval_steps_per_second": 1.859,
+      "step": 1200
+    },
+    {
+      "epoch": 11.304347826086957,
+      "grad_norm": 0.002499501220881939,
+      "learning_rate": 0.005512857115071042,
+      "loss": 0.054,
+      "step": 1300
+    },
+    {
+      "epoch": 11.304347826086957,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9055859254696643,
+      "eval_f1": 0.9214659685863874,
+      "eval_loss": 0.7781792283058167,
+      "eval_runtime": 0.5407,
+      "eval_samples_per_second": 754.578,
+      "eval_steps_per_second": 1.849,
+      "step": 1300
+    },
+    {
+      "epoch": 12.173913043478262,
+      "grad_norm": 0.10482348501682281,
+      "learning_rate": 0.005434372733938616,
+      "loss": 0.0627,
+      "step": 1400
+    },
+    {
+      "epoch": 12.173913043478262,
+      "eval_accuracy": 0.9044117647058824,
+      "eval_combined_score": 0.9180552693932214,
+      "eval_f1": 0.9316987740805605,
+      "eval_loss": 0.4779199957847595,
+      "eval_runtime": 0.5432,
+      "eval_samples_per_second": 751.158,
+      "eval_steps_per_second": 1.841,
+      "step": 1400
+    },
+    {
+      "epoch": 13.043478260869565,
+      "grad_norm": 0.16774187982082367,
+      "learning_rate": 0.00535067796804207,
+      "loss": 0.0439,
+      "step": 1500
+    },
+    {
+      "epoch": 13.043478260869565,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9137267824528756,
+      "eval_f1": 0.9279437609841827,
+      "eval_loss": 0.7853822112083435,
+      "eval_runtime": 0.5436,
+      "eval_samples_per_second": 750.58,
+      "eval_steps_per_second": 1.84,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 1.0404678583145142,
+      "learning_rate": 0.005261951952616936,
+      "loss": 0.0698,
+      "step": 1600
+    },
+    {
+      "epoch": 13.91304347826087,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9063914027149321,
+      "eval_f1": 0.9230769230769231,
+      "eval_loss": 0.996893048286438,
+      "eval_runtime": 0.5398,
+      "eval_samples_per_second": 755.831,
+      "eval_steps_per_second": 1.853,
+      "step": 1600
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 0.4925846457481384,
+      "learning_rate": 0.005168384591482175,
+      "loss": 0.0524,
+      "step": 1700
+    },
+    {
+      "epoch": 14.782608695652174,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9043783042227129,
+      "eval_f1": 0.9215017064846417,
+      "eval_loss": 0.5238045454025269,
+      "eval_runtime": 0.5425,
+      "eval_samples_per_second": 752.115,
+      "eval_steps_per_second": 1.843,
+      "step": 1700
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 0.03307371959090233,
+      "learning_rate": 0.005070176150581485,
+      "loss": 0.0558,
+      "step": 1800
+    },
+    {
+      "epoch": 15.652173913043478,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9032765737874097,
+      "eval_f1": 0.9192982456140351,
+      "eval_loss": 0.7846351861953735,
+      "eval_runtime": 0.5402,
+      "eval_samples_per_second": 755.211,
+      "eval_steps_per_second": 1.851,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 0.20798969268798828,
+      "learning_rate": 0.004967536829346139,
+      "loss": 0.0504,
+      "step": 1900
+    },
+    {
+      "epoch": 16.52173913043478,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9042438893365565,
+      "eval_f1": 0.9212328767123288,
+      "eval_loss": 0.7127761244773865,
+      "eval_runtime": 0.5411,
+      "eval_samples_per_second": 753.985,
+      "eval_steps_per_second": 1.848,
+      "step": 1900
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 0.006357874721288681,
+      "learning_rate": 0.004860686310796779,
+      "loss": 0.0235,
+      "step": 2000
+    },
+    {
+      "epoch": 17.391304347826086,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9102987580574399,
+      "eval_f1": 0.9259896729776248,
+      "eval_loss": 0.8576990962028503,
+      "eval_runtime": 0.5397,
+      "eval_samples_per_second": 755.98,
+      "eval_steps_per_second": 1.853,
+      "step": 2000
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 0.04779256880283356,
+      "learning_rate": 0.004749853291347118,
+      "loss": 0.0319,
+      "step": 2100
+    },
+    {
+      "epoch": 18.26086956521739,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9059928375495275,
+      "eval_f1": 0.9222797927461139,
+      "eval_loss": 0.6823519468307495,
+      "eval_runtime": 0.5406,
+      "eval_samples_per_second": 754.673,
+      "eval_steps_per_second": 1.85,
+      "step": 2100
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 0.08435946702957153,
+      "learning_rate": 0.004635274991315905,
+      "loss": 0.0229,
+      "step": 2200
+    },
+    {
+      "epoch": 19.130434782608695,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.9078839869281046,
+      "eval_f1": 0.9236111111111112,
+      "eval_loss": 0.7368404865264893,
+      "eval_runtime": 1.5391,
+      "eval_samples_per_second": 265.095,
+      "eval_steps_per_second": 0.65,
+      "step": 2200
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.1149434819817543,
+      "learning_rate": 0.004517196647194848,
+      "loss": 0.0166,
+      "step": 2300
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8799019607843137,
+      "eval_combined_score": 0.8976366453317077,
+      "eval_f1": 0.9153713298791019,
+      "eval_loss": 0.9132684469223022,
+      "eval_runtime": 0.5393,
+      "eval_samples_per_second": 756.59,
+      "eval_steps_per_second": 1.854,
+      "step": 2300
+    },
+    {
+      "epoch": 20.869565217391305,
+      "grad_norm": 0.17054922878742218,
+      "learning_rate": 0.004395870986759199,
+      "loss": 0.0187,
+      "step": 2400
+    },
+    {
+      "epoch": 20.869565217391305,
+      "eval_accuracy": 0.8799019607843137,
+      "eval_combined_score": 0.8964341065022812,
+      "eval_f1": 0.9129662522202486,
+      "eval_loss": 0.45014092326164246,
+      "eval_runtime": 0.543,
+      "eval_samples_per_second": 751.419,
+      "eval_steps_per_second": 1.842,
+      "step": 2400
+    },
+    {
+      "epoch": 21.73913043478261,
+      "grad_norm": 0.4253406226634979,
+      "learning_rate": 0.004271557688144445,
+      "loss": 0.0201,
+      "step": 2500
+    },
+    {
+      "epoch": 21.73913043478261,
+      "eval_accuracy": 0.8602941176470589,
+      "eval_combined_score": 0.8795253891965312,
+      "eval_f1": 0.8987566607460036,
+      "eval_loss": 0.5724949836730957,
+      "eval_runtime": 0.5422,
+      "eval_samples_per_second": 752.426,
+      "eval_steps_per_second": 1.844,
+      "step": 2500
+    },
+    {
+      "epoch": 22.608695652173914,
+      "grad_norm": 0.06475929915904999,
+      "learning_rate": 0.00414452282404687,
+      "loss": 0.0342,
+      "step": 2600
+    },
+    {
+      "epoch": 22.608695652173914,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9041085506367494,
+      "eval_f1": 0.9209621993127147,
+      "eval_loss": 0.45861247181892395,
+      "eval_runtime": 0.5425,
+      "eval_samples_per_second": 752.044,
+      "eval_steps_per_second": 1.843,
+      "step": 2600
+    },
+    {
+      "epoch": 23.47826086956522,
+      "grad_norm": 0.0008664391352795064,
+      "learning_rate": 0.004015038292237584,
+      "loss": 0.0206,
+      "step": 2700
+    },
+    {
+      "epoch": 23.47826086956522,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.903972278566599,
+      "eval_f1": 0.9206896551724137,
+      "eval_loss": 0.7849236130714417,
+      "eval_runtime": 0.7931,
+      "eval_samples_per_second": 514.44,
+      "eval_steps_per_second": 1.261,
+      "step": 2700
+    },
+    {
+      "epoch": 24.347826086956523,
+      "grad_norm": 0.3173099756240845,
+      "learning_rate": 0.0038833812336089082,
+      "loss": 0.0141,
+      "step": 2800
+    },
+    {
+      "epoch": 24.347826086956523,
+      "eval_accuracy": 0.8725490196078431,
+      "eval_combined_score": 0.8920568227290917,
+      "eval_f1": 0.9115646258503401,
+      "eval_loss": 0.9240702986717224,
+      "eval_runtime": 1.7547,
+      "eval_samples_per_second": 232.52,
+      "eval_steps_per_second": 0.57,
+      "step": 2800
+    },
+    {
+      "epoch": 25.217391304347824,
+      "grad_norm": 0.25173866748809814,
+      "learning_rate": 0.003749833438998706,
+      "loss": 0.0275,
+      "step": 2900
+    },
+    {
+      "epoch": 25.217391304347824,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9028473091364205,
+      "eval_f1": 0.9184397163120568,
+      "eval_loss": 0.5891702771186829,
+      "eval_runtime": 0.8016,
+      "eval_samples_per_second": 509.011,
+      "eval_steps_per_second": 1.248,
+      "step": 2900
+    },
+    {
+      "epoch": 26.08695652173913,
+      "grad_norm": 0.08256181329488754,
+      "learning_rate": 0.0036146807460622453,
+      "loss": 0.0152,
+      "step": 3000
+    },
+    {
+      "epoch": 26.08695652173913,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9059928375495275,
+      "eval_f1": 0.9222797927461139,
+      "eval_loss": 0.7931877374649048,
+      "eval_runtime": 1.7507,
+      "eval_samples_per_second": 233.049,
+      "eval_steps_per_second": 0.571,
+      "step": 3000
+    },
+    {
+      "epoch": 26.956521739130434,
+      "grad_norm": 0.08613915741443634,
+      "learning_rate": 0.0034782124274825013,
+      "loss": 0.0184,
+      "step": 3100
+    },
+    {
+      "epoch": 26.956521739130434,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9008765216123624,
+      "eval_f1": 0.9144981412639405,
+      "eval_loss": 0.5767039656639099,
+      "eval_runtime": 1.3941,
+      "eval_samples_per_second": 292.665,
+      "eval_steps_per_second": 0.717,
+      "step": 3100
+    },
+    {
+      "epoch": 27.82608695652174,
+      "grad_norm": 0.07717280089855194,
+      "learning_rate": 0.0033407205718283266,
+      "loss": 0.0206,
+      "step": 3200
+    },
+    {
+      "epoch": 27.82608695652174,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9092508242234947,
+      "eval_f1": 0.9238938053097345,
+      "eval_loss": 0.6821743249893188,
+      "eval_runtime": 1.6183,
+      "eval_samples_per_second": 252.122,
+      "eval_steps_per_second": 0.618,
+      "step": 3200
+    },
+    {
+      "epoch": 28.695652173913043,
+      "grad_norm": 1.320895791053772,
+      "learning_rate": 0.0032024994583856776,
+      "loss": 0.0174,
+      "step": 3300
+    },
+    {
+      "epoch": 28.695652173913043,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.9081473968897904,
+      "eval_f1": 0.9241379310344827,
+      "eval_loss": 0.5172853469848633,
+      "eval_runtime": 0.5397,
+      "eval_samples_per_second": 756.022,
+      "eval_steps_per_second": 1.853,
+      "step": 3300
+    },
+    {
+      "epoch": 29.565217391304348,
+      "grad_norm": 0.01968921534717083,
+      "learning_rate": 0.0030638449272999513,
+      "loss": 0.0179,
+      "step": 3400
+    },
+    {
+      "epoch": 29.565217391304348,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.9069325238992394,
+      "eval_f1": 0.9217081850533808,
+      "eval_loss": 0.7016431093215942,
+      "eval_runtime": 0.5391,
+      "eval_samples_per_second": 756.825,
+      "eval_steps_per_second": 1.855,
+      "step": 3400
+    },
+    {
+      "epoch": 30.434782608695652,
+      "grad_norm": 0.003688236465677619,
+      "learning_rate": 0.0029250537463775617,
+      "loss": 0.0086,
+      "step": 3500
+    },
+    {
+      "epoch": 30.434782608695652,
+      "eval_accuracy": 0.8848039215686274,
+      "eval_combined_score": 0.9015323955669223,
+      "eval_f1": 0.9182608695652174,
+      "eval_loss": 0.805417001247406,
+      "eval_runtime": 0.5431,
+      "eval_samples_per_second": 751.254,
+      "eval_steps_per_second": 1.841,
+      "step": 3500
+    },
+    {
+      "epoch": 31.304347826086957,
+      "grad_norm": 0.005005138926208019,
+      "learning_rate": 0.0027864229759020013,
+      "loss": 0.0044,
+      "step": 3600
+    },
+    {
+      "epoch": 31.304347826086957,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9043783042227129,
+      "eval_f1": 0.9215017064846417,
+      "eval_loss": 1.432096242904663,
+      "eval_runtime": 0.5394,
+      "eval_samples_per_second": 756.399,
+      "eval_steps_per_second": 1.854,
+      "step": 3600
+    },
+    {
+      "epoch": 32.17391304347826,
+      "grad_norm": 0.00238438555970788,
+      "learning_rate": 0.0026482493328239083,
+      "loss": 0.0168,
+      "step": 3700
+    },
+    {
+      "epoch": 32.17391304347826,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9054483877614092,
+      "eval_f1": 0.9211908931698775,
+      "eval_loss": 0.9366185665130615,
+      "eval_runtime": 0.5425,
+      "eval_samples_per_second": 752.1,
+      "eval_steps_per_second": 1.843,
+      "step": 3700
+    },
+    {
+      "epoch": 33.04347826086956,
+      "grad_norm": 0.0020455929916352034,
+      "learning_rate": 0.0025108285556859683,
+      "loss": 0.0116,
+      "step": 3800
+    },
+    {
+      "epoch": 33.04347826086956,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9041657802361451,
+      "eval_f1": 0.918625678119349,
+      "eval_loss": 0.7671505808830261,
+      "eval_runtime": 0.5401,
+      "eval_samples_per_second": 755.459,
+      "eval_steps_per_second": 1.852,
+      "step": 3800
+    },
+    {
+      "epoch": 33.91304347826087,
+      "grad_norm": 0.0003456902632024139,
+      "learning_rate": 0.0023744547716419632,
+      "loss": 0.0074,
+      "step": 3900
+    },
+    {
+      "epoch": 33.91304347826087,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9089795008912656,
+      "eval_f1": 0.9233511586452763,
+      "eval_loss": 0.8340775966644287,
+      "eval_runtime": 0.5432,
+      "eval_samples_per_second": 751.15,
+      "eval_steps_per_second": 1.841,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 0.0021141970064491034,
+      "learning_rate": 0.00223941986692472,
+      "loss": 0.0045,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78260869565217,
+      "eval_accuracy": 0.9044117647058824,
+      "eval_combined_score": 0.9174465240641712,
+      "eval_f1": 0.93048128342246,
+      "eval_loss": 0.7846585512161255,
+      "eval_runtime": 0.5416,
+      "eval_samples_per_second": 753.34,
+      "eval_steps_per_second": 1.846,
+      "step": 4000
+    },
+    {
+      "epoch": 35.65217391304348,
+      "grad_norm": 0.0007770864176563919,
+      "learning_rate": 0.002106012862110405,
+      "loss": 0.0028,
+      "step": 4100
+    },
+    {
+      "epoch": 35.65217391304348,
+      "eval_accuracy": 0.9044117647058824,
+      "eval_combined_score": 0.9178143479614067,
+      "eval_f1": 0.9312169312169312,
+      "eval_loss": 0.7687886357307434,
+      "eval_runtime": 0.5399,
+      "eval_samples_per_second": 755.746,
+      "eval_steps_per_second": 1.852,
+      "step": 4100
+    },
+    {
+      "epoch": 36.52173913043478,
+      "grad_norm": 0.012195412069559097,
+      "learning_rate": 0.0019745192935162865,
+      "loss": 0.0031,
+      "step": 4200
+    },
+    {
+      "epoch": 36.52173913043478,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9044579681064526,
+      "eval_f1": 0.9192100538599641,
+      "eval_loss": 0.7898321747779846,
+      "eval_runtime": 0.5404,
+      "eval_samples_per_second": 754.959,
+      "eval_steps_per_second": 1.85,
+      "step": 4200
+    },
+    {
+      "epoch": 37.391304347826086,
+      "grad_norm": 0.0025567489210516214,
+      "learning_rate": 0.0018452206020560069,
+      "loss": 0.004,
+      "step": 4300
+    },
+    {
+      "epoch": 37.391304347826086,
+      "eval_accuracy": 0.8897058823529411,
+      "eval_combined_score": 0.9050299323269131,
+      "eval_f1": 0.9203539823008849,
+      "eval_loss": 0.7720369100570679,
+      "eval_runtime": 0.5397,
+      "eval_samples_per_second": 755.98,
+      "eval_steps_per_second": 1.853,
+      "step": 4300
+    },
+    {
+      "epoch": 38.26086956521739,
+      "grad_norm": 0.0025629671290516853,
+      "learning_rate": 0.0017183935308603985,
+      "loss": 0.0033,
+      "step": 4400
+    },
+    {
+      "epoch": 38.26086956521739,
+      "eval_accuracy": 0.8872549019607843,
+      "eval_combined_score": 0.9042438893365565,
+      "eval_f1": 0.9212328767123288,
+      "eval_loss": 0.9692898988723755,
+      "eval_runtime": 0.538,
+      "eval_samples_per_second": 758.342,
+      "eval_steps_per_second": 1.859,
+      "step": 4400
+    },
+    {
+      "epoch": 39.130434782608695,
+      "grad_norm": 5.716999658034183e-05,
+      "learning_rate": 0.0015943095329531598,
+      "loss": 0.0021,
+      "step": 4500
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_combined_score": 0.9160153571918278,
+      "eval_f1": 0.9300699300699301,
+      "eval_loss": 1.1709413528442383,
+      "eval_runtime": 0.5404,
+      "eval_samples_per_second": 755.034,
+      "eval_steps_per_second": 1.851,
+      "step": 4500
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 5.226567736826837e-05,
+      "learning_rate": 0.001473234190249152,
+      "loss": 0.0029,
+      "step": 4600
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9095183328164307,
+      "eval_f1": 0.9244288224956063,
+      "eval_loss": 1.1188499927520752,
+      "eval_runtime": 0.5428,
+      "eval_samples_per_second": 751.701,
+      "eval_steps_per_second": 1.842,
+      "step": 4600
+    },
+    {
+      "epoch": 40.869565217391305,
+      "grad_norm": 0.00022964319214224815,
+      "learning_rate": 0.001355426645118869,
+      "loss": 0.0039,
+      "step": 4700
+    },
+    {
+      "epoch": 40.869565217391305,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9118161250514192,
+      "eval_f1": 0.9265734265734266,
+      "eval_loss": 1.0468120574951172,
+      "eval_runtime": 0.538,
+      "eval_samples_per_second": 758.342,
+      "eval_steps_per_second": 1.859,
+      "step": 4700
+    },
+    {
+      "epoch": 41.73913043478261,
+      "grad_norm": 0.00023312283155974,
+      "learning_rate": 0.0012411390457357126,
+      "loss": 0.0016,
+      "step": 4800
+    },
+    {
+      "epoch": 41.73913043478261,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9114269382664727,
+      "eval_f1": 0.9257950530035336,
+      "eval_loss": 1.1018487215042114,
+      "eval_runtime": 0.5401,
+      "eval_samples_per_second": 755.406,
+      "eval_steps_per_second": 1.851,
+      "step": 4800
+    },
+    {
+      "epoch": 42.608695652173914,
+      "grad_norm": 1.0152802133234218e-05,
+      "learning_rate": 0.0011306160063932343,
+      "loss": 0.0017,
+      "step": 4900
+    },
+    {
+      "epoch": 42.608695652173914,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.907209173422019,
+      "eval_f1": 0.9222614840989399,
+      "eval_loss": 1.0843183994293213,
+      "eval_runtime": 0.5403,
+      "eval_samples_per_second": 755.111,
+      "eval_steps_per_second": 1.851,
+      "step": 4900
+    },
+    {
+      "epoch": 43.47826086956522,
+      "grad_norm": 0.0011523779248818755,
+      "learning_rate": 0.0010240940839474372,
+      "loss": 0.0059,
+      "step": 5000
+    },
+    {
+      "epoch": 43.47826086956522,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_combined_score": 0.9163783160322954,
+      "eval_f1": 0.9307958477508651,
+      "eval_loss": 0.9805396795272827,
+      "eval_runtime": 0.54,
+      "eval_samples_per_second": 755.537,
+      "eval_steps_per_second": 1.852,
+      "step": 5000
+    },
+    {
+      "epoch": 44.34782608695652,
+      "grad_norm": 0.003142524277791381,
+      "learning_rate": 0.0009218012715047219,
+      "loss": 0.0017,
+      "step": 5100
+    },
+    {
+      "epoch": 44.34782608695652,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.9069325238992394,
+      "eval_f1": 0.9217081850533808,
+      "eval_loss": 0.8588517308235168,
+      "eval_runtime": 0.5423,
+      "eval_samples_per_second": 752.371,
+      "eval_steps_per_second": 1.844,
+      "step": 5100
+    },
+    {
+      "epoch": 45.21739130434783,
+      "grad_norm": 0.00017512345220893621,
+      "learning_rate": 0.0008239565104391876,
+      "loss": 0.0017,
+      "step": 5200
+    },
+    {
+      "epoch": 45.21739130434783,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9138529755159507,
+      "eval_f1": 0.9281961471103327,
+      "eval_loss": 1.147383689880371,
+      "eval_runtime": 0.54,
+      "eval_samples_per_second": 755.561,
+      "eval_steps_per_second": 1.852,
+      "step": 5200
+    },
+    {
+      "epoch": 46.08695652173913,
+      "grad_norm": 0.0001278241106774658,
+      "learning_rate": 0.0007307692217836915,
+      "loss": 0.0009,
+      "step": 5300
+    },
+    {
+      "epoch": 46.08695652173913,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9138529755159507,
+      "eval_f1": 0.9281961471103327,
+      "eval_loss": 1.2277849912643433,
+      "eval_runtime": 0.5402,
+      "eval_samples_per_second": 755.325,
+      "eval_steps_per_second": 1.851,
+      "step": 5300
+    },
+    {
+      "epoch": 46.95652173913044,
+      "grad_norm": 0.0006020450382493436,
+      "learning_rate": 0.0006424388579976914,
+      "loss": 0.0031,
+      "step": 5400
+    },
+    {
+      "epoch": 46.95652173913044,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9097821065599014,
+      "eval_f1": 0.924956369982548,
+      "eval_loss": 1.220462441444397,
+      "eval_runtime": 0.543,
+      "eval_samples_per_second": 751.421,
+      "eval_steps_per_second": 1.842,
+      "step": 5400
+    },
+    {
+      "epoch": 47.82608695652174,
+      "grad_norm": 2.0725792637676932e-05,
+      "learning_rate": 0.0005591544760712127,
+      "loss": 0.001,
+      "step": 5500
+    },
+    {
+      "epoch": 47.82608695652174,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9101709336584375,
+      "eval_f1": 0.92573402417962,
+      "eval_loss": 1.453669786453247,
+      "eval_runtime": 0.5399,
+      "eval_samples_per_second": 755.634,
+      "eval_steps_per_second": 1.852,
+      "step": 5500
+    },
+    {
+      "epoch": 48.69565217391305,
+      "grad_norm": 0.00041490638977847993,
+      "learning_rate": 0.0004810943328786581,
+      "loss": 0.0031,
+      "step": 5600
+    },
+    {
+      "epoch": 48.69565217391305,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.907209173422019,
+      "eval_f1": 0.9222614840989399,
+      "eval_loss": 1.014076590538025,
+      "eval_runtime": 0.5383,
+      "eval_samples_per_second": 757.912,
+      "eval_steps_per_second": 1.858,
+      "step": 5600
+    },
+    {
+      "epoch": 49.56521739130435,
+      "grad_norm": 0.0008342143846675754,
+      "learning_rate": 0.0004084255036485247,
+      "loss": 0.0008,
+      "step": 5700
+    },
+    {
+      "epoch": 49.56521739130435,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9137267824528756,
+      "eval_f1": 0.9279437609841827,
+      "eval_loss": 1.0565646886825562,
+      "eval_runtime": 0.5406,
+      "eval_samples_per_second": 754.734,
+      "eval_steps_per_second": 1.85,
+      "step": 5700
+    },
+    {
+      "epoch": 50.43478260869565,
+      "grad_norm": 0.00030943751335144043,
+      "learning_rate": 0.0003413035243656567,
+      "loss": 0.0006,
+      "step": 5800
+    },
+    {
+      "epoch": 50.43478260869565,
+      "eval_accuracy": 0.9044117647058824,
+      "eval_combined_score": 0.9181744687403757,
+      "eval_f1": 0.9319371727748691,
+      "eval_loss": 1.1727582216262817,
+      "eval_runtime": 0.542,
+      "eval_samples_per_second": 752.737,
+      "eval_steps_per_second": 1.845,
+      "step": 5800
+    },
+    {
+      "epoch": 51.30434782608695,
+      "grad_norm": 1.8360608009970747e-05,
+      "learning_rate": 0.00027987205887138636,
+      "loss": 0.0019,
+      "step": 5900
+    },
+    {
+      "epoch": 51.30434782608695,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_combined_score": 0.9163783160322954,
+      "eval_f1": 0.9307958477508651,
+      "eval_loss": 1.293489694595337,
+      "eval_runtime": 0.5401,
+      "eval_samples_per_second": 755.456,
+      "eval_steps_per_second": 1.852,
+      "step": 5900
+    },
+    {
+      "epoch": 52.17391304347826,
+      "grad_norm": 0.2986358106136322,
+      "learning_rate": 0.00022426259137410366,
+      "loss": 0.0026,
+      "step": 6000
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9123225152129817,
+      "eval_f1": 0.9275862068965517,
+      "eval_loss": 1.2229700088500977,
+      "eval_runtime": 0.5412,
+      "eval_samples_per_second": 753.884,
+      "eval_steps_per_second": 1.848,
+      "step": 6000
+    },
+    {
+      "epoch": 53.04347826086956,
+      "grad_norm": 0.00012920332665089518,
+      "learning_rate": 0.00017459414502837722,
+      "loss": 0.0007,
+      "step": 6100
+    },
+    {
+      "epoch": 53.04347826086956,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_combined_score": 0.9163783160322954,
+      "eval_f1": 0.9307958477508651,
+      "eval_loss": 1.1866824626922607,
+      "eval_runtime": 0.5394,
+      "eval_samples_per_second": 756.357,
+      "eval_steps_per_second": 1.854,
+      "step": 6100
+    },
+    {
+      "epoch": 53.91304347826087,
+      "grad_norm": 0.00025677334633655846,
+      "learning_rate": 0.00013097302718496274,
+      "loss": 0.0007,
+      "step": 6200
+    },
+    {
+      "epoch": 53.91304347826087,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_combined_score": 0.9163783160322954,
+      "eval_f1": 0.9307958477508651,
+      "eval_loss": 1.1940966844558716,
+      "eval_runtime": 0.5396,
+      "eval_samples_per_second": 756.156,
+      "eval_steps_per_second": 1.853,
+      "step": 6200
+    },
+    {
+      "epoch": 54.78260869565217,
+      "grad_norm": 6.180995114846155e-05,
+      "learning_rate": 9.349260185695385e-05,
+      "loss": 0.0006,
+      "step": 6300
+    },
+    {
+      "epoch": 54.78260869565217,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_combined_score": 0.9163783160322954,
+      "eval_f1": 0.9307958477508651,
+      "eval_loss": 1.1967113018035889,
+      "eval_runtime": 0.5396,
+      "eval_samples_per_second": 756.101,
+      "eval_steps_per_second": 1.853,
+      "step": 6300
+    },
+    {
+      "epoch": 55.65217391304348,
+      "grad_norm": 3.121919871773571e-05,
+      "learning_rate": 6.223308988907062e-05,
+      "loss": 0.0009,
+      "step": 6400
+    },
+    {
+      "epoch": 55.65217391304348,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9139782876501386,
+      "eval_f1": 0.9284467713787086,
+      "eval_loss": 1.158166766166687,
+      "eval_runtime": 0.5404,
+      "eval_samples_per_second": 755.002,
+      "eval_steps_per_second": 1.85,
+      "step": 6400
+    },
+    {
+      "epoch": 56.52173913043478,
+      "grad_norm": 8.268425881396979e-05,
+      "learning_rate": 3.726139725779809e-05,
+      "loss": 0.0013,
+      "step": 6500
+    },
+    {
+      "epoch": 56.52173913043478,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9118161250514192,
+      "eval_f1": 0.9265734265734266,
+      "eval_loss": 1.143733263015747,
+      "eval_runtime": 0.5392,
+      "eval_samples_per_second": 756.74,
+      "eval_steps_per_second": 1.855,
+      "step": 6500
+    },
+    {
+      "epoch": 57.391304347826086,
+      "grad_norm": 4.56096458947286e-05,
+      "learning_rate": 1.8630971869861734e-05,
+      "loss": 0.0009,
+      "step": 6600
+    },
+    {
+      "epoch": 57.391304347826086,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9118161250514192,
+      "eval_f1": 0.9265734265734266,
+      "eval_loss": 1.1513959169387817,
+      "eval_runtime": 0.5406,
+      "eval_samples_per_second": 754.69,
+      "eval_steps_per_second": 1.85,
+      "step": 6600
+    },
+    {
+      "epoch": 58.26086956521739,
+      "grad_norm": 0.005534951575100422,
+      "learning_rate": 6.381689165550264e-06,
+      "loss": 0.0009,
+      "step": 6700
+    },
+    {
+      "epoch": 58.26086956521739,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9118161250514192,
+      "eval_f1": 0.9265734265734266,
+      "eval_loss": 1.1539251804351807,
+      "eval_runtime": 0.5414,
+      "eval_samples_per_second": 753.553,
+      "eval_steps_per_second": 1.847,
+      "step": 6700
+    },
+    {
+      "epoch": 59.130434782608695,
+      "grad_norm": 0.0001028048136504367,
+      "learning_rate": 5.397667717218502e-07,
+      "loss": 0.0006,
+      "step": 6800
+    },
+    {
+      "epoch": 59.130434782608695,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9118161250514192,
+      "eval_f1": 0.9265734265734266,
+      "eval_loss": 1.153951644897461,
+      "eval_runtime": 0.5392,
+      "eval_samples_per_second": 756.67,
+      "eval_steps_per_second": 1.855,
+      "step": 6800
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.00017295156430918723,
+      "learning_rate": 1.1177083871778404e-06,
+      "loss": 0.0011,
+      "step": 6900
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.8970588235294118,
+      "eval_combined_score": 0.9118161250514192,
+      "eval_f1": 0.9265734265734266,
+      "eval_loss": 1.1541002988815308,
+      "eval_runtime": 0.5394,
+      "eval_samples_per_second": 756.444,
+      "eval_steps_per_second": 1.854,
+      "step": 6900
+    },
+    {
+      "epoch": 60.0,
+      "step": 6900,
+      "total_flos": 3.67221676566528e+16,
+      "train_loss": 0.04985012825902389,
+      "train_runtime": 3922.5682,
+      "train_samples_per_second": 56.106,
+      "train_steps_per_second": 1.759
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 6900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 60,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.67221676566528e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/QNLI.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 12.0,
+    "eval_accuracy": 0.942339373970346,
+    "eval_loss": 0.16657477617263794,
+    "eval_runtime": 10.6426,
+    "eval_samples": 5463,
+    "eval_samples_per_second": 513.315,
+    "eval_steps_per_second": 0.564
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 12.0,
+    "eval_accuracy": 0.942339373970346,
+    "eval_loss": 0.16657477617263794,
+    "eval_runtime": 10.6426,
+    "eval_samples": 5463,
+    "eval_samples_per_second": 513.315,
+    "eval_steps_per_second": 0.564
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "apply_GS": false,
+  "auto_mapping": null,
+  "base_model_name_or_path": "microsoft/deberta-v3-base",
+  "bias": "none",
+  "exclude_modules": null,
+  "inference_mode": true,
+  "init_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "modules_to_save": [
+    "classifier",
+    "pooler",
+    "classifier",
+    "score"
+  ],
+  "peft_type": "HRA",
+  "peft_version": "0.18.0",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "attention.output.dense",
+    "query_proj",
+    "key_proj",
+    "value_proj",
+    "intermediate.dense",
+    "output.dense"
+  ],
+  "task_type": "SEQ_CLS"
+}

reproduction/glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1291 @@

+{
+  "best_global_step": 22500,
+  "best_metric": 0.942339373970346,
+  "best_model_checkpoint": "./glue_exp/qnli/dr0.0,mlr1e-02,clr1e-02,ep=12.0t=20d22h35m39/checkpoint-22500",
+  "epoch": 12.0,
+  "eval_steps": 500,
+  "global_step": 39288,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15271838729383017,
+      "grad_norm": 1.5037044286727905,
+      "learning_rate": 0.009980000000000001,
+      "loss": 0.4534,
+      "step": 500
+    },
+    {
+      "epoch": 0.15271838729383017,
+      "eval_accuracy": 0.7565440234303497,
+      "eval_loss": 0.47564518451690674,
+      "eval_runtime": 10.841,
+      "eval_samples_per_second": 503.92,
+      "eval_steps_per_second": 0.553,
+      "step": 500
+    },
+    {
+      "epoch": 0.30543677458766033,
+      "grad_norm": 1.301108717918396,
+      "learning_rate": 0.009995914401570357,
+      "loss": 0.3969,
+      "step": 1000
+    },
+    {
+      "epoch": 0.30543677458766033,
+      "eval_accuracy": 0.8936481786564159,
+      "eval_loss": 0.2647385895252228,
+      "eval_runtime": 10.7003,
+      "eval_samples_per_second": 510.546,
+      "eval_steps_per_second": 0.561,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4581551618814905,
+      "grad_norm": 1.488311767578125,
+      "learning_rate": 0.009983631547700822,
+      "loss": 0.3658,
+      "step": 1500
+    },
+    {
+      "epoch": 0.4581551618814905,
+      "eval_accuracy": 0.9055464030752334,
+      "eval_loss": 0.27435341477394104,
+      "eval_runtime": 10.6807,
+      "eval_samples_per_second": 511.481,
+      "eval_steps_per_second": 0.562,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6108735491753207,
+      "grad_norm": 0.742245614528656,
+      "learning_rate": 0.009963171575627594,
+      "loss": 0.3348,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6108735491753207,
+      "eval_accuracy": 0.9137836353651839,
+      "eval_loss": 0.2198512852191925,
+      "eval_runtime": 10.6447,
+      "eval_samples_per_second": 513.212,
+      "eval_steps_per_second": 0.564,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7635919364691509,
+      "grad_norm": 0.7200786471366882,
+      "learning_rate": 0.009934568055972514,
+      "loss": 0.3216,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7635919364691509,
+      "eval_accuracy": 0.8881566904631155,
+      "eval_loss": 0.25786492228507996,
+      "eval_runtime": 10.6621,
+      "eval_samples_per_second": 512.377,
+      "eval_steps_per_second": 0.563,
+      "step": 2500
+    },
+    {
+      "epoch": 0.916310323762981,
+      "grad_norm": 1.2832411527633667,
+      "learning_rate": 0.00989786792125036,
+      "loss": 0.296,
+      "step": 3000
+    },
+    {
+      "epoch": 0.916310323762981,
+      "eval_accuracy": 0.9161632802489474,
+      "eval_loss": 0.23129652440547943,
+      "eval_runtime": 10.6609,
+      "eval_samples_per_second": 512.432,
+      "eval_steps_per_second": 0.563,
+      "step": 3000
+    },
+    {
+      "epoch": 1.0690287110568113,
+      "grad_norm": 0.39881283044815063,
+      "learning_rate": 0.00985313138886221,
+      "loss": 0.2923,
+      "step": 3500
+    },
+    {
+      "epoch": 1.0690287110568113,
+      "eval_accuracy": 0.9082921471718836,
+      "eval_loss": 0.2395196557044983,
+      "eval_runtime": 10.6865,
+      "eval_samples_per_second": 511.205,
+      "eval_steps_per_second": 0.561,
+      "step": 3500
+    },
+    {
+      "epoch": 1.2217470983506413,
+      "grad_norm": 0.7452009916305542,
+      "learning_rate": 0.009800431862291011,
+      "loss": 0.2746,
+      "step": 4000
+    },
+    {
+      "epoch": 1.2217470983506413,
+      "eval_accuracy": 0.8844956983342486,
+      "eval_loss": 0.2552923262119293,
+      "eval_runtime": 10.6494,
+      "eval_samples_per_second": 512.988,
+      "eval_steps_per_second": 0.563,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3744654856444716,
+      "grad_norm": 4.700128078460693,
+      "learning_rate": 0.009739855810661528,
+      "loss": 0.2829,
+      "step": 4500
+    },
+    {
+      "epoch": 1.3744654856444716,
+      "eval_accuracy": 0.8802855573860516,
+      "eval_loss": 0.3161483108997345,
+      "eval_runtime": 10.6701,
+      "eval_samples_per_second": 511.994,
+      "eval_steps_per_second": 0.562,
+      "step": 4500
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "grad_norm": 0.5145873427391052,
+      "learning_rate": 0.009671502626862208,
+      "loss": 0.2666,
+      "step": 5000
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "eval_accuracy": 0.9220208676551346,
+      "eval_loss": 0.19354809820652008,
+      "eval_runtime": 10.6591,
+      "eval_samples_per_second": 512.522,
+      "eval_steps_per_second": 0.563,
+      "step": 5000
+    },
+    {
+      "epoch": 1.679902260232132,
+      "grad_norm": 0.9298949241638184,
+      "learning_rate": 0.009595484464461823,
+      "loss": 0.2742,
+      "step": 5500
+    },
+    {
+      "epoch": 1.679902260232132,
+      "eval_accuracy": 0.919092073952041,
+      "eval_loss": 0.2683914303779602,
+      "eval_runtime": 10.6958,
+      "eval_samples_per_second": 510.76,
+      "eval_steps_per_second": 0.561,
+      "step": 5500
+    },
+    {
+      "epoch": 1.832620647525962,
+      "grad_norm": 1.6296656131744385,
+      "learning_rate": 0.009511926053688446,
+      "loss": 0.2815,
+      "step": 6000
+    },
+    {
+      "epoch": 1.832620647525962,
+      "eval_accuracy": 0.9176276771004942,
+      "eval_loss": 0.22844888269901276,
+      "eval_runtime": 10.6542,
+      "eval_samples_per_second": 512.758,
+      "eval_steps_per_second": 0.563,
+      "step": 6000
+    },
+    {
+      "epoch": 1.9853390348197923,
+      "grad_norm": 0.6419379115104675,
+      "learning_rate": 0.009420964496772703,
+      "loss": 0.2716,
+      "step": 6500
+    },
+    {
+      "epoch": 1.9853390348197923,
+      "eval_accuracy": 0.9209225700164745,
+      "eval_loss": 0.21448443830013275,
+      "eval_runtime": 10.6684,
+      "eval_samples_per_second": 512.075,
+      "eval_steps_per_second": 0.562,
+      "step": 6500
+    },
+    {
+      "epoch": 2.1380574221136226,
+      "grad_norm": 1.490606665611267,
+      "learning_rate": 0.009322749042991107,
+      "loss": 0.2386,
+      "step": 7000
+    },
+    {
+      "epoch": 2.1380574221136226,
+      "eval_accuracy": 0.8916346329855391,
+      "eval_loss": 0.28844568133354187,
+      "eval_runtime": 10.6717,
+      "eval_samples_per_second": 511.915,
+      "eval_steps_per_second": 0.562,
+      "step": 7000
+    },
+    {
+      "epoch": 2.2907758094074526,
+      "grad_norm": 2.767303705215454,
+      "learning_rate": 0.00921744084377857,
+      "loss": 0.241,
+      "step": 7500
+    },
+    {
+      "epoch": 2.2907758094074526,
+      "eval_accuracy": 0.9306241991579718,
+      "eval_loss": 0.19840888679027557,
+      "eval_runtime": 10.6553,
+      "eval_samples_per_second": 512.701,
+      "eval_steps_per_second": 0.563,
+      "step": 7500
+    },
+    {
+      "epoch": 2.4434941967012827,
+      "grad_norm": 1.0674463510513306,
+      "learning_rate": 0.00910521268831193,
+      "loss": 0.2458,
+      "step": 8000
+    },
+    {
+      "epoch": 2.4434941967012827,
+      "eval_accuracy": 0.9276954054548783,
+      "eval_loss": 0.2097393274307251,
+      "eval_runtime": 10.6626,
+      "eval_samples_per_second": 512.35,
+      "eval_steps_per_second": 0.563,
+      "step": 8000
+    },
+    {
+      "epoch": 2.596212583995113,
+      "grad_norm": 0.6073241829872131,
+      "learning_rate": 0.008986248719998306,
+      "loss": 0.2404,
+      "step": 8500
+    },
+    {
+      "epoch": 2.596212583995113,
+      "eval_accuracy": 0.914881933003844,
+      "eval_loss": 0.2356455773115158,
+      "eval_runtime": 10.6615,
+      "eval_samples_per_second": 512.402,
+      "eval_steps_per_second": 0.563,
+      "step": 8500
+    },
+    {
+      "epoch": 2.748930971288943,
+      "grad_norm": 0.36522233486175537,
+      "learning_rate": 0.008860744134333512,
+      "loss": 0.2528,
+      "step": 9000
+    },
+    {
+      "epoch": 2.748930971288943,
+      "eval_accuracy": 0.9315394471901886,
+      "eval_loss": 0.17801421880722046,
+      "eval_runtime": 10.6373,
+      "eval_samples_per_second": 513.572,
+      "eval_steps_per_second": 0.564,
+      "step": 9000
+    },
+    {
+      "epoch": 2.901649358582773,
+      "grad_norm": 0.3105764091014862,
+      "learning_rate": 0.008728904858626225,
+      "loss": 0.2493,
+      "step": 9500
+    },
+    {
+      "epoch": 2.901649358582773,
+      "eval_accuracy": 0.9265971078162182,
+      "eval_loss": 0.19014635682106018,
+      "eval_runtime": 10.6935,
+      "eval_samples_per_second": 510.872,
+      "eval_steps_per_second": 0.561,
+      "step": 9500
+    },
+    {
+      "epoch": 3.0543677458766036,
+      "grad_norm": 0.7906205058097839,
+      "learning_rate": 0.008590947214113487,
+      "loss": 0.2601,
+      "step": 10000
+    },
+    {
+      "epoch": 3.0543677458766036,
+      "eval_accuracy": 0.924400512538898,
+      "eval_loss": 0.20123699307441711,
+      "eval_runtime": 10.6623,
+      "eval_samples_per_second": 512.368,
+      "eval_steps_per_second": 0.563,
+      "step": 10000
+    },
+    {
+      "epoch": 3.2070861331704337,
+      "grad_norm": 0.40712904930114746,
+      "learning_rate": 0.00844709756102187,
+      "loss": 0.2952,
+      "step": 10500
+    },
+    {
+      "epoch": 3.2070861331704337,
+      "eval_accuracy": 0.933369943254622,
+      "eval_loss": 0.1751944124698639,
+      "eval_runtime": 10.6795,
+      "eval_samples_per_second": 511.542,
+      "eval_steps_per_second": 0.562,
+      "step": 10500
+    },
+    {
+      "epoch": 3.359804520464264,
+      "grad_norm": 1.2962415218353271,
+      "learning_rate": 0.008297591927156726,
+      "loss": 0.2187,
+      "step": 11000
+    },
+    {
+      "epoch": 3.359804520464264,
+      "eval_accuracy": 0.9264140582097748,
+      "eval_loss": 0.20032303035259247,
+      "eval_runtime": 10.6692,
+      "eval_samples_per_second": 512.033,
+      "eval_steps_per_second": 0.562,
+      "step": 11000
+    },
+    {
+      "epoch": 3.512522907758094,
+      "grad_norm": 0.606886088848114,
+      "learning_rate": 0.008142675620628925,
+      "loss": 0.2084,
+      "step": 11500
+    },
+    {
+      "epoch": 3.512522907758094,
+      "eval_accuracy": 0.9254988101775581,
+      "eval_loss": 0.17964500188827515,
+      "eval_runtime": 10.66,
+      "eval_samples_per_second": 512.476,
+      "eval_steps_per_second": 0.563,
+      "step": 11500
+    },
+    {
+      "epoch": 3.665241295051924,
+      "grad_norm": 0.4789172410964966,
+      "learning_rate": 0.007982602827354504,
+      "loss": 0.2421,
+      "step": 12000
+    },
+    {
+      "epoch": 3.665241295051924,
+      "eval_accuracy": 0.9280615046677649,
+      "eval_loss": 0.1904270052909851,
+      "eval_runtime": 10.6645,
+      "eval_samples_per_second": 512.261,
+      "eval_steps_per_second": 0.563,
+      "step": 12000
+    },
+    {
+      "epoch": 3.8179596823457542,
+      "grad_norm": 0.5354307293891907,
+      "learning_rate": 0.007817636193987672,
+      "loss": 0.2239,
+      "step": 12500
+    },
+    {
+      "epoch": 3.8179596823457542,
+      "eval_accuracy": 0.9225700164744646,
+      "eval_loss": 0.17951762676239014,
+      "eval_runtime": 10.6419,
+      "eval_samples_per_second": 513.347,
+      "eval_steps_per_second": 0.564,
+      "step": 12500
+    },
+    {
+      "epoch": 3.9706780696395847,
+      "grad_norm": 0.33672019839286804,
+      "learning_rate": 0.007648046396971458,
+      "loss": 0.2241,
+      "step": 13000
+    },
+    {
+      "epoch": 3.9706780696395847,
+      "eval_accuracy": 0.9335529928610653,
+      "eval_loss": 0.17079654335975647,
+      "eval_runtime": 10.6698,
+      "eval_samples_per_second": 512.008,
+      "eval_steps_per_second": 0.562,
+      "step": 13000
+    },
+    {
+      "epoch": 4.123396456933415,
+      "grad_norm": 1.8505825996398926,
+      "learning_rate": 0.0074741116984131375,
+      "loss": 0.1942,
+      "step": 13500
+    },
+    {
+      "epoch": 4.123396456933415,
+      "eval_accuracy": 0.932820794435292,
+      "eval_loss": 0.17642812430858612,
+      "eval_runtime": 11.649,
+      "eval_samples_per_second": 468.969,
+      "eval_steps_per_second": 0.515,
+      "step": 13500
+    },
+    {
+      "epoch": 4.276114844227245,
+      "grad_norm": 1.2131459712982178,
+      "learning_rate": 0.007296117489513126,
+      "loss": 0.1926,
+      "step": 14000
+    },
+    {
+      "epoch": 4.276114844227245,
+      "eval_accuracy": 0.9267801574226615,
+      "eval_loss": 0.17633135616779327,
+      "eval_runtime": 10.6901,
+      "eval_samples_per_second": 511.034,
+      "eval_steps_per_second": 0.561,
+      "step": 14000
+    },
+    {
+      "epoch": 4.428833231521075,
+      "grad_norm": 0.5870394110679626,
+      "learning_rate": 0.007114355822296504,
+      "loss": 0.2021,
+      "step": 14500
+    },
+    {
+      "epoch": 4.428833231521075,
+      "eval_accuracy": 0.9368478857770456,
+      "eval_loss": 0.1699468046426773,
+      "eval_runtime": 12.8884,
+      "eval_samples_per_second": 423.868,
+      "eval_steps_per_second": 0.466,
+      "step": 14500
+    },
+    {
+      "epoch": 4.581551618814905,
+      "grad_norm": 1.3461284637451172,
+      "learning_rate": 0.006929124930415475,
+      "loss": 0.1951,
+      "step": 15000
+    },
+    {
+      "epoch": 4.581551618814905,
+      "eval_accuracy": 0.9416071755445726,
+      "eval_loss": 0.1666867583990097,
+      "eval_runtime": 10.6488,
+      "eval_samples_per_second": 513.017,
+      "eval_steps_per_second": 0.563,
+      "step": 15000
+    },
+    {
+      "epoch": 4.734270006108735,
+      "grad_norm": 0.5517491102218628,
+      "learning_rate": 0.006740728739809068,
+      "loss": 0.2014,
+      "step": 15500
+    },
+    {
+      "epoch": 4.734270006108735,
+      "eval_accuracy": 0.9339190920739521,
+      "eval_loss": 0.1630578488111496,
+      "eval_runtime": 12.8458,
+      "eval_samples_per_second": 425.275,
+      "eval_steps_per_second": 0.467,
+      "step": 15500
+    },
+    {
+      "epoch": 4.886988393402565,
+      "grad_norm": 1.1786259412765503,
+      "learning_rate": 0.006549476370022931,
+      "loss": 0.2076,
+      "step": 16000
+    },
+    {
+      "epoch": 4.886988393402565,
+      "eval_accuracy": 0.9353834889254988,
+      "eval_loss": 0.1612890213727951,
+      "eval_runtime": 10.6764,
+      "eval_samples_per_second": 511.687,
+      "eval_steps_per_second": 0.562,
+      "step": 16000
+    },
+    {
+      "epoch": 5.039706780696396,
+      "grad_norm": 0.5138195753097534,
+      "learning_rate": 0.006355681627007508,
+      "loss": 0.1913,
+      "step": 16500
+    },
+    {
+      "epoch": 5.039706780696396,
+      "eval_accuracy": 0.929159802306425,
+      "eval_loss": 0.19614355266094208,
+      "eval_runtime": 11.8468,
+      "eval_samples_per_second": 461.137,
+      "eval_steps_per_second": 0.506,
+      "step": 16500
+    },
+    {
+      "epoch": 5.192425167990226,
+      "grad_norm": 0.2939035892486572,
+      "learning_rate": 0.006159662488226765,
+      "loss": 0.1691,
+      "step": 17000
+    },
+    {
+      "epoch": 5.192425167990226,
+      "eval_accuracy": 0.9331868936481786,
+      "eval_loss": 0.17631573975086212,
+      "eval_runtime": 10.6578,
+      "eval_samples_per_second": 512.581,
+      "eval_steps_per_second": 0.563,
+      "step": 17000
+    },
+    {
+      "epoch": 5.345143555284056,
+      "grad_norm": 0.5290659070014954,
+      "learning_rate": 0.005961740580922335,
+      "loss": 0.1783,
+      "step": 17500
+    },
+    {
+      "epoch": 5.345143555284056,
+      "eval_accuracy": 0.9341021416803954,
+      "eval_loss": 0.18246591091156006,
+      "eval_runtime": 10.6395,
+      "eval_samples_per_second": 513.465,
+      "eval_steps_per_second": 0.564,
+      "step": 17500
+    },
+    {
+      "epoch": 5.497861942577886,
+      "grad_norm": 0.19821959733963013,
+      "learning_rate": 0.005762240654389111,
+      "loss": 0.1725,
+      "step": 18000
+    },
+    {
+      "epoch": 5.497861942577886,
+      "eval_accuracy": 0.9284276038806517,
+      "eval_loss": 0.18397371470928192,
+      "eval_runtime": 10.6953,
+      "eval_samples_per_second": 510.786,
+      "eval_steps_per_second": 0.561,
+      "step": 18000
+    },
+    {
+      "epoch": 5.650580329871716,
+      "grad_norm": 0.5750489234924316,
+      "learning_rate": 0.005561490047128203,
+      "loss": 0.1782,
+      "step": 18500
+    },
+    {
+      "epoch": 5.650580329871716,
+      "eval_accuracy": 0.9362987369577156,
+      "eval_loss": 0.1769886612892151,
+      "eval_runtime": 10.6828,
+      "eval_samples_per_second": 511.381,
+      "eval_steps_per_second": 0.562,
+      "step": 18500
+    },
+    {
+      "epoch": 5.803298717165546,
+      "grad_norm": 1.0194318294525146,
+      "learning_rate": 0.0053598181497515164,
+      "loss": 0.1864,
+      "step": 19000
+    },
+    {
+      "epoch": 5.803298717165546,
+      "eval_accuracy": 0.9359326377448288,
+      "eval_loss": 0.16293832659721375,
+      "eval_runtime": 10.6821,
+      "eval_samples_per_second": 511.415,
+      "eval_steps_per_second": 0.562,
+      "step": 19000
+    },
+    {
+      "epoch": 5.956017104459377,
+      "grad_norm": 1.04185950756073,
+      "learning_rate": 0.00515755586451927,
+      "loss": 0.1873,
+      "step": 19500
+    },
+    {
+      "epoch": 5.956017104459377,
+      "eval_accuracy": 0.938678381841479,
+      "eval_loss": 0.16236957907676697,
+      "eval_runtime": 10.667,
+      "eval_samples_per_second": 512.142,
+      "eval_steps_per_second": 0.562,
+      "step": 19500
+    },
+    {
+      "epoch": 6.108735491753207,
+      "grad_norm": 0.5527487397193909,
+      "learning_rate": 0.004955035062397176,
+      "loss": 0.1481,
+      "step": 20000
+    },
+    {
+      "epoch": 6.108735491753207,
+      "eval_accuracy": 0.9339190920739521,
+      "eval_loss": 0.1655975580215454,
+      "eval_runtime": 10.6678,
+      "eval_samples_per_second": 512.102,
+      "eval_steps_per_second": 0.562,
+      "step": 20000
+    },
+    {
+      "epoch": 6.261453879047037,
+      "grad_norm": 0.2231854945421219,
+      "learning_rate": 0.004752588038524194,
+      "loss": 0.1435,
+      "step": 20500
+    },
+    {
+      "epoch": 6.261453879047037,
+      "eval_accuracy": 0.9352004393190555,
+      "eval_loss": 0.16785979270935059,
+      "eval_runtime": 10.6639,
+      "eval_samples_per_second": 512.291,
+      "eval_steps_per_second": 0.563,
+      "step": 20500
+    },
+    {
+      "epoch": 6.414172266340867,
+      "grad_norm": 0.6651498079299927,
+      "learning_rate": 0.004550546966984289,
+      "loss": 0.1466,
+      "step": 21000
+    },
+    {
+      "epoch": 6.414172266340867,
+      "eval_accuracy": 0.9350173897126122,
+      "eval_loss": 0.20046856999397278,
+      "eval_runtime": 10.647,
+      "eval_samples_per_second": 513.1,
+      "eval_steps_per_second": 0.564,
+      "step": 21000
+    },
+    {
+      "epoch": 6.566890653634697,
+      "grad_norm": 0.2773177921772003,
+      "learning_rate": 0.004349243355776835,
+      "loss": 0.1503,
+      "step": 21500
+    },
+    {
+      "epoch": 6.566890653634697,
+      "eval_accuracy": 0.9408749771187992,
+      "eval_loss": 0.18849799036979675,
+      "eval_runtime": 10.6557,
+      "eval_samples_per_second": 512.683,
+      "eval_steps_per_second": 0.563,
+      "step": 21500
+    },
+    {
+      "epoch": 6.719609040928528,
+      "grad_norm": 0.3191971778869629,
+      "learning_rate": 0.004149007502879905,
+      "loss": 0.152,
+      "step": 22000
+    },
+    {
+      "epoch": 6.719609040928528,
+      "eval_accuracy": 0.9390444810543658,
+      "eval_loss": 0.20619872212409973,
+      "eval_runtime": 10.6681,
+      "eval_samples_per_second": 512.088,
+      "eval_steps_per_second": 0.562,
+      "step": 22000
+    },
+    {
+      "epoch": 6.872327428222358,
+      "grad_norm": 0.3263784646987915,
+      "learning_rate": 0.003950167954298976,
+      "loss": 0.1509,
+      "step": 22500
+    },
+    {
+      "epoch": 6.872327428222358,
+      "eval_accuracy": 0.942339373970346,
+      "eval_loss": 0.16657477617263794,
+      "eval_runtime": 10.6628,
+      "eval_samples_per_second": 512.344,
+      "eval_steps_per_second": 0.563,
+      "step": 22500
+    },
+    {
+      "epoch": 7.025045815516188,
+      "grad_norm": 0.6678400039672852,
+      "learning_rate": 0.0037530509649902465,
+      "loss": 0.1422,
+      "step": 23000
+    },
+    {
+      "epoch": 7.025045815516188,
+      "eval_accuracy": 0.9383122826285923,
+      "eval_loss": 0.2081904113292694,
+      "eval_runtime": 10.6962,
+      "eval_samples_per_second": 510.74,
+      "eval_steps_per_second": 0.561,
+      "step": 23000
+    },
+    {
+      "epoch": 7.177764202810018,
+      "grad_norm": 0.31175652146339417,
+      "learning_rate": 0.003557979963543113,
+      "loss": 0.1175,
+      "step": 23500
+    },
+    {
+      "epoch": 7.177764202810018,
+      "eval_accuracy": 0.9352004393190555,
+      "eval_loss": 0.20077426731586456,
+      "eval_runtime": 10.6573,
+      "eval_samples_per_second": 512.605,
+      "eval_steps_per_second": 0.563,
+      "step": 23500
+    },
+    {
+      "epoch": 7.330482590103848,
+      "grad_norm": 1.3799458742141724,
+      "learning_rate": 0.003365275021500116,
+      "loss": 0.1192,
+      "step": 24000
+    },
+    {
+      "epoch": 7.330482590103848,
+      "eval_accuracy": 0.9372139849899322,
+      "eval_loss": 0.20808292925357819,
+      "eval_runtime": 10.6649,
+      "eval_samples_per_second": 512.239,
+      "eval_steps_per_second": 0.563,
+      "step": 24000
+    },
+    {
+      "epoch": 7.483200977397678,
+      "grad_norm": 1.1041522026062012,
+      "learning_rate": 0.0031752523281851387,
+      "loss": 0.1183,
+      "step": 24500
+    },
+    {
+      "epoch": 7.483200977397678,
+      "eval_accuracy": 0.9394105802672524,
+      "eval_loss": 0.20463068783283234,
+      "eval_runtime": 10.65,
+      "eval_samples_per_second": 512.958,
+      "eval_steps_per_second": 0.563,
+      "step": 24500
+    },
+    {
+      "epoch": 7.6359193646915084,
+      "grad_norm": 0.9938382506370544,
+      "learning_rate": 0.0029882236719014944,
+      "loss": 0.1232,
+      "step": 25000
+    },
+    {
+      "epoch": 7.6359193646915084,
+      "eval_accuracy": 0.9388614314479223,
+      "eval_loss": 0.202561154961586,
+      "eval_runtime": 10.6361,
+      "eval_samples_per_second": 513.627,
+      "eval_steps_per_second": 0.564,
+      "step": 25000
+    },
+    {
+      "epoch": 7.788637751985339,
+      "grad_norm": 0.23097889125347137,
+      "learning_rate": 0.0028044959283512255,
+      "loss": 0.1258,
+      "step": 25500
+    },
+    {
+      "epoch": 7.788637751985339,
+      "eval_accuracy": 0.9370309353834889,
+      "eval_loss": 0.20270980894565582,
+      "eval_runtime": 10.6659,
+      "eval_samples_per_second": 512.192,
+      "eval_steps_per_second": 0.563,
+      "step": 25500
+    },
+    {
+      "epoch": 7.941356139279169,
+      "grad_norm": 0.2913364768028259,
+      "learning_rate": 0.0026243705571149458,
+      "loss": 0.1204,
+      "step": 26000
+    },
+    {
+      "epoch": 7.941356139279169,
+      "eval_accuracy": 0.9397766794801391,
+      "eval_loss": 0.17229758203029633,
+      "eval_runtime": 10.6644,
+      "eval_samples_per_second": 512.266,
+      "eval_steps_per_second": 0.563,
+      "step": 26000
+    },
+    {
+      "epoch": 8.094074526573,
+      "grad_norm": 0.3294864892959595,
+      "learning_rate": 0.002448143107018443,
+      "loss": 0.0987,
+      "step": 26500
+    },
+    {
+      "epoch": 8.094074526573,
+      "eval_accuracy": 0.9377631338092624,
+      "eval_loss": 0.21938388049602509,
+      "eval_runtime": 10.6536,
+      "eval_samples_per_second": 512.786,
+      "eval_steps_per_second": 0.563,
+      "step": 26500
+    },
+    {
+      "epoch": 8.24679291386683,
+      "grad_norm": 1.273834228515625,
+      "learning_rate": 0.0022761027311976175,
+      "loss": 0.0878,
+      "step": 27000
+    },
+    {
+      "epoch": 8.24679291386683,
+      "eval_accuracy": 0.9392275306608091,
+      "eval_loss": 0.1930987387895584,
+      "eval_runtime": 10.6614,
+      "eval_samples_per_second": 512.412,
+      "eval_steps_per_second": 0.563,
+      "step": 27000
+    },
+    {
+      "epoch": 8.39951130116066,
+      "grad_norm": 0.23500996828079224,
+      "learning_rate": 0.0021085317126574217,
+      "loss": 0.096,
+      "step": 27500
+    },
+    {
+      "epoch": 8.39951130116066,
+      "eval_accuracy": 0.9366648361706023,
+      "eval_loss": 0.2221830040216446,
+      "eval_runtime": 10.6715,
+      "eval_samples_per_second": 511.925,
+      "eval_steps_per_second": 0.562,
+      "step": 27500
+    },
+    {
+      "epoch": 8.55222968845449,
+      "grad_norm": 1.5383870601654053,
+      "learning_rate": 0.001945705001103315,
+      "loss": 0.0968,
+      "step": 28000
+    },
+    {
+      "epoch": 8.55222968845449,
+      "eval_accuracy": 0.9405088779059125,
+      "eval_loss": 0.19442974030971527,
+      "eval_runtime": 10.66,
+      "eval_samples_per_second": 512.479,
+      "eval_steps_per_second": 0.563,
+      "step": 28000
+    },
+    {
+      "epoch": 8.70494807574832,
+      "grad_norm": 0.3537600636482239,
+      "learning_rate": 0.001787889761805106,
+      "loss": 0.0963,
+      "step": 28500
+    },
+    {
+      "epoch": 8.70494807574832,
+      "eval_accuracy": 0.9394105802672524,
+      "eval_loss": 0.2216956913471222,
+      "eval_runtime": 10.6564,
+      "eval_samples_per_second": 512.651,
+      "eval_steps_per_second": 0.563,
+      "step": 28500
+    },
+    {
+      "epoch": 8.85766646304215,
+      "grad_norm": 0.2855343818664551,
+      "learning_rate": 0.0016353449372335095,
+      "loss": 0.0895,
+      "step": 29000
+    },
+    {
+      "epoch": 8.85766646304215,
+      "eval_accuracy": 0.9410580267252425,
+      "eval_loss": 0.2340826839208603,
+      "eval_runtime": 10.655,
+      "eval_samples_per_second": 512.716,
+      "eval_steps_per_second": 0.563,
+      "step": 29000
+    },
+    {
+      "epoch": 9.01038485033598,
+      "grad_norm": 0.24387948215007782,
+      "learning_rate": 0.0014883208221886013,
+      "loss": 0.0912,
+      "step": 29500
+    },
+    {
+      "epoch": 9.01038485033598,
+      "eval_accuracy": 0.9359326377448288,
+      "eval_loss": 0.22634004056453705,
+      "eval_runtime": 10.6493,
+      "eval_samples_per_second": 512.994,
+      "eval_steps_per_second": 0.563,
+      "step": 29500
+    },
+    {
+      "epoch": 9.16310323762981,
+      "grad_norm": 0.1418183296918869,
+      "learning_rate": 0.0013470586531173394,
+      "loss": 0.064,
+      "step": 30000
+    },
+    {
+      "epoch": 9.16310323762981,
+      "eval_accuracy": 0.9390444810543658,
+      "eval_loss": 0.2190869152545929,
+      "eval_runtime": 10.662,
+      "eval_samples_per_second": 512.38,
+      "eval_steps_per_second": 0.563,
+      "step": 30000
+    },
+    {
+      "epoch": 9.315821624923641,
+      "grad_norm": 0.16249431669712067,
+      "learning_rate": 0.0012117902122939861,
+      "loss": 0.0635,
+      "step": 30500
+    },
+    {
+      "epoch": 9.315821624923641,
+      "eval_accuracy": 0.9357495881383855,
+      "eval_loss": 0.24300245940685272,
+      "eval_runtime": 10.6649,
+      "eval_samples_per_second": 512.24,
+      "eval_steps_per_second": 0.563,
+      "step": 30500
+    },
+    {
+      "epoch": 9.46854001221747,
+      "grad_norm": 0.40274578332901,
+      "learning_rate": 0.0010827374475128864,
+      "loss": 0.0697,
+      "step": 31000
+    },
+    {
+      "epoch": 9.46854001221747,
+      "eval_accuracy": 0.9372139849899322,
+      "eval_loss": 0.19327227771282196,
+      "eval_runtime": 10.6762,
+      "eval_samples_per_second": 511.697,
+      "eval_steps_per_second": 0.562,
+      "step": 31000
+    },
+    {
+      "epoch": 9.621258399511301,
+      "grad_norm": 0.7273208498954773,
+      "learning_rate": 0.0009601121079176139,
+      "loss": 0.0736,
+      "step": 31500
+    },
+    {
+      "epoch": 9.621258399511301,
+      "eval_accuracy": 0.9406919275123559,
+      "eval_loss": 0.22759296000003815,
+      "eval_runtime": 10.6452,
+      "eval_samples_per_second": 513.188,
+      "eval_steps_per_second": 0.564,
+      "step": 31500
+    },
+    {
+      "epoch": 9.77397678680513,
+      "grad_norm": 0.26268601417541504,
+      "learning_rate": 0.0008441153965640264,
+      "loss": 0.069,
+      "step": 32000
+    },
+    {
+      "epoch": 9.77397678680513,
+      "eval_accuracy": 0.941790225151016,
+      "eval_loss": 0.18988043069839478,
+      "eval_runtime": 10.6469,
+      "eval_samples_per_second": 513.109,
+      "eval_steps_per_second": 0.564,
+      "step": 32000
+    },
+    {
+      "epoch": 9.926695174098962,
+      "grad_norm": 0.23675082623958588,
+      "learning_rate": 0.0007349376402872593,
+      "loss": 0.0679,
+      "step": 32500
+    },
+    {
+      "epoch": 9.926695174098962,
+      "eval_accuracy": 0.9414241259381292,
+      "eval_loss": 0.19748558104038239,
+      "eval_runtime": 10.6699,
+      "eval_samples_per_second": 512.002,
+      "eval_steps_per_second": 0.562,
+      "step": 32500
+    },
+    {
+      "epoch": 10.079413561392792,
+      "grad_norm": 0.19973616302013397,
+      "learning_rate": 0.0006327579774144044,
+      "loss": 0.0537,
+      "step": 33000
+    },
+    {
+      "epoch": 10.079413561392792,
+      "eval_accuracy": 0.942339373970346,
+      "eval_loss": 0.27014923095703125,
+      "eval_runtime": 10.663,
+      "eval_samples_per_second": 512.332,
+      "eval_steps_per_second": 0.563,
+      "step": 33000
+    },
+    {
+      "epoch": 10.232131948686622,
+      "grad_norm": 0.16148479282855988,
+      "learning_rate": 0.0005377440638352149,
+      "loss": 0.0565,
+      "step": 33500
+    },
+    {
+      "epoch": 10.232131948686622,
+      "eval_accuracy": 0.9410580267252425,
+      "eval_loss": 0.2295636087656021,
+      "eval_runtime": 10.6399,
+      "eval_samples_per_second": 513.444,
+      "eval_steps_per_second": 0.564,
+      "step": 33500
+    },
+    {
+      "epoch": 10.384850335980452,
+      "grad_norm": 0.15913018584251404,
+      "learning_rate": 0.00045005179791313913,
+      "loss": 0.0476,
+      "step": 34000
+    },
+    {
+      "epoch": 10.384850335980452,
+      "eval_accuracy": 0.9408749771187992,
+      "eval_loss": 0.23820237815380096,
+      "eval_runtime": 10.646,
+      "eval_samples_per_second": 513.152,
+      "eval_steps_per_second": 0.564,
+      "step": 34000
+    },
+    {
+      "epoch": 10.537568723274282,
+      "grad_norm": 0.36721134185791016,
+      "learning_rate": 0.0003698250646880624,
+      "loss": 0.053,
+      "step": 34500
+    },
+    {
+      "epoch": 10.537568723274282,
+      "eval_accuracy": 0.9399597290865824,
+      "eval_loss": 0.2536531984806061,
+      "eval_runtime": 10.6385,
+      "eval_samples_per_second": 513.513,
+      "eval_steps_per_second": 0.564,
+      "step": 34500
+    },
+    {
+      "epoch": 10.690287110568113,
+      "grad_norm": 0.371605783700943,
+      "learning_rate": 0.00029719549979042415,
+      "loss": 0.0476,
+      "step": 35000
+    },
+    {
+      "epoch": 10.690287110568113,
+      "eval_accuracy": 0.9403258282994692,
+      "eval_loss": 0.2486487627029419,
+      "eval_runtime": 10.6558,
+      "eval_samples_per_second": 512.678,
+      "eval_steps_per_second": 0.563,
+      "step": 35000
+    },
+    {
+      "epoch": 10.843005497861942,
+      "grad_norm": 0.08992467820644379,
+      "learning_rate": 0.00023228227345413466,
+      "loss": 0.0465,
+      "step": 35500
+    },
+    {
+      "epoch": 10.843005497861942,
+      "eval_accuracy": 0.9406919275123559,
+      "eval_loss": 0.26264604926109314,
+      "eval_runtime": 10.658,
+      "eval_samples_per_second": 512.573,
+      "eval_steps_per_second": 0.563,
+      "step": 35500
+    },
+    {
+      "epoch": 10.995723885155773,
+      "grad_norm": 0.2935340702533722,
+      "learning_rate": 0.0001751918949826309,
+      "loss": 0.0506,
+      "step": 36000
+    },
+    {
+      "epoch": 10.995723885155773,
+      "eval_accuracy": 0.9414241259381292,
+      "eval_loss": 0.24543774127960205,
+      "eval_runtime": 10.6849,
+      "eval_samples_per_second": 511.283,
+      "eval_steps_per_second": 0.562,
+      "step": 36000
+    },
+    {
+      "epoch": 11.148442272449604,
+      "grad_norm": 0.09359394758939743,
+      "learning_rate": 0.00012601803798893642,
+      "loss": 0.0455,
+      "step": 36500
+    },
+    {
+      "epoch": 11.148442272449604,
+      "eval_accuracy": 0.9412410763316859,
+      "eval_loss": 0.2553355097770691,
+      "eval_runtime": 10.6713,
+      "eval_samples_per_second": 511.936,
+      "eval_steps_per_second": 0.562,
+      "step": 36500
+    },
+    {
+      "epoch": 11.301160659743433,
+      "grad_norm": 0.5179402232170105,
+      "learning_rate": 8.484138669645869e-05,
+      "loss": 0.0431,
+      "step": 37000
+    },
+    {
+      "epoch": 11.301160659743433,
+      "eval_accuracy": 0.9408749771187992,
+      "eval_loss": 0.2569965124130249,
+      "eval_runtime": 10.6427,
+      "eval_samples_per_second": 513.309,
+      "eval_steps_per_second": 0.564,
+      "step": 37000
+    },
+    {
+      "epoch": 11.453879047037264,
+      "grad_norm": 0.0961860865354538,
+      "learning_rate": 5.172950355270711e-05,
+      "loss": 0.043,
+      "step": 37500
+    },
+    {
+      "epoch": 11.453879047037264,
+      "eval_accuracy": 0.9403258282994692,
+      "eval_loss": 0.2571694254875183,
+      "eval_runtime": 10.6504,
+      "eval_samples_per_second": 512.941,
+      "eval_steps_per_second": 0.563,
+      "step": 37500
+    },
+    {
+      "epoch": 11.606597434331093,
+      "grad_norm": 0.7020719051361084,
+      "learning_rate": 2.6736718373162605e-05,
+      "loss": 0.0376,
+      "step": 38000
+    },
+    {
+      "epoch": 11.606597434331093,
+      "eval_accuracy": 0.9403258282994692,
+      "eval_loss": 0.260541707277298,
+      "eval_runtime": 10.6414,
+      "eval_samples_per_second": 513.371,
+      "eval_steps_per_second": 0.564,
+      "step": 38000
+    },
+    {
+      "epoch": 11.759315821624924,
+      "grad_norm": 0.0348581038415432,
+      "learning_rate": 9.9040391971833e-06,
+      "loss": 0.0384,
+      "step": 38500
+    },
+    {
+      "epoch": 11.759315821624924,
+      "eval_accuracy": 0.9405088779059125,
+      "eval_loss": 0.26105377078056335,
+      "eval_runtime": 10.6519,
+      "eval_samples_per_second": 512.867,
+      "eval_steps_per_second": 0.563,
+      "step": 38500
+    },
+    {
+      "epoch": 11.912034208918755,
+      "grad_norm": 0.17020323872566223,
+      "learning_rate": 1.2590850022137223e-06,
+      "loss": 0.0431,
+      "step": 39000
+    },
+    {
+      "epoch": 11.912034208918755,
+      "eval_accuracy": 0.9406919275123559,
+      "eval_loss": 0.2613375186920166,
+      "eval_runtime": 10.6681,
+      "eval_samples_per_second": 512.087,
+      "eval_steps_per_second": 0.562,
+      "step": 39000
+    },
+    {
+      "epoch": 12.0,
+      "step": 39288,
+      "total_flos": 3.355629231721513e+17,
+      "train_loss": 0.16749728762479646,
+      "train_runtime": 15045.4573,
+      "train_samples_per_second": 83.541,
+      "train_steps_per_second": 2.611
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 39288,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 12,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.355629231721513e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/QQP.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 12.0,
+    "eval_accuracy": 0.9238436804353203,
+    "eval_combined_score": 0.9113618875098537,
+    "eval_f1": 0.898880094584387,
+    "eval_loss": 0.227777898311615,
+    "eval_runtime": 44.7109,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 904.254,
+    "eval_steps_per_second": 1.767
+}

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 12.0,
+    "eval_accuracy": 0.9238436804353203,
+    "eval_combined_score": 0.9113618875098537,
+    "eval_f1": 0.898880094584387,
+    "eval_loss": 0.227777898311615,
+    "eval_runtime": 44.7109,
+    "eval_samples": 40430,
+    "eval_samples_per_second": 904.254,
+    "eval_steps_per_second": 1.767
+}

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

reproduction/glue_exp/qqp/dr0.0,mlr8e-03,clr8e-03,ep=12.0t=21d03h04m16/ft2/README.md ADDED Viewed

	@@ -0,0 +1,205 @@

+---
+base_model: microsoft/deberta-v3-base
+library_name: peft
+tags:
+- base_model:adapter:microsoft/deberta-v3-base
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.0