Training in progress, step 9800

Files changed (15) hide show

adapter_model.bin +1 -1
checkpoint-4000/adapter_model/adapter_model/README.md +12 -0
checkpoint-4000/adapter_model/adapter_model/adapter_model.bin +1 -1
{checkpoint-7800 → checkpoint-9800}/README.md +0 -0
{checkpoint-7800 → checkpoint-9800}/adapter_config.json +0 -0
{checkpoint-7800 → checkpoint-9800}/adapter_model.bin +1 -1
{checkpoint-7800 → checkpoint-9800}/added_tokens.json +0 -0
{checkpoint-7800 → checkpoint-9800}/optimizer.pt +1 -1
{checkpoint-7800 → checkpoint-9800}/rng_state.pth +1 -1
{checkpoint-7800 → checkpoint-9800}/scheduler.pt +1 -1
{checkpoint-7800 → checkpoint-9800}/special_tokens_map.json +0 -0
{checkpoint-7800 → checkpoint-9800}/tokenizer.model +0 -0
{checkpoint-7800 → checkpoint-9800}/tokenizer_config.json +0 -0
{checkpoint-7800 → checkpoint-9800}/trainer_state.json +1913 -3
{checkpoint-7800 → checkpoint-9800}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c442df609ecedbfba8f1065b57e9635456b97436eecb31a2ca356b62d6c03a44
 size 319977229

 version https://git-lfs.github.com/spec/v1
+oid sha256:c508054056501845e561718375315a3d8266b315eabe7f5e4bebfa84e3546081
 size 319977229

checkpoint-4000/adapter_model/adapter_model/README.md CHANGED Viewed

@@ -301,6 +301,17 @@ The following `bitsandbytes` quantization config was used during training:
 - bnb_4bit_use_double_quant: True
 - bnb_4bit_compute_dtype: bfloat16
 The following `bitsandbytes` quantization config was used during training:
 - load_in_8bit: False
 - load_in_4bit: True
@@ -340,5 +351,6 @@ The following `bitsandbytes` quantization config was used during training:
 - PEFT 0.4.0
 - PEFT 0.4.0
 - PEFT 0.4.0
 - PEFT 0.4.0

 - bnb_4bit_use_double_quant: True
 - bnb_4bit_compute_dtype: bfloat16
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
 The following `bitsandbytes` quantization config was used during training:
 - load_in_8bit: False
 - load_in_4bit: True
 - PEFT 0.4.0
 - PEFT 0.4.0
 - PEFT 0.4.0
+- PEFT 0.4.0
 - PEFT 0.4.0

checkpoint-4000/adapter_model/adapter_model/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8a729ce47940f577a9a245b73ea9f20d672007d4649b534daba27d0cb472be7
 size 319977229

 version https://git-lfs.github.com/spec/v1
+oid sha256:c442df609ecedbfba8f1065b57e9635456b97436eecb31a2ca356b62d6c03a44
 size 319977229

{checkpoint-7800 → checkpoint-9800}/README.md RENAMED Viewed

File without changes

{checkpoint-7800 → checkpoint-9800}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-7800 → checkpoint-9800}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:498a224ba7636eecb11558905701b32ae45e4c24ff0179788571d74b4a62f865
 size 319977229

 version https://git-lfs.github.com/spec/v1
+oid sha256:c508054056501845e561718375315a3d8266b315eabe7f5e4bebfa84e3546081
 size 319977229

{checkpoint-7800 → checkpoint-9800}/added_tokens.json RENAMED Viewed

File without changes

{checkpoint-7800 → checkpoint-9800}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47db5386f518854bdd53bdb6883b5c538b92dc618c89ec78dfec7b22e90777ba
 size 1279539973

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1b5a7d8f09a9ed8b37bea2a50cee65eb7cb7d1e4244fb6b49731386362c3f15
 size 1279539973

{checkpoint-7800 → checkpoint-9800}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c10a44f8674e0fb3728a937171df6b8c4a5f8d1f0877a36ec3d6f158ab24729e
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:5edf65c5e692d21678b266bb795b13eb53469c65ef5b4ba576702e4abb99e7d5
 size 14511

{checkpoint-7800 → checkpoint-9800}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dacf398b0d6d2240140ad9378ba550412b1b83c6451eaa8a75d5f42da197d1c
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dca521772e835c5c16030c5b4c0d3720f6592faeca96d824ba30cf9f318f744
 size 627

{checkpoint-7800 → checkpoint-9800}/special_tokens_map.json RENAMED Viewed

File without changes

{checkpoint-7800 → checkpoint-9800}/tokenizer.model RENAMED Viewed

File without changes

{checkpoint-7800 → checkpoint-9800}/tokenizer_config.json RENAMED Viewed

File without changes

{checkpoint-7800 → checkpoint-9800}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": 0.758108913898468,
   "best_model_checkpoint": "experts/expert-5/checkpoint-4000",
-  "epoch": 1.8877057115198452,
-  "global_step": 7800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7455,11 +7455,1921 @@
       "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
       "mmlu_loss": 1.0666804730931088,
       "step": 7800
     }
   ],
   "max_steps": 10000,
   "num_train_epochs": 3,
-  "total_flos": 8.638418405944197e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.758108913898468,
   "best_model_checkpoint": "experts/expert-5/checkpoint-4000",
+  "epoch": 2.371732817037754,
+  "global_step": 9800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
       "mmlu_loss": 1.0666804730931088,
       "step": 7800
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 0.6605,
+      "step": 7810
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 0.7623,
+      "step": 7820
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 0.788,
+      "step": 7830
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.76,
+      "step": 7840
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.7379,
+      "step": 7850
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.6891,
+      "step": 7860
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.7336,
+      "step": 7870
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 0.6093,
+      "step": 7880
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 0.6738,
+      "step": 7890
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 0.654,
+      "step": 7900
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 0.7356,
+      "step": 7910
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0002,
+      "loss": 0.6438,
+      "step": 7920
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0002,
+      "loss": 0.6108,
+      "step": 7930
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0002,
+      "loss": 0.6916,
+      "step": 7940
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0002,
+      "loss": 0.6645,
+      "step": 7950
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 0.6785,
+      "step": 7960
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 0.6541,
+      "step": 7970
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 0.6427,
+      "step": 7980
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 0.7183,
+      "step": 7990
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.6713,
+      "step": 8000
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.7599592804908752,
+      "eval_runtime": 150.9203,
+      "eval_samples_per_second": 6.626,
+      "eval_steps_per_second": 3.313,
+      "step": 8000
+    },
+    {
+      "epoch": 1.94,
+      "mmlu_eval_accuracy": 0.5021156119500032,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.7142857142857143,
+      "mmlu_eval_accuracy_astronomy": 0.4375,
+      "mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.6206896551724138,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.45454545454545453,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
+      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.25,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.36585365853658536,
+      "mmlu_eval_accuracy_formal_logic": 0.2857142857142857,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.46875,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.22727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
+      "mmlu_eval_accuracy_high_school_geography": 0.8636363636363636,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4883720930232558,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.46153846153846156,
+      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8333333333333334,
+      "mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
+      "mmlu_eval_accuracy_high_school_world_history": 0.6923076923076923,
+      "mmlu_eval_accuracy_human_aging": 0.6521739130434783,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.76,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.686046511627907,
+      "mmlu_eval_accuracy_moral_disputes": 0.5,
+      "mmlu_eval_accuracy_moral_scenarios": 0.26,
+      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
+      "mmlu_eval_accuracy_philosophy": 0.4411764705882353,
+      "mmlu_eval_accuracy_prehistory": 0.5714285714285714,
+      "mmlu_eval_accuracy_professional_accounting": 0.2903225806451613,
+      "mmlu_eval_accuracy_professional_law": 0.3588235294117647,
+      "mmlu_eval_accuracy_professional_medicine": 0.5483870967741935,
+      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.4444444444444444,
+      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.8181818181818182,
+      "mmlu_eval_accuracy_virology": 0.5,
+      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
+      "mmlu_loss": 1.0658438428652817,
+      "step": 8000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.6641,
+      "step": 8010
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.7042,
+      "step": 8020
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.69,
+      "step": 8030
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002,
+      "loss": 0.7099,
+      "step": 8040
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002,
+      "loss": 0.7717,
+      "step": 8050
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002,
+      "loss": 0.5697,
+      "step": 8060
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002,
+      "loss": 0.6925,
+      "step": 8070
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0002,
+      "loss": 0.6483,
+      "step": 8080
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0002,
+      "loss": 0.6367,
+      "step": 8090
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0002,
+      "loss": 0.6954,
+      "step": 8100
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0002,
+      "loss": 0.656,
+      "step": 8110
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.6329,
+      "step": 8120
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.707,
+      "step": 8130
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.6741,
+      "step": 8140
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.6841,
+      "step": 8150
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.645,
+      "step": 8160
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.6663,
+      "step": 8170
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.6719,
+      "step": 8180
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.6598,
+      "step": 8190
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.6704,
+      "step": 8200
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.7602109313011169,
+      "eval_runtime": 146.9593,
+      "eval_samples_per_second": 6.805,
+      "eval_steps_per_second": 3.402,
+      "step": 8200
+    },
+    {
+      "epoch": 1.98,
+      "mmlu_eval_accuracy": 0.5005573342840559,
+      "mmlu_eval_accuracy_abstract_algebra": 0.18181818181818182,
+      "mmlu_eval_accuracy_anatomy": 0.7857142857142857,
+      "mmlu_eval_accuracy_astronomy": 0.5,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.5517241379310345,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.2727272727272727,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
+      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
+      "mmlu_eval_accuracy_computer_security": 0.5454545454545454,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.25,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.3902439024390244,
+      "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.46875,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.22727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.6666666666666666,
+      "mmlu_eval_accuracy_high_school_geography": 0.8636363636363636,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4883720930232558,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.3103448275862069,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.4230769230769231,
+      "mmlu_eval_accuracy_high_school_physics": 0.17647058823529413,
+      "mmlu_eval_accuracy_high_school_psychology": 0.85,
+      "mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
+      "mmlu_eval_accuracy_high_school_world_history": 0.7307692307692307,
+      "mmlu_eval_accuracy_human_aging": 0.7391304347826086,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.76,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.6627906976744186,
+      "mmlu_eval_accuracy_moral_disputes": 0.47368421052631576,
+      "mmlu_eval_accuracy_moral_scenarios": 0.23,
+      "mmlu_eval_accuracy_nutrition": 0.6666666666666666,
+      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
+      "mmlu_eval_accuracy_prehistory": 0.5142857142857142,
+      "mmlu_eval_accuracy_professional_accounting": 0.1935483870967742,
+      "mmlu_eval_accuracy_professional_law": 0.3588235294117647,
+      "mmlu_eval_accuracy_professional_medicine": 0.45161290322580644,
+      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
+      "mmlu_eval_accuracy_sociology": 0.7272727272727273,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.8181818181818182,
+      "mmlu_eval_accuracy_virology": 0.5555555555555556,
+      "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
+      "mmlu_loss": 1.098324341538992,
+      "step": 8200
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002,
+      "loss": 0.6541,
+      "step": 8210
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002,
+      "loss": 0.6867,
+      "step": 8220
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002,
+      "loss": 0.654,
+      "step": 8230
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002,
+      "loss": 0.653,
+      "step": 8240
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 0.6745,
+      "step": 8250
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 0.7688,
+      "step": 8260
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 0.5691,
+      "step": 8270
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 0.6071,
+      "step": 8280
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5459,
+      "step": 8290
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0002,
+      "loss": 0.4823,
+      "step": 8300
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5267,
+      "step": 8310
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0002,
+      "loss": 0.5711,
+      "step": 8320
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0002,
+      "loss": 0.4594,
+      "step": 8330
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0002,
+      "loss": 0.6182,
+      "step": 8340
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5385,
+      "step": 8350
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5335,
+      "step": 8360
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002,
+      "loss": 0.5757,
+      "step": 8370
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002,
+      "loss": 0.6331,
+      "step": 8380
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002,
+      "loss": 0.5277,
+      "step": 8390
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002,
+      "loss": 0.5395,
+      "step": 8400
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 0.7914474010467529,
+      "eval_runtime": 146.9182,
+      "eval_samples_per_second": 6.807,
+      "eval_steps_per_second": 3.403,
+      "step": 8400
+    },
+    {
+      "epoch": 2.03,
+      "mmlu_eval_accuracy": 0.49717702616291054,
+      "mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
+      "mmlu_eval_accuracy_anatomy": 0.7142857142857143,
+      "mmlu_eval_accuracy_astronomy": 0.4375,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.5862068965517241,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_mathematics": 0.2727272727272727,
+      "mmlu_eval_accuracy_college_medicine": 0.45454545454545453,
+      "mmlu_eval_accuracy_college_physics": 0.45454545454545453,
+      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.25,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.3170731707317073,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.46875,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_geography": 0.8636363636363636,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.5714285714285714,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4883720930232558,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.1724137931034483,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
+      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
+      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
+      "mmlu_eval_accuracy_high_school_world_history": 0.7307692307692307,
+      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.8,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.6627906976744186,
+      "mmlu_eval_accuracy_moral_disputes": 0.5,
+      "mmlu_eval_accuracy_moral_scenarios": 0.22,
+      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
+      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
+      "mmlu_eval_accuracy_prehistory": 0.5714285714285714,
+      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
+      "mmlu_eval_accuracy_professional_law": 0.38235294117647056,
+      "mmlu_eval_accuracy_professional_medicine": 0.4838709677419355,
+      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.4444444444444444,
+      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.8181818181818182,
+      "mmlu_eval_accuracy_virology": 0.5,
+      "mmlu_eval_accuracy_world_religions": 0.6842105263157895,
+      "mmlu_loss": 1.2140227529772267,
+      "step": 8400
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0002,
+      "loss": 0.5981,
+      "step": 8410
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0002,
+      "loss": 0.5889,
+      "step": 8420
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0002,
+      "loss": 0.5505,
+      "step": 8430
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0002,
+      "loss": 0.5939,
+      "step": 8440
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0002,
+      "loss": 0.5932,
+      "step": 8450
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0002,
+      "loss": 0.5538,
+      "step": 8460
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0002,
+      "loss": 0.5517,
+      "step": 8470
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0002,
+      "loss": 0.5659,
+      "step": 8480
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0002,
+      "loss": 0.5571,
+      "step": 8490
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0002,
+      "loss": 0.5699,
+      "step": 8500
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0002,
+      "loss": 0.5159,
+      "step": 8510
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0002,
+      "loss": 0.534,
+      "step": 8520
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0002,
+      "loss": 0.5163,
+      "step": 8530
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0002,
+      "loss": 0.5712,
+      "step": 8540
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0002,
+      "loss": 0.5355,
+      "step": 8550
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0002,
+      "loss": 0.6346,
+      "step": 8560
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0002,
+      "loss": 0.5433,
+      "step": 8570
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0002,
+      "loss": 0.5873,
+      "step": 8580
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0002,
+      "loss": 0.5459,
+      "step": 8590
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0002,
+      "loss": 0.4991,
+      "step": 8600
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.7929069995880127,
+      "eval_runtime": 146.9435,
+      "eval_samples_per_second": 6.805,
+      "eval_steps_per_second": 3.403,
+      "step": 8600
+    },
+    {
+      "epoch": 2.08,
+      "mmlu_eval_accuracy": 0.49724541810749723,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.7142857142857143,
+      "mmlu_eval_accuracy_astronomy": 0.375,
+      "mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.5517241379310345,
+      "mmlu_eval_accuracy_college_biology": 0.375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.36585365853658536,
+      "mmlu_eval_accuracy_formal_logic": 0.2857142857142857,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.5,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.4090909090909091,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_geography": 0.8636363636363636,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
+      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
+      "mmlu_eval_accuracy_high_school_statistics": 0.2608695652173913,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6818181818181818,
+      "mmlu_eval_accuracy_high_school_world_history": 0.6923076923076923,
+      "mmlu_eval_accuracy_human_aging": 0.6956521739130435,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.8,
+      "mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
+      "mmlu_eval_accuracy_miscellaneous": 0.6744186046511628,
+      "mmlu_eval_accuracy_moral_disputes": 0.5,
+      "mmlu_eval_accuracy_moral_scenarios": 0.22,
+      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
+      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
+      "mmlu_eval_accuracy_prehistory": 0.5428571428571428,
+      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
+      "mmlu_eval_accuracy_professional_law": 0.3588235294117647,
+      "mmlu_eval_accuracy_professional_medicine": 0.5161290322580645,
+      "mmlu_eval_accuracy_professional_psychology": 0.5362318840579711,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.4074074074074074,
+      "mmlu_eval_accuracy_sociology": 0.6363636363636364,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.8181818181818182,
+      "mmlu_eval_accuracy_virology": 0.5555555555555556,
+      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
+      "mmlu_loss": 1.0957180519756076,
+      "step": 8600
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0002,
+      "loss": 0.5826,
+      "step": 8610
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 0.5979,
+      "step": 8620
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 0.6152,
+      "step": 8630
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 0.5796,
+      "step": 8640
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 0.5296,
+      "step": 8650
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0002,
+      "loss": 0.5386,
+      "step": 8660
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0002,
+      "loss": 0.5793,
+      "step": 8670
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0002,
+      "loss": 0.5576,
+      "step": 8680
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0002,
+      "loss": 0.518,
+      "step": 8690
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0002,
+      "loss": 0.6153,
+      "step": 8700
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0002,
+      "loss": 0.5771,
+      "step": 8710
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0002,
+      "loss": 0.591,
+      "step": 8720
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0002,
+      "loss": 0.5578,
+      "step": 8730
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 0.638,
+      "step": 8740
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 0.5507,
+      "step": 8750
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 0.5137,
+      "step": 8760
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 0.6668,
+      "step": 8770
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 0.6288,
+      "step": 8780
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0002,
+      "loss": 0.6196,
+      "step": 8790
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0002,
+      "loss": 0.5728,
+      "step": 8800
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.7938342094421387,
+      "eval_runtime": 146.9471,
+      "eval_samples_per_second": 6.805,
+      "eval_steps_per_second": 3.403,
+      "step": 8800
+    },
+    {
+      "epoch": 2.13,
+      "mmlu_eval_accuracy": 0.49046658683233174,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.7142857142857143,
+      "mmlu_eval_accuracy_astronomy": 0.3125,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.5517241379310345,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.45454545454545453,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.4375,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
+      "mmlu_eval_accuracy_high_school_geography": 0.7727272727272727,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4883720930232558,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
+      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
+      "mmlu_eval_accuracy_high_school_psychology": 0.85,
+      "mmlu_eval_accuracy_high_school_statistics": 0.391304347826087,
+      "mmlu_eval_accuracy_high_school_us_history": 0.5909090909090909,
+      "mmlu_eval_accuracy_high_school_world_history": 0.6923076923076923,
+      "mmlu_eval_accuracy_human_aging": 0.6521739130434783,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.5454545454545454,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.09090909090909091,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.76,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.686046511627907,
+      "mmlu_eval_accuracy_moral_disputes": 0.5,
+      "mmlu_eval_accuracy_moral_scenarios": 0.24,
+      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
+      "mmlu_eval_accuracy_philosophy": 0.4411764705882353,
+      "mmlu_eval_accuracy_prehistory": 0.5142857142857142,
+      "mmlu_eval_accuracy_professional_accounting": 0.3225806451612903,
+      "mmlu_eval_accuracy_professional_law": 0.38235294117647056,
+      "mmlu_eval_accuracy_professional_medicine": 0.45161290322580644,
+      "mmlu_eval_accuracy_professional_psychology": 0.5217391304347826,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.4444444444444444,
+      "mmlu_eval_accuracy_sociology": 0.7727272727272727,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
+      "mmlu_eval_accuracy_virology": 0.5,
+      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
+      "mmlu_loss": 1.1768994108036976,
+      "step": 8800
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0002,
+      "loss": 0.5664,
+      "step": 8810
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0002,
+      "loss": 0.5294,
+      "step": 8820
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0002,
+      "loss": 0.5391,
+      "step": 8830
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0002,
+      "loss": 0.5348,
+      "step": 8840
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0002,
+      "loss": 0.5208,
+      "step": 8850
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0002,
+      "loss": 0.4995,
+      "step": 8860
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0002,
+      "loss": 0.5384,
+      "step": 8870
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0002,
+      "loss": 0.5381,
+      "step": 8880
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0002,
+      "loss": 0.5589,
+      "step": 8890
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0002,
+      "loss": 0.5478,
+      "step": 8900
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0002,
+      "loss": 0.5752,
+      "step": 8910
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0002,
+      "loss": 0.5495,
+      "step": 8920
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0002,
+      "loss": 0.5847,
+      "step": 8930
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0002,
+      "loss": 0.5581,
+      "step": 8940
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0002,
+      "loss": 0.5076,
+      "step": 8950
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0002,
+      "loss": 0.5597,
+      "step": 8960
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0002,
+      "loss": 0.5894,
+      "step": 8970
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0002,
+      "loss": 0.6027,
+      "step": 8980
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0002,
+      "loss": 0.5457,
+      "step": 8990
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0002,
+      "loss": 0.5642,
+      "step": 9000
+    },
+    {
+      "epoch": 2.18,
+      "eval_loss": 0.7893607020378113,
+      "eval_runtime": 146.4672,
+      "eval_samples_per_second": 6.827,
+      "eval_steps_per_second": 3.414,
+      "step": 9000
+    },
+    {
+      "epoch": 2.18,
+      "mmlu_eval_accuracy": 0.4918607295244881,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.6428571428571429,
+      "mmlu_eval_accuracy_astronomy": 0.3125,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.6206896551724138,
+      "mmlu_eval_accuracy_college_biology": 0.3125,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.45454545454545453,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
+      "mmlu_eval_accuracy_conceptual_physics": 0.5,
+      "mmlu_eval_accuracy_econometrics": 0.25,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.21951219512195122,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.46875,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_geography": 0.7727272727272727,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.5238095238095238,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4883720930232558,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5769230769230769,
+      "mmlu_eval_accuracy_high_school_physics": 0.17647058823529413,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
+      "mmlu_eval_accuracy_high_school_statistics": 0.43478260869565216,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6818181818181818,
+      "mmlu_eval_accuracy_high_school_world_history": 0.7307692307692307,
+      "mmlu_eval_accuracy_human_aging": 0.6956521739130435,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.7272727272727273,
+      "mmlu_eval_accuracy_marketing": 0.72,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.6511627906976745,
+      "mmlu_eval_accuracy_moral_disputes": 0.5,
+      "mmlu_eval_accuracy_moral_scenarios": 0.21,
+      "mmlu_eval_accuracy_nutrition": 0.6060606060606061,
+      "mmlu_eval_accuracy_philosophy": 0.4411764705882353,
+      "mmlu_eval_accuracy_prehistory": 0.5714285714285714,
+      "mmlu_eval_accuracy_professional_accounting": 0.3225806451612903,
+      "mmlu_eval_accuracy_professional_law": 0.35294117647058826,
+      "mmlu_eval_accuracy_professional_medicine": 0.5483870967741935,
+      "mmlu_eval_accuracy_professional_psychology": 0.5072463768115942,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.4074074074074074,
+      "mmlu_eval_accuracy_sociology": 0.6818181818181818,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
+      "mmlu_eval_accuracy_virology": 0.4444444444444444,
+      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
+      "mmlu_loss": 1.1529042610105895,
+      "step": 9000
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0002,
+      "loss": 0.5415,
+      "step": 9010
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0002,
+      "loss": 0.5421,
+      "step": 9020
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0002,
+      "loss": 0.5795,
+      "step": 9030
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0002,
+      "loss": 0.5877,
+      "step": 9040
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0002,
+      "loss": 0.5456,
+      "step": 9050
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0002,
+      "loss": 0.5717,
+      "step": 9060
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0002,
+      "loss": 0.6487,
+      "step": 9070
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0002,
+      "loss": 0.6124,
+      "step": 9080
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0002,
+      "loss": 0.5372,
+      "step": 9090
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0002,
+      "loss": 0.6409,
+      "step": 9100
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0002,
+      "loss": 0.5243,
+      "step": 9110
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0002,
+      "loss": 0.606,
+      "step": 9120
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0002,
+      "loss": 0.5064,
+      "step": 9130
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0002,
+      "loss": 0.5032,
+      "step": 9140
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0002,
+      "loss": 0.5706,
+      "step": 9150
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0002,
+      "loss": 0.5741,
+      "step": 9160
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0002,
+      "loss": 0.5126,
+      "step": 9170
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0002,
+      "loss": 0.5267,
+      "step": 9180
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0002,
+      "loss": 0.6352,
+      "step": 9190
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0002,
+      "loss": 0.5945,
+      "step": 9200
+    },
+    {
+      "epoch": 2.23,
+      "eval_loss": 0.7944668531417847,
+      "eval_runtime": 146.8313,
+      "eval_samples_per_second": 6.811,
+      "eval_steps_per_second": 3.405,
+      "step": 9200
+    },
+    {
+      "epoch": 2.23,
+      "mmlu_eval_accuracy": 0.49070389709860035,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.7142857142857143,
+      "mmlu_eval_accuracy_astronomy": 0.4375,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.6206896551724138,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
+      "mmlu_eval_accuracy_college_physics": 0.5454545454545454,
+      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
+      "mmlu_eval_accuracy_conceptual_physics": 0.38461538461538464,
+      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.2682926829268293,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.4,
+      "mmlu_eval_accuracy_high_school_biology": 0.46875,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.18181818181818182,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
+      "mmlu_eval_accuracy_high_school_geography": 0.8636363636363636,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.3103448275862069,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.46153846153846156,
+      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8333333333333334,
+      "mmlu_eval_accuracy_high_school_statistics": 0.30434782608695654,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6818181818181818,
+      "mmlu_eval_accuracy_high_school_world_history": 0.6923076923076923,
+      "mmlu_eval_accuracy_human_aging": 0.6956521739130435,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.09090909090909091,
+      "mmlu_eval_accuracy_management": 0.5454545454545454,
+      "mmlu_eval_accuracy_marketing": 0.72,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.6511627906976745,
+      "mmlu_eval_accuracy_moral_disputes": 0.42105263157894735,
+      "mmlu_eval_accuracy_moral_scenarios": 0.24,
+      "mmlu_eval_accuracy_nutrition": 0.6363636363636364,
+      "mmlu_eval_accuracy_philosophy": 0.4411764705882353,
+      "mmlu_eval_accuracy_prehistory": 0.6,
+      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
+      "mmlu_eval_accuracy_professional_law": 0.3588235294117647,
+      "mmlu_eval_accuracy_professional_medicine": 0.45161290322580644,
+      "mmlu_eval_accuracy_professional_psychology": 0.4927536231884058,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
+      "mmlu_eval_accuracy_sociology": 0.7272727272727273,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
+      "mmlu_eval_accuracy_virology": 0.4444444444444444,
+      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
+      "mmlu_loss": 1.1486563418576052,
+      "step": 9200
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0002,
+      "loss": 0.6269,
+      "step": 9210
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0002,
+      "loss": 0.5822,
+      "step": 9220
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0002,
+      "loss": 0.5498,
+      "step": 9230
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5867,
+      "step": 9240
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0002,
+      "loss": 0.6348,
+      "step": 9250
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5369,
+      "step": 9260
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0002,
+      "loss": 0.5681,
+      "step": 9270
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0002,
+      "loss": 0.5337,
+      "step": 9280
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0002,
+      "loss": 0.4703,
+      "step": 9290
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0002,
+      "loss": 0.5731,
+      "step": 9300
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0002,
+      "loss": 0.6256,
+      "step": 9310
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5633,
+      "step": 9320
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5632,
+      "step": 9330
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0002,
+      "loss": 0.5059,
+      "step": 9340
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0002,
+      "loss": 0.6024,
+      "step": 9350
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5935,
+      "step": 9360
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5761,
+      "step": 9370
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5517,
+      "step": 9380
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5638,
+      "step": 9390
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 0.5156,
+      "step": 9400
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.8009240031242371,
+      "eval_runtime": 146.9481,
+      "eval_samples_per_second": 6.805,
+      "eval_steps_per_second": 3.403,
+      "step": 9400
+    },
+    {
+      "epoch": 2.27,
+      "mmlu_eval_accuracy": 0.4885379413767002,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.6428571428571429,
+      "mmlu_eval_accuracy_astronomy": 0.4375,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.5862068965517241,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_mathematics": 0.09090909090909091,
+      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.5454545454545454,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.34146341463414637,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.4,
+      "mmlu_eval_accuracy_high_school_biology": 0.46875,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_geography": 0.8181818181818182,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.5714285714285714,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4883720930232558,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.3448275862068966,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
+      "mmlu_eval_accuracy_high_school_physics": 0.23529411764705882,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
+      "mmlu_eval_accuracy_high_school_statistics": 0.43478260869565216,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
+      "mmlu_eval_accuracy_high_school_world_history": 0.6923076923076923,
+      "mmlu_eval_accuracy_human_aging": 0.6521739130434783,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.09090909090909091,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.72,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.6744186046511628,
+      "mmlu_eval_accuracy_moral_disputes": 0.47368421052631576,
+      "mmlu_eval_accuracy_moral_scenarios": 0.27,
+      "mmlu_eval_accuracy_nutrition": 0.5757575757575758,
+      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
+      "mmlu_eval_accuracy_prehistory": 0.6,
+      "mmlu_eval_accuracy_professional_accounting": 0.3225806451612903,
+      "mmlu_eval_accuracy_professional_law": 0.36470588235294116,
+      "mmlu_eval_accuracy_professional_medicine": 0.5806451612903226,
+      "mmlu_eval_accuracy_professional_psychology": 0.4927536231884058,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.4444444444444444,
+      "mmlu_eval_accuracy_sociology": 0.7272727272727273,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.8181818181818182,
+      "mmlu_eval_accuracy_virology": 0.5555555555555556,
+      "mmlu_eval_accuracy_world_religions": 0.631578947368421,
+      "mmlu_loss": 1.0770278435112914,
+      "step": 9400
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0002,
+      "loss": 0.5892,
+      "step": 9410
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0002,
+      "loss": 0.6311,
+      "step": 9420
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0002,
+      "loss": 0.5703,
+      "step": 9430
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0002,
+      "loss": 0.5266,
+      "step": 9440
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002,
+      "loss": 0.5261,
+      "step": 9450
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002,
+      "loss": 0.5646,
+      "step": 9460
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002,
+      "loss": 0.5523,
+      "step": 9470
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002,
+      "loss": 0.6258,
+      "step": 9480
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 0.563,
+      "step": 9490
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 0.5888,
+      "step": 9500
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 0.5126,
+      "step": 9510
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 0.4599,
+      "step": 9520
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0002,
+      "loss": 0.5805,
+      "step": 9530
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0002,
+      "loss": 0.5586,
+      "step": 9540
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0002,
+      "loss": 0.5195,
+      "step": 9550
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0002,
+      "loss": 0.539,
+      "step": 9560
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0002,
+      "loss": 0.5621,
+      "step": 9570
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0002,
+      "loss": 0.5934,
+      "step": 9580
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0002,
+      "loss": 0.5506,
+      "step": 9590
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0002,
+      "loss": 0.5068,
+      "step": 9600
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.7941080331802368,
+      "eval_runtime": 146.9583,
+      "eval_samples_per_second": 6.805,
+      "eval_steps_per_second": 3.402,
+      "step": 9600
+    },
+    {
+      "epoch": 2.32,
+      "mmlu_eval_accuracy": 0.48538841627663226,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.6428571428571429,
+      "mmlu_eval_accuracy_astronomy": 0.375,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.6206896551724138,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.2727272727272727,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.5454545454545454,
+      "mmlu_eval_accuracy_conceptual_physics": 0.46153846153846156,
+      "mmlu_eval_accuracy_econometrics": 0.16666666666666666,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.2682926829268293,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.5,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
+      "mmlu_eval_accuracy_high_school_geography": 0.7727272727272727,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6190476190476191,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.3448275862068966,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.46153846153846156,
+      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8666666666666667,
+      "mmlu_eval_accuracy_high_school_statistics": 0.30434782608695654,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6818181818181818,
+      "mmlu_eval_accuracy_high_school_world_history": 0.7307692307692307,
+      "mmlu_eval_accuracy_human_aging": 0.5652173913043478,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.36363636363636365,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.72,
+      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
+      "mmlu_eval_accuracy_miscellaneous": 0.6511627906976745,
+      "mmlu_eval_accuracy_moral_disputes": 0.42105263157894735,
+      "mmlu_eval_accuracy_moral_scenarios": 0.25,
+      "mmlu_eval_accuracy_nutrition": 0.5454545454545454,
+      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
+      "mmlu_eval_accuracy_prehistory": 0.5142857142857142,
+      "mmlu_eval_accuracy_professional_accounting": 0.25806451612903225,
+      "mmlu_eval_accuracy_professional_law": 0.3352941176470588,
+      "mmlu_eval_accuracy_professional_medicine": 0.4838709677419355,
+      "mmlu_eval_accuracy_professional_psychology": 0.4927536231884058,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.48148148148148145,
+      "mmlu_eval_accuracy_sociology": 0.7272727272727273,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
+      "mmlu_eval_accuracy_virology": 0.5555555555555556,
+      "mmlu_eval_accuracy_world_religions": 0.7368421052631579,
+      "mmlu_loss": 1.1471413504867267,
+      "step": 9600
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0002,
+      "loss": 0.5739,
+      "step": 9610
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0002,
+      "loss": 0.5468,
+      "step": 9620
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0002,
+      "loss": 0.4978,
+      "step": 9630
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0002,
+      "loss": 0.5985,
+      "step": 9640
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0002,
+      "loss": 0.5722,
+      "step": 9650
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0002,
+      "loss": 0.5589,
+      "step": 9660
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0002,
+      "loss": 0.499,
+      "step": 9670
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0002,
+      "loss": 0.6057,
+      "step": 9680
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0002,
+      "loss": 0.5717,
+      "step": 9690
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0002,
+      "loss": 0.5038,
+      "step": 9700
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0002,
+      "loss": 0.5754,
+      "step": 9710
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0002,
+      "loss": 0.5277,
+      "step": 9720
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0002,
+      "loss": 0.5276,
+      "step": 9730
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0002,
+      "loss": 0.5471,
+      "step": 9740
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0002,
+      "loss": 0.5437,
+      "step": 9750
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0002,
+      "loss": 0.5152,
+      "step": 9760
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0002,
+      "loss": 0.5293,
+      "step": 9770
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0002,
+      "loss": 0.6379,
+      "step": 9780
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0002,
+      "loss": 0.6243,
+      "step": 9790
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0002,
+      "loss": 0.5984,
+      "step": 9800
+    },
+    {
+      "epoch": 2.37,
+      "eval_loss": 0.7901096343994141,
+      "eval_runtime": 146.8871,
+      "eval_samples_per_second": 6.808,
+      "eval_steps_per_second": 3.404,
+      "step": 9800
+    },
+    {
+      "epoch": 2.37,
+      "mmlu_eval_accuracy": 0.5048412442766317,
+      "mmlu_eval_accuracy_abstract_algebra": 0.5454545454545454,
+      "mmlu_eval_accuracy_anatomy": 0.7142857142857143,
+      "mmlu_eval_accuracy_astronomy": 0.375,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
+      "mmlu_eval_accuracy_clinical_knowledge": 0.5517241379310345,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.125,
+      "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
+      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
+      "mmlu_eval_accuracy_conceptual_physics": 0.46153846153846156,
+      "mmlu_eval_accuracy_econometrics": 0.25,
+      "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.3170731707317073,
+      "mmlu_eval_accuracy_formal_logic": 0.2857142857142857,
+      "mmlu_eval_accuracy_global_facts": 0.5,
+      "mmlu_eval_accuracy_high_school_biology": 0.53125,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.2727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.6111111111111112,
+      "mmlu_eval_accuracy_high_school_geography": 0.8181818181818182,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.5116279069767442,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.2413793103448276,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
+      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
+      "mmlu_eval_accuracy_high_school_psychology": 0.8333333333333334,
+      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
+      "mmlu_eval_accuracy_high_school_us_history": 0.6363636363636364,
+      "mmlu_eval_accuracy_high_school_world_history": 0.7307692307692307,
+      "mmlu_eval_accuracy_human_aging": 0.6521739130434783,
+      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
+      "mmlu_eval_accuracy_international_law": 0.9230769230769231,
+      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
+      "mmlu_eval_accuracy_logical_fallacies": 0.6666666666666666,
+      "mmlu_eval_accuracy_machine_learning": 0.18181818181818182,
+      "mmlu_eval_accuracy_management": 0.6363636363636364,
+      "mmlu_eval_accuracy_marketing": 0.72,
+      "mmlu_eval_accuracy_medical_genetics": 0.9090909090909091,
+      "mmlu_eval_accuracy_miscellaneous": 0.6976744186046512,
+      "mmlu_eval_accuracy_moral_disputes": 0.42105263157894735,
+      "mmlu_eval_accuracy_moral_scenarios": 0.25,
+      "mmlu_eval_accuracy_nutrition": 0.5454545454545454,
+      "mmlu_eval_accuracy_philosophy": 0.5294117647058824,
+      "mmlu_eval_accuracy_prehistory": 0.5714285714285714,
+      "mmlu_eval_accuracy_professional_accounting": 0.3870967741935484,
+      "mmlu_eval_accuracy_professional_law": 0.3352941176470588,
+      "mmlu_eval_accuracy_professional_medicine": 0.5161290322580645,
+      "mmlu_eval_accuracy_professional_psychology": 0.5217391304347826,
+      "mmlu_eval_accuracy_public_relations": 0.6666666666666666,
+      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
+      "mmlu_eval_accuracy_sociology": 0.7727272727272727,
+      "mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
+      "mmlu_eval_accuracy_virology": 0.5555555555555556,
+      "mmlu_eval_accuracy_world_religions": 0.7368421052631579,
+      "mmlu_loss": 1.1105098819296915,
+      "step": 9800
     }
   ],
   "max_steps": 10000,
   "num_train_epochs": 3,
+  "total_flos": 1.0865378092489114e+18,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-7800 → checkpoint-9800}/training_args.bin RENAMED Viewed

File without changes