nvan15 commited on Jan 15

Commit

6c9152c

verified ·

1 Parent(s): 3a244f5

Batch upload part 5

Browse files

Files changed (50) hide show

nl_tasks/exps/run_ex12/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex12/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex12/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex12/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex12/ft2/adapter_model.bin +3 -0
nl_tasks/exps/run_ex13/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex13/ft/added_tokens.json +3 -0
nl_tasks/exps/run_ex13/ft/special_tokens_map.json +30 -0
nl_tasks/exps/run_ex13/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex13/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex13/ft/tokenizer_config.json +51 -0
nl_tasks/exps/run_ex13/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex13/ft2/adapter_model.bin +3 -0
nl_tasks/exps/run_ex13/trainer_state.json +914 -0
nl_tasks/exps/run_ex13_3ep/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex13_3ep/ft/added_tokens.json +3 -0
nl_tasks/exps/run_ex13_3ep/ft/special_tokens_map.json +30 -0
nl_tasks/exps/run_ex13_3ep/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex13_3ep/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex13_3ep/ft/tokenizer_config.json +51 -0
nl_tasks/exps/run_ex13_3ep/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex13_3ep/ft2/adapter_model.bin +3 -0
nl_tasks/exps/run_ex13_3ep/trainer_state.json +1209 -0
nl_tasks/exps/run_ex14_3ep/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex14_3ep/ft/added_tokens.json +3 -0
nl_tasks/exps/run_ex14_3ep/ft/special_tokens_map.json +30 -0
nl_tasks/exps/run_ex14_3ep/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex14_3ep/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex14_3ep/ft/tokenizer_config.json +51 -0
nl_tasks/exps/run_ex14_3ep/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex14_3ep/ft2/adapter_model.bin +3 -0
nl_tasks/exps/run_ex14_3ep/trainer_state.json +1209 -0
nl_tasks/exps/run_ex15_3ep/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex15_3ep/ft/added_tokens.json +3 -0
nl_tasks/exps/run_ex15_3ep/ft/special_tokens_map.json +30 -0
nl_tasks/exps/run_ex15_3ep/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex15_3ep/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex15_3ep/ft/tokenizer_config.json +51 -0
nl_tasks/exps/run_ex15_3ep/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex15_3ep/ft2/adapter_model.bin +3 -0
nl_tasks/exps/run_ex15_3ep/trainer_state.json +1209 -0
nl_tasks/exps/run_ex16_3ep/ft/adapter_config.json +18 -0
nl_tasks/exps/run_ex16_3ep/ft/added_tokens.json +3 -0
nl_tasks/exps/run_ex16_3ep/ft/special_tokens_map.json +30 -0
nl_tasks/exps/run_ex16_3ep/ft/tokenizer.json +0 -0
nl_tasks/exps/run_ex16_3ep/ft/tokenizer.model +3 -0
nl_tasks/exps/run_ex16_3ep/ft/tokenizer_config.json +51 -0
nl_tasks/exps/run_ex16_3ep/ft2/adapter_config.json +18 -0
nl_tasks/exps/run_ex16_3ep/ft2/adapter_model.bin +3 -0
nl_tasks/exps/run_ex16_3ep/trainer_state.json +1209 -0

nl_tasks/exps/run_ex12/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex12/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex12/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex12/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex12/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f15a7067acc59209fae49f5b4409bb98642b3c387e6eb4164485aa5cd5a95beb
+size 33602915

nl_tasks/exps/run_ex13/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex13/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exps/run_ex13/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exps/run_ex13/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex13/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex13/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exps/run_ex13/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex13/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:631c0b21e554b83e3404c4f3d4dfaa0e49fb9017ac23829bc45e4b81e3e709ae
+size 33602915

nl_tasks/exps/run_ex13/trainer_state.json ADDED Viewed

	@@ -0,0 +1,914 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 100,
+  "global_step": 2438,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.23063355684280396,
+      "learning_rate": 9.836065573770491e-05,
+      "loss": 0.6812,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.18014760315418243,
+      "learning_rate": 0.00020081967213114754,
+      "loss": 0.4176,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.1530769020318985,
+      "learning_rate": 0.0003032786885245902,
+      "loss": 0.3726,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.18688490986824036,
+      "learning_rate": 0.0004057377049180328,
+      "loss": 0.3352,
+      "step": 100
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "eval_loss": 0.325385183095932,
+      "eval_runtime": 19.475,
+      "eval_samples_per_second": 51.348,
+      "eval_steps_per_second": 0.822,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.1708248257637024,
+      "learning_rate": 0.0005081967213114754,
+      "loss": 0.3388,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.1983977109193802,
+      "learning_rate": 0.000610655737704918,
+      "loss": 0.3211,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.1805795133113861,
+      "learning_rate": 0.0007131147540983607,
+      "loss": 0.312,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.23340001702308655,
+      "learning_rate": 0.0008155737704918033,
+      "loss": 0.3232,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.3051459491252899,
+      "eval_runtime": 19.3022,
+      "eval_samples_per_second": 51.808,
+      "eval_steps_per_second": 0.829,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.2863401770591736,
+      "learning_rate": 0.0009180327868852459,
+      "loss": 0.3226,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.30703943967819214,
+      "learning_rate": 0.0009999871854116063,
+      "loss": 0.3001,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.21251602470874786,
+      "learning_rate": 0.0009995387437838027,
+      "loss": 0.3027,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.25236549973487854,
+      "learning_rate": 0.000998450229439693,
+      "loss": 0.3044,
+      "step": 300
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "eval_loss": 0.29398414492607117,
+      "eval_runtime": 19.3425,
+      "eval_samples_per_second": 51.7,
+      "eval_steps_per_second": 0.827,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.2558315098285675,
+      "learning_rate": 0.000996723037122612,
+      "loss": 0.3077,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.384848415851593,
+      "learning_rate": 0.0009943593799315263,
+      "loss": 0.2991,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.2492862343788147,
+      "learning_rate": 0.0009913622864853324,
+      "loss": 0.3093,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.34253203868865967,
+      "learning_rate": 0.0009877355970422024,
+      "loss": 0.301,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.28543996810913086,
+      "eval_runtime": 19.2681,
+      "eval_samples_per_second": 51.899,
+      "eval_steps_per_second": 0.83,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.23710455000400543,
+      "learning_rate": 0.0009834839585789559,
+      "loss": 0.304,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.22950544953346252,
+      "learning_rate": 0.000978612818836762,
+      "loss": 0.2995,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.23045484721660614,
+      "learning_rate": 0.0009731284193407981,
+      "loss": 0.2856,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.19551247358322144,
+      "learning_rate": 0.0009670377874028117,
+      "loss": 0.2725,
+      "step": 500
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "eval_loss": 0.2717110514640808,
+      "eval_runtime": 19.3136,
+      "eval_samples_per_second": 51.777,
+      "eval_steps_per_second": 0.828,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.22144560515880585,
+      "learning_rate": 0.0009603487271168336,
+      "loss": 0.2704,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.26910459995269775,
+      "learning_rate": 0.0009530698093595781,
+      "loss": 0.28,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.23758633434772491,
+      "learning_rate": 0.0009452103608083418,
+      "loss": 0.2711,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.2066866010427475,
+      "learning_rate": 0.0009367804519904775,
+      "loss": 0.2876,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2623426020145416,
+      "eval_runtime": 19.2854,
+      "eval_samples_per_second": 51.853,
+      "eval_steps_per_second": 0.83,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.21168355643749237,
+      "learning_rate": 0.0009277908843797492,
+      "loss": 0.2663,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.2064104527235031,
+      "learning_rate": 0.0009182531765561084,
+      "loss": 0.2594,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.21850290894508362,
+      "learning_rate": 0.0009081795494466201,
+      "loss": 0.2706,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.21628743410110474,
+      "learning_rate": 0.0008975829106664539,
+      "loss": 0.2696,
+      "step": 700
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "eval_loss": 0.2571398913860321,
+      "eval_runtime": 19.259,
+      "eval_samples_per_second": 51.924,
+      "eval_steps_per_second": 0.831,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.19227014482021332,
+      "learning_rate": 0.0008864768379800017,
+      "loss": 0.2669,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.19298115372657776,
+      "learning_rate": 0.0008748755619033153,
+      "loss": 0.2628,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.19282013177871704,
+      "learning_rate": 0.000862793947470155,
+      "loss": 0.2605,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.2024482786655426,
+      "learning_rate": 0.0008502474751850142,
+      "loss": 0.2632,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.24924395978450775,
+      "eval_runtime": 19.2743,
+      "eval_samples_per_second": 51.883,
+      "eval_steps_per_second": 0.83,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.1860484927892685,
+      "learning_rate": 0.0008372522211875224,
+      "loss": 0.2554,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.19293159246444702,
+      "learning_rate": 0.0008238248366536473,
+      "loss": 0.259,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.16820554435253143,
+      "learning_rate": 0.0008099825264600842,
+      "loss": 0.2458,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.20481383800506592,
+      "learning_rate": 0.0007957430271391761,
+      "loss": 0.2525,
+      "step": 900
+    },
+    {
+      "epoch": 0.7383100902379,
+      "eval_loss": 0.24079462885856628,
+      "eval_runtime": 19.3447,
+      "eval_samples_per_second": 51.694,
+      "eval_steps_per_second": 0.827,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.18768063187599182,
+      "learning_rate": 0.0007811245841526062,
+      "loss": 0.2535,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.17618238925933838,
+      "learning_rate": 0.0007661459285129879,
+      "loss": 0.241,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.20532366633415222,
+      "learning_rate": 0.0007508262527833029,
+      "loss": 0.2475,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.18020130693912506,
+      "learning_rate": 0.000735185186484943,
+      "loss": 0.2401,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.23719018697738647,
+      "eval_runtime": 19.3631,
+      "eval_samples_per_second": 51.645,
+      "eval_steps_per_second": 0.826,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.1882888227701187,
+      "learning_rate": 0.0007192427709458656,
+      "loss": 0.2409,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.17976818978786469,
+      "learning_rate": 0.0007030194336210887,
+      "loss": 0.2381,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.1889801174402237,
+      "learning_rate": 0.0006865359619184331,
+      "loss": 0.2432,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.178939089179039,
+      "learning_rate": 0.0006698134765630434,
+      "loss": 0.244,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "eval_loss": 0.23325777053833008,
+      "eval_runtime": 19.3754,
+      "eval_samples_per_second": 51.612,
+      "eval_steps_per_second": 0.826,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.17410777509212494,
+      "learning_rate": 0.0006528734045348248,
+      "loss": 0.2375,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.15016716718673706,
+      "learning_rate": 0.0006357374516134643,
+      "loss": 0.2371,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.1614176481962204,
+      "learning_rate": 0.0006184275745662179,
+      "loss": 0.2429,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.1717890501022339,
+      "learning_rate": 0.0006009659530141031,
+      "loss": 0.2478,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.22848205268383026,
+      "eval_runtime": 19.3521,
+      "eval_samples_per_second": 51.674,
+      "eval_steps_per_second": 0.827,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.153545543551445,
+      "learning_rate": 0.0005833749610125402,
+      "loss": 0.2277,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.16761425137519836,
+      "learning_rate": 0.0005656771383828602,
+      "loss": 0.2067,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.19482481479644775,
+      "learning_rate": 0.0005478951618314134,
+      "loss": 0.2074,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.15821483731269836,
+      "learning_rate": 0.0005300518158932815,
+      "loss": 0.2104,
+      "step": 1300
+    },
+    {
+      "epoch": 1.066447908121411,
+      "eval_loss": 0.2253958135843277,
+      "eval_runtime": 19.2878,
+      "eval_samples_per_second": 51.846,
+      "eval_steps_per_second": 0.83,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.18940797448158264,
+      "learning_rate": 0.0005121699637378282,
+      "loss": 0.2073,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.1431218981742859,
+      "learning_rate": 0.0004942725178734903,
+      "loss": 0.2004,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.18451210856437683,
+      "learning_rate": 0.00047638241078935324,
+      "loss": 0.2017,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.16710275411605835,
+      "learning_rate": 0.000458522565571121,
+      "loss": 0.1947,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.2227575033903122,
+      "eval_runtime": 19.3385,
+      "eval_samples_per_second": 51.71,
+      "eval_steps_per_second": 0.827,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.17341965436935425,
+      "learning_rate": 0.00044071586652913767,
+      "loss": 0.2063,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.18759435415267944,
+      "learning_rate": 0.0004229851298760915,
+      "loss": 0.2057,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.18075019121170044,
+      "learning_rate": 0.0004053530744919749,
+      "loss": 0.2018,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.1759309619665146,
+      "learning_rate": 0.0003878422928137597,
+      "loss": 0.211,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "eval_loss": 0.2198861539363861,
+      "eval_runtime": 19.3184,
+      "eval_samples_per_second": 51.764,
+      "eval_steps_per_second": 0.828,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.20878763496875763,
+      "learning_rate": 0.0003704752218870861,
+      "loss": 0.2064,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.14704816043376923,
+      "learning_rate": 0.00035327411461706025,
+      "loss": 0.2,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.14631816744804382,
+      "learning_rate": 0.00033626101125499555,
+      "loss": 0.201,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.16362226009368896,
+      "learning_rate": 0.0003194577111576333,
+      "loss": 0.1944,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.21637172996997833,
+      "eval_runtime": 19.3279,
+      "eval_samples_per_second": 51.739,
+      "eval_steps_per_second": 0.828,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.1545446664094925,
+      "learning_rate": 0.00030288574485502756,
+      "loss": 0.1967,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.1899978667497635,
+      "learning_rate": 0.00028656634646288565,
+      "loss": 0.1975,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.18251560628414154,
+      "learning_rate": 0.00027052042647471254,
+      "loss": 0.1947,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.15624067187309265,
+      "learning_rate": 0.0002547685449686206,
+      "loss": 0.1955,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "eval_loss": 0.21375645697116852,
+      "eval_runtime": 19.3278,
+      "eval_samples_per_second": 51.739,
+      "eval_steps_per_second": 0.828,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.16290026903152466,
+      "learning_rate": 0.0002393308852631373,
+      "loss": 0.1929,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.15477831661701202,
+      "learning_rate": 0.0002242272280557645,
+      "loss": 0.1921,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.1626901626586914,
+      "learning_rate": 0.0002094769260774262,
+      "loss": 0.1982,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.1413515955209732,
+      "learning_rate": 0.00019509887929528458,
+      "loss": 0.1878,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.21210877597332,
+      "eval_runtime": 19.2688,
+      "eval_samples_per_second": 51.897,
+      "eval_steps_per_second": 0.83,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.2152208685874939,
+      "learning_rate": 0.0001811115106956918,
+      "loss": 0.1879,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.14923618733882904,
+      "learning_rate": 0.00016753274267831115,
+      "loss": 0.1891,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.1509970724582672,
+      "learning_rate": 0.00015437997409165478,
+      "loss": 0.1904,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.16167961061000824,
+      "learning_rate": 0.00014167005793946035,
+      "loss": 0.1933,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "eval_loss": 0.209316223859787,
+      "eval_runtime": 19.2819,
+      "eval_samples_per_second": 51.862,
+      "eval_steps_per_second": 0.83,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.154046893119812,
+      "learning_rate": 0.00012941927978647527,
+      "loss": 0.1942,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.1619158685207367,
+      "learning_rate": 0.00011764333689131385,
+      "loss": 0.1928,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.15459883213043213,
+      "learning_rate": 0.00010635731809312993,
+      "loss": 0.1877,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.16406521201133728,
+      "learning_rate": 9.557568447787201e-05,
+      "loss": 0.195,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.20751364529132843,
+      "eval_runtime": 19.2815,
+      "eval_samples_per_second": 51.863,
+      "eval_steps_per_second": 0.83,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.1447853147983551,
+      "learning_rate": 8.531225084889654e-05,
+      "loss": 0.1848,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.17156699299812317,
+      "learning_rate": 7.558016802568091e-05,
+      "loss": 0.1859,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.20112192630767822,
+      "learning_rate": 6.639190599331746e-05,
+      "loss": 0.1919,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.15536586940288544,
+      "learning_rate": 5.775923792437865e-05,
+      "loss": 0.1822,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "eval_loss": 0.20659959316253662,
+      "eval_runtime": 19.2769,
+      "eval_samples_per_second": 51.876,
+      "eval_steps_per_second": 0.83,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.14990898966789246,
+      "learning_rate": 4.9693225093627616e-05,
+      "loss": 0.1861,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.13435500860214233,
+      "learning_rate": 4.220420270490294e-05,
+      "loss": 0.1839,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.15417076647281647,
+      "learning_rate": 3.530176664833834e-05,
+      "loss": 0.1928,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.15742765367031097,
+      "learning_rate": 2.8994761204884756e-05,
+      "loss": 0.1868,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.20532982051372528,
+      "eval_runtime": 19.3321,
+      "eval_samples_per_second": 51.728,
+      "eval_steps_per_second": 0.828,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.1742992252111435,
+      "learning_rate": 2.329126771388995e-05,
+      "loss": 0.1868,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.16154895722866058,
+      "learning_rate": 1.8198594218256815e-05,
+      "loss": 0.1891,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.14913508296012878,
+      "learning_rate": 1.3723266100447052e-05,
+      "loss": 0.1932,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.15223710238933563,
+      "learning_rate": 9.871017721329201e-06,
+      "loss": 0.1857,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "eval_loss": 0.20510254800319672,
+      "eval_runtime": 19.3501,
+      "eval_samples_per_second": 51.679,
+      "eval_steps_per_second": 0.827,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.17794349789619446,
+      "learning_rate": 6.646785072584871e-06,
+      "loss": 0.194,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.18157444894313812,
+      "learning_rate": 4.054699452086641e-06,
+      "loss": 0.1792,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.1601715087890625,
+      "learning_rate": 2.0980821703527886e-06,
+      "loss": 0.1848,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.14718155562877655,
+      "learning_rate": 7.794402948607671e-07,
+      "loss": 0.1862,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.20495718717575073,
+      "eval_runtime": 19.2663,
+      "eval_samples_per_second": 51.904,
+      "eval_steps_per_second": 0.83,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.15204986929893494,
+      "learning_rate": 1.0046343767294853e-07,
+      "loss": 0.1818,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0,
+      "step": 2438,
+      "total_flos": 1.58523627405312e+18,
+      "train_loss": 0.24099373250246245,
+      "train_runtime": 2702.6542,
+      "train_samples_per_second": 28.861,
+      "train_steps_per_second": 0.902
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2438,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58523627405312e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exps/run_ex13_3ep/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex13_3ep/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exps/run_ex13_3ep/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exps/run_ex13_3ep/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex13_3ep/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex13_3ep/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exps/run_ex13_3ep/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex13_3ep/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:658dc7a6f10546312e15dafec6425b0d7e38ba5698daa76abe2135fcbe7df5d1
+size 33602915

nl_tasks/exps/run_ex13_3ep/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1209 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 200,
+  "global_step": 3657,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.26317867636680603,
+      "learning_rate": 6.557377049180328e-05,
+      "loss": 0.709,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.2067350596189499,
+      "learning_rate": 0.00013387978142076503,
+      "loss": 0.4475,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.15732155740261078,
+      "learning_rate": 0.00020218579234972678,
+      "loss": 0.3862,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.22207772731781006,
+      "learning_rate": 0.00027049180327868856,
+      "loss": 0.3441,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.17426303029060364,
+      "learning_rate": 0.00033879781420765025,
+      "loss": 0.3462,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.17706584930419922,
+      "learning_rate": 0.00040710382513661205,
+      "loss": 0.3274,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.15795481204986572,
+      "learning_rate": 0.00047540983606557375,
+      "loss": 0.3171,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.2113538384437561,
+      "learning_rate": 0.0005437158469945356,
+      "loss": 0.3253,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.3043476641178131,
+      "eval_runtime": 19.5568,
+      "eval_samples_per_second": 51.133,
+      "eval_steps_per_second": 0.818,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.1723247766494751,
+      "learning_rate": 0.0006120218579234972,
+      "loss": 0.3192,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.19019053876399994,
+      "learning_rate": 0.000680327868852459,
+      "loss": 0.2976,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.21279513835906982,
+      "learning_rate": 0.0007486338797814209,
+      "loss": 0.3061,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.23976510763168335,
+      "learning_rate": 0.0008169398907103825,
+      "loss": 0.3044,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.22460055351257324,
+      "learning_rate": 0.0008852459016393442,
+      "loss": 0.3072,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.23715358972549438,
+      "learning_rate": 0.0009535519125683059,
+      "loss": 0.3017,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.23479431867599487,
+      "learning_rate": 0.0009999854198546752,
+      "loss": 0.3159,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.3158360421657562,
+      "learning_rate": 0.0009997519290247507,
+      "loss": 0.3025,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2903132438659668,
+      "eval_runtime": 19.3059,
+      "eval_samples_per_second": 51.798,
+      "eval_steps_per_second": 0.829,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.22819840908050537,
+      "learning_rate": 0.0009992338231424006,
+      "loss": 0.3139,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.23836681246757507,
+      "learning_rate": 0.000998431397275486,
+      "loss": 0.3098,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.22939693927764893,
+      "learning_rate": 0.0009973451084157006,
+      "loss": 0.2955,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.21114112436771393,
+      "learning_rate": 0.0009959755752183062,
+      "loss": 0.2807,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.23353807628154755,
+      "learning_rate": 0.0009943235776498026,
+      "loss": 0.278,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.21267421543598175,
+      "learning_rate": 0.0009923900565437262,
+      "loss": 0.2863,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.25392886996269226,
+      "learning_rate": 0.0009901761130648326,
+      "loss": 0.2795,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.22405794262886047,
+      "learning_rate": 0.0009876830080819703,
+      "loss": 0.2965,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.27075350284576416,
+      "eval_runtime": 19.3269,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.22697776556015015,
+      "learning_rate": 0.00098491216145,
+      "loss": 0.2764,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.2539340853691101,
+      "learning_rate": 0.0009818651512011685,
+      "loss": 0.2671,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.2137545496225357,
+      "learning_rate": 0.0009785437126463995,
+      "loss": 0.2798,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.22169587016105652,
+      "learning_rate": 0.0009749497373870129,
+      "loss": 0.2765,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.21494679152965546,
+      "learning_rate": 0.0009710852722374326,
+      "loss": 0.2765,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.2177286595106125,
+      "learning_rate": 0.0009669525180595009,
+      "loss": 0.2725,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.22016122937202454,
+      "learning_rate": 0.0009625538285090593,
+      "loss": 0.2682,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.20299573242664337,
+      "learning_rate": 0.0009578917086955117,
+      "loss": 0.2709,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2572968006134033,
+      "eval_runtime": 19.3237,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 0.828,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.19535581767559052,
+      "learning_rate": 0.0009529688137551328,
+      "loss": 0.264,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.21757008135318756,
+      "learning_rate": 0.0009477879473389345,
+      "loss": 0.267,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.16861338913440704,
+      "learning_rate": 0.0009423520600159513,
+      "loss": 0.2537,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.2269093096256256,
+      "learning_rate": 0.0009366642475928535,
+      "loss": 0.2606,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.1875704526901245,
+      "learning_rate": 0.0009307277493508466,
+      "loss": 0.2609,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.17958270013332367,
+      "learning_rate": 0.0009245459462008587,
+      "loss": 0.2486,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.2056453377008438,
+      "learning_rate": 0.0009181223587580702,
+      "loss": 0.2554,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.19606703519821167,
+      "learning_rate": 0.0009114606453368778,
+      "loss": 0.2493,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.24378660321235657,
+      "eval_runtime": 19.3021,
+      "eval_samples_per_second": 51.808,
+      "eval_steps_per_second": 0.829,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.192683607339859,
+      "learning_rate": 0.0009045645998674388,
+      "loss": 0.2492,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.19006161391735077,
+      "learning_rate": 0.000897438149734979,
+      "loss": 0.2452,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.1865209937095642,
+      "learning_rate": 0.0008900853535430986,
+      "loss": 0.2501,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.20048469305038452,
+      "learning_rate": 0.0008825103988023442,
+      "loss": 0.2504,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.18759459257125854,
+      "learning_rate": 0.0008747175995453695,
+      "loss": 0.2444,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1509057879447937,
+      "learning_rate": 0.0008667113938700395,
+      "loss": 0.2444,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.17233215272426605,
+      "learning_rate": 0.0008584963414118765,
+      "loss": 0.2508,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.16307514905929565,
+      "learning_rate": 0.0008500771207472907,
+      "loss": 0.2558,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.23552247881889343,
+      "eval_runtime": 19.3122,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 0.828,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.1652350276708603,
+      "learning_rate": 0.0008414585267290715,
+      "loss": 0.2353,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.16925707459449768,
+      "learning_rate": 0.0008326454677556577,
+      "loss": 0.2165,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.193923220038414,
+      "learning_rate": 0.0008236429629757432,
+      "loss": 0.2191,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.14884328842163086,
+      "learning_rate": 0.0008144561394298075,
+      "loss": 0.2216,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.18515324592590332,
+      "learning_rate": 0.0008050902291302019,
+      "loss": 0.2174,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.14039944112300873,
+      "learning_rate": 0.0007955505660814515,
+      "loss": 0.2122,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.17923711240291595,
+      "learning_rate": 0.0007858425832424727,
+      "loss": 0.2143,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.17652627825737,
+      "learning_rate": 0.000775971809432434,
+      "loss": 0.2065,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.23243418335914612,
+      "eval_runtime": 19.325,
+      "eval_samples_per_second": 51.746,
+      "eval_steps_per_second": 0.828,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.17934605479240417,
+      "learning_rate": 0.0007659438661820235,
+      "loss": 0.2174,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.1746005117893219,
+      "learning_rate": 0.0007557644645319157,
+      "loss": 0.2185,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.17862309515476227,
+      "learning_rate": 0.0007454394017802622,
+      "loss": 0.2143,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.17890584468841553,
+      "learning_rate": 0.0007349745581810565,
+      "loss": 0.2239,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.19279733300209045,
+      "learning_rate": 0.0007243758935952547,
+      "loss": 0.2194,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.14889924228191376,
+      "learning_rate": 0.0007136494440965596,
+      "loss": 0.2138,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.13340285420417786,
+      "learning_rate": 0.0007028013185338001,
+      "loss": 0.2139,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.1602306365966797,
+      "learning_rate": 0.000691837695051865,
+      "loss": 0.2074,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.22446581721305847,
+      "eval_runtime": 19.3197,
+      "eval_samples_per_second": 51.761,
+      "eval_steps_per_second": 0.828,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.1418837457895279,
+      "learning_rate": 0.00068076481757317,
+      "loss": 0.2104,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.16610907018184662,
+      "learning_rate": 0.0006695889922416659,
+      "loss": 0.2116,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.16588063538074493,
+      "learning_rate": 0.0006583165838314095,
+      "loss": 0.2089,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.14670899510383606,
+      "learning_rate": 0.0006469540121217438,
+      "loss": 0.2097,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.1579999029636383,
+      "learning_rate": 0.0006355077482411526,
+      "loss": 0.2064,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.14437806606292725,
+      "learning_rate": 0.0006239843109818716,
+      "loss": 0.2061,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.16887524724006653,
+      "learning_rate": 0.0006123902630873521,
+      "loss": 0.2123,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.14332818984985352,
+      "learning_rate": 0.0006007322075146968,
+      "loss": 0.2023,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.2198713719844818,
+      "eval_runtime": 19.2983,
+      "eval_samples_per_second": 51.818,
+      "eval_steps_per_second": 0.829,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.14545492827892303,
+      "learning_rate": 0.0005890167836741919,
+      "loss": 0.2023,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.13525480031967163,
+      "learning_rate": 0.0005772506636480781,
+      "loss": 0.2055,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.13384069502353668,
+      "learning_rate": 0.0005654405483907163,
+      "loss": 0.2049,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.16189663112163544,
+      "learning_rate": 0.0005535931639123083,
+      "loss": 0.2076,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.15479648113250732,
+      "learning_rate": 0.00054171525744835,
+      "loss": 0.2094,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.15555700659751892,
+      "learning_rate": 0.0005298135936169937,
+      "loss": 0.2069,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.1431935578584671,
+      "learning_rate": 0.000517894950566514,
+      "loss": 0.2023,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.15172646939754486,
+      "learning_rate": 0.0005059661161150655,
+      "loss": 0.2089,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21559131145477295,
+      "eval_runtime": 19.3061,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 0.829,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.13010752201080322,
+      "learning_rate": 0.0004940338838849347,
+      "loss": 0.1987,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.1643010377883911,
+      "learning_rate": 0.0004821050494334861,
+      "loss": 0.2005,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.16517673432826996,
+      "learning_rate": 0.0004701864063830064,
+      "loss": 0.2056,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.14333464205265045,
+      "learning_rate": 0.0004582847425516501,
+      "loss": 0.1961,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.12679831683635712,
+      "learning_rate": 0.00044640683608769186,
+      "loss": 0.2002,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.11452236771583557,
+      "learning_rate": 0.0004345594516092838,
+      "loss": 0.1982,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.1682896614074707,
+      "learning_rate": 0.0004227493363519221,
+      "loss": 0.2069,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.1387612521648407,
+      "learning_rate": 0.0004109832163258082,
+      "loss": 0.1986,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.21137093007564545,
+      "eval_runtime": 19.3527,
+      "eval_samples_per_second": 51.672,
+      "eval_steps_per_second": 0.827,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.16713084280490875,
+      "learning_rate": 0.0003992677924853032,
+      "loss": 0.2008,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.1538151055574417,
+      "learning_rate": 0.0003876097369126479,
+      "loss": 0.2017,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.12900249660015106,
+      "learning_rate": 0.0003760156890181283,
+      "loss": 0.2061,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.1338413655757904,
+      "learning_rate": 0.0003644922517588474,
+      "loss": 0.1975,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.15099306404590607,
+      "learning_rate": 0.0003530459878782563,
+      "loss": 0.2064,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.14049404859542847,
+      "learning_rate": 0.00034168341616859065,
+      "loss": 0.1899,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.12242951989173889,
+      "learning_rate": 0.0003304110077583341,
+      "loss": 0.1949,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.14392268657684326,
+      "learning_rate": 0.00031923518242683,
+      "loss": 0.1959,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.2068263292312622,
+      "eval_runtime": 19.3392,
+      "eval_samples_per_second": 51.708,
+      "eval_steps_per_second": 0.827,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.13493984937667847,
+      "learning_rate": 0.000308162304948135,
+      "loss": 0.1924,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0098441345365052,
+      "grad_norm": 0.13458842039108276,
+      "learning_rate": 0.00029719868146619997,
+      "loss": 0.1804,
+      "step": 2450
+    },
+    {
+      "epoch": 2.030352748154225,
+      "grad_norm": 0.14248383045196533,
+      "learning_rate": 0.0002863505559034406,
+      "loss": 0.1643,
+      "step": 2475
+    },
+    {
+      "epoch": 2.0508613617719442,
+      "grad_norm": 0.13979841768741608,
+      "learning_rate": 0.0002756241064047456,
+      "loss": 0.164,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0713699753896635,
+      "grad_norm": 0.14228808879852295,
+      "learning_rate": 0.00026502544181894374,
+      "loss": 0.1602,
+      "step": 2525
+    },
+    {
+      "epoch": 2.091878589007383,
+      "grad_norm": 0.141134575009346,
+      "learning_rate": 0.00025456059821973783,
+      "loss": 0.169,
+      "step": 2550
+    },
+    {
+      "epoch": 2.1123872026251025,
+      "grad_norm": 0.13459524512290955,
+      "learning_rate": 0.00024423553546808424,
+      "loss": 0.161,
+      "step": 2575
+    },
+    {
+      "epoch": 2.132895816242822,
+      "grad_norm": 0.1448785364627838,
+      "learning_rate": 0.00023405613381797665,
+      "loss": 0.1543,
+      "step": 2600
+    },
+    {
+      "epoch": 2.132895816242822,
+      "eval_loss": 0.2100238800048828,
+      "eval_runtime": 19.3232,
+      "eval_samples_per_second": 51.751,
+      "eval_steps_per_second": 0.828,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1534044298605415,
+      "grad_norm": 0.15394213795661926,
+      "learning_rate": 0.00022402819056756602,
+      "loss": 0.158,
+      "step": 2625
+    },
+    {
+      "epoch": 2.1739130434782608,
+      "grad_norm": 0.1316463053226471,
+      "learning_rate": 0.00021415741675752742,
+      "loss": 0.1572,
+      "step": 2650
+    },
+    {
+      "epoch": 2.1944216570959805,
+      "grad_norm": 0.14899882674217224,
+      "learning_rate": 0.00020444943391854866,
+      "loss": 0.168,
+      "step": 2675
+    },
+    {
+      "epoch": 2.2149302707136997,
+      "grad_norm": 0.12964214384555817,
+      "learning_rate": 0.00019490977086979822,
+      "loss": 0.1639,
+      "step": 2700
+    },
+    {
+      "epoch": 2.235438884331419,
+      "grad_norm": 0.15520571172237396,
+      "learning_rate": 0.0001855438605701925,
+      "loss": 0.1526,
+      "step": 2725
+    },
+    {
+      "epoch": 2.2559474979491387,
+      "grad_norm": 0.1541876345872879,
+      "learning_rate": 0.00017635703702425682,
+      "loss": 0.1662,
+      "step": 2750
+    },
+    {
+      "epoch": 2.276456111566858,
+      "grad_norm": 0.16255255043506622,
+      "learning_rate": 0.0001673545322443424,
+      "loss": 0.1633,
+      "step": 2775
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "grad_norm": 0.15506723523139954,
+      "learning_rate": 0.00015854147327092855,
+      "loss": 0.1583,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "eval_loss": 0.20912893116474152,
+      "eval_runtime": 19.2905,
+      "eval_samples_per_second": 51.839,
+      "eval_steps_per_second": 0.829,
+      "step": 2800
+    },
+    {
+      "epoch": 2.317473338802297,
+      "grad_norm": 0.14822597801685333,
+      "learning_rate": 0.00014992287925270936,
+      "loss": 0.1547,
+      "step": 2825
+    },
+    {
+      "epoch": 2.3379819524200163,
+      "grad_norm": 0.1518256664276123,
+      "learning_rate": 0.00014150365858812353,
+      "loss": 0.157,
+      "step": 2850
+    },
+    {
+      "epoch": 2.358490566037736,
+      "grad_norm": 0.1334943324327469,
+      "learning_rate": 0.00013328860612996053,
+      "loss": 0.1594,
+      "step": 2875
+    },
+    {
+      "epoch": 2.3789991796554553,
+      "grad_norm": 0.13774850964546204,
+      "learning_rate": 0.00012528240045463047,
+      "loss": 0.1616,
+      "step": 2900
+    },
+    {
+      "epoch": 2.399507793273175,
+      "grad_norm": 0.17961899936199188,
+      "learning_rate": 0.00011748960119765595,
+      "loss": 0.1597,
+      "step": 2925
+    },
+    {
+      "epoch": 2.4200164068908943,
+      "grad_norm": 0.1587635725736618,
+      "learning_rate": 0.00010991464645690142,
+      "loss": 0.1628,
+      "step": 2950
+    },
+    {
+      "epoch": 2.4405250205086135,
+      "grad_norm": 0.14210981130599976,
+      "learning_rate": 0.00010256185026502096,
+      "loss": 0.1599,
+      "step": 2975
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "grad_norm": 0.1479632705450058,
+      "learning_rate": 9.543540013256136e-05,
+      "loss": 0.1554,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "eval_loss": 0.20673906803131104,
+      "eval_runtime": 19.2847,
+      "eval_samples_per_second": 51.855,
+      "eval_steps_per_second": 0.83,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4815422477440525,
+      "grad_norm": 0.13706982135772705,
+      "learning_rate": 8.853935466312224e-05,
+      "loss": 0.1579,
+      "step": 3025
+    },
+    {
+      "epoch": 2.502050861361772,
+      "grad_norm": 0.1355781853199005,
+      "learning_rate": 8.187764124192981e-05,
+      "loss": 0.1543,
+      "step": 3050
+    },
+    {
+      "epoch": 2.5225594749794915,
+      "grad_norm": 0.15336012840270996,
+      "learning_rate": 7.545405379914138e-05,
+      "loss": 0.15,
+      "step": 3075
+    },
+    {
+      "epoch": 2.543068088597211,
+      "grad_norm": 0.14177563786506653,
+      "learning_rate": 6.927225064915349e-05,
+      "loss": 0.1617,
+      "step": 3100
+    },
+    {
+      "epoch": 2.56357670221493,
+      "grad_norm": 0.1608775109052658,
+      "learning_rate": 6.333575240714656e-05,
+      "loss": 0.1506,
+      "step": 3125
+    },
+    {
+      "epoch": 2.5840853158326498,
+      "grad_norm": 0.1622104048728943,
+      "learning_rate": 5.764793998404877e-05,
+      "loss": 0.1539,
+      "step": 3150
+    },
+    {
+      "epoch": 2.604593929450369,
+      "grad_norm": 0.14182351529598236,
+      "learning_rate": 5.2212052661065654e-05,
+      "loss": 0.1563,
+      "step": 3175
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "grad_norm": 0.13961577415466309,
+      "learning_rate": 4.703118624486735e-05,
+      "loss": 0.1601,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "eval_loss": 0.2056739181280136,
+      "eval_runtime": 19.3188,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 3200
+    },
+    {
+      "epoch": 2.645611156685808,
+      "grad_norm": 0.1635577529668808,
+      "learning_rate": 4.210829130448834e-05,
+      "loss": 0.1673,
+      "step": 3225
+    },
+    {
+      "epoch": 2.6661197703035278,
+      "grad_norm": 0.15194955468177795,
+      "learning_rate": 3.7446171490940704e-05,
+      "loss": 0.1541,
+      "step": 3250
+    },
+    {
+      "epoch": 2.686628383921247,
+      "grad_norm": 0.15756186842918396,
+      "learning_rate": 3.3047481940499055e-05,
+      "loss": 0.159,
+      "step": 3275
+    },
+    {
+      "epoch": 2.7071369975389663,
+      "grad_norm": 0.13421984016895294,
+      "learning_rate": 2.8914727762567482e-05,
+      "loss": 0.1527,
+      "step": 3300
+    },
+    {
+      "epoch": 2.727645611156686,
+      "grad_norm": 0.13674722611904144,
+      "learning_rate": 2.5050262612987206e-05,
+      "loss": 0.1512,
+      "step": 3325
+    },
+    {
+      "epoch": 2.7481542247744053,
+      "grad_norm": 0.13958343863487244,
+      "learning_rate": 2.14562873536005e-05,
+      "loss": 0.1481,
+      "step": 3350
+    },
+    {
+      "epoch": 2.7686628383921246,
+      "grad_norm": 0.17911262810230255,
+      "learning_rate": 1.8134848798831537e-05,
+      "loss": 0.1639,
+      "step": 3375
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "grad_norm": 0.14383310079574585,
+      "learning_rate": 1.5087838549999955e-05,
+      "loss": 0.1528,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "eval_loss": 0.20520254969596863,
+      "eval_runtime": 19.3265,
+      "eval_samples_per_second": 51.742,
+      "eval_steps_per_second": 0.828,
+      "step": 3400
+    },
+    {
+      "epoch": 2.8096800656275636,
+      "grad_norm": 0.13070909678936005,
+      "learning_rate": 1.2316991918029653e-05,
+      "loss": 0.1609,
+      "step": 3425
+    },
+    {
+      "epoch": 2.830188679245283,
+      "grad_norm": 0.14770615100860596,
+      "learning_rate": 9.823886935167502e-06,
+      "loss": 0.1519,
+      "step": 3450
+    },
+    {
+      "epoch": 2.8506972928630026,
+      "grad_norm": 0.1517811119556427,
+      "learning_rate": 7.60994345627386e-06,
+      "loss": 0.1582,
+      "step": 3475
+    },
+    {
+      "epoch": 2.871205906480722,
+      "grad_norm": 0.12982696294784546,
+      "learning_rate": 5.67642235019733e-06,
+      "loss": 0.1504,
+      "step": 3500
+    },
+    {
+      "epoch": 2.891714520098441,
+      "grad_norm": 0.14978957176208496,
+      "learning_rate": 4.024424781693792e-06,
+      "loss": 0.1537,
+      "step": 3525
+    },
+    {
+      "epoch": 2.912223133716161,
+      "grad_norm": 0.14696450531482697,
+      "learning_rate": 2.6548915842993793e-06,
+      "loss": 0.1535,
+      "step": 3550
+    },
+    {
+      "epoch": 2.93273174733388,
+      "grad_norm": 0.15015673637390137,
+      "learning_rate": 1.5686027245138123e-06,
+      "loss": 0.1505,
+      "step": 3575
+    },
+    {
+      "epoch": 2.9532403609516,
+      "grad_norm": 0.13611365854740143,
+      "learning_rate": 7.661768575994432e-07,
+      "loss": 0.1576,
+      "step": 3600
+    },
+    {
+      "epoch": 2.9532403609516,
+      "eval_loss": 0.2049596607685089,
+      "eval_runtime": 19.3142,
+      "eval_samples_per_second": 51.775,
+      "eval_steps_per_second": 0.828,
+      "step": 3600
+    },
+    {
+      "epoch": 2.973748974569319,
+      "grad_norm": 0.13153861463069916,
+      "learning_rate": 2.480709752493704e-07,
+      "loss": 0.1532,
+      "step": 3625
+    },
+    {
+      "epoch": 2.994257588187039,
+      "grad_norm": 0.14799685776233673,
+      "learning_rate": 1.4580145324849525e-08,
+      "loss": 0.1517,
+      "step": 3650
+    },
+    {
+      "epoch": 3.0,
+      "step": 3657,
+      "total_flos": 2.37785441107968e+18,
+      "train_loss": 0.2201500027956192,
+      "train_runtime": 3679.5729,
+      "train_samples_per_second": 31.797,
+      "train_steps_per_second": 0.994
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3657,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.37785441107968e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exps/run_ex14_3ep/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex14_3ep/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exps/run_ex14_3ep/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exps/run_ex14_3ep/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex14_3ep/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex14_3ep/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exps/run_ex14_3ep/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex14_3ep/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a45591967cec76d0355af4114fe571940349ed79455a6edefbafc7a00143d30
+size 33602915

nl_tasks/exps/run_ex14_3ep/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1209 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 200,
+  "global_step": 3657,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.12512381374835968,
+      "learning_rate": 1.3114754098360657e-05,
+      "loss": 0.7486,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.25120121240615845,
+      "learning_rate": 2.677595628415301e-05,
+      "loss": 0.6624,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.14835110306739807,
+      "learning_rate": 4.0437158469945356e-05,
+      "loss": 0.4793,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.17858591675758362,
+      "learning_rate": 5.409836065573771e-05,
+      "loss": 0.4029,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.18509596586227417,
+      "learning_rate": 6.775956284153006e-05,
+      "loss": 0.386,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.20203717052936554,
+      "learning_rate": 8.14207650273224e-05,
+      "loss": 0.3596,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.21976588666439056,
+      "learning_rate": 9.508196721311476e-05,
+      "loss": 0.3431,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.2748827636241913,
+      "learning_rate": 0.00010874316939890712,
+      "loss": 0.3476,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.32849055528640747,
+      "eval_runtime": 19.5315,
+      "eval_samples_per_second": 51.199,
+      "eval_steps_per_second": 0.819,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.2196296602487564,
+      "learning_rate": 0.00012240437158469945,
+      "loss": 0.3411,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.21974113583564758,
+      "learning_rate": 0.0001360655737704918,
+      "loss": 0.3171,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.19429394602775574,
+      "learning_rate": 0.00014972677595628418,
+      "loss": 0.3136,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.21085946261882782,
+      "learning_rate": 0.0001633879781420765,
+      "loss": 0.3184,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.22968199849128723,
+      "learning_rate": 0.00017704918032786885,
+      "loss": 0.3208,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.1966412514448166,
+      "learning_rate": 0.0001907103825136612,
+      "loss": 0.3119,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.21624255180358887,
+      "learning_rate": 0.00019999708397093504,
+      "loss": 0.3226,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.20411108434200287,
+      "learning_rate": 0.00019995038580495014,
+      "loss": 0.3055,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.295260488986969,
+      "eval_runtime": 19.3475,
+      "eval_samples_per_second": 51.686,
+      "eval_steps_per_second": 0.827,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.1912434846162796,
+      "learning_rate": 0.0001998467646284801,
+      "loss": 0.3129,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.18060387670993805,
+      "learning_rate": 0.00019968627945509725,
+      "loss": 0.309,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.18696913123130798,
+      "learning_rate": 0.00019946902168314012,
+      "loss": 0.2988,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.1760314702987671,
+      "learning_rate": 0.00019919511504366125,
+      "loss": 0.2817,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.1863497942686081,
+      "learning_rate": 0.00019886471552996054,
+      "loss": 0.2823,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.17864450812339783,
+      "learning_rate": 0.00019847801130874523,
+      "loss": 0.2905,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.19246388971805573,
+      "learning_rate": 0.00019803522261296652,
+      "loss": 0.2842,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.1875869631767273,
+      "learning_rate": 0.00019753660161639407,
+      "loss": 0.3009,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.27711474895477295,
+      "eval_runtime": 19.3054,
+      "eval_samples_per_second": 51.799,
+      "eval_steps_per_second": 0.829,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.17517873644828796,
+      "learning_rate": 0.00019698243229000003,
+      "loss": 0.279,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.19444359838962555,
+      "learning_rate": 0.0001963730302402337,
+      "loss": 0.2718,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.17459408938884735,
+      "learning_rate": 0.0001957087425292799,
+      "loss": 0.2846,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.19231507182121277,
+      "learning_rate": 0.0001949899474774026,
+      "loss": 0.2822,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.17913177609443665,
+      "learning_rate": 0.00019421705444748653,
+      "loss": 0.2803,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.1698766052722931,
+      "learning_rate": 0.0001933905036119002,
+      "loss": 0.2789,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.1915999799966812,
+      "learning_rate": 0.0001925107657018119,
+      "loss": 0.2746,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.18614713847637177,
+      "learning_rate": 0.00019157834173910235,
+      "loss": 0.2797,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2656422257423401,
+      "eval_runtime": 19.3095,
+      "eval_samples_per_second": 51.788,
+      "eval_steps_per_second": 0.829,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.1689230501651764,
+      "learning_rate": 0.00019059376275102656,
+      "loss": 0.2718,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.18635261058807373,
+      "learning_rate": 0.0001895575894677869,
+      "loss": 0.2744,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.17009536921977997,
+      "learning_rate": 0.00018847041200319026,
+      "loss": 0.2644,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.20701751112937927,
+      "learning_rate": 0.0001873328495185707,
+      "loss": 0.271,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.1744987815618515,
+      "learning_rate": 0.0001861455498701693,
+      "loss": 0.2701,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.18133293092250824,
+      "learning_rate": 0.00018490918924017177,
+      "loss": 0.2595,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.20107491314411163,
+      "learning_rate": 0.00018362447175161403,
+      "loss": 0.2648,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.18567617237567902,
+      "learning_rate": 0.00018229212906737557,
+      "loss": 0.2575,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.25553619861602783,
+      "eval_runtime": 19.3337,
+      "eval_samples_per_second": 51.723,
+      "eval_steps_per_second": 0.828,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.20225924253463745,
+      "learning_rate": 0.00018091291997348775,
+      "loss": 0.2595,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.20732153952121735,
+      "learning_rate": 0.0001794876299469958,
+      "loss": 0.2584,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.20521634817123413,
+      "learning_rate": 0.00017801707070861972,
+      "loss": 0.2631,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.2013619989156723,
+      "learning_rate": 0.00017650207976046883,
+      "loss": 0.2628,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.18652208149433136,
+      "learning_rate": 0.0001749435199090739,
+      "loss": 0.2579,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1730799525976181,
+      "learning_rate": 0.00017334227877400791,
+      "loss": 0.257,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.17982584238052368,
+      "learning_rate": 0.0001716992682823753,
+      "loss": 0.2632,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.18876557052135468,
+      "learning_rate": 0.00017001542414945815,
+      "loss": 0.2692,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.24926717579364777,
+      "eval_runtime": 19.3053,
+      "eval_samples_per_second": 51.799,
+      "eval_steps_per_second": 0.829,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.18879544734954834,
+      "learning_rate": 0.0001682917053458143,
+      "loss": 0.2531,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.18688759207725525,
+      "learning_rate": 0.00016652909355113153,
+      "loss": 0.2454,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.20011909306049347,
+      "learning_rate": 0.00016472859259514862,
+      "loss": 0.2472,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.17656545341014862,
+      "learning_rate": 0.0001628912278859615,
+      "loss": 0.2501,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.19816625118255615,
+      "learning_rate": 0.00016101804582604036,
+      "loss": 0.2466,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.18136921525001526,
+      "learning_rate": 0.0001591101132162903,
+      "loss": 0.2372,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.22778378427028656,
+      "learning_rate": 0.00015716851664849456,
+      "loss": 0.2429,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.18908445537090302,
+      "learning_rate": 0.0001551943618864868,
+      "loss": 0.2323,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.24481597542762756,
+      "eval_runtime": 19.3242,
+      "eval_samples_per_second": 51.749,
+      "eval_steps_per_second": 0.828,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.19832967221736908,
+      "learning_rate": 0.0001531887732364047,
+      "loss": 0.2438,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.2384573370218277,
+      "learning_rate": 0.00015115289290638316,
+      "loss": 0.2472,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.2025284469127655,
+      "learning_rate": 0.00014908788035605247,
+      "loss": 0.2422,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.2065984159708023,
+      "learning_rate": 0.0001469949116362113,
+      "loss": 0.2513,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.24289533495903015,
+      "learning_rate": 0.00014487517871905094,
+      "loss": 0.2464,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.1909610629081726,
+      "learning_rate": 0.0001427298888193119,
+      "loss": 0.2393,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.18158946931362152,
+      "learning_rate": 0.00014056026370676004,
+      "loss": 0.2414,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.19775278866291046,
+      "learning_rate": 0.000138367539010373,
+      "loss": 0.2331,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.23973043262958527,
+      "eval_runtime": 19.3129,
+      "eval_samples_per_second": 51.779,
+      "eval_steps_per_second": 0.828,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.1940084993839264,
+      "learning_rate": 0.000136152963514634,
+      "loss": 0.2364,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.21692197024822235,
+      "learning_rate": 0.0001339177984483332,
+      "loss": 0.2372,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.22663699090480804,
+      "learning_rate": 0.0001316633167662819,
+      "loss": 0.2347,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.20252764225006104,
+      "learning_rate": 0.00012939080242434876,
+      "loss": 0.2336,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.2129640132188797,
+      "learning_rate": 0.00012710154964823054,
+      "loss": 0.2312,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.1916554719209671,
+      "learning_rate": 0.00012479686219637432,
+      "loss": 0.2319,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.2715451419353485,
+      "learning_rate": 0.00012247805261747044,
+      "loss": 0.2386,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.196442648768425,
+      "learning_rate": 0.00012014644150293936,
+      "loss": 0.2273,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.23566412925720215,
+      "eval_runtime": 19.3249,
+      "eval_samples_per_second": 51.747,
+      "eval_steps_per_second": 0.828,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.19579745829105377,
+      "learning_rate": 0.00011780335673483838,
+      "loss": 0.2282,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.19303074479103088,
+      "learning_rate": 0.00011545013272961563,
+      "loss": 0.2302,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.19902493059635162,
+      "learning_rate": 0.00011308810967814325,
+      "loss": 0.23,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.2139587551355362,
+      "learning_rate": 0.00011071863278246166,
+      "loss": 0.2341,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.2020283043384552,
+      "learning_rate": 0.00010834305148966999,
+      "loss": 0.2367,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.21497027575969696,
+      "learning_rate": 0.00010596271872339876,
+      "loss": 0.2348,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.20861054956912994,
+      "learning_rate": 0.0001035789901133028,
+      "loss": 0.2271,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.21709710359573364,
+      "learning_rate": 0.0001011932232230131,
+      "loss": 0.2348,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.2315228432416916,
+      "eval_runtime": 19.345,
+      "eval_samples_per_second": 51.693,
+      "eval_steps_per_second": 0.827,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.20213831961154938,
+      "learning_rate": 9.880677677698695e-05,
+      "loss": 0.2244,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.22401712834835052,
+      "learning_rate": 9.642100988669722e-05,
+      "loss": 0.2284,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.25369125604629517,
+      "learning_rate": 9.403728127660129e-05,
+      "loss": 0.2337,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.2132670134305954,
+      "learning_rate": 9.165694851033002e-05,
+      "loss": 0.221,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.18563179671764374,
+      "learning_rate": 8.928136721753837e-05,
+      "loss": 0.227,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.1770583838224411,
+      "learning_rate": 8.691189032185678e-05,
+      "loss": 0.2248,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.19352003931999207,
+      "learning_rate": 8.454986727038442e-05,
+      "loss": 0.2325,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.1982247531414032,
+      "learning_rate": 8.219664326516165e-05,
+      "loss": 0.2261,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.22743363678455353,
+      "eval_runtime": 19.3486,
+      "eval_samples_per_second": 51.683,
+      "eval_steps_per_second": 0.827,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.21940328180789948,
+      "learning_rate": 7.985355849706065e-05,
+      "loss": 0.2266,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.19998738169670105,
+      "learning_rate": 7.752194738252958e-05,
+      "loss": 0.2279,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.19756212830543518,
+      "learning_rate": 7.520313780362567e-05,
+      "loss": 0.2322,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.20220190286636353,
+      "learning_rate": 7.289845035176947e-05,
+      "loss": 0.225,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.228904590010643,
+      "learning_rate": 7.060919757565126e-05,
+      "loss": 0.2326,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.20801404118537903,
+      "learning_rate": 6.833668323371814e-05,
+      "loss": 0.2151,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.18295502662658691,
+      "learning_rate": 6.608220155166682e-05,
+      "loss": 0.2217,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.20270372927188873,
+      "learning_rate": 6.384703648536601e-05,
+      "loss": 0.2232,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.2246938943862915,
+      "eval_runtime": 19.3031,
+      "eval_samples_per_second": 51.805,
+      "eval_steps_per_second": 0.829,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.2036377638578415,
+      "learning_rate": 6.1632460989627e-05,
+      "loss": 0.2191,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0098441345365052,
+      "grad_norm": 0.2158953845500946,
+      "learning_rate": 5.943973629324e-05,
+      "loss": 0.2161,
+      "step": 2450
+    },
+    {
+      "epoch": 2.030352748154225,
+      "grad_norm": 0.22983403503894806,
+      "learning_rate": 5.727011118068812e-05,
+      "loss": 0.2091,
+      "step": 2475
+    },
+    {
+      "epoch": 2.0508613617719442,
+      "grad_norm": 0.24088236689567566,
+      "learning_rate": 5.512482128094912e-05,
+      "loss": 0.2122,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0713699753896635,
+      "grad_norm": 0.21485844254493713,
+      "learning_rate": 5.3005088363788744e-05,
+      "loss": 0.2046,
+      "step": 2525
+    },
+    {
+      "epoch": 2.091878589007383,
+      "grad_norm": 0.22207602858543396,
+      "learning_rate": 5.0912119643947564e-05,
+      "loss": 0.2133,
+      "step": 2550
+    },
+    {
+      "epoch": 2.1123872026251025,
+      "grad_norm": 0.2140221893787384,
+      "learning_rate": 4.8847107093616854e-05,
+      "loss": 0.2057,
+      "step": 2575
+    },
+    {
+      "epoch": 2.132895816242822,
+      "grad_norm": 0.22705940902233124,
+      "learning_rate": 4.681122676359533e-05,
+      "loss": 0.1985,
+      "step": 2600
+    },
+    {
+      "epoch": 2.132895816242822,
+      "eval_loss": 0.22434084117412567,
+      "eval_runtime": 19.3818,
+      "eval_samples_per_second": 51.595,
+      "eval_steps_per_second": 0.826,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1534044298605415,
+      "grad_norm": 0.2110925018787384,
+      "learning_rate": 4.4805638113513203e-05,
+      "loss": 0.2021,
+      "step": 2625
+    },
+    {
+      "epoch": 2.1739130434782608,
+      "grad_norm": 0.21700389683246613,
+      "learning_rate": 4.2831483351505485e-05,
+      "loss": 0.2014,
+      "step": 2650
+    },
+    {
+      "epoch": 2.1944216570959805,
+      "grad_norm": 0.2308293730020523,
+      "learning_rate": 4.088988678370973e-05,
+      "loss": 0.215,
+      "step": 2675
+    },
+    {
+      "epoch": 2.2149302707136997,
+      "grad_norm": 0.2091713398694992,
+      "learning_rate": 3.8981954173959644e-05,
+      "loss": 0.209,
+      "step": 2700
+    },
+    {
+      "epoch": 2.235438884331419,
+      "grad_norm": 0.22311793267726898,
+      "learning_rate": 3.71087721140385e-05,
+      "loss": 0.1963,
+      "step": 2725
+    },
+    {
+      "epoch": 2.2559474979491387,
+      "grad_norm": 0.23842178285121918,
+      "learning_rate": 3.5271407404851366e-05,
+      "loss": 0.2096,
+      "step": 2750
+    },
+    {
+      "epoch": 2.276456111566858,
+      "grad_norm": 0.22167986631393433,
+      "learning_rate": 3.3470906448868476e-05,
+      "loss": 0.2071,
+      "step": 2775
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "grad_norm": 0.23508331179618835,
+      "learning_rate": 3.170829465418571e-05,
+      "loss": 0.2041,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "eval_loss": 0.2228643149137497,
+      "eval_runtime": 19.3503,
+      "eval_samples_per_second": 51.679,
+      "eval_steps_per_second": 0.827,
+      "step": 2800
+    },
+    {
+      "epoch": 2.317473338802297,
+      "grad_norm": 0.21861039102077484,
+      "learning_rate": 2.9984575850541875e-05,
+      "loss": 0.1987,
+      "step": 2825
+    },
+    {
+      "epoch": 2.3379819524200163,
+      "grad_norm": 0.23032869398593903,
+      "learning_rate": 2.8300731717624707e-05,
+      "loss": 0.2025,
+      "step": 2850
+    },
+    {
+      "epoch": 2.358490566037736,
+      "grad_norm": 0.20549559593200684,
+      "learning_rate": 2.6657721225992105e-05,
+      "loss": 0.203,
+      "step": 2875
+    },
+    {
+      "epoch": 2.3789991796554553,
+      "grad_norm": 0.2443164736032486,
+      "learning_rate": 2.5056480090926092e-05,
+      "loss": 0.2074,
+      "step": 2900
+    },
+    {
+      "epoch": 2.399507793273175,
+      "grad_norm": 0.2777072787284851,
+      "learning_rate": 2.349792023953119e-05,
+      "loss": 0.205,
+      "step": 2925
+    },
+    {
+      "epoch": 2.4200164068908943,
+      "grad_norm": 0.2372252494096756,
+      "learning_rate": 2.1982929291380284e-05,
+      "loss": 0.2065,
+      "step": 2950
+    },
+    {
+      "epoch": 2.4405250205086135,
+      "grad_norm": 0.22545471787452698,
+      "learning_rate": 2.0512370053004193e-05,
+      "loss": 0.2063,
+      "step": 2975
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "grad_norm": 0.2503770589828491,
+      "learning_rate": 1.908708002651227e-05,
+      "loss": 0.1983,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "eval_loss": 0.2219480276107788,
+      "eval_runtime": 19.2886,
+      "eval_samples_per_second": 51.844,
+      "eval_steps_per_second": 0.83,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4815422477440525,
+      "grad_norm": 0.23392586410045624,
+      "learning_rate": 1.770787093262445e-05,
+      "loss": 0.2023,
+      "step": 3025
+    },
+    {
+      "epoch": 2.502050861361772,
+      "grad_norm": 0.20792211592197418,
+      "learning_rate": 1.6375528248385963e-05,
+      "loss": 0.1994,
+      "step": 3050
+    },
+    {
+      "epoch": 2.5225594749794915,
+      "grad_norm": 0.24046897888183594,
+      "learning_rate": 1.5090810759828278e-05,
+      "loss": 0.1952,
+      "step": 3075
+    },
+    {
+      "epoch": 2.543068088597211,
+      "grad_norm": 0.23085150122642517,
+      "learning_rate": 1.3854450129830699e-05,
+      "loss": 0.2087,
+      "step": 3100
+    },
+    {
+      "epoch": 2.56357670221493,
+      "grad_norm": 0.253032386302948,
+      "learning_rate": 1.2667150481429313e-05,
+      "loss": 0.1937,
+      "step": 3125
+    },
+    {
+      "epoch": 2.5840853158326498,
+      "grad_norm": 0.24757049977779388,
+      "learning_rate": 1.1529587996809755e-05,
+      "loss": 0.1995,
+      "step": 3150
+    },
+    {
+      "epoch": 2.604593929450369,
+      "grad_norm": 0.21053193509578705,
+      "learning_rate": 1.0442410532213131e-05,
+      "loss": 0.2012,
+      "step": 3175
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "grad_norm": 0.2175871729850769,
+      "learning_rate": 9.40623724897347e-06,
+      "loss": 0.2068,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "eval_loss": 0.22113485634326935,
+      "eval_runtime": 19.2803,
+      "eval_samples_per_second": 51.866,
+      "eval_steps_per_second": 0.83,
+      "step": 3200
+    },
+    {
+      "epoch": 2.645611156685808,
+      "grad_norm": 0.2602500915527344,
+      "learning_rate": 8.421658260897669e-06,
+      "loss": 0.2148,
+      "step": 3225
+    },
+    {
+      "epoch": 2.6661197703035278,
+      "grad_norm": 0.23596608638763428,
+      "learning_rate": 7.489234298188141e-06,
+      "loss": 0.1978,
+      "step": 3250
+    },
+    {
+      "epoch": 2.686628383921247,
+      "grad_norm": 0.3108835220336914,
+      "learning_rate": 6.609496388099812e-06,
+      "loss": 0.2051,
+      "step": 3275
+    },
+    {
+      "epoch": 2.7071369975389663,
+      "grad_norm": 0.22037780284881592,
+      "learning_rate": 5.782945552513497e-06,
+      "loss": 0.1975,
+      "step": 3300
+    },
+    {
+      "epoch": 2.727645611156686,
+      "grad_norm": 0.23090258240699768,
+      "learning_rate": 5.010052522597441e-06,
+      "loss": 0.1965,
+      "step": 3325
+    },
+    {
+      "epoch": 2.7481542247744053,
+      "grad_norm": 0.220258429646492,
+      "learning_rate": 4.2912574707201e-06,
+      "loss": 0.1919,
+      "step": 3350
+    },
+    {
+      "epoch": 2.7686628383921246,
+      "grad_norm": 0.25809064507484436,
+      "learning_rate": 3.6269697597663076e-06,
+      "loss": 0.2123,
+      "step": 3375
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "grad_norm": 0.21720901131629944,
+      "learning_rate": 3.017567709999991e-06,
+      "loss": 0.1988,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "eval_loss": 0.22063028812408447,
+      "eval_runtime": 19.273,
+      "eval_samples_per_second": 51.886,
+      "eval_steps_per_second": 0.83,
+      "step": 3400
+    },
+    {
+      "epoch": 2.8096800656275636,
+      "grad_norm": 0.2201199233531952,
+      "learning_rate": 2.4633983836059303e-06,
+      "loss": 0.2075,
+      "step": 3425
+    },
+    {
+      "epoch": 2.830188679245283,
+      "grad_norm": 0.23775076866149902,
+      "learning_rate": 1.9647773870335006e-06,
+      "loss": 0.1961,
+      "step": 3450
+    },
+    {
+      "epoch": 2.8506972928630026,
+      "grad_norm": 0.2370598465204239,
+      "learning_rate": 1.521988691254772e-06,
+      "loss": 0.2058,
+      "step": 3475
+    },
+    {
+      "epoch": 2.871205906480722,
+      "grad_norm": 0.2179088294506073,
+      "learning_rate": 1.135284470039466e-06,
+      "loss": 0.1961,
+      "step": 3500
+    },
+    {
+      "epoch": 2.891714520098441,
+      "grad_norm": 0.2624494135379791,
+      "learning_rate": 8.048849563387584e-07,
+      "loss": 0.1981,
+      "step": 3525
+    },
+    {
+      "epoch": 2.912223133716161,
+      "grad_norm": 0.2389053851366043,
+      "learning_rate": 5.309783168598759e-07,
+      "loss": 0.1982,
+      "step": 3550
+    },
+    {
+      "epoch": 2.93273174733388,
+      "grad_norm": 0.24316072463989258,
+      "learning_rate": 3.1372054490276247e-07,
+      "loss": 0.1965,
+      "step": 3575
+    },
+    {
+      "epoch": 2.9532403609516,
+      "grad_norm": 0.2208586186170578,
+      "learning_rate": 1.5323537151988866e-07,
+      "loss": 0.2031,
+      "step": 3600
+    },
+    {
+      "epoch": 2.9532403609516,
+      "eval_loss": 0.22049948573112488,
+      "eval_runtime": 19.2724,
+      "eval_samples_per_second": 51.888,
+      "eval_steps_per_second": 0.83,
+      "step": 3600
+    },
+    {
+      "epoch": 2.973748974569319,
+      "grad_norm": 0.21298660337924957,
+      "learning_rate": 4.961419504987408e-08,
+      "loss": 0.1983,
+      "step": 3625
+    },
+    {
+      "epoch": 2.994257588187039,
+      "grad_norm": 0.22230713069438934,
+      "learning_rate": 2.9160290649699053e-09,
+      "loss": 0.1976,
+      "step": 3650
+    },
+    {
+      "epoch": 3.0,
+      "step": 3657,
+      "total_flos": 2.37785441107968e+18,
+      "train_loss": 0.2500096781513943,
+      "train_runtime": 3681.5914,
+      "train_samples_per_second": 31.78,
+      "train_steps_per_second": 0.993
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3657,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.37785441107968e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exps/run_ex15_3ep/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex15_3ep/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exps/run_ex15_3ep/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exps/run_ex15_3ep/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex15_3ep/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex15_3ep/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exps/run_ex15_3ep/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex15_3ep/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce697834401f369bf8515155a5849658b34db55939812d8b84d1812bb1bc1d2b
+size 33602915

nl_tasks/exps/run_ex15_3ep/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1209 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 200,
+  "global_step": 3657,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.2236936092376709,
+      "learning_rate": 3.278688524590164e-05,
+      "loss": 0.7378,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.15586046874523163,
+      "learning_rate": 6.693989071038252e-05,
+      "loss": 0.5263,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.1585606187582016,
+      "learning_rate": 0.00010109289617486339,
+      "loss": 0.4153,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.21381111443042755,
+      "learning_rate": 0.00013524590163934428,
+      "loss": 0.3615,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.18566539883613586,
+      "learning_rate": 0.00016939890710382513,
+      "loss": 0.3582,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.18897324800491333,
+      "learning_rate": 0.00020355191256830603,
+      "loss": 0.338,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.19681961834430695,
+      "learning_rate": 0.00023770491803278687,
+      "loss": 0.3266,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.20275168120861053,
+      "learning_rate": 0.0002718579234972678,
+      "loss": 0.3333,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.3140156865119934,
+      "eval_runtime": 19.5725,
+      "eval_samples_per_second": 51.092,
+      "eval_steps_per_second": 0.817,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.18092350661754608,
+      "learning_rate": 0.0003060109289617486,
+      "loss": 0.3277,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.16045643389225006,
+      "learning_rate": 0.0003401639344262295,
+      "loss": 0.3029,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.16111819446086884,
+      "learning_rate": 0.0003743169398907104,
+      "loss": 0.3003,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.17536306381225586,
+      "learning_rate": 0.00040846994535519127,
+      "loss": 0.3049,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.18236631155014038,
+      "learning_rate": 0.0004426229508196721,
+      "loss": 0.308,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.17001983523368835,
+      "learning_rate": 0.00047677595628415297,
+      "loss": 0.2999,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.18576228618621826,
+      "learning_rate": 0.0004999927099273376,
+      "loss": 0.3109,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.20945490896701813,
+      "learning_rate": 0.0004998759645123753,
+      "loss": 0.2948,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2856634557247162,
+      "eval_runtime": 19.7912,
+      "eval_samples_per_second": 50.527,
+      "eval_steps_per_second": 0.808,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.1730087697505951,
+      "learning_rate": 0.0004996169115712003,
+      "loss": 0.3036,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.17050108313560486,
+      "learning_rate": 0.000499215698637743,
+      "loss": 0.2994,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.19767747819423676,
+      "learning_rate": 0.0004986725542078503,
+      "loss": 0.2872,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.17706479132175446,
+      "learning_rate": 0.0004979877876091531,
+      "loss": 0.2705,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.18240663409233093,
+      "learning_rate": 0.0004971617888249013,
+      "loss": 0.2711,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.18252277374267578,
+      "learning_rate": 0.0004961950282718631,
+      "loss": 0.2811,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.20153027772903442,
+      "learning_rate": 0.0004950880565324163,
+      "loss": 0.2733,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.19355134665966034,
+      "learning_rate": 0.0004938415040409851,
+      "loss": 0.2901,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2669033110141754,
+      "eval_runtime": 19.2998,
+      "eval_samples_per_second": 51.814,
+      "eval_steps_per_second": 0.829,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.18456509709358215,
+      "learning_rate": 0.000492456080725,
+      "loss": 0.2703,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.2080974578857422,
+      "learning_rate": 0.0004909325756005843,
+      "loss": 0.2619,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.19045989215373993,
+      "learning_rate": 0.0004892718563231997,
+      "loss": 0.275,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.2038784921169281,
+      "learning_rate": 0.00048747486869350645,
+      "loss": 0.2712,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.19773368537425995,
+      "learning_rate": 0.0004855426361187163,
+      "loss": 0.2705,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.20288875699043274,
+      "learning_rate": 0.00048347625902975044,
+      "loss": 0.2676,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.20831525325775146,
+      "learning_rate": 0.00048127691425452966,
+      "loss": 0.2634,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.21394769847393036,
+      "learning_rate": 0.00047894585434775583,
+      "loss": 0.2683,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2570738196372986,
+      "eval_runtime": 19.2751,
+      "eval_samples_per_second": 51.88,
+      "eval_steps_per_second": 0.83,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.18774528801441193,
+      "learning_rate": 0.0004764844068775664,
+      "loss": 0.2616,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.20157219469547272,
+      "learning_rate": 0.00047389397366946723,
+      "loss": 0.2645,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.16799937188625336,
+      "learning_rate": 0.00047117603000797567,
+      "loss": 0.2531,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.21612580120563507,
+      "learning_rate": 0.00046833212379642674,
+      "loss": 0.2596,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.19849224388599396,
+      "learning_rate": 0.0004653638746754233,
+      "loss": 0.2601,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.20190981030464172,
+      "learning_rate": 0.00046227297310042935,
+      "loss": 0.2484,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.19541241228580475,
+      "learning_rate": 0.0004590611793790351,
+      "loss": 0.2545,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.21503788232803345,
+      "learning_rate": 0.0004557303226684389,
+      "loss": 0.2483,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.24449799954891205,
+      "eval_runtime": 19.3269,
+      "eval_samples_per_second": 51.741,
+      "eval_steps_per_second": 0.828,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.21388469636440277,
+      "learning_rate": 0.0004522822999337194,
+      "loss": 0.2485,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.20644618570804596,
+      "learning_rate": 0.0004487190748674895,
+      "loss": 0.2458,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.20617376267910004,
+      "learning_rate": 0.0004450426767715493,
+      "loss": 0.2515,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.20171715319156647,
+      "learning_rate": 0.0004412551994011721,
+      "loss": 0.2521,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.20110057294368744,
+      "learning_rate": 0.00043735879977268476,
+      "loss": 0.2465,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.1831655353307724,
+      "learning_rate": 0.00043335569693501975,
+      "loss": 0.2461,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.1896771490573883,
+      "learning_rate": 0.00042924817070593823,
+      "loss": 0.2526,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.20726299285888672,
+      "learning_rate": 0.00042503856037364536,
+      "loss": 0.2582,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.2386789172887802,
+      "eval_runtime": 19.2877,
+      "eval_samples_per_second": 51.846,
+      "eval_steps_per_second": 0.83,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.21773400902748108,
+      "learning_rate": 0.00042072926336453575,
+      "loss": 0.2396,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.19781112670898438,
+      "learning_rate": 0.00041632273387782884,
+      "loss": 0.2242,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.21470637619495392,
+      "learning_rate": 0.0004118214814878716,
+      "loss": 0.2271,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.1851588487625122,
+      "learning_rate": 0.00040722806971490376,
+      "loss": 0.2296,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.20691987872123718,
+      "learning_rate": 0.0004025451145651009,
+      "loss": 0.2262,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.178948312997818,
+      "learning_rate": 0.00039777528304072574,
+      "loss": 0.2178,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.22265319526195526,
+      "learning_rate": 0.00039292129162123634,
+      "loss": 0.2216,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.26052021980285645,
+      "learning_rate": 0.000387985904716217,
+      "loss": 0.2145,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.23337993025779724,
+      "eval_runtime": 19.2972,
+      "eval_samples_per_second": 51.821,
+      "eval_steps_per_second": 0.829,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.2162986695766449,
+      "learning_rate": 0.00038297193309101175,
+      "loss": 0.2241,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.23128162324428558,
+      "learning_rate": 0.00037788223226595783,
+      "loss": 0.2264,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.22870606184005737,
+      "learning_rate": 0.0003727197008901311,
+      "loss": 0.2225,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.21988478302955627,
+      "learning_rate": 0.00036748727909052825,
+      "loss": 0.2319,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.23757073283195496,
+      "learning_rate": 0.00036218794679762737,
+      "loss": 0.2268,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.19217915832996368,
+      "learning_rate": 0.0003568247220482798,
+      "loss": 0.2197,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.18676155805587769,
+      "learning_rate": 0.00035140065926690005,
+      "loss": 0.2219,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.19034576416015625,
+      "learning_rate": 0.0003459188475259325,
+      "loss": 0.2145,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.22706548869609833,
+      "eval_runtime": 19.3066,
+      "eval_samples_per_second": 51.796,
+      "eval_steps_per_second": 0.829,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.24615806341171265,
+      "learning_rate": 0.000340382408786585,
+      "loss": 0.2178,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.21526384353637695,
+      "learning_rate": 0.00033479449612083297,
+      "loss": 0.2185,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.2186814397573471,
+      "learning_rate": 0.00032915829191570474,
+      "loss": 0.2156,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.20043250918388367,
+      "learning_rate": 0.0003234770060608719,
+      "loss": 0.2166,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.2249319851398468,
+      "learning_rate": 0.0003177538741205763,
+      "loss": 0.2129,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.20142365992069244,
+      "learning_rate": 0.0003119921554909358,
+      "loss": 0.2121,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.21530795097351074,
+      "learning_rate": 0.00030619513154367606,
+      "loss": 0.2198,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.1881314367055893,
+      "learning_rate": 0.0003003661037573484,
+      "loss": 0.2091,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.2217085212469101,
+      "eval_runtime": 19.27,
+      "eval_samples_per_second": 51.894,
+      "eval_steps_per_second": 0.83,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.20787756145000458,
+      "learning_rate": 0.00029450839183709594,
+      "loss": 0.2101,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.1853906214237213,
+      "learning_rate": 0.00028862533182403904,
+      "loss": 0.2118,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.18963763117790222,
+      "learning_rate": 0.0002827202741953581,
+      "loss": 0.2105,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.21780110895633698,
+      "learning_rate": 0.00027679658195615416,
+      "loss": 0.2145,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.2096894383430481,
+      "learning_rate": 0.000270857628724175,
+      "loss": 0.2156,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.23090897500514984,
+      "learning_rate": 0.00026490679680849687,
+      "loss": 0.2137,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.19595655798912048,
+      "learning_rate": 0.000258947475283257,
+      "loss": 0.2079,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.21419216692447662,
+      "learning_rate": 0.00025298305805753277,
+      "loss": 0.2156,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21743401885032654,
+      "eval_runtime": 19.3038,
+      "eval_samples_per_second": 51.803,
+      "eval_steps_per_second": 0.829,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.1843814104795456,
+      "learning_rate": 0.00024701694194246735,
+      "loss": 0.2058,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.22441938519477844,
+      "learning_rate": 0.00024105252471674305,
+      "loss": 0.2063,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.22590817511081696,
+      "learning_rate": 0.0002350932031915032,
+      "loss": 0.2131,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.19390460848808289,
+      "learning_rate": 0.00022914237127582505,
+      "loss": 0.2015,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.18362314999103546,
+      "learning_rate": 0.00022320341804384593,
+      "loss": 0.2066,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.1673150658607483,
+      "learning_rate": 0.0002172797258046419,
+      "loss": 0.2033,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.18781742453575134,
+      "learning_rate": 0.00021137466817596105,
+      "loss": 0.2124,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.1934407502412796,
+      "learning_rate": 0.0002054916081629041,
+      "loss": 0.2051,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.21281394362449646,
+      "eval_runtime": 19.3022,
+      "eval_samples_per_second": 51.808,
+      "eval_steps_per_second": 0.829,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.22336915135383606,
+      "learning_rate": 0.0001996338962426516,
+      "loss": 0.2052,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.1918330043554306,
+      "learning_rate": 0.00019380486845632395,
+      "loss": 0.2071,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.18349102139472961,
+      "learning_rate": 0.00018800784450906415,
+      "loss": 0.2117,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.18384303152561188,
+      "learning_rate": 0.0001822461258794237,
+      "loss": 0.2033,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.21255937218666077,
+      "learning_rate": 0.00017652299393912816,
+      "loss": 0.212,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.18994638323783875,
+      "learning_rate": 0.00017084170808429533,
+      "loss": 0.1952,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.19273756444454193,
+      "learning_rate": 0.00016520550387916704,
+      "loss": 0.2011,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.18741604685783386,
+      "learning_rate": 0.000159617591213415,
+      "loss": 0.2021,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.20898540318012238,
+      "eval_runtime": 19.2799,
+      "eval_samples_per_second": 51.867,
+      "eval_steps_per_second": 0.83,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.18499332666397095,
+      "learning_rate": 0.0001540811524740675,
+      "loss": 0.1975,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0098441345365052,
+      "grad_norm": 0.19958826899528503,
+      "learning_rate": 0.00014859934073309998,
+      "loss": 0.1877,
+      "step": 2450
+    },
+    {
+      "epoch": 2.030352748154225,
+      "grad_norm": 0.20758692920207977,
+      "learning_rate": 0.0001431752779517203,
+      "loss": 0.1735,
+      "step": 2475
+    },
+    {
+      "epoch": 2.0508613617719442,
+      "grad_norm": 0.21208564937114716,
+      "learning_rate": 0.0001378120532023728,
+      "loss": 0.1739,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0713699753896635,
+      "grad_norm": 0.19463765621185303,
+      "learning_rate": 0.00013251272090947187,
+      "loss": 0.1695,
+      "step": 2525
+    },
+    {
+      "epoch": 2.091878589007383,
+      "grad_norm": 0.20465432107448578,
+      "learning_rate": 0.00012728029910986891,
+      "loss": 0.1777,
+      "step": 2550
+    },
+    {
+      "epoch": 2.1123872026251025,
+      "grad_norm": 0.20672444999217987,
+      "learning_rate": 0.00012211776773404212,
+      "loss": 0.1711,
+      "step": 2575
+    },
+    {
+      "epoch": 2.132895816242822,
+      "grad_norm": 0.20150959491729736,
+      "learning_rate": 0.00011702806690898832,
+      "loss": 0.1634,
+      "step": 2600
+    },
+    {
+      "epoch": 2.132895816242822,
+      "eval_loss": 0.21075494587421417,
+      "eval_runtime": 19.2618,
+      "eval_samples_per_second": 51.916,
+      "eval_steps_per_second": 0.831,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1534044298605415,
+      "grad_norm": 0.20416037738323212,
+      "learning_rate": 0.00011201409528378301,
+      "loss": 0.1672,
+      "step": 2625
+    },
+    {
+      "epoch": 2.1739130434782608,
+      "grad_norm": 0.2009623795747757,
+      "learning_rate": 0.00010707870837876371,
+      "loss": 0.1668,
+      "step": 2650
+    },
+    {
+      "epoch": 2.1944216570959805,
+      "grad_norm": 0.2076873630285263,
+      "learning_rate": 0.00010222471695927433,
+      "loss": 0.1774,
+      "step": 2675
+    },
+    {
+      "epoch": 2.2149302707136997,
+      "grad_norm": 0.18090513348579407,
+      "learning_rate": 9.745488543489911e-05,
+      "loss": 0.1729,
+      "step": 2700
+    },
+    {
+      "epoch": 2.235438884331419,
+      "grad_norm": 0.2118251621723175,
+      "learning_rate": 9.277193028509625e-05,
+      "loss": 0.1615,
+      "step": 2725
+    },
+    {
+      "epoch": 2.2559474979491387,
+      "grad_norm": 0.22627845406532288,
+      "learning_rate": 8.817851851212841e-05,
+      "loss": 0.1747,
+      "step": 2750
+    },
+    {
+      "epoch": 2.276456111566858,
+      "grad_norm": 0.2138642519712448,
+      "learning_rate": 8.36772661221712e-05,
+      "loss": 0.1723,
+      "step": 2775
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "grad_norm": 0.20521090924739838,
+      "learning_rate": 7.927073663546427e-05,
+      "loss": 0.168,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "eval_loss": 0.20893201231956482,
+      "eval_runtime": 19.33,
+      "eval_samples_per_second": 51.733,
+      "eval_steps_per_second": 0.828,
+      "step": 2800
+    },
+    {
+      "epoch": 2.317473338802297,
+      "grad_norm": 0.2066967785358429,
+      "learning_rate": 7.496143962635468e-05,
+      "loss": 0.1641,
+      "step": 2825
+    },
+    {
+      "epoch": 2.3379819524200163,
+      "grad_norm": 0.22058984637260437,
+      "learning_rate": 7.075182929406177e-05,
+      "loss": 0.1669,
+      "step": 2850
+    },
+    {
+      "epoch": 2.358490566037736,
+      "grad_norm": 0.1837540566921234,
+      "learning_rate": 6.664430306498026e-05,
+      "loss": 0.1678,
+      "step": 2875
+    },
+    {
+      "epoch": 2.3789991796554553,
+      "grad_norm": 0.2143106460571289,
+      "learning_rate": 6.264120022731524e-05,
+      "loss": 0.1718,
+      "step": 2900
+    },
+    {
+      "epoch": 2.399507793273175,
+      "grad_norm": 0.23707209527492523,
+      "learning_rate": 5.8744800598827974e-05,
+      "loss": 0.1684,
+      "step": 2925
+    },
+    {
+      "epoch": 2.4200164068908943,
+      "grad_norm": 0.22467195987701416,
+      "learning_rate": 5.495732322845071e-05,
+      "loss": 0.1715,
+      "step": 2950
+    },
+    {
+      "epoch": 2.4405250205086135,
+      "grad_norm": 0.1992505043745041,
+      "learning_rate": 5.128092513251048e-05,
+      "loss": 0.1688,
+      "step": 2975
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "grad_norm": 0.21786148846149445,
+      "learning_rate": 4.771770006628068e-05,
+      "loss": 0.1644,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "eval_loss": 0.2070690244436264,
+      "eval_runtime": 19.325,
+      "eval_samples_per_second": 51.746,
+      "eval_steps_per_second": 0.828,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4815422477440525,
+      "grad_norm": 0.2135370373725891,
+      "learning_rate": 4.426967733156112e-05,
+      "loss": 0.1666,
+      "step": 3025
+    },
+    {
+      "epoch": 2.502050861361772,
+      "grad_norm": 0.18468019366264343,
+      "learning_rate": 4.0938820620964905e-05,
+      "loss": 0.1639,
+      "step": 3050
+    },
+    {
+      "epoch": 2.5225594749794915,
+      "grad_norm": 0.2244136482477188,
+      "learning_rate": 3.772702689957069e-05,
+      "loss": 0.1597,
+      "step": 3075
+    },
+    {
+      "epoch": 2.543068088597211,
+      "grad_norm": 0.2008039504289627,
+      "learning_rate": 3.4636125324576744e-05,
+      "loss": 0.1711,
+      "step": 3100
+    },
+    {
+      "epoch": 2.56357670221493,
+      "grad_norm": 0.22959856688976288,
+      "learning_rate": 3.166787620357328e-05,
+      "loss": 0.159,
+      "step": 3125
+    },
+    {
+      "epoch": 2.5840853158326498,
+      "grad_norm": 0.2295537292957306,
+      "learning_rate": 2.8823969992024384e-05,
+      "loss": 0.163,
+      "step": 3150
+    },
+    {
+      "epoch": 2.604593929450369,
+      "grad_norm": 0.19450610876083374,
+      "learning_rate": 2.6106026330532827e-05,
+      "loss": 0.1653,
+      "step": 3175
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "grad_norm": 0.20349068939685822,
+      "learning_rate": 2.3515593122433676e-05,
+      "loss": 0.1697,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "eval_loss": 0.2064325213432312,
+      "eval_runtime": 19.3326,
+      "eval_samples_per_second": 51.726,
+      "eval_steps_per_second": 0.828,
+      "step": 3200
+    },
+    {
+      "epoch": 2.645611156685808,
+      "grad_norm": 0.23804035782814026,
+      "learning_rate": 2.105414565224417e-05,
+      "loss": 0.177,
+      "step": 3225
+    },
+    {
+      "epoch": 2.6661197703035278,
+      "grad_norm": 0.21700942516326904,
+      "learning_rate": 1.8723085745470352e-05,
+      "loss": 0.162,
+      "step": 3250
+    },
+    {
+      "epoch": 2.686628383921247,
+      "grad_norm": 0.2227737456560135,
+      "learning_rate": 1.6523740970249527e-05,
+      "loss": 0.1681,
+      "step": 3275
+    },
+    {
+      "epoch": 2.7071369975389663,
+      "grad_norm": 0.18803074955940247,
+      "learning_rate": 1.4457363881283741e-05,
+      "loss": 0.1623,
+      "step": 3300
+    },
+    {
+      "epoch": 2.727645611156686,
+      "grad_norm": 0.21387532353401184,
+      "learning_rate": 1.2525131306493603e-05,
+      "loss": 0.1611,
+      "step": 3325
+    },
+    {
+      "epoch": 2.7481542247744053,
+      "grad_norm": 0.20090188086032867,
+      "learning_rate": 1.072814367680025e-05,
+      "loss": 0.1573,
+      "step": 3350
+    },
+    {
+      "epoch": 2.7686628383921246,
+      "grad_norm": 0.24346517026424408,
+      "learning_rate": 9.067424399415769e-06,
+      "loss": 0.1745,
+      "step": 3375
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "grad_norm": 0.19440355896949768,
+      "learning_rate": 7.543919274999978e-06,
+      "loss": 0.1617,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "eval_loss": 0.20586562156677246,
+      "eval_runtime": 19.3052,
+      "eval_samples_per_second": 51.8,
+      "eval_steps_per_second": 0.829,
+      "step": 3400
+    },
+    {
+      "epoch": 2.8096800656275636,
+      "grad_norm": 0.19979579746723175,
+      "learning_rate": 6.158495959014826e-06,
+      "loss": 0.1698,
+      "step": 3425
+    },
+    {
+      "epoch": 2.830188679245283,
+      "grad_norm": 0.21324074268341064,
+      "learning_rate": 4.911943467583751e-06,
+      "loss": 0.1611,
+      "step": 3450
+    },
+    {
+      "epoch": 2.8506972928630026,
+      "grad_norm": 0.21548697352409363,
+      "learning_rate": 3.80497172813693e-06,
+      "loss": 0.1689,
+      "step": 3475
+    },
+    {
+      "epoch": 2.871205906480722,
+      "grad_norm": 0.19309598207473755,
+      "learning_rate": 2.838211175098665e-06,
+      "loss": 0.16,
+      "step": 3500
+    },
+    {
+      "epoch": 2.891714520098441,
+      "grad_norm": 0.21341754496097565,
+      "learning_rate": 2.012212390846896e-06,
+      "loss": 0.1621,
+      "step": 3525
+    },
+    {
+      "epoch": 2.912223133716161,
+      "grad_norm": 0.2006499022245407,
+      "learning_rate": 1.3274457921496896e-06,
+      "loss": 0.1619,
+      "step": 3550
+    },
+    {
+      "epoch": 2.93273174733388,
+      "grad_norm": 0.21944327652454376,
+      "learning_rate": 7.843013622569062e-07,
+      "loss": 0.1605,
+      "step": 3575
+    },
+    {
+      "epoch": 2.9532403609516,
+      "grad_norm": 0.188226118683815,
+      "learning_rate": 3.830884287997216e-07,
+      "loss": 0.1668,
+      "step": 3600
+    },
+    {
+      "epoch": 2.9532403609516,
+      "eval_loss": 0.20568273961544037,
+      "eval_runtime": 19.3042,
+      "eval_samples_per_second": 51.802,
+      "eval_steps_per_second": 0.829,
+      "step": 3600
+    },
+    {
+      "epoch": 2.973748974569319,
+      "grad_norm": 0.18749408423900604,
+      "learning_rate": 1.240354876246852e-07,
+      "loss": 0.1624,
+      "step": 3625
+    },
+    {
+      "epoch": 2.994257588187039,
+      "grad_norm": 0.21548126637935638,
+      "learning_rate": 7.290072662424763e-09,
+      "loss": 0.1601,
+      "step": 3650
+    },
+    {
+      "epoch": 3.0,
+      "step": 3657,
+      "total_flos": 2.37785441107968e+18,
+      "train_loss": 0.22604482963432665,
+      "train_runtime": 3705.7117,
+      "train_samples_per_second": 31.573,
+      "train_steps_per_second": 0.987
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3657,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.37785441107968e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

nl_tasks/exps/run_ex16_3ep/ft/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": false,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex16_3ep/ft/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

nl_tasks/exps/run_ex16_3ep/ft/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

nl_tasks/exps/run_ex16_3ep/ft/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

nl_tasks/exps/run_ex16_3ep/ft/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

nl_tasks/exps/run_ex16_3ep/ft/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "</s>",
+  "use_default_system_prompt": false
+}

nl_tasks/exps/run_ex16_3ep/ft2/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "T": 1.0,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "inference_mode": true,
+  "layers_to_transform": null,
+  "modules_to_save": null,
+  "num_rotations": 1,
+  "peft_type": "ROTATION",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "target_modules_to_skip": null,
+  "task_type": "CAUSAL_LM"
+}

nl_tasks/exps/run_ex16_3ep/ft2/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9586ec31356c8b78b6439055739a8423e161e76302d4f2e82b4847793d501e7d
+size 33602915

nl_tasks/exps/run_ex16_3ep/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1209 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 200,
+  "global_step": 3657,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020508613617719443,
+      "grad_norm": 0.5933114290237427,
+      "learning_rate": 6.557377049180328e-05,
+      "loss": 0.7845,
+      "step": 25
+    },
+    {
+      "epoch": 0.04101722723543889,
+      "grad_norm": 0.20545591413974762,
+      "learning_rate": 0.00013387978142076503,
+      "loss": 0.4732,
+      "step": 50
+    },
+    {
+      "epoch": 0.06152584085315833,
+      "grad_norm": 0.16550013422966003,
+      "learning_rate": 0.00020218579234972678,
+      "loss": 0.4016,
+      "step": 75
+    },
+    {
+      "epoch": 0.08203445447087777,
+      "grad_norm": 0.20370103418827057,
+      "learning_rate": 0.00027049180327868856,
+      "loss": 0.3572,
+      "step": 100
+    },
+    {
+      "epoch": 0.10254306808859721,
+      "grad_norm": 0.18663452565670013,
+      "learning_rate": 0.00033879781420765025,
+      "loss": 0.3588,
+      "step": 125
+    },
+    {
+      "epoch": 0.12305168170631665,
+      "grad_norm": 0.17238572239875793,
+      "learning_rate": 0.00040710382513661205,
+      "loss": 0.3399,
+      "step": 150
+    },
+    {
+      "epoch": 0.1435602953240361,
+      "grad_norm": 0.1672045886516571,
+      "learning_rate": 0.00047540983606557375,
+      "loss": 0.3282,
+      "step": 175
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "grad_norm": 0.2247926890850067,
+      "learning_rate": 0.0005437158469945356,
+      "loss": 0.3367,
+      "step": 200
+    },
+    {
+      "epoch": 0.16406890894175555,
+      "eval_loss": 0.30540144443511963,
+      "eval_runtime": 19.5674,
+      "eval_samples_per_second": 51.105,
+      "eval_steps_per_second": 0.818,
+      "step": 200
+    },
+    {
+      "epoch": 0.184577522559475,
+      "grad_norm": 0.1778956949710846,
+      "learning_rate": 0.0006120218579234972,
+      "loss": 0.3304,
+      "step": 225
+    },
+    {
+      "epoch": 0.20508613617719443,
+      "grad_norm": 0.18393848836421967,
+      "learning_rate": 0.000680327868852459,
+      "loss": 0.3073,
+      "step": 250
+    },
+    {
+      "epoch": 0.22559474979491387,
+      "grad_norm": 0.17240218818187714,
+      "learning_rate": 0.0007486338797814209,
+      "loss": 0.307,
+      "step": 275
+    },
+    {
+      "epoch": 0.2461033634126333,
+      "grad_norm": 0.2195698320865631,
+      "learning_rate": 0.0008169398907103825,
+      "loss": 0.3127,
+      "step": 300
+    },
+    {
+      "epoch": 0.2666119770303528,
+      "grad_norm": 0.21643932163715363,
+      "learning_rate": 0.0008852459016393442,
+      "loss": 0.3163,
+      "step": 325
+    },
+    {
+      "epoch": 0.2871205906480722,
+      "grad_norm": 0.20525363087654114,
+      "learning_rate": 0.0009535519125683059,
+      "loss": 0.3099,
+      "step": 350
+    },
+    {
+      "epoch": 0.30762920426579166,
+      "grad_norm": 0.22471587359905243,
+      "learning_rate": 0.0009999854198546752,
+      "loss": 0.323,
+      "step": 375
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "grad_norm": 0.2640959322452545,
+      "learning_rate": 0.0009997519290247507,
+      "loss": 0.3093,
+      "step": 400
+    },
+    {
+      "epoch": 0.3281378178835111,
+      "eval_loss": 0.2868829369544983,
+      "eval_runtime": 19.292,
+      "eval_samples_per_second": 51.835,
+      "eval_steps_per_second": 0.829,
+      "step": 400
+    },
+    {
+      "epoch": 0.34864643150123054,
+      "grad_norm": 0.19907452166080475,
+      "learning_rate": 0.0009992338231424006,
+      "loss": 0.3161,
+      "step": 425
+    },
+    {
+      "epoch": 0.36915504511895,
+      "grad_norm": 0.25168290734291077,
+      "learning_rate": 0.000998431397275486,
+      "loss": 0.3153,
+      "step": 450
+    },
+    {
+      "epoch": 0.3896636587366694,
+      "grad_norm": 0.29462915658950806,
+      "learning_rate": 0.0009973451084157006,
+      "loss": 0.3047,
+      "step": 475
+    },
+    {
+      "epoch": 0.41017227235438886,
+      "grad_norm": 0.2352636158466339,
+      "learning_rate": 0.0009959755752183062,
+      "loss": 0.2897,
+      "step": 500
+    },
+    {
+      "epoch": 0.4306808859721083,
+      "grad_norm": 0.22885267436504364,
+      "learning_rate": 0.0009943235776498026,
+      "loss": 0.2873,
+      "step": 525
+    },
+    {
+      "epoch": 0.45118949958982774,
+      "grad_norm": 0.22446544468402863,
+      "learning_rate": 0.0009923900565437262,
+      "loss": 0.2953,
+      "step": 550
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.2551325559616089,
+      "learning_rate": 0.0009901761130648326,
+      "loss": 0.2858,
+      "step": 575
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "grad_norm": 0.2091352343559265,
+      "learning_rate": 0.0009876830080819703,
+      "loss": 0.3045,
+      "step": 600
+    },
+    {
+      "epoch": 0.4922067268252666,
+      "eval_loss": 0.2704485356807709,
+      "eval_runtime": 19.2756,
+      "eval_samples_per_second": 51.879,
+      "eval_steps_per_second": 0.83,
+      "step": 600
+    },
+    {
+      "epoch": 0.5127153404429861,
+      "grad_norm": 0.2221243530511856,
+      "learning_rate": 0.00098491216145,
+      "loss": 0.283,
+      "step": 625
+    },
+    {
+      "epoch": 0.5332239540607056,
+      "grad_norm": 0.2306085228919983,
+      "learning_rate": 0.0009818651512011685,
+      "loss": 0.2732,
+      "step": 650
+    },
+    {
+      "epoch": 0.5537325676784249,
+      "grad_norm": 0.22338023781776428,
+      "learning_rate": 0.0009785437126463995,
+      "loss": 0.2865,
+      "step": 675
+    },
+    {
+      "epoch": 0.5742411812961444,
+      "grad_norm": 0.3610588312149048,
+      "learning_rate": 0.0009749497373870129,
+      "loss": 0.2859,
+      "step": 700
+    },
+    {
+      "epoch": 0.5947497949138638,
+      "grad_norm": 0.2590906322002411,
+      "learning_rate": 0.0009710852722374326,
+      "loss": 0.2834,
+      "step": 725
+    },
+    {
+      "epoch": 0.6152584085315833,
+      "grad_norm": 0.23781649768352509,
+      "learning_rate": 0.0009669525180595009,
+      "loss": 0.2797,
+      "step": 750
+    },
+    {
+      "epoch": 0.6357670221493027,
+      "grad_norm": 0.19784238934516907,
+      "learning_rate": 0.0009625538285090593,
+      "loss": 0.2747,
+      "step": 775
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "grad_norm": 0.20952032506465912,
+      "learning_rate": 0.0009578917086955117,
+      "loss": 0.2795,
+      "step": 800
+    },
+    {
+      "epoch": 0.6562756357670222,
+      "eval_loss": 0.2591809630393982,
+      "eval_runtime": 19.2722,
+      "eval_samples_per_second": 51.888,
+      "eval_steps_per_second": 0.83,
+      "step": 800
+    },
+    {
+      "epoch": 0.6767842493847416,
+      "grad_norm": 0.189390167593956,
+      "learning_rate": 0.0009529688137551328,
+      "loss": 0.2706,
+      "step": 825
+    },
+    {
+      "epoch": 0.6972928630024611,
+      "grad_norm": 0.224375382065773,
+      "learning_rate": 0.0009477879473389345,
+      "loss": 0.2754,
+      "step": 850
+    },
+    {
+      "epoch": 0.7178014766201805,
+      "grad_norm": 0.24536602199077606,
+      "learning_rate": 0.0009423520600159513,
+      "loss": 0.2658,
+      "step": 875
+    },
+    {
+      "epoch": 0.7383100902379,
+      "grad_norm": 0.25930875539779663,
+      "learning_rate": 0.0009366642475928535,
+      "loss": 0.2708,
+      "step": 900
+    },
+    {
+      "epoch": 0.7588187038556193,
+      "grad_norm": 0.23591011762619019,
+      "learning_rate": 0.0009307277493508466,
+      "loss": 0.2712,
+      "step": 925
+    },
+    {
+      "epoch": 0.7793273174733388,
+      "grad_norm": 0.17592450976371765,
+      "learning_rate": 0.0009245459462008587,
+      "loss": 0.2557,
+      "step": 950
+    },
+    {
+      "epoch": 0.7998359310910582,
+      "grad_norm": 0.2024001181125641,
+      "learning_rate": 0.0009181223587580702,
+      "loss": 0.2645,
+      "step": 975
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "grad_norm": 0.24190227687358856,
+      "learning_rate": 0.0009114606453368778,
+      "loss": 0.2572,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8203445447087777,
+      "eval_loss": 0.24514010548591614,
+      "eval_runtime": 19.3033,
+      "eval_samples_per_second": 51.805,
+      "eval_steps_per_second": 0.829,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8408531583264971,
+      "grad_norm": 0.2223917841911316,
+      "learning_rate": 0.0009045645998674388,
+      "loss": 0.2555,
+      "step": 1025
+    },
+    {
+      "epoch": 0.8613617719442166,
+      "grad_norm": 0.20406895875930786,
+      "learning_rate": 0.000897438149734979,
+      "loss": 0.254,
+      "step": 1050
+    },
+    {
+      "epoch": 0.881870385561936,
+      "grad_norm": 0.18564128875732422,
+      "learning_rate": 0.0008900853535430986,
+      "loss": 0.2591,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9023789991796555,
+      "grad_norm": 0.18205063045024872,
+      "learning_rate": 0.0008825103988023442,
+      "loss": 0.2588,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9228876127973749,
+      "grad_norm": 0.16957780718803406,
+      "learning_rate": 0.0008747175995453695,
+      "loss": 0.2537,
+      "step": 1125
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.16273853182792664,
+      "learning_rate": 0.0008667113938700395,
+      "loss": 0.2533,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9639048400328137,
+      "grad_norm": 0.16668862104415894,
+      "learning_rate": 0.0008584963414118765,
+      "loss": 0.2571,
+      "step": 1175
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "grad_norm": 0.17593467235565186,
+      "learning_rate": 0.0008500771207472907,
+      "loss": 0.2625,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9844134536505332,
+      "eval_loss": 0.23641632497310638,
+      "eval_runtime": 19.2597,
+      "eval_samples_per_second": 51.922,
+      "eval_steps_per_second": 0.831,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0049220672682526,
+      "grad_norm": 0.18487612903118134,
+      "learning_rate": 0.0008414585267290715,
+      "loss": 0.2442,
+      "step": 1225
+    },
+    {
+      "epoch": 1.0254306808859721,
+      "grad_norm": 0.1899247169494629,
+      "learning_rate": 0.0008326454677556577,
+      "loss": 0.2271,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0459392945036916,
+      "grad_norm": 0.18518805503845215,
+      "learning_rate": 0.0008236429629757432,
+      "loss": 0.2307,
+      "step": 1275
+    },
+    {
+      "epoch": 1.066447908121411,
+      "grad_norm": 0.1996040940284729,
+      "learning_rate": 0.0008144561394298075,
+      "loss": 0.2328,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 0.18206605315208435,
+      "learning_rate": 0.0008050902291302019,
+      "loss": 0.23,
+      "step": 1325
+    },
+    {
+      "epoch": 1.1074651353568499,
+      "grad_norm": 0.14665578305721283,
+      "learning_rate": 0.0007955505660814515,
+      "loss": 0.2216,
+      "step": 1350
+    },
+    {
+      "epoch": 1.1279737489745694,
+      "grad_norm": 0.18593929708003998,
+      "learning_rate": 0.0007858425832424727,
+      "loss": 0.2253,
+      "step": 1375
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "grad_norm": 0.16838900744915009,
+      "learning_rate": 0.000775971809432434,
+      "loss": 0.2163,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1484823625922886,
+      "eval_loss": 0.23211660981178284,
+      "eval_runtime": 19.2711,
+      "eval_samples_per_second": 51.891,
+      "eval_steps_per_second": 0.83,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1689909762100081,
+      "grad_norm": 0.17335142195224762,
+      "learning_rate": 0.0007659438661820235,
+      "loss": 0.2278,
+      "step": 1425
+    },
+    {
+      "epoch": 1.1894995898277276,
+      "grad_norm": 0.1807931661605835,
+      "learning_rate": 0.0007557644645319157,
+      "loss": 0.2301,
+      "step": 1450
+    },
+    {
+      "epoch": 1.2100082034454471,
+      "grad_norm": 0.1775919646024704,
+      "learning_rate": 0.0007454394017802622,
+      "loss": 0.2249,
+      "step": 1475
+    },
+    {
+      "epoch": 1.2305168170631666,
+      "grad_norm": 0.16616088151931763,
+      "learning_rate": 0.0007349745581810565,
+      "loss": 0.2353,
+      "step": 1500
+    },
+    {
+      "epoch": 1.251025430680886,
+      "grad_norm": 0.184806689620018,
+      "learning_rate": 0.0007243758935952547,
+      "loss": 0.2291,
+      "step": 1525
+    },
+    {
+      "epoch": 1.2715340442986054,
+      "grad_norm": 0.1499050408601761,
+      "learning_rate": 0.0007136494440965596,
+      "loss": 0.2223,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2920426579163249,
+      "grad_norm": 0.13914547860622406,
+      "learning_rate": 0.0007028013185338001,
+      "loss": 0.2252,
+      "step": 1575
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "grad_norm": 0.15225553512573242,
+      "learning_rate": 0.000691837695051865,
+      "loss": 0.2177,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3125512715340442,
+      "eval_loss": 0.2241576910018921,
+      "eval_runtime": 19.3112,
+      "eval_samples_per_second": 51.783,
+      "eval_steps_per_second": 0.829,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3330598851517639,
+      "grad_norm": 0.143367737531662,
+      "learning_rate": 0.00068076481757317,
+      "loss": 0.2206,
+      "step": 1625
+    },
+    {
+      "epoch": 1.3535684987694832,
+      "grad_norm": 0.1510310173034668,
+      "learning_rate": 0.0006695889922416659,
+      "loss": 0.2208,
+      "step": 1650
+    },
+    {
+      "epoch": 1.3740771123872026,
+      "grad_norm": 0.1739281564950943,
+      "learning_rate": 0.0006583165838314095,
+      "loss": 0.2192,
+      "step": 1675
+    },
+    {
+      "epoch": 1.3945857260049221,
+      "grad_norm": 0.14383970201015472,
+      "learning_rate": 0.0006469540121217438,
+      "loss": 0.2187,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.17553195357322693,
+      "learning_rate": 0.0006355077482411526,
+      "loss": 0.2171,
+      "step": 1725
+    },
+    {
+      "epoch": 1.435602953240361,
+      "grad_norm": 0.14919953048229218,
+      "learning_rate": 0.0006239843109818716,
+      "loss": 0.2167,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4561115668580804,
+      "grad_norm": 0.15127669274806976,
+      "learning_rate": 0.0006123902630873521,
+      "loss": 0.222,
+      "step": 1775
+    },
+    {
+      "epoch": 1.4766201804758,
+      "grad_norm": 0.13554859161376953,
+      "learning_rate": 0.0006007322075146968,
+      "loss": 0.2127,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4766201804758,
+      "eval_loss": 0.2200252115726471,
+      "eval_runtime": 19.2774,
+      "eval_samples_per_second": 51.874,
+      "eval_steps_per_second": 0.83,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4971287940935194,
+      "grad_norm": 0.14612731337547302,
+      "learning_rate": 0.0005890167836741919,
+      "loss": 0.2122,
+      "step": 1825
+    },
+    {
+      "epoch": 1.5176374077112387,
+      "grad_norm": 0.14290480315685272,
+      "learning_rate": 0.0005772506636480781,
+      "loss": 0.2147,
+      "step": 1850
+    },
+    {
+      "epoch": 1.5381460213289582,
+      "grad_norm": 0.14055421948432922,
+      "learning_rate": 0.0005654405483907163,
+      "loss": 0.2138,
+      "step": 1875
+    },
+    {
+      "epoch": 1.5586546349466777,
+      "grad_norm": 0.16261056065559387,
+      "learning_rate": 0.0005535931639123083,
+      "loss": 0.2177,
+      "step": 1900
+    },
+    {
+      "epoch": 1.579163248564397,
+      "grad_norm": 0.1579464077949524,
+      "learning_rate": 0.00054171525744835,
+      "loss": 0.2201,
+      "step": 1925
+    },
+    {
+      "epoch": 1.5996718621821167,
+      "grad_norm": 0.1471942812204361,
+      "learning_rate": 0.0005298135936169937,
+      "loss": 0.2181,
+      "step": 1950
+    },
+    {
+      "epoch": 1.620180475799836,
+      "grad_norm": 0.13963663578033447,
+      "learning_rate": 0.000517894950566514,
+      "loss": 0.2117,
+      "step": 1975
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "grad_norm": 0.14293774962425232,
+      "learning_rate": 0.0005059661161150655,
+      "loss": 0.2182,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6406890894175554,
+      "eval_loss": 0.21523867547512054,
+      "eval_runtime": 19.2818,
+      "eval_samples_per_second": 51.862,
+      "eval_steps_per_second": 0.83,
+      "step": 2000
+    },
+    {
+      "epoch": 1.661197703035275,
+      "grad_norm": 0.13382603228092194,
+      "learning_rate": 0.0004940338838849347,
+      "loss": 0.2092,
+      "step": 2025
+    },
+    {
+      "epoch": 1.6817063166529942,
+      "grad_norm": 0.16645269095897675,
+      "learning_rate": 0.0004821050494334861,
+      "loss": 0.2106,
+      "step": 2050
+    },
+    {
+      "epoch": 1.7022149302707137,
+      "grad_norm": 0.16617609560489655,
+      "learning_rate": 0.0004701864063830064,
+      "loss": 0.2149,
+      "step": 2075
+    },
+    {
+      "epoch": 1.7227235438884332,
+      "grad_norm": 0.134024977684021,
+      "learning_rate": 0.0004582847425516501,
+      "loss": 0.2065,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7432321575061525,
+      "grad_norm": 0.12853078544139862,
+      "learning_rate": 0.00044640683608769186,
+      "loss": 0.2099,
+      "step": 2125
+    },
+    {
+      "epoch": 1.7637407711238722,
+      "grad_norm": 0.12432336807250977,
+      "learning_rate": 0.0004345594516092838,
+      "loss": 0.2075,
+      "step": 2150
+    },
+    {
+      "epoch": 1.7842493847415914,
+      "grad_norm": 0.13519197702407837,
+      "learning_rate": 0.0004227493363519221,
+      "loss": 0.2162,
+      "step": 2175
+    },
+    {
+      "epoch": 1.804757998359311,
+      "grad_norm": 0.13607081770896912,
+      "learning_rate": 0.0004109832163258082,
+      "loss": 0.2081,
+      "step": 2200
+    },
+    {
+      "epoch": 1.804757998359311,
+      "eval_loss": 0.21113082766532898,
+      "eval_runtime": 19.3118,
+      "eval_samples_per_second": 51.782,
+      "eval_steps_per_second": 0.829,
+      "step": 2200
+    },
+    {
+      "epoch": 1.8252666119770304,
+      "grad_norm": 0.1487966775894165,
+      "learning_rate": 0.0003992677924853032,
+      "loss": 0.21,
+      "step": 2225
+    },
+    {
+      "epoch": 1.8457752255947497,
+      "grad_norm": 0.1369887739419937,
+      "learning_rate": 0.0003876097369126479,
+      "loss": 0.2107,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8662838392124692,
+      "grad_norm": 0.1338726282119751,
+      "learning_rate": 0.0003760156890181283,
+      "loss": 0.2146,
+      "step": 2275
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.14062516391277313,
+      "learning_rate": 0.0003644922517588474,
+      "loss": 0.2081,
+      "step": 2300
+    },
+    {
+      "epoch": 1.907301066447908,
+      "grad_norm": 0.1451762616634369,
+      "learning_rate": 0.0003530459878782563,
+      "loss": 0.2165,
+      "step": 2325
+    },
+    {
+      "epoch": 1.9278096800656277,
+      "grad_norm": 0.13617286086082458,
+      "learning_rate": 0.00034168341616859065,
+      "loss": 0.1994,
+      "step": 2350
+    },
+    {
+      "epoch": 1.948318293683347,
+      "grad_norm": 0.12289093434810638,
+      "learning_rate": 0.0003304110077583341,
+      "loss": 0.2047,
+      "step": 2375
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "grad_norm": 0.13330784440040588,
+      "learning_rate": 0.00031923518242683,
+      "loss": 0.2055,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9688269073010665,
+      "eval_loss": 0.20672284066677094,
+      "eval_runtime": 19.3165,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 2400
+    },
+    {
+      "epoch": 1.989335520918786,
+      "grad_norm": 0.13013282418251038,
+      "learning_rate": 0.000308162304948135,
+      "loss": 0.2023,
+      "step": 2425
+    },
+    {
+      "epoch": 2.0098441345365052,
+      "grad_norm": 0.1487245261669159,
+      "learning_rate": 0.00029719868146619997,
+      "loss": 0.1913,
+      "step": 2450
+    },
+    {
+      "epoch": 2.030352748154225,
+      "grad_norm": 0.1466096192598343,
+      "learning_rate": 0.0002863505559034406,
+      "loss": 0.1776,
+      "step": 2475
+    },
+    {
+      "epoch": 2.0508613617719442,
+      "grad_norm": 0.16183960437774658,
+      "learning_rate": 0.0002756241064047456,
+      "loss": 0.1794,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0713699753896635,
+      "grad_norm": 0.1348283886909485,
+      "learning_rate": 0.00026502544181894374,
+      "loss": 0.1757,
+      "step": 2525
+    },
+    {
+      "epoch": 2.091878589007383,
+      "grad_norm": 0.14854110777378082,
+      "learning_rate": 0.00025456059821973783,
+      "loss": 0.1842,
+      "step": 2550
+    },
+    {
+      "epoch": 2.1123872026251025,
+      "grad_norm": 0.1386813372373581,
+      "learning_rate": 0.00024423553546808424,
+      "loss": 0.1768,
+      "step": 2575
+    },
+    {
+      "epoch": 2.132895816242822,
+      "grad_norm": 0.1473291516304016,
+      "learning_rate": 0.00023405613381797665,
+      "loss": 0.1696,
+      "step": 2600
+    },
+    {
+      "epoch": 2.132895816242822,
+      "eval_loss": 0.20782257616519928,
+      "eval_runtime": 19.3116,
+      "eval_samples_per_second": 51.782,
+      "eval_steps_per_second": 0.829,
+      "step": 2600
+    },
+    {
+      "epoch": 2.1534044298605415,
+      "grad_norm": 0.1481078863143921,
+      "learning_rate": 0.00022402819056756602,
+      "loss": 0.1737,
+      "step": 2625
+    },
+    {
+      "epoch": 2.1739130434782608,
+      "grad_norm": 0.1274261176586151,
+      "learning_rate": 0.00021415741675752742,
+      "loss": 0.1725,
+      "step": 2650
+    },
+    {
+      "epoch": 2.1944216570959805,
+      "grad_norm": 0.15026845037937164,
+      "learning_rate": 0.00020444943391854866,
+      "loss": 0.1841,
+      "step": 2675
+    },
+    {
+      "epoch": 2.2149302707136997,
+      "grad_norm": 0.1312485784292221,
+      "learning_rate": 0.00019490977086979822,
+      "loss": 0.18,
+      "step": 2700
+    },
+    {
+      "epoch": 2.235438884331419,
+      "grad_norm": 0.15328241884708405,
+      "learning_rate": 0.0001855438605701925,
+      "loss": 0.1688,
+      "step": 2725
+    },
+    {
+      "epoch": 2.2559474979491387,
+      "grad_norm": 0.15922562777996063,
+      "learning_rate": 0.00017635703702425682,
+      "loss": 0.1812,
+      "step": 2750
+    },
+    {
+      "epoch": 2.276456111566858,
+      "grad_norm": 0.1465969830751419,
+      "learning_rate": 0.0001673545322443424,
+      "loss": 0.1785,
+      "step": 2775
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "grad_norm": 0.16353848576545715,
+      "learning_rate": 0.00015854147327092855,
+      "loss": 0.1743,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2969647251845773,
+      "eval_loss": 0.2060222029685974,
+      "eval_runtime": 19.3095,
+      "eval_samples_per_second": 51.788,
+      "eval_steps_per_second": 0.829,
+      "step": 2800
+    },
+    {
+      "epoch": 2.317473338802297,
+      "grad_norm": 0.14032265543937683,
+      "learning_rate": 0.00014992287925270936,
+      "loss": 0.1698,
+      "step": 2825
+    },
+    {
+      "epoch": 2.3379819524200163,
+      "grad_norm": 0.14994294941425323,
+      "learning_rate": 0.00014150365858812353,
+      "loss": 0.1732,
+      "step": 2850
+    },
+    {
+      "epoch": 2.358490566037736,
+      "grad_norm": 0.12427656352519989,
+      "learning_rate": 0.00013328860612996053,
+      "loss": 0.1742,
+      "step": 2875
+    },
+    {
+      "epoch": 2.3789991796554553,
+      "grad_norm": 0.14301162958145142,
+      "learning_rate": 0.00012528240045463047,
+      "loss": 0.1777,
+      "step": 2900
+    },
+    {
+      "epoch": 2.399507793273175,
+      "grad_norm": 0.16245818138122559,
+      "learning_rate": 0.00011748960119765595,
+      "loss": 0.1749,
+      "step": 2925
+    },
+    {
+      "epoch": 2.4200164068908943,
+      "grad_norm": 0.14960838854312897,
+      "learning_rate": 0.00010991464645690142,
+      "loss": 0.1779,
+      "step": 2950
+    },
+    {
+      "epoch": 2.4405250205086135,
+      "grad_norm": 0.13634172081947327,
+      "learning_rate": 0.00010256185026502096,
+      "loss": 0.1753,
+      "step": 2975
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "grad_norm": 0.14704327285289764,
+      "learning_rate": 9.543540013256136e-05,
+      "loss": 0.17,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4610336341263332,
+      "eval_loss": 0.2040461301803589,
+      "eval_runtime": 19.3166,
+      "eval_samples_per_second": 51.769,
+      "eval_steps_per_second": 0.828,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4815422477440525,
+      "grad_norm": 0.14649824798107147,
+      "learning_rate": 8.853935466312224e-05,
+      "loss": 0.1734,
+      "step": 3025
+    },
+    {
+      "epoch": 2.502050861361772,
+      "grad_norm": 0.13683316111564636,
+      "learning_rate": 8.187764124192981e-05,
+      "loss": 0.1696,
+      "step": 3050
+    },
+    {
+      "epoch": 2.5225594749794915,
+      "grad_norm": 0.14455805718898773,
+      "learning_rate": 7.545405379914138e-05,
+      "loss": 0.166,
+      "step": 3075
+    },
+    {
+      "epoch": 2.543068088597211,
+      "grad_norm": 0.14557591080665588,
+      "learning_rate": 6.927225064915349e-05,
+      "loss": 0.1774,
+      "step": 3100
+    },
+    {
+      "epoch": 2.56357670221493,
+      "grad_norm": 0.15906178951263428,
+      "learning_rate": 6.333575240714656e-05,
+      "loss": 0.1663,
+      "step": 3125
+    },
+    {
+      "epoch": 2.5840853158326498,
+      "grad_norm": 0.15751130878925323,
+      "learning_rate": 5.764793998404877e-05,
+      "loss": 0.1686,
+      "step": 3150
+    },
+    {
+      "epoch": 2.604593929450369,
+      "grad_norm": 0.13006390631198883,
+      "learning_rate": 5.2212052661065654e-05,
+      "loss": 0.1712,
+      "step": 3175
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "grad_norm": 0.13611075282096863,
+      "learning_rate": 4.703118624486735e-05,
+      "loss": 0.1759,
+      "step": 3200
+    },
+    {
+      "epoch": 2.6251025430680883,
+      "eval_loss": 0.20307449996471405,
+      "eval_runtime": 19.2946,
+      "eval_samples_per_second": 51.828,
+      "eval_steps_per_second": 0.829,
+      "step": 3200
+    },
+    {
+      "epoch": 2.645611156685808,
+      "grad_norm": 0.16608655452728271,
+      "learning_rate": 4.210829130448834e-05,
+      "loss": 0.1833,
+      "step": 3225
+    },
+    {
+      "epoch": 2.6661197703035278,
+      "grad_norm": 0.15309980511665344,
+      "learning_rate": 3.7446171490940704e-05,
+      "loss": 0.1683,
+      "step": 3250
+    },
+    {
+      "epoch": 2.686628383921247,
+      "grad_norm": 0.15862932801246643,
+      "learning_rate": 3.3047481940499055e-05,
+      "loss": 0.1747,
+      "step": 3275
+    },
+    {
+      "epoch": 2.7071369975389663,
+      "grad_norm": 0.1526409238576889,
+      "learning_rate": 2.8914727762567482e-05,
+      "loss": 0.1675,
+      "step": 3300
+    },
+    {
+      "epoch": 2.727645611156686,
+      "grad_norm": 0.145959734916687,
+      "learning_rate": 2.5050262612987206e-05,
+      "loss": 0.1674,
+      "step": 3325
+    },
+    {
+      "epoch": 2.7481542247744053,
+      "grad_norm": 0.14206132292747498,
+      "learning_rate": 2.14562873536005e-05,
+      "loss": 0.1637,
+      "step": 3350
+    },
+    {
+      "epoch": 2.7686628383921246,
+      "grad_norm": 0.18054018914699554,
+      "learning_rate": 1.8134848798831537e-05,
+      "loss": 0.1799,
+      "step": 3375
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "grad_norm": 0.13794836401939392,
+      "learning_rate": 1.5087838549999955e-05,
+      "loss": 0.168,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7891714520098443,
+      "eval_loss": 0.2025303989648819,
+      "eval_runtime": 19.3132,
+      "eval_samples_per_second": 51.778,
+      "eval_steps_per_second": 0.828,
+      "step": 3400
+    },
+    {
+      "epoch": 2.8096800656275636,
+      "grad_norm": 0.13373124599456787,
+      "learning_rate": 1.2316991918029653e-05,
+      "loss": 0.1759,
+      "step": 3425
+    },
+    {
+      "epoch": 2.830188679245283,
+      "grad_norm": 0.1434241682291031,
+      "learning_rate": 9.823886935167502e-06,
+      "loss": 0.1679,
+      "step": 3450
+    },
+    {
+      "epoch": 2.8506972928630026,
+      "grad_norm": 0.1458105742931366,
+      "learning_rate": 7.60994345627386e-06,
+      "loss": 0.1742,
+      "step": 3475
+    },
+    {
+      "epoch": 2.871205906480722,
+      "grad_norm": 0.1493147611618042,
+      "learning_rate": 5.67642235019733e-06,
+      "loss": 0.1654,
+      "step": 3500
+    },
+    {
+      "epoch": 2.891714520098441,
+      "grad_norm": 0.15342405438423157,
+      "learning_rate": 4.024424781693792e-06,
+      "loss": 0.1685,
+      "step": 3525
+    },
+    {
+      "epoch": 2.912223133716161,
+      "grad_norm": 0.15680305659770966,
+      "learning_rate": 2.6548915842993793e-06,
+      "loss": 0.1684,
+      "step": 3550
+    },
+    {
+      "epoch": 2.93273174733388,
+      "grad_norm": 0.1487962007522583,
+      "learning_rate": 1.5686027245138123e-06,
+      "loss": 0.167,
+      "step": 3575
+    },
+    {
+      "epoch": 2.9532403609516,
+      "grad_norm": 0.13475292921066284,
+      "learning_rate": 7.661768575994432e-07,
+      "loss": 0.1733,
+      "step": 3600
+    },
+    {
+      "epoch": 2.9532403609516,
+      "eval_loss": 0.2021828442811966,
+      "eval_runtime": 19.3189,
+      "eval_samples_per_second": 51.763,
+      "eval_steps_per_second": 0.828,
+      "step": 3600
+    },
+    {
+      "epoch": 2.973748974569319,
+      "grad_norm": 0.12766960263252258,
+      "learning_rate": 2.480709752493704e-07,
+      "loss": 0.1678,
+      "step": 3625
+    },
+    {
+      "epoch": 2.994257588187039,
+      "grad_norm": 0.14542804658412933,
+      "learning_rate": 1.4580145324849525e-08,
+      "loss": 0.1669,
+      "step": 3650
+    },
+    {
+      "epoch": 3.0,
+      "step": 3657,
+      "total_flos": 2.37785441107968e+18,
+      "train_loss": 0.2320223105941472,
+      "train_runtime": 3891.0373,
+      "train_samples_per_second": 30.069,
+      "train_steps_per_second": 0.94
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 3657,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.37785441107968e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}