tianyudu commited on Feb 16

Commit

ac72f78

verified ·

1 Parent(s): 306e894

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

ft_13b_NLSY97_with_birth_year_ckpt_bo5/config.json +31 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/generation_config.json +10 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00001-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00002-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00003-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00004-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00005-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00006-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00007-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00008-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00009-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00010-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00011-of-00011.safetensors +3 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/model.safetensors.index.json +370 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/special_tokens_map.json +30 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/tokenizer.json +0 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/tokenizer_config.json +53 -0
ft_13b_NLSY97_with_birth_year_ckpt_bo5/trainer_state.json +668 -0

ft_13b_NLSY97_with_birth_year_ckpt_bo5/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "togethercomputer/llama-2-13b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 13824,
+  "max_position_embeddings": 4096,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 40,
+  "pad_token_id": 0,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}

ft_13b_NLSY97_with_birth_year_ckpt_bo5/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 4096,
+  "pad_token_id": 0,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.45.1"
+}

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00001-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d38ac6456cdb4ebea396acddfb0e7309f97b801e5df4ecdb4329a4627851732d
+size 4881247856

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00002-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d00c449ce1cfa98a0783d1b8e516cece857de8b876e620e293ba4b32fbc10e3
+size 4970418112

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00003-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f1f5f3613c93545aa51c286dbd5abb280080f7859cf298ba458ddf04227c2c6
+size 4970418120

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00004-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:251b1f9cb418cbb6bb45911817cd71ecf0be7859a07892162ddaf320d27c4d3b
+size 4970418144

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00005-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:939dca0de171f5f4011f4c153751403c8fd598ed3ff17f4d297c70ed06e4740b
+size 4970418144

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00006-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b0d29de215c95bb5377b3f89e64f9ac10671aead55188da58b16c5b0a901755
+size 4792119040

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00007-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9108f3a67e17368382a54945b4c7476a0b737684c7bcce7229a8a1700cd1f483
+size 4792160232

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00008-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61a30a38b736f807625d5e377c6a54ec15018fc9695e7ca3eeda4592cf505c1c
+size 4792160224

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00009-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abd9c0de4cd34aee82fd0b8526a048d9f2d37794640883dc16efc16a415992ef
+size 4970418144

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00010-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c27ec9c0f7c691067ac79a6f8f4ef60358b52fb30c68f57e3cd3f2c7a6af786f
+size 4970418144

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model-00011-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2259a2f872c825e8eea332939dc163fb18b6a84bd9a9f248d67c863d38dc88c7
+size 2983303184

ft_13b_NLSY97_with_birth_year_ckpt_bo5/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,370 @@

+{
+  "metadata": {
+    "total_size": 52063457280
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00011-of-00011.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00011.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00005-of-00011.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00006-of-00011.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00007-of-00011.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00011.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00008-of-00011.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00009-of-00011.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00011-of-00011.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00011-of-00011.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00010-of-00011.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00011-of-00011.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00011.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00011.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00011.safetensors",
+    "model.norm.weight": "model-00011-of-00011.safetensors"
+  }
+}

ft_13b_NLSY97_with_birth_year_ckpt_bo5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

ft_13b_NLSY97_with_birth_year_ckpt_bo5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

ft_13b_NLSY97_with_birth_year_ckpt_bo5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% set system_message = false %}{% endif %}{% for message in loop_messages %}{% if loop.index0 == 0 and system_message != false %}{% set content = '<<SYS>>\\n' + system_message + '\\n<</SYS>>\\n\\n' + message['content'] %}{% else %}{% set content = message['content'] %}{% endif %}{% if message['role'] == 'user' or message['role'] == 'tool' %}{{ bos_token + '[INST] ' + content + ' [/INST]' }}{% elif message['role'] == 'system' %}{{ '<<SYS>>\\n' + content + '\\n<</SYS>>\\n\\n' }}{% elif message['role'] == 'assistant' %}{{ ' '  + content + ' ' + eos_token }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

ft_13b_NLSY97_with_birth_year_ckpt_bo5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,668 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 17,
+  "global_step": 85,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 6.826037883758545,
+      "learning_rate": 9.882352941176472e-06,
+      "loss": 0.9872,
+      "step": 1
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 5.007583141326904,
+      "learning_rate": 9.764705882352942e-06,
+      "loss": 0.7222,
+      "step": 2
+    },
+    {
+      "epoch": 0.17647058823529413,
+      "grad_norm": 8.890899658203125,
+      "learning_rate": 9.647058823529412e-06,
+      "loss": 0.3672,
+      "step": 3
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 3.7029407024383545,
+      "learning_rate": 9.529411764705882e-06,
+      "loss": 0.2717,
+      "step": 4
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 3.6714138984680176,
+      "learning_rate": 9.411764705882354e-06,
+      "loss": 0.2142,
+      "step": 5
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 1.512139916419983,
+      "learning_rate": 9.294117647058824e-06,
+      "loss": 0.1831,
+      "step": 6
+    },
+    {
+      "epoch": 0.4117647058823529,
+      "grad_norm": 0.8229585886001587,
+      "learning_rate": 9.176470588235294e-06,
+      "loss": 0.153,
+      "step": 7
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.878730058670044,
+      "learning_rate": 9.058823529411765e-06,
+      "loss": 0.1471,
+      "step": 8
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 1.6854517459869385,
+      "learning_rate": 8.941176470588237e-06,
+      "loss": 0.1597,
+      "step": 9
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.6367517709732056,
+      "learning_rate": 8.823529411764707e-06,
+      "loss": 0.1516,
+      "step": 10
+    },
+    {
+      "epoch": 0.6470588235294118,
+      "grad_norm": 0.3204161524772644,
+      "learning_rate": 8.705882352941177e-06,
+      "loss": 0.1401,
+      "step": 11
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 0.35372260212898254,
+      "learning_rate": 8.588235294117647e-06,
+      "loss": 0.1373,
+      "step": 12
+    },
+    {
+      "epoch": 0.7647058823529411,
+      "grad_norm": 0.3492251932621002,
+      "learning_rate": 8.470588235294118e-06,
+      "loss": 0.1392,
+      "step": 13
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 0.2784980833530426,
+      "learning_rate": 8.35294117647059e-06,
+      "loss": 0.1349,
+      "step": 14
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 0.3000575304031372,
+      "learning_rate": 8.23529411764706e-06,
+      "loss": 0.1351,
+      "step": 15
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 0.26620256900787354,
+      "learning_rate": 8.11764705882353e-06,
+      "loss": 0.1344,
+      "step": 16
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.27503445744514465,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.1306,
+      "step": 17
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.13196709752082825,
+      "eval_runtime": 3.0654,
+      "eval_samples_per_second": 25.445,
+      "eval_steps_per_second": 0.979,
+      "step": 17
+    },
+    {
+      "epoch": 1.0588235294117647,
+      "grad_norm": 0.15378156304359436,
+      "learning_rate": 7.882352941176471e-06,
+      "loss": 0.1314,
+      "step": 18
+    },
+    {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 0.20899935066699982,
+      "learning_rate": 7.764705882352941e-06,
+      "loss": 0.1323,
+      "step": 19
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 0.18555021286010742,
+      "learning_rate": 7.647058823529411e-06,
+      "loss": 0.1292,
+      "step": 20
+    },
+    {
+      "epoch": 1.2352941176470589,
+      "grad_norm": 0.2209312468767166,
+      "learning_rate": 7.529411764705883e-06,
+      "loss": 0.1327,
+      "step": 21
+    },
+    {
+      "epoch": 1.2941176470588236,
+      "grad_norm": 0.14804129302501678,
+      "learning_rate": 7.4117647058823535e-06,
+      "loss": 0.1286,
+      "step": 22
+    },
+    {
+      "epoch": 1.3529411764705883,
+      "grad_norm": 0.19198119640350342,
+      "learning_rate": 7.294117647058823e-06,
+      "loss": 0.1225,
+      "step": 23
+    },
+    {
+      "epoch": 1.4117647058823528,
+      "grad_norm": 0.2669129967689514,
+      "learning_rate": 7.176470588235295e-06,
+      "loss": 0.1246,
+      "step": 24
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 0.1926780641078949,
+      "learning_rate": 7.058823529411766e-06,
+      "loss": 0.1294,
+      "step": 25
+    },
+    {
+      "epoch": 1.5294117647058822,
+      "grad_norm": 0.2469145804643631,
+      "learning_rate": 6.941176470588236e-06,
+      "loss": 0.1234,
+      "step": 26
+    },
+    {
+      "epoch": 1.5882352941176472,
+      "grad_norm": 0.19123004376888275,
+      "learning_rate": 6.8235294117647065e-06,
+      "loss": 0.1248,
+      "step": 27
+    },
+    {
+      "epoch": 1.6470588235294117,
+      "grad_norm": 0.43558576703071594,
+      "learning_rate": 6.705882352941176e-06,
+      "loss": 0.1259,
+      "step": 28
+    },
+    {
+      "epoch": 1.7058823529411766,
+      "grad_norm": 0.3692876398563385,
+      "learning_rate": 6.588235294117647e-06,
+      "loss": 0.1227,
+      "step": 29
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 0.1562933325767517,
+      "learning_rate": 6.470588235294119e-06,
+      "loss": 0.1276,
+      "step": 30
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "grad_norm": 0.22193029522895813,
+      "learning_rate": 6.352941176470589e-06,
+      "loss": 0.1256,
+      "step": 31
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 0.1444336622953415,
+      "learning_rate": 6.2352941176470595e-06,
+      "loss": 0.1294,
+      "step": 32
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 0.22506719827651978,
+      "learning_rate": 6.11764705882353e-06,
+      "loss": 0.1245,
+      "step": 33
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.11717499047517776,
+      "learning_rate": 6e-06,
+      "loss": 0.1248,
+      "step": 34
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.12606652081012726,
+      "eval_runtime": 3.086,
+      "eval_samples_per_second": 25.275,
+      "eval_steps_per_second": 0.972,
+      "step": 34
+    },
+    {
+      "epoch": 2.0588235294117645,
+      "grad_norm": 0.16913700103759766,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 0.1292,
+      "step": 35
+    },
+    {
+      "epoch": 2.1176470588235294,
+      "grad_norm": 0.13920317590236664,
+      "learning_rate": 5.764705882352941e-06,
+      "loss": 0.1224,
+      "step": 36
+    },
+    {
+      "epoch": 2.176470588235294,
+      "grad_norm": 0.163879856467247,
+      "learning_rate": 5.6470588235294125e-06,
+      "loss": 0.1267,
+      "step": 37
+    },
+    {
+      "epoch": 2.235294117647059,
+      "grad_norm": 0.11768973618745804,
+      "learning_rate": 5.529411764705883e-06,
+      "loss": 0.1252,
+      "step": 38
+    },
+    {
+      "epoch": 2.2941176470588234,
+      "grad_norm": 0.12598130106925964,
+      "learning_rate": 5.411764705882353e-06,
+      "loss": 0.1219,
+      "step": 39
+    },
+    {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 0.126705139875412,
+      "learning_rate": 5.294117647058824e-06,
+      "loss": 0.1249,
+      "step": 40
+    },
+    {
+      "epoch": 2.411764705882353,
+      "grad_norm": 0.10824119299650192,
+      "learning_rate": 5.176470588235295e-06,
+      "loss": 0.1218,
+      "step": 41
+    },
+    {
+      "epoch": 2.4705882352941178,
+      "grad_norm": 0.14088353514671326,
+      "learning_rate": 5.058823529411765e-06,
+      "loss": 0.1219,
+      "step": 42
+    },
+    {
+      "epoch": 2.5294117647058822,
+      "grad_norm": 0.1357414573431015,
+      "learning_rate": 4.941176470588236e-06,
+      "loss": 0.1217,
+      "step": 43
+    },
+    {
+      "epoch": 2.588235294117647,
+      "grad_norm": 0.10940688103437424,
+      "learning_rate": 4.823529411764706e-06,
+      "loss": 0.1237,
+      "step": 44
+    },
+    {
+      "epoch": 2.6470588235294117,
+      "grad_norm": 0.09603821486234665,
+      "learning_rate": 4.705882352941177e-06,
+      "loss": 0.1226,
+      "step": 45
+    },
+    {
+      "epoch": 2.7058823529411766,
+      "grad_norm": 0.15282191336154938,
+      "learning_rate": 4.588235294117647e-06,
+      "loss": 0.1238,
+      "step": 46
+    },
+    {
+      "epoch": 2.764705882352941,
+      "grad_norm": 0.12449757009744644,
+      "learning_rate": 4.4705882352941184e-06,
+      "loss": 0.1205,
+      "step": 47
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 0.1005752831697464,
+      "learning_rate": 4.352941176470588e-06,
+      "loss": 0.1231,
+      "step": 48
+    },
+    {
+      "epoch": 2.8823529411764706,
+      "grad_norm": 0.11034774035215378,
+      "learning_rate": 4.235294117647059e-06,
+      "loss": 0.1175,
+      "step": 49
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 0.10264524817466736,
+      "learning_rate": 4.11764705882353e-06,
+      "loss": 0.1185,
+      "step": 50
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.15546543896198273,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.1217,
+      "step": 51
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.12411954998970032,
+      "eval_runtime": 3.1706,
+      "eval_samples_per_second": 24.601,
+      "eval_steps_per_second": 0.946,
+      "step": 51
+    },
+    {
+      "epoch": 3.0588235294117645,
+      "grad_norm": 0.15978240966796875,
+      "learning_rate": 3.882352941176471e-06,
+      "loss": 0.1287,
+      "step": 52
+    },
+    {
+      "epoch": 3.1176470588235294,
+      "grad_norm": 0.11369739472866058,
+      "learning_rate": 3.7647058823529414e-06,
+      "loss": 0.1203,
+      "step": 53
+    },
+    {
+      "epoch": 3.176470588235294,
+      "grad_norm": 0.12883137166500092,
+      "learning_rate": 3.6470588235294117e-06,
+      "loss": 0.1228,
+      "step": 54
+    },
+    {
+      "epoch": 3.235294117647059,
+      "grad_norm": 0.14759939908981323,
+      "learning_rate": 3.529411764705883e-06,
+      "loss": 0.1212,
+      "step": 55
+    },
+    {
+      "epoch": 3.2941176470588234,
+      "grad_norm": 0.11449374258518219,
+      "learning_rate": 3.4117647058823532e-06,
+      "loss": 0.1235,
+      "step": 56
+    },
+    {
+      "epoch": 3.3529411764705883,
+      "grad_norm": 0.12585020065307617,
+      "learning_rate": 3.2941176470588236e-06,
+      "loss": 0.1188,
+      "step": 57
+    },
+    {
+      "epoch": 3.411764705882353,
+      "grad_norm": 0.12307500839233398,
+      "learning_rate": 3.1764705882352943e-06,
+      "loss": 0.1149,
+      "step": 58
+    },
+    {
+      "epoch": 3.4705882352941178,
+      "grad_norm": 0.11141182482242584,
+      "learning_rate": 3.058823529411765e-06,
+      "loss": 0.121,
+      "step": 59
+    },
+    {
+      "epoch": 3.5294117647058822,
+      "grad_norm": 0.09552208334207535,
+      "learning_rate": 2.9411764705882355e-06,
+      "loss": 0.1168,
+      "step": 60
+    },
+    {
+      "epoch": 3.588235294117647,
+      "grad_norm": 0.13475027680397034,
+      "learning_rate": 2.8235294117647062e-06,
+      "loss": 0.1247,
+      "step": 61
+    },
+    {
+      "epoch": 3.6470588235294117,
+      "grad_norm": 0.11280796676874161,
+      "learning_rate": 2.7058823529411766e-06,
+      "loss": 0.1169,
+      "step": 62
+    },
+    {
+      "epoch": 3.7058823529411766,
+      "grad_norm": 0.11194144189357758,
+      "learning_rate": 2.5882352941176473e-06,
+      "loss": 0.1245,
+      "step": 63
+    },
+    {
+      "epoch": 3.764705882352941,
+      "grad_norm": 0.15122245252132416,
+      "learning_rate": 2.470588235294118e-06,
+      "loss": 0.1254,
+      "step": 64
+    },
+    {
+      "epoch": 3.8235294117647056,
+      "grad_norm": 0.11948227137327194,
+      "learning_rate": 2.3529411764705885e-06,
+      "loss": 0.1211,
+      "step": 65
+    },
+    {
+      "epoch": 3.8823529411764706,
+      "grad_norm": 0.10632563382387161,
+      "learning_rate": 2.2352941176470592e-06,
+      "loss": 0.1204,
+      "step": 66
+    },
+    {
+      "epoch": 3.9411764705882355,
+      "grad_norm": 0.13054819405078888,
+      "learning_rate": 2.1176470588235296e-06,
+      "loss": 0.1211,
+      "step": 67
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.12077351659536362,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.1214,
+      "step": 68
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.12355273962020874,
+      "eval_runtime": 3.4229,
+      "eval_samples_per_second": 22.787,
+      "eval_steps_per_second": 0.876,
+      "step": 68
+    },
+    {
+      "epoch": 4.0588235294117645,
+      "grad_norm": 0.09725900739431381,
+      "learning_rate": 1.8823529411764707e-06,
+      "loss": 0.1237,
+      "step": 69
+    },
+    {
+      "epoch": 4.117647058823529,
+      "grad_norm": 0.11992732435464859,
+      "learning_rate": 1.7647058823529414e-06,
+      "loss": 0.1236,
+      "step": 70
+    },
+    {
+      "epoch": 4.176470588235294,
+      "grad_norm": 0.10451671481132507,
+      "learning_rate": 1.6470588235294118e-06,
+      "loss": 0.1192,
+      "step": 71
+    },
+    {
+      "epoch": 4.235294117647059,
+      "grad_norm": 0.12111125886440277,
+      "learning_rate": 1.5294117647058826e-06,
+      "loss": 0.1186,
+      "step": 72
+    },
+    {
+      "epoch": 4.294117647058823,
+      "grad_norm": 0.09475599229335785,
+      "learning_rate": 1.4117647058823531e-06,
+      "loss": 0.1175,
+      "step": 73
+    },
+    {
+      "epoch": 4.352941176470588,
+      "grad_norm": 0.1003756895661354,
+      "learning_rate": 1.2941176470588237e-06,
+      "loss": 0.1196,
+      "step": 74
+    },
+    {
+      "epoch": 4.411764705882353,
+      "grad_norm": 0.11295368522405624,
+      "learning_rate": 1.1764705882352942e-06,
+      "loss": 0.1193,
+      "step": 75
+    },
+    {
+      "epoch": 4.470588235294118,
+      "grad_norm": 0.10498660802841187,
+      "learning_rate": 1.0588235294117648e-06,
+      "loss": 0.1208,
+      "step": 76
+    },
+    {
+      "epoch": 4.529411764705882,
+      "grad_norm": 0.10950184613466263,
+      "learning_rate": 9.411764705882353e-07,
+      "loss": 0.1248,
+      "step": 77
+    },
+    {
+      "epoch": 4.588235294117647,
+      "grad_norm": 0.08441974967718124,
+      "learning_rate": 8.235294117647059e-07,
+      "loss": 0.1176,
+      "step": 78
+    },
+    {
+      "epoch": 4.647058823529412,
+      "grad_norm": 0.09920471161603928,
+      "learning_rate": 7.058823529411766e-07,
+      "loss": 0.1238,
+      "step": 79
+    },
+    {
+      "epoch": 4.705882352941177,
+      "grad_norm": 0.10086280107498169,
+      "learning_rate": 5.882352941176471e-07,
+      "loss": 0.1226,
+      "step": 80
+    },
+    {
+      "epoch": 4.764705882352941,
+      "grad_norm": 0.09439942985773087,
+      "learning_rate": 4.7058823529411767e-07,
+      "loss": 0.1194,
+      "step": 81
+    },
+    {
+      "epoch": 4.823529411764706,
+      "grad_norm": 0.10923398286104202,
+      "learning_rate": 3.529411764705883e-07,
+      "loss": 0.1119,
+      "step": 82
+    },
+    {
+      "epoch": 4.882352941176471,
+      "grad_norm": 0.1025756224989891,
+      "learning_rate": 2.3529411764705883e-07,
+      "loss": 0.1206,
+      "step": 83
+    },
+    {
+      "epoch": 4.9411764705882355,
+      "grad_norm": 0.085908904671669,
+      "learning_rate": 1.1764705882352942e-07,
+      "loss": 0.1209,
+      "step": 84
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.08490986377000809,
+      "learning_rate": 0.0,
+      "loss": 0.1222,
+      "step": 85
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.12324296683073044,
+      "eval_runtime": 3.6895,
+      "eval_samples_per_second": 21.141,
+      "eval_steps_per_second": 0.813,
+      "step": 85
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 85,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 17,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0695564830598758e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}