Harley-ml commited on
Commit
f025636
·
verified ·
1 Parent(s): 4a78658

Upload 5 files

Browse files
Files changed (5) hide show
  1. config.json +51 -0
  2. generation_config.json +7 -0
  3. model.safetensors +3 -0
  4. tokenizer.json +0 -0
  5. trainer_state.json +2338 -0
config.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "Qwen3_5ForCausalLM"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 24,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 72,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 288,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention",
18
+ "full_attention",
19
+ "full_attention",
20
+ "full_attention",
21
+ "full_attention",
22
+ "full_attention",
23
+ "full_attention",
24
+ "full_attention",
25
+ "full_attention",
26
+ "full_attention",
27
+ "full_attention"
28
+ ],
29
+ "linear_conv_kernel_dim": 4,
30
+ "linear_key_head_dim": 128,
31
+ "linear_num_key_heads": 16,
32
+ "linear_num_value_heads": 32,
33
+ "linear_value_head_dim": 128,
34
+ "max_position_embeddings": 384,
35
+ "model_type": "qwen3_5_text",
36
+ "num_attention_heads": 3,
37
+ "num_hidden_layers": 12,
38
+ "num_key_value_heads": 3,
39
+ "pad_token_id": null,
40
+ "partial_rotary_factor": 0.25,
41
+ "rms_norm_eps": 1e-06,
42
+ "rope_parameters": {
43
+ "partial_rotary_factor": 0.25,
44
+ "rope_theta": 10000.0,
45
+ "rope_type": "default"
46
+ },
47
+ "tie_word_embeddings": true,
48
+ "transformers_version": "5.8.1",
49
+ "use_cache": false,
50
+ "vocab_size": 3076
51
+ }
generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.8.1",
6
+ "use_cache": true
7
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:65a889eeea89ea34b0977fb5a56290aefa9d68bb9326fe70de1f584b66095387
3
+ size 5139616
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
trainer_state.json ADDED
@@ -0,0 +1,2338 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.7024980118911601,
6
+ "eval_steps": 3000,
7
+ "global_step": 89000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.002367970826599416,
14
+ "grad_norm": 0.5120002627372742,
15
+ "learning_rate": 2.99e-05,
16
+ "loss": 7.8463818359375,
17
+ "step": 300
18
+ },
19
+ {
20
+ "epoch": 0.004735941653198832,
21
+ "grad_norm": 0.5012888312339783,
22
+ "learning_rate": 5.989999999999999e-05,
23
+ "loss": 7.265762532552083,
24
+ "step": 600
25
+ },
26
+ {
27
+ "epoch": 0.007103912479798249,
28
+ "grad_norm": 0.4929312467575073,
29
+ "learning_rate": 8.99e-05,
30
+ "loss": 6.630942789713542,
31
+ "step": 900
32
+ },
33
+ {
34
+ "epoch": 0.009471883306397665,
35
+ "grad_norm": 0.5659914612770081,
36
+ "learning_rate": 0.00011989999999999999,
37
+ "loss": 6.048028564453125,
38
+ "step": 1200
39
+ },
40
+ {
41
+ "epoch": 0.01183985413299708,
42
+ "grad_norm": 1.3028839826583862,
43
+ "learning_rate": 0.00014989999999999998,
44
+ "loss": 5.70859375,
45
+ "step": 1500
46
+ },
47
+ {
48
+ "epoch": 0.014207824959596499,
49
+ "grad_norm": 1.2629913091659546,
50
+ "learning_rate": 0.00017989999999999998,
51
+ "loss": 5.3664111328125,
52
+ "step": 1800
53
+ },
54
+ {
55
+ "epoch": 0.016575795786195915,
56
+ "grad_norm": 1.458747148513794,
57
+ "learning_rate": 0.00020989999999999998,
58
+ "loss": 5.094122721354167,
59
+ "step": 2100
60
+ },
61
+ {
62
+ "epoch": 0.01894376661279533,
63
+ "grad_norm": 2.0311570167541504,
64
+ "learning_rate": 0.00023989999999999998,
65
+ "loss": 4.872973225911458,
66
+ "step": 2400
67
+ },
68
+ {
69
+ "epoch": 0.021311737439394747,
70
+ "grad_norm": 1.6081920862197876,
71
+ "learning_rate": 0.00026989999999999995,
72
+ "loss": 4.6951521809895835,
73
+ "step": 2700
74
+ },
75
+ {
76
+ "epoch": 0.02367970826599416,
77
+ "grad_norm": 1.6408644914627075,
78
+ "learning_rate": 0.00029989999999999997,
79
+ "loss": 4.552720947265625,
80
+ "step": 3000
81
+ },
82
+ {
83
+ "epoch": 0.02367970826599416,
84
+ "eval_loss": 4.49172830581665,
85
+ "eval_runtime": 805.9737,
86
+ "eval_samples_per_second": 113.46,
87
+ "eval_steps_per_second": 14.183,
88
+ "step": 3000
89
+ },
90
+ {
91
+ "epoch": 0.02604767909259358,
92
+ "grad_norm": 1.8765032291412354,
93
+ "learning_rate": 0.0002992748057659813,
94
+ "loss": 4.435736083984375,
95
+ "step": 3300
96
+ },
97
+ {
98
+ "epoch": 0.028415649919192997,
99
+ "grad_norm": 2.237330675125122,
100
+ "learning_rate": 0.0002985471861331867,
101
+ "loss": 4.3409326171875,
102
+ "step": 3600
103
+ },
104
+ {
105
+ "epoch": 0.03078362074579241,
106
+ "grad_norm": 1.7407817840576172,
107
+ "learning_rate": 0.00029781956650039206,
108
+ "loss": 4.262849934895834,
109
+ "step": 3900
110
+ },
111
+ {
112
+ "epoch": 0.03315159157239183,
113
+ "grad_norm": 1.8509694337844849,
114
+ "learning_rate": 0.00029709194686759744,
115
+ "loss": 4.203232014973958,
116
+ "step": 4200
117
+ },
118
+ {
119
+ "epoch": 0.03551956239899125,
120
+ "grad_norm": 1.4811211824417114,
121
+ "learning_rate": 0.0002963643272348028,
122
+ "loss": 4.146802978515625,
123
+ "step": 4500
124
+ },
125
+ {
126
+ "epoch": 0.03788753322559066,
127
+ "grad_norm": 1.3642165660858154,
128
+ "learning_rate": 0.00029563670760200824,
129
+ "loss": 4.1003564453125,
130
+ "step": 4800
131
+ },
132
+ {
133
+ "epoch": 0.040255504052190076,
134
+ "grad_norm": 1.6928187608718872,
135
+ "learning_rate": 0.00029490908796921356,
136
+ "loss": 4.057576497395833,
137
+ "step": 5100
138
+ },
139
+ {
140
+ "epoch": 0.042623474878789494,
141
+ "grad_norm": 1.5884612798690796,
142
+ "learning_rate": 0.000294181468336419,
143
+ "loss": 4.0220039876302085,
144
+ "step": 5400
145
+ },
146
+ {
147
+ "epoch": 0.04499144570538891,
148
+ "grad_norm": 1.3557602167129517,
149
+ "learning_rate": 0.0002934538487036243,
150
+ "loss": 3.987523193359375,
151
+ "step": 5700
152
+ },
153
+ {
154
+ "epoch": 0.04735941653198832,
155
+ "grad_norm": 1.5322710275650024,
156
+ "learning_rate": 0.0002927262290708297,
157
+ "loss": 3.9578169759114585,
158
+ "step": 6000
159
+ },
160
+ {
161
+ "epoch": 0.04735941653198832,
162
+ "eval_loss": 3.9426522254943848,
163
+ "eval_runtime": 715.9313,
164
+ "eval_samples_per_second": 127.73,
165
+ "eval_steps_per_second": 15.967,
166
+ "step": 6000
167
+ },
168
+ {
169
+ "epoch": 0.04972738735858774,
170
+ "grad_norm": 1.4013663530349731,
171
+ "learning_rate": 0.0002919986094380351,
172
+ "loss": 3.9291121419270834,
173
+ "step": 6300
174
+ },
175
+ {
176
+ "epoch": 0.05209535818518716,
177
+ "grad_norm": 1.4654945135116577,
178
+ "learning_rate": 0.0002912709898052404,
179
+ "loss": 3.9034086100260414,
180
+ "step": 6600
181
+ },
182
+ {
183
+ "epoch": 0.054463329011786576,
184
+ "grad_norm": 1.298611044883728,
185
+ "learning_rate": 0.00029054337017244585,
186
+ "loss": 3.8796598307291665,
187
+ "step": 6900
188
+ },
189
+ {
190
+ "epoch": 0.056831299838385994,
191
+ "grad_norm": 1.301093578338623,
192
+ "learning_rate": 0.00028981575053965117,
193
+ "loss": 3.8580826822916667,
194
+ "step": 7200
195
+ },
196
+ {
197
+ "epoch": 0.059199270664985405,
198
+ "grad_norm": 1.5246330499649048,
199
+ "learning_rate": 0.0002890881309068566,
200
+ "loss": 3.842342529296875,
201
+ "step": 7500
202
+ },
203
+ {
204
+ "epoch": 0.06156724149158482,
205
+ "grad_norm": 1.7583329677581787,
206
+ "learning_rate": 0.00028836051127406197,
207
+ "loss": 3.8208109537760415,
208
+ "step": 7800
209
+ },
210
+ {
211
+ "epoch": 0.06393521231818423,
212
+ "grad_norm": 1.393927812576294,
213
+ "learning_rate": 0.00028763289164126734,
214
+ "loss": 3.8070406087239586,
215
+ "step": 8100
216
+ },
217
+ {
218
+ "epoch": 0.06630318314478366,
219
+ "grad_norm": 1.5146640539169312,
220
+ "learning_rate": 0.0002869052720084727,
221
+ "loss": 3.790522054036458,
222
+ "step": 8400
223
+ },
224
+ {
225
+ "epoch": 0.06867115397138307,
226
+ "grad_norm": 1.4215984344482422,
227
+ "learning_rate": 0.0002861776523756781,
228
+ "loss": 3.776350911458333,
229
+ "step": 8700
230
+ },
231
+ {
232
+ "epoch": 0.0710391247979825,
233
+ "grad_norm": 1.231087565422058,
234
+ "learning_rate": 0.00028545003274288346,
235
+ "loss": 3.7632710774739584,
236
+ "step": 9000
237
+ },
238
+ {
239
+ "epoch": 0.0710391247979825,
240
+ "eval_loss": 3.7583487033843994,
241
+ "eval_runtime": 718.1397,
242
+ "eval_samples_per_second": 127.337,
243
+ "eval_steps_per_second": 15.918,
244
+ "step": 9000
245
+ },
246
+ {
247
+ "epoch": 0.0734070956245819,
248
+ "grad_norm": 1.6221380233764648,
249
+ "learning_rate": 0.0002847224131100888,
250
+ "loss": 3.7516385904947915,
251
+ "step": 9300
252
+ },
253
+ {
254
+ "epoch": 0.07577506645118132,
255
+ "grad_norm": 1.1648283004760742,
256
+ "learning_rate": 0.0002839947934772942,
257
+ "loss": 3.740259195963542,
258
+ "step": 9600
259
+ },
260
+ {
261
+ "epoch": 0.07814303727778074,
262
+ "grad_norm": 1.3073171377182007,
263
+ "learning_rate": 0.0002832671738444996,
264
+ "loss": 3.7312325032552085,
265
+ "step": 9900
266
+ },
267
+ {
268
+ "epoch": 0.08051100810438015,
269
+ "grad_norm": 1.162903904914856,
270
+ "learning_rate": 0.00028253955421170496,
271
+ "loss": 3.7197379557291668,
272
+ "step": 10200
273
+ },
274
+ {
275
+ "epoch": 0.08287897893097958,
276
+ "grad_norm": 1.0998663902282715,
277
+ "learning_rate": 0.00028181193457891033,
278
+ "loss": 3.7105806477864585,
279
+ "step": 10500
280
+ },
281
+ {
282
+ "epoch": 0.08524694975757899,
283
+ "grad_norm": 1.336269736289978,
284
+ "learning_rate": 0.0002810843149461157,
285
+ "loss": 3.70353759765625,
286
+ "step": 10800
287
+ },
288
+ {
289
+ "epoch": 0.0876149205841784,
290
+ "grad_norm": 1.2086349725723267,
291
+ "learning_rate": 0.0002803566953133211,
292
+ "loss": 3.69432861328125,
293
+ "step": 11100
294
+ },
295
+ {
296
+ "epoch": 0.08998289141077782,
297
+ "grad_norm": 1.254562497138977,
298
+ "learning_rate": 0.00027962907568052645,
299
+ "loss": 3.6888834635416665,
300
+ "step": 11400
301
+ },
302
+ {
303
+ "epoch": 0.09235086223737723,
304
+ "grad_norm": 1.2221864461898804,
305
+ "learning_rate": 0.0002789014560477318,
306
+ "loss": 3.678084716796875,
307
+ "step": 11700
308
+ },
309
+ {
310
+ "epoch": 0.09471883306397665,
311
+ "grad_norm": 1.1677751541137695,
312
+ "learning_rate": 0.0002781738364149372,
313
+ "loss": 3.6715397135416667,
314
+ "step": 12000
315
+ },
316
+ {
317
+ "epoch": 0.09471883306397665,
318
+ "eval_loss": 3.6702311038970947,
319
+ "eval_runtime": 715.0294,
320
+ "eval_samples_per_second": 127.891,
321
+ "eval_steps_per_second": 15.987,
322
+ "step": 12000
323
+ },
324
+ {
325
+ "epoch": 0.09708680389057607,
326
+ "grad_norm": 1.117470145225525,
327
+ "learning_rate": 0.00027744621678214257,
328
+ "loss": 3.6664725748697915,
329
+ "step": 12300
330
+ },
331
+ {
332
+ "epoch": 0.09945477471717548,
333
+ "grad_norm": 1.2815014123916626,
334
+ "learning_rate": 0.00027671859714934794,
335
+ "loss": 3.661252034505208,
336
+ "step": 12600
337
+ },
338
+ {
339
+ "epoch": 0.1018227455437749,
340
+ "grad_norm": 1.0856040716171265,
341
+ "learning_rate": 0.0002759909775165533,
342
+ "loss": 3.6564200846354167,
343
+ "step": 12900
344
+ },
345
+ {
346
+ "epoch": 0.10419071637037432,
347
+ "grad_norm": 1.1769014596939087,
348
+ "learning_rate": 0.0002752633578837587,
349
+ "loss": 3.649186197916667,
350
+ "step": 13200
351
+ },
352
+ {
353
+ "epoch": 0.10655868719697373,
354
+ "grad_norm": 1.3859938383102417,
355
+ "learning_rate": 0.00027453573825096406,
356
+ "loss": 3.643751627604167,
357
+ "step": 13500
358
+ },
359
+ {
360
+ "epoch": 0.10892665802357315,
361
+ "grad_norm": 1.8141573667526245,
362
+ "learning_rate": 0.00027380811861816944,
363
+ "loss": 3.637841796875,
364
+ "step": 13800
365
+ },
366
+ {
367
+ "epoch": 0.11129462885017256,
368
+ "grad_norm": 1.0778776407241821,
369
+ "learning_rate": 0.0002730804989853748,
370
+ "loss": 3.6337967936197915,
371
+ "step": 14100
372
+ },
373
+ {
374
+ "epoch": 0.11366259967677199,
375
+ "grad_norm": 1.0354928970336914,
376
+ "learning_rate": 0.0002723528793525802,
377
+ "loss": 3.6280550130208336,
378
+ "step": 14400
379
+ },
380
+ {
381
+ "epoch": 0.1160305705033714,
382
+ "grad_norm": 1.0805619955062866,
383
+ "learning_rate": 0.00027162525971978556,
384
+ "loss": 3.624861653645833,
385
+ "step": 14700
386
+ },
387
+ {
388
+ "epoch": 0.11839854132997081,
389
+ "grad_norm": 1.2263294458389282,
390
+ "learning_rate": 0.00027089764008699093,
391
+ "loss": 3.619776611328125,
392
+ "step": 15000
393
+ },
394
+ {
395
+ "epoch": 0.11839854132997081,
396
+ "eval_loss": 3.6203835010528564,
397
+ "eval_runtime": 715.5873,
398
+ "eval_samples_per_second": 127.792,
399
+ "eval_steps_per_second": 15.974,
400
+ "step": 15000
401
+ },
402
+ {
403
+ "epoch": 0.12076651215657024,
404
+ "grad_norm": 0.9841662645339966,
405
+ "learning_rate": 0.00027017002045419636,
406
+ "loss": 3.615108642578125,
407
+ "step": 15300
408
+ },
409
+ {
410
+ "epoch": 0.12313448298316965,
411
+ "grad_norm": 1.1377567052841187,
412
+ "learning_rate": 0.0002694424008214017,
413
+ "loss": 3.6123758951822915,
414
+ "step": 15600
415
+ },
416
+ {
417
+ "epoch": 0.12550245380976907,
418
+ "grad_norm": 1.1826812028884888,
419
+ "learning_rate": 0.00026871478118860705,
420
+ "loss": 3.607783203125,
421
+ "step": 15900
422
+ },
423
+ {
424
+ "epoch": 0.12787042463636847,
425
+ "grad_norm": 1.0089523792266846,
426
+ "learning_rate": 0.0002679871615558124,
427
+ "loss": 3.605452067057292,
428
+ "step": 16200
429
+ },
430
+ {
431
+ "epoch": 0.1302383954629679,
432
+ "grad_norm": 1.0800347328186035,
433
+ "learning_rate": 0.0002672595419230178,
434
+ "loss": 3.6014888509114584,
435
+ "step": 16500
436
+ },
437
+ {
438
+ "epoch": 0.13260636628956732,
439
+ "grad_norm": 1.3550310134887695,
440
+ "learning_rate": 0.0002665319222902232,
441
+ "loss": 3.599439697265625,
442
+ "step": 16800
443
+ },
444
+ {
445
+ "epoch": 0.13497433711616674,
446
+ "grad_norm": 1.1879329681396484,
447
+ "learning_rate": 0.00026580430265742854,
448
+ "loss": 3.59224609375,
449
+ "step": 17100
450
+ },
451
+ {
452
+ "epoch": 0.13734230794276614,
453
+ "grad_norm": 0.9711620211601257,
454
+ "learning_rate": 0.00026507668302463397,
455
+ "loss": 3.590773111979167,
456
+ "step": 17400
457
+ },
458
+ {
459
+ "epoch": 0.13971027876936556,
460
+ "grad_norm": 1.348230004310608,
461
+ "learning_rate": 0.0002643490633918393,
462
+ "loss": 3.586073404947917,
463
+ "step": 17700
464
+ },
465
+ {
466
+ "epoch": 0.142078249595965,
467
+ "grad_norm": 1.338919758796692,
468
+ "learning_rate": 0.0002636214437590447,
469
+ "loss": 3.5837748209635416,
470
+ "step": 18000
471
+ },
472
+ {
473
+ "epoch": 0.142078249595965,
474
+ "eval_loss": 3.585731029510498,
475
+ "eval_runtime": 716.1146,
476
+ "eval_samples_per_second": 127.697,
477
+ "eval_steps_per_second": 15.963,
478
+ "step": 18000
479
+ },
480
+ {
481
+ "epoch": 0.1444462204225644,
482
+ "grad_norm": 1.079649806022644,
483
+ "learning_rate": 0.00026289382412625004,
484
+ "loss": 3.5820625813802085,
485
+ "step": 18300
486
+ },
487
+ {
488
+ "epoch": 0.1468141912491638,
489
+ "grad_norm": 0.9815412759780884,
490
+ "learning_rate": 0.00026216620449345546,
491
+ "loss": 3.579681396484375,
492
+ "step": 18600
493
+ },
494
+ {
495
+ "epoch": 0.14918216207576324,
496
+ "grad_norm": 0.9551495313644409,
497
+ "learning_rate": 0.00026143858486066084,
498
+ "loss": 3.5745731608072915,
499
+ "step": 18900
500
+ },
501
+ {
502
+ "epoch": 0.15155013290236263,
503
+ "grad_norm": 1.2238168716430664,
504
+ "learning_rate": 0.0002607109652278662,
505
+ "loss": 3.57164306640625,
506
+ "step": 19200
507
+ },
508
+ {
509
+ "epoch": 0.15391810372896206,
510
+ "grad_norm": 1.0777201652526855,
511
+ "learning_rate": 0.0002599833455950716,
512
+ "loss": 3.570758056640625,
513
+ "step": 19500
514
+ },
515
+ {
516
+ "epoch": 0.15628607455556148,
517
+ "grad_norm": 1.0027897357940674,
518
+ "learning_rate": 0.0002592557259622769,
519
+ "loss": 3.5670182291666666,
520
+ "step": 19800
521
+ },
522
+ {
523
+ "epoch": 0.15865404538216088,
524
+ "grad_norm": 0.969893217086792,
525
+ "learning_rate": 0.00025852810632948233,
526
+ "loss": 3.563897705078125,
527
+ "step": 20100
528
+ },
529
+ {
530
+ "epoch": 0.1610220162087603,
531
+ "grad_norm": 1.1204485893249512,
532
+ "learning_rate": 0.0002578004866966877,
533
+ "loss": 3.5608902994791665,
534
+ "step": 20400
535
+ },
536
+ {
537
+ "epoch": 0.16338998703535973,
538
+ "grad_norm": 1.3880882263183594,
539
+ "learning_rate": 0.0002570728670638931,
540
+ "loss": 3.559180908203125,
541
+ "step": 20700
542
+ },
543
+ {
544
+ "epoch": 0.16575795786195915,
545
+ "grad_norm": 1.1501843929290771,
546
+ "learning_rate": 0.00025634524743109845,
547
+ "loss": 3.5571744791666666,
548
+ "step": 21000
549
+ },
550
+ {
551
+ "epoch": 0.16575795786195915,
552
+ "eval_loss": 3.557675361633301,
553
+ "eval_runtime": 717.4951,
554
+ "eval_samples_per_second": 127.452,
555
+ "eval_steps_per_second": 15.932,
556
+ "step": 21000
557
+ },
558
+ {
559
+ "epoch": 0.16812592868855855,
560
+ "grad_norm": 1.0499974489212036,
561
+ "learning_rate": 0.0002556176277983038,
562
+ "loss": 3.556209716796875,
563
+ "step": 21300
564
+ },
565
+ {
566
+ "epoch": 0.17049389951515798,
567
+ "grad_norm": 1.0525528192520142,
568
+ "learning_rate": 0.0002548900081655092,
569
+ "loss": 3.552860107421875,
570
+ "step": 21600
571
+ },
572
+ {
573
+ "epoch": 0.1728618703417574,
574
+ "grad_norm": 1.0933493375778198,
575
+ "learning_rate": 0.00025416238853271457,
576
+ "loss": 3.5523689778645835,
577
+ "step": 21900
578
+ },
579
+ {
580
+ "epoch": 0.1752298411683568,
581
+ "grad_norm": 1.2025096416473389,
582
+ "learning_rate": 0.00025343476889991994,
583
+ "loss": 3.5478466796875,
584
+ "step": 22200
585
+ },
586
+ {
587
+ "epoch": 0.17759781199495622,
588
+ "grad_norm": 1.0625479221343994,
589
+ "learning_rate": 0.0002527071492671253,
590
+ "loss": 3.5459244791666666,
591
+ "step": 22500
592
+ },
593
+ {
594
+ "epoch": 0.17996578282155565,
595
+ "grad_norm": 0.9771813154220581,
596
+ "learning_rate": 0.0002519795296343307,
597
+ "loss": 3.5437410481770835,
598
+ "step": 22800
599
+ },
600
+ {
601
+ "epoch": 0.18233375364815504,
602
+ "grad_norm": 1.0128353834152222,
603
+ "learning_rate": 0.00025125191000153606,
604
+ "loss": 3.5427360026041668,
605
+ "step": 23100
606
+ },
607
+ {
608
+ "epoch": 0.18470172447475447,
609
+ "grad_norm": 1.0560641288757324,
610
+ "learning_rate": 0.00025052429036874144,
611
+ "loss": 3.5412748209635416,
612
+ "step": 23400
613
+ },
614
+ {
615
+ "epoch": 0.1870696953013539,
616
+ "grad_norm": 0.9452905058860779,
617
+ "learning_rate": 0.0002497966707359468,
618
+ "loss": 3.5386356608072917,
619
+ "step": 23700
620
+ },
621
+ {
622
+ "epoch": 0.1894376661279533,
623
+ "grad_norm": 1.0137649774551392,
624
+ "learning_rate": 0.0002490690511031522,
625
+ "loss": 3.53781005859375,
626
+ "step": 24000
627
+ },
628
+ {
629
+ "epoch": 0.1894376661279533,
630
+ "eval_loss": 3.536222457885742,
631
+ "eval_runtime": 796.2907,
632
+ "eval_samples_per_second": 114.84,
633
+ "eval_steps_per_second": 14.355,
634
+ "step": 24000
635
+ },
636
+ {
637
+ "epoch": 0.19180563695455272,
638
+ "grad_norm": 0.996288537979126,
639
+ "learning_rate": 0.00024834143147035756,
640
+ "loss": 3.5338720703125,
641
+ "step": 24300
642
+ },
643
+ {
644
+ "epoch": 0.19417360778115214,
645
+ "grad_norm": 1.0632129907608032,
646
+ "learning_rate": 0.00024761381183756293,
647
+ "loss": 3.53280517578125,
648
+ "step": 24600
649
+ },
650
+ {
651
+ "epoch": 0.19654157860775157,
652
+ "grad_norm": 1.082140564918518,
653
+ "learning_rate": 0.0002468861922047683,
654
+ "loss": 3.5305131022135416,
655
+ "step": 24900
656
+ },
657
+ {
658
+ "epoch": 0.19890954943435096,
659
+ "grad_norm": 0.9779849648475647,
660
+ "learning_rate": 0.0002461585725719737,
661
+ "loss": 3.5306551106770834,
662
+ "step": 25200
663
+ },
664
+ {
665
+ "epoch": 0.2012775202609504,
666
+ "grad_norm": 1.0490564107894897,
667
+ "learning_rate": 0.00024543095293917905,
668
+ "loss": 3.5283394368489582,
669
+ "step": 25500
670
+ },
671
+ {
672
+ "epoch": 0.2036454910875498,
673
+ "grad_norm": 0.9798095226287842,
674
+ "learning_rate": 0.0002447033333063845,
675
+ "loss": 3.526612548828125,
676
+ "step": 25800
677
+ },
678
+ {
679
+ "epoch": 0.2060134619141492,
680
+ "grad_norm": 1.0423043966293335,
681
+ "learning_rate": 0.00024397571367358982,
682
+ "loss": 3.523155517578125,
683
+ "step": 26100
684
+ },
685
+ {
686
+ "epoch": 0.20838143274074863,
687
+ "grad_norm": 1.0529029369354248,
688
+ "learning_rate": 0.00024324809404079517,
689
+ "loss": 3.523507080078125,
690
+ "step": 26400
691
+ },
692
+ {
693
+ "epoch": 0.21074940356734806,
694
+ "grad_norm": 1.0267666578292847,
695
+ "learning_rate": 0.00024252047440800057,
696
+ "loss": 3.5207275390625,
697
+ "step": 26700
698
+ },
699
+ {
700
+ "epoch": 0.21311737439394746,
701
+ "grad_norm": 1.0359541177749634,
702
+ "learning_rate": 0.00024179285477520592,
703
+ "loss": 3.5200341796875,
704
+ "step": 27000
705
+ },
706
+ {
707
+ "epoch": 0.21311737439394746,
708
+ "eval_loss": 3.520230770111084,
709
+ "eval_runtime": 870.6716,
710
+ "eval_samples_per_second": 105.029,
711
+ "eval_steps_per_second": 13.129,
712
+ "step": 27000
713
+ },
714
+ {
715
+ "epoch": 0.21548534522054688,
716
+ "grad_norm": 1.037380576133728,
717
+ "learning_rate": 0.00024106523514241132,
718
+ "loss": 3.5190767415364586,
719
+ "step": 27300
720
+ },
721
+ {
722
+ "epoch": 0.2178533160471463,
723
+ "grad_norm": 0.9903006553649902,
724
+ "learning_rate": 0.00024033761550961666,
725
+ "loss": 3.5154398600260417,
726
+ "step": 27600
727
+ },
728
+ {
729
+ "epoch": 0.2202212868737457,
730
+ "grad_norm": 0.9548389911651611,
731
+ "learning_rate": 0.00023960999587682206,
732
+ "loss": 3.514188232421875,
733
+ "step": 27900
734
+ },
735
+ {
736
+ "epoch": 0.22258925770034513,
737
+ "grad_norm": 0.9166722297668457,
738
+ "learning_rate": 0.00023888237624402744,
739
+ "loss": 3.512381998697917,
740
+ "step": 28200
741
+ },
742
+ {
743
+ "epoch": 0.22495722852694455,
744
+ "grad_norm": 1.058884620666504,
745
+ "learning_rate": 0.0002381547566112328,
746
+ "loss": 3.51379638671875,
747
+ "step": 28500
748
+ },
749
+ {
750
+ "epoch": 0.22732519935354398,
751
+ "grad_norm": 0.9274208545684814,
752
+ "learning_rate": 0.00023742713697843818,
753
+ "loss": 3.511065673828125,
754
+ "step": 28800
755
+ },
756
+ {
757
+ "epoch": 0.22969317018014337,
758
+ "grad_norm": 0.90445876121521,
759
+ "learning_rate": 0.00023669951734564358,
760
+ "loss": 3.508526611328125,
761
+ "step": 29100
762
+ },
763
+ {
764
+ "epoch": 0.2320611410067428,
765
+ "grad_norm": 0.9827880859375,
766
+ "learning_rate": 0.00023597189771284893,
767
+ "loss": 3.50707275390625,
768
+ "step": 29400
769
+ },
770
+ {
771
+ "epoch": 0.23442911183334222,
772
+ "grad_norm": 0.9515128135681152,
773
+ "learning_rate": 0.0002352442780800543,
774
+ "loss": 3.507930908203125,
775
+ "step": 29700
776
+ },
777
+ {
778
+ "epoch": 0.23679708265994162,
779
+ "grad_norm": 0.9174400568008423,
780
+ "learning_rate": 0.00023451665844725968,
781
+ "loss": 3.5041459147135416,
782
+ "step": 30000
783
+ },
784
+ {
785
+ "epoch": 0.23679708265994162,
786
+ "eval_loss": 3.5068986415863037,
787
+ "eval_runtime": 838.5585,
788
+ "eval_samples_per_second": 109.051,
789
+ "eval_steps_per_second": 13.632,
790
+ "step": 30000
791
+ },
792
+ {
793
+ "epoch": 0.23916505348654105,
794
+ "grad_norm": 1.100203037261963,
795
+ "learning_rate": 0.00023378903881446505,
796
+ "loss": 3.5045340983072917,
797
+ "step": 30300
798
+ },
799
+ {
800
+ "epoch": 0.24153302431314047,
801
+ "grad_norm": 1.1162805557250977,
802
+ "learning_rate": 0.00023306141918167045,
803
+ "loss": 3.5026436360677082,
804
+ "step": 30600
805
+ },
806
+ {
807
+ "epoch": 0.24390099513973987,
808
+ "grad_norm": 0.9859351515769958,
809
+ "learning_rate": 0.0002323337995488758,
810
+ "loss": 3.4984635416666667,
811
+ "step": 30900
812
+ },
813
+ {
814
+ "epoch": 0.2462689659663393,
815
+ "grad_norm": 1.0356827974319458,
816
+ "learning_rate": 0.0002316061799160812,
817
+ "loss": 3.49945068359375,
818
+ "step": 31200
819
+ },
820
+ {
821
+ "epoch": 0.24863693679293872,
822
+ "grad_norm": 0.9120193123817444,
823
+ "learning_rate": 0.00023087856028328654,
824
+ "loss": 3.4988773600260417,
825
+ "step": 31500
826
+ },
827
+ {
828
+ "epoch": 0.25100490761953814,
829
+ "grad_norm": 0.9607883095741272,
830
+ "learning_rate": 0.00023015094065049194,
831
+ "loss": 3.4984765625,
832
+ "step": 31800
833
+ },
834
+ {
835
+ "epoch": 0.25337287844613754,
836
+ "grad_norm": 0.9375991225242615,
837
+ "learning_rate": 0.00022942332101769732,
838
+ "loss": 3.4940218098958336,
839
+ "step": 32100
840
+ },
841
+ {
842
+ "epoch": 0.25574084927273694,
843
+ "grad_norm": 0.9308803677558899,
844
+ "learning_rate": 0.0002286957013849027,
845
+ "loss": 3.4968701171875,
846
+ "step": 32400
847
+ },
848
+ {
849
+ "epoch": 0.2581088200993364,
850
+ "grad_norm": 0.9001510143280029,
851
+ "learning_rate": 0.00022796808175210806,
852
+ "loss": 3.493405354817708,
853
+ "step": 32700
854
+ },
855
+ {
856
+ "epoch": 0.2604767909259358,
857
+ "grad_norm": 0.9320982098579407,
858
+ "learning_rate": 0.0002272404621193134,
859
+ "loss": 3.4938972981770835,
860
+ "step": 33000
861
+ },
862
+ {
863
+ "epoch": 0.2604767909259358,
864
+ "eval_loss": 3.4941368103027344,
865
+ "eval_runtime": 780.2849,
866
+ "eval_samples_per_second": 117.196,
867
+ "eval_steps_per_second": 14.65,
868
+ "step": 33000
869
+ },
870
+ {
871
+ "epoch": 0.2628447617525352,
872
+ "grad_norm": 0.8956986665725708,
873
+ "learning_rate": 0.0002265128424865188,
874
+ "loss": 3.4921891276041666,
875
+ "step": 33300
876
+ },
877
+ {
878
+ "epoch": 0.26521273257913464,
879
+ "grad_norm": 1.0946784019470215,
880
+ "learning_rate": 0.00022578522285372416,
881
+ "loss": 3.4908650716145835,
882
+ "step": 33600
883
+ },
884
+ {
885
+ "epoch": 0.26758070340573403,
886
+ "grad_norm": 0.9773956537246704,
887
+ "learning_rate": 0.00022505760322092956,
888
+ "loss": 3.490456136067708,
889
+ "step": 33900
890
+ },
891
+ {
892
+ "epoch": 0.2699486742323335,
893
+ "grad_norm": 0.9223257899284363,
894
+ "learning_rate": 0.00022432998358813493,
895
+ "loss": 3.4880021158854166,
896
+ "step": 34200
897
+ },
898
+ {
899
+ "epoch": 0.2723166450589329,
900
+ "grad_norm": 0.968156635761261,
901
+ "learning_rate": 0.0002236023639553403,
902
+ "loss": 3.488686116536458,
903
+ "step": 34500
904
+ },
905
+ {
906
+ "epoch": 0.2746846158855323,
907
+ "grad_norm": 0.936249315738678,
908
+ "learning_rate": 0.00022287474432254568,
909
+ "loss": 3.486342366536458,
910
+ "step": 34800
911
+ },
912
+ {
913
+ "epoch": 0.27705258671213173,
914
+ "grad_norm": 0.9775978326797485,
915
+ "learning_rate": 0.00022214712468975108,
916
+ "loss": 3.485010986328125,
917
+ "step": 35100
918
+ },
919
+ {
920
+ "epoch": 0.27942055753873113,
921
+ "grad_norm": 0.8574739694595337,
922
+ "learning_rate": 0.00022141950505695642,
923
+ "loss": 3.485606689453125,
924
+ "step": 35400
925
+ },
926
+ {
927
+ "epoch": 0.2817885283653305,
928
+ "grad_norm": 1.0943197011947632,
929
+ "learning_rate": 0.00022069188542416182,
930
+ "loss": 3.4831343587239583,
931
+ "step": 35700
932
+ },
933
+ {
934
+ "epoch": 0.28415649919193,
935
+ "grad_norm": 1.110596776008606,
936
+ "learning_rate": 0.00021996426579136717,
937
+ "loss": 3.482994384765625,
938
+ "step": 36000
939
+ },
940
+ {
941
+ "epoch": 0.28415649919193,
942
+ "eval_loss": 3.483867883682251,
943
+ "eval_runtime": 808.3329,
944
+ "eval_samples_per_second": 113.129,
945
+ "eval_steps_per_second": 14.141,
946
+ "step": 36000
947
+ },
948
+ {
949
+ "epoch": 0.2865244700185294,
950
+ "grad_norm": 0.9997596740722656,
951
+ "learning_rate": 0.00021923664615857254,
952
+ "loss": 3.4822794596354165,
953
+ "step": 36300
954
+ },
955
+ {
956
+ "epoch": 0.2888924408451288,
957
+ "grad_norm": 1.0619690418243408,
958
+ "learning_rate": 0.00021850902652577794,
959
+ "loss": 3.4802823893229164,
960
+ "step": 36600
961
+ },
962
+ {
963
+ "epoch": 0.2912604116717282,
964
+ "grad_norm": 0.8717644214630127,
965
+ "learning_rate": 0.0002177814068929833,
966
+ "loss": 3.4801631673177083,
967
+ "step": 36900
968
+ },
969
+ {
970
+ "epoch": 0.2936283824983276,
971
+ "grad_norm": 1.0067319869995117,
972
+ "learning_rate": 0.0002170537872601887,
973
+ "loss": 3.4796492513020834,
974
+ "step": 37200
975
+ },
976
+ {
977
+ "epoch": 0.295996353324927,
978
+ "grad_norm": 0.9514286518096924,
979
+ "learning_rate": 0.00021632616762739404,
980
+ "loss": 3.4773624674479167,
981
+ "step": 37500
982
+ },
983
+ {
984
+ "epoch": 0.29836432415152647,
985
+ "grad_norm": 0.926723837852478,
986
+ "learning_rate": 0.00021559854799459944,
987
+ "loss": 3.478388671875,
988
+ "step": 37800
989
+ },
990
+ {
991
+ "epoch": 0.30073229497812587,
992
+ "grad_norm": 0.8748102188110352,
993
+ "learning_rate": 0.00021487092836180478,
994
+ "loss": 3.475211181640625,
995
+ "step": 38100
996
+ },
997
+ {
998
+ "epoch": 0.30310026580472527,
999
+ "grad_norm": 1.0045989751815796,
1000
+ "learning_rate": 0.00021414330872901018,
1001
+ "loss": 3.473729248046875,
1002
+ "step": 38400
1003
+ },
1004
+ {
1005
+ "epoch": 0.3054682366313247,
1006
+ "grad_norm": 0.8651835918426514,
1007
+ "learning_rate": 0.00021341568909621556,
1008
+ "loss": 3.4740470377604167,
1009
+ "step": 38700
1010
+ },
1011
+ {
1012
+ "epoch": 0.3078362074579241,
1013
+ "grad_norm": 0.8830553889274597,
1014
+ "learning_rate": 0.00021268806946342093,
1015
+ "loss": 3.4751204427083335,
1016
+ "step": 39000
1017
+ },
1018
+ {
1019
+ "epoch": 0.3078362074579241,
1020
+ "eval_loss": 3.4747302532196045,
1021
+ "eval_runtime": 730.2167,
1022
+ "eval_samples_per_second": 125.231,
1023
+ "eval_steps_per_second": 15.654,
1024
+ "step": 39000
1025
+ },
1026
+ {
1027
+ "epoch": 0.3102041782845235,
1028
+ "grad_norm": 0.9464964270591736,
1029
+ "learning_rate": 0.0002119604498306263,
1030
+ "loss": 3.4746061197916664,
1031
+ "step": 39300
1032
+ },
1033
+ {
1034
+ "epoch": 0.31257214911112297,
1035
+ "grad_norm": 0.9324625730514526,
1036
+ "learning_rate": 0.00021123283019783165,
1037
+ "loss": 3.470994059244792,
1038
+ "step": 39600
1039
+ },
1040
+ {
1041
+ "epoch": 0.31494011993772236,
1042
+ "grad_norm": 1.1780554056167603,
1043
+ "learning_rate": 0.00021050521056503705,
1044
+ "loss": 3.4727888997395833,
1045
+ "step": 39900
1046
+ },
1047
+ {
1048
+ "epoch": 0.31730809076432176,
1049
+ "grad_norm": 0.9041585922241211,
1050
+ "learning_rate": 0.00020977759093224242,
1051
+ "loss": 3.468409016927083,
1052
+ "step": 40200
1053
+ },
1054
+ {
1055
+ "epoch": 0.3196760615909212,
1056
+ "grad_norm": 0.9092329144477844,
1057
+ "learning_rate": 0.0002090499712994478,
1058
+ "loss": 3.469168701171875,
1059
+ "step": 40500
1060
+ },
1061
+ {
1062
+ "epoch": 0.3220440324175206,
1063
+ "grad_norm": 0.910569965839386,
1064
+ "learning_rate": 0.00020832235166665317,
1065
+ "loss": 3.4692765299479165,
1066
+ "step": 40800
1067
+ },
1068
+ {
1069
+ "epoch": 0.32441200324412,
1070
+ "grad_norm": 0.9507219791412354,
1071
+ "learning_rate": 0.00020759473203385857,
1072
+ "loss": 3.468035888671875,
1073
+ "step": 41100
1074
+ },
1075
+ {
1076
+ "epoch": 0.32677997407071946,
1077
+ "grad_norm": 0.8926546573638916,
1078
+ "learning_rate": 0.00020686711240106392,
1079
+ "loss": 3.4669425455729166,
1080
+ "step": 41400
1081
+ },
1082
+ {
1083
+ "epoch": 0.32914794489731886,
1084
+ "grad_norm": 0.9421713948249817,
1085
+ "learning_rate": 0.00020613949276826932,
1086
+ "loss": 3.46578369140625,
1087
+ "step": 41700
1088
+ },
1089
+ {
1090
+ "epoch": 0.3315159157239183,
1091
+ "grad_norm": 0.9552275538444519,
1092
+ "learning_rate": 0.00020541187313547466,
1093
+ "loss": 3.465254313151042,
1094
+ "step": 42000
1095
+ },
1096
+ {
1097
+ "epoch": 0.3315159157239183,
1098
+ "eval_loss": 3.4675979614257812,
1099
+ "eval_runtime": 746.4636,
1100
+ "eval_samples_per_second": 122.506,
1101
+ "eval_steps_per_second": 15.314,
1102
+ "step": 42000
1103
+ },
1104
+ {
1105
+ "epoch": 0.3338838865505177,
1106
+ "grad_norm": 0.8721812963485718,
1107
+ "learning_rate": 0.00020468425350268006,
1108
+ "loss": 3.4658219401041666,
1109
+ "step": 42300
1110
+ },
1111
+ {
1112
+ "epoch": 0.3362518573771171,
1113
+ "grad_norm": 0.9490671157836914,
1114
+ "learning_rate": 0.0002039566338698854,
1115
+ "loss": 3.463648681640625,
1116
+ "step": 42600
1117
+ },
1118
+ {
1119
+ "epoch": 0.33861982820371656,
1120
+ "grad_norm": 0.9442757964134216,
1121
+ "learning_rate": 0.00020322901423709078,
1122
+ "loss": 3.463751220703125,
1123
+ "step": 42900
1124
+ },
1125
+ {
1126
+ "epoch": 0.34098779903031595,
1127
+ "grad_norm": 0.9976273775100708,
1128
+ "learning_rate": 0.00020250139460429618,
1129
+ "loss": 3.4618192545572914,
1130
+ "step": 43200
1131
+ },
1132
+ {
1133
+ "epoch": 0.34335576985691535,
1134
+ "grad_norm": 0.9240713715553284,
1135
+ "learning_rate": 0.00020177377497150153,
1136
+ "loss": 3.46244873046875,
1137
+ "step": 43500
1138
+ },
1139
+ {
1140
+ "epoch": 0.3457237406835148,
1141
+ "grad_norm": 0.908048689365387,
1142
+ "learning_rate": 0.00020104615533870693,
1143
+ "loss": 3.461156819661458,
1144
+ "step": 43800
1145
+ },
1146
+ {
1147
+ "epoch": 0.3480917115101142,
1148
+ "grad_norm": 0.9948372840881348,
1149
+ "learning_rate": 0.00020031853570591228,
1150
+ "loss": 3.4602978515625,
1151
+ "step": 44100
1152
+ },
1153
+ {
1154
+ "epoch": 0.3504596823367136,
1155
+ "grad_norm": 0.9128249883651733,
1156
+ "learning_rate": 0.00019959091607311768,
1157
+ "loss": 3.45984130859375,
1158
+ "step": 44400
1159
+ },
1160
+ {
1161
+ "epoch": 0.35282765316331305,
1162
+ "grad_norm": 0.9716851115226746,
1163
+ "learning_rate": 0.00019886329644032305,
1164
+ "loss": 3.4610965983072917,
1165
+ "step": 44700
1166
+ },
1167
+ {
1168
+ "epoch": 0.35519562398991245,
1169
+ "grad_norm": 0.8809486031532288,
1170
+ "learning_rate": 0.00019813567680752842,
1171
+ "loss": 3.459405924479167,
1172
+ "step": 45000
1173
+ },
1174
+ {
1175
+ "epoch": 0.35519562398991245,
1176
+ "eval_loss": 3.459148645401001,
1177
+ "eval_runtime": 746.3606,
1178
+ "eval_samples_per_second": 122.523,
1179
+ "eval_steps_per_second": 15.316,
1180
+ "step": 45000
1181
+ },
1182
+ {
1183
+ "epoch": 0.35756359481651184,
1184
+ "grad_norm": 0.9781611561775208,
1185
+ "learning_rate": 0.0001974080571747338,
1186
+ "loss": 3.457574462890625,
1187
+ "step": 45300
1188
+ },
1189
+ {
1190
+ "epoch": 0.3599315656431113,
1191
+ "grad_norm": 0.9035600423812866,
1192
+ "learning_rate": 0.0001966804375419392,
1193
+ "loss": 3.4560428873697915,
1194
+ "step": 45600
1195
+ },
1196
+ {
1197
+ "epoch": 0.3622995364697107,
1198
+ "grad_norm": 0.9381418228149414,
1199
+ "learning_rate": 0.00019595281790914454,
1200
+ "loss": 3.4561177571614583,
1201
+ "step": 45900
1202
+ },
1203
+ {
1204
+ "epoch": 0.3646675072963101,
1205
+ "grad_norm": 0.895790696144104,
1206
+ "learning_rate": 0.00019522519827634992,
1207
+ "loss": 3.45467041015625,
1208
+ "step": 46200
1209
+ },
1210
+ {
1211
+ "epoch": 0.36703547812290954,
1212
+ "grad_norm": 0.9542234539985657,
1213
+ "learning_rate": 0.0001944975786435553,
1214
+ "loss": 3.4569083658854165,
1215
+ "step": 46500
1216
+ },
1217
+ {
1218
+ "epoch": 0.36940344894950894,
1219
+ "grad_norm": 0.9805415868759155,
1220
+ "learning_rate": 0.00019376995901076066,
1221
+ "loss": 3.455458984375,
1222
+ "step": 46800
1223
+ },
1224
+ {
1225
+ "epoch": 0.37177141977610834,
1226
+ "grad_norm": 0.9199254512786865,
1227
+ "learning_rate": 0.00019304233937796604,
1228
+ "loss": 3.4538167317708335,
1229
+ "step": 47100
1230
+ },
1231
+ {
1232
+ "epoch": 0.3741393906027078,
1233
+ "grad_norm": 1.0180085897445679,
1234
+ "learning_rate": 0.0001923147197451714,
1235
+ "loss": 3.453374430338542,
1236
+ "step": 47400
1237
+ },
1238
+ {
1239
+ "epoch": 0.3765073614293072,
1240
+ "grad_norm": 0.9545879364013672,
1241
+ "learning_rate": 0.0001915871001123768,
1242
+ "loss": 3.4519278971354166,
1243
+ "step": 47700
1244
+ },
1245
+ {
1246
+ "epoch": 0.3788753322559066,
1247
+ "grad_norm": 0.9383215308189392,
1248
+ "learning_rate": 0.00019085948047958216,
1249
+ "loss": 3.4520377604166668,
1250
+ "step": 48000
1251
+ },
1252
+ {
1253
+ "epoch": 0.3788753322559066,
1254
+ "eval_loss": 3.453564405441284,
1255
+ "eval_runtime": 745.4086,
1256
+ "eval_samples_per_second": 122.679,
1257
+ "eval_steps_per_second": 15.335,
1258
+ "step": 48000
1259
+ },
1260
+ {
1261
+ "epoch": 0.38124330308250604,
1262
+ "grad_norm": 0.8732979893684387,
1263
+ "learning_rate": 0.00019013186084678756,
1264
+ "loss": 3.452303873697917,
1265
+ "step": 48300
1266
+ },
1267
+ {
1268
+ "epoch": 0.38361127390910543,
1269
+ "grad_norm": 0.8917658925056458,
1270
+ "learning_rate": 0.0001894042412139929,
1271
+ "loss": 3.45164794921875,
1272
+ "step": 48600
1273
+ },
1274
+ {
1275
+ "epoch": 0.38597924473570483,
1276
+ "grad_norm": 0.8956992626190186,
1277
+ "learning_rate": 0.0001886766215811983,
1278
+ "loss": 3.450028483072917,
1279
+ "step": 48900
1280
+ },
1281
+ {
1282
+ "epoch": 0.3883472155623043,
1283
+ "grad_norm": 1.021035075187683,
1284
+ "learning_rate": 0.00018794900194840368,
1285
+ "loss": 3.450257568359375,
1286
+ "step": 49200
1287
+ },
1288
+ {
1289
+ "epoch": 0.3907151863889037,
1290
+ "grad_norm": 0.9055272936820984,
1291
+ "learning_rate": 0.00018722138231560902,
1292
+ "loss": 3.4502669270833333,
1293
+ "step": 49500
1294
+ },
1295
+ {
1296
+ "epoch": 0.39308315721550313,
1297
+ "grad_norm": 0.9082198739051819,
1298
+ "learning_rate": 0.00018649376268281442,
1299
+ "loss": 3.4501778157552083,
1300
+ "step": 49800
1301
+ },
1302
+ {
1303
+ "epoch": 0.39545112804210253,
1304
+ "grad_norm": 0.9271096587181091,
1305
+ "learning_rate": 0.00018576614305001977,
1306
+ "loss": 3.446944580078125,
1307
+ "step": 50100
1308
+ },
1309
+ {
1310
+ "epoch": 0.3978190988687019,
1311
+ "grad_norm": 0.8688974380493164,
1312
+ "learning_rate": 0.00018503852341722517,
1313
+ "loss": 3.4467333984375,
1314
+ "step": 50400
1315
+ },
1316
+ {
1317
+ "epoch": 0.4001870696953014,
1318
+ "grad_norm": 0.8836665749549866,
1319
+ "learning_rate": 0.00018431090378443054,
1320
+ "loss": 3.4481075032552084,
1321
+ "step": 50700
1322
+ },
1323
+ {
1324
+ "epoch": 0.4025550405219008,
1325
+ "grad_norm": 0.936870276927948,
1326
+ "learning_rate": 0.00018358328415163592,
1327
+ "loss": 3.44533203125,
1328
+ "step": 51000
1329
+ },
1330
+ {
1331
+ "epoch": 0.4025550405219008,
1332
+ "eval_loss": 3.447103261947632,
1333
+ "eval_runtime": 744.2459,
1334
+ "eval_samples_per_second": 122.871,
1335
+ "eval_steps_per_second": 15.359,
1336
+ "step": 51000
1337
+ },
1338
+ {
1339
+ "epoch": 0.4049230113485002,
1340
+ "grad_norm": 0.9273696541786194,
1341
+ "learning_rate": 0.0001828556645188413,
1342
+ "loss": 3.445096435546875,
1343
+ "step": 51300
1344
+ },
1345
+ {
1346
+ "epoch": 0.4072909821750996,
1347
+ "grad_norm": 0.9366033673286438,
1348
+ "learning_rate": 0.00018212804488604666,
1349
+ "loss": 3.4445076497395832,
1350
+ "step": 51600
1351
+ },
1352
+ {
1353
+ "epoch": 0.409658953001699,
1354
+ "grad_norm": 0.9472881555557251,
1355
+ "learning_rate": 0.00018140042525325204,
1356
+ "loss": 3.4447623697916665,
1357
+ "step": 51900
1358
+ },
1359
+ {
1360
+ "epoch": 0.4120269238282984,
1361
+ "grad_norm": 0.8676178455352783,
1362
+ "learning_rate": 0.00018067280562045744,
1363
+ "loss": 3.44419189453125,
1364
+ "step": 52200
1365
+ },
1366
+ {
1367
+ "epoch": 0.41439489465489787,
1368
+ "grad_norm": 0.9277909398078918,
1369
+ "learning_rate": 0.00017994518598766278,
1370
+ "loss": 3.444455159505208,
1371
+ "step": 52500
1372
+ },
1373
+ {
1374
+ "epoch": 0.41676286548149727,
1375
+ "grad_norm": 0.9761715531349182,
1376
+ "learning_rate": 0.00017921756635486816,
1377
+ "loss": 3.4431758626302083,
1378
+ "step": 52800
1379
+ },
1380
+ {
1381
+ "epoch": 0.41913083630809667,
1382
+ "grad_norm": 0.9198261499404907,
1383
+ "learning_rate": 0.00017848994672207353,
1384
+ "loss": 3.4412251790364583,
1385
+ "step": 53100
1386
+ },
1387
+ {
1388
+ "epoch": 0.4214988071346961,
1389
+ "grad_norm": 0.937890350818634,
1390
+ "learning_rate": 0.0001777623270892789,
1391
+ "loss": 3.4420284016927085,
1392
+ "step": 53400
1393
+ },
1394
+ {
1395
+ "epoch": 0.4238667779612955,
1396
+ "grad_norm": 1.0416877269744873,
1397
+ "learning_rate": 0.0001770347074564843,
1398
+ "loss": 3.440599365234375,
1399
+ "step": 53700
1400
+ },
1401
+ {
1402
+ "epoch": 0.4262347487878949,
1403
+ "grad_norm": 0.9447240233421326,
1404
+ "learning_rate": 0.00017630708782368965,
1405
+ "loss": 3.4408907063802086,
1406
+ "step": 54000
1407
+ },
1408
+ {
1409
+ "epoch": 0.4262347487878949,
1410
+ "eval_loss": 3.441429376602173,
1411
+ "eval_runtime": 751.3255,
1412
+ "eval_samples_per_second": 121.713,
1413
+ "eval_steps_per_second": 15.214,
1414
+ "step": 54000
1415
+ },
1416
+ {
1417
+ "epoch": 0.42860271961449437,
1418
+ "grad_norm": 0.9947392344474792,
1419
+ "learning_rate": 0.00017557946819089505,
1420
+ "loss": 3.440968017578125,
1421
+ "step": 54300
1422
+ },
1423
+ {
1424
+ "epoch": 0.43097069044109376,
1425
+ "grad_norm": 0.9691703915596008,
1426
+ "learning_rate": 0.0001748518485581004,
1427
+ "loss": 3.4403125,
1428
+ "step": 54600
1429
+ },
1430
+ {
1431
+ "epoch": 0.43333866126769316,
1432
+ "grad_norm": 0.8677510619163513,
1433
+ "learning_rate": 0.0001741242289253058,
1434
+ "loss": 3.4377701822916666,
1435
+ "step": 54900
1436
+ },
1437
+ {
1438
+ "epoch": 0.4357066320942926,
1439
+ "grad_norm": 1.112776279449463,
1440
+ "learning_rate": 0.00017339660929251117,
1441
+ "loss": 3.438250732421875,
1442
+ "step": 55200
1443
+ },
1444
+ {
1445
+ "epoch": 0.438074602920892,
1446
+ "grad_norm": 0.9026038646697998,
1447
+ "learning_rate": 0.00017266898965971654,
1448
+ "loss": 3.4367390950520833,
1449
+ "step": 55500
1450
+ },
1451
+ {
1452
+ "epoch": 0.4404425737474914,
1453
+ "grad_norm": 0.9615198969841003,
1454
+ "learning_rate": 0.00017194137002692192,
1455
+ "loss": 3.436519775390625,
1456
+ "step": 55800
1457
+ },
1458
+ {
1459
+ "epoch": 0.44281054457409086,
1460
+ "grad_norm": 0.9865854978561401,
1461
+ "learning_rate": 0.0001712137503941273,
1462
+ "loss": 3.4372578938802083,
1463
+ "step": 56100
1464
+ },
1465
+ {
1466
+ "epoch": 0.44517851540069026,
1467
+ "grad_norm": 0.8490434288978577,
1468
+ "learning_rate": 0.00017048613076133266,
1469
+ "loss": 3.4357320149739583,
1470
+ "step": 56400
1471
+ },
1472
+ {
1473
+ "epoch": 0.44754648622728965,
1474
+ "grad_norm": 1.0268882513046265,
1475
+ "learning_rate": 0.000169758511128538,
1476
+ "loss": 3.4376021321614583,
1477
+ "step": 56700
1478
+ },
1479
+ {
1480
+ "epoch": 0.4499144570538891,
1481
+ "grad_norm": 0.8533521294593811,
1482
+ "learning_rate": 0.0001690308914957434,
1483
+ "loss": 3.436923828125,
1484
+ "step": 57000
1485
+ },
1486
+ {
1487
+ "epoch": 0.4499144570538891,
1488
+ "eval_loss": 3.4373722076416016,
1489
+ "eval_runtime": 805.2689,
1490
+ "eval_samples_per_second": 113.56,
1491
+ "eval_steps_per_second": 14.195,
1492
+ "step": 57000
1493
+ },
1494
+ {
1495
+ "epoch": 0.4522824278804885,
1496
+ "grad_norm": 0.9340401291847229,
1497
+ "learning_rate": 0.00016830327186294878,
1498
+ "loss": 3.434686279296875,
1499
+ "step": 57300
1500
+ },
1501
+ {
1502
+ "epoch": 0.45465039870708795,
1503
+ "grad_norm": 0.9090702533721924,
1504
+ "learning_rate": 0.00016757565223015416,
1505
+ "loss": 3.432115478515625,
1506
+ "step": 57600
1507
+ },
1508
+ {
1509
+ "epoch": 0.45701836953368735,
1510
+ "grad_norm": 0.9301067590713501,
1511
+ "learning_rate": 0.00016684803259735953,
1512
+ "loss": 3.4344864908854165,
1513
+ "step": 57900
1514
+ },
1515
+ {
1516
+ "epoch": 0.45938634036028675,
1517
+ "grad_norm": 0.9871979355812073,
1518
+ "learning_rate": 0.00016612041296456493,
1519
+ "loss": 3.4341312662760415,
1520
+ "step": 58200
1521
+ },
1522
+ {
1523
+ "epoch": 0.4617543111868862,
1524
+ "grad_norm": 1.0220112800598145,
1525
+ "learning_rate": 0.00016539279333177028,
1526
+ "loss": 3.433006591796875,
1527
+ "step": 58500
1528
+ },
1529
+ {
1530
+ "epoch": 0.4641222820134856,
1531
+ "grad_norm": 0.8772982358932495,
1532
+ "learning_rate": 0.00016466517369897568,
1533
+ "loss": 3.432755940755208,
1534
+ "step": 58800
1535
+ },
1536
+ {
1537
+ "epoch": 0.466490252840085,
1538
+ "grad_norm": 0.8644952774047852,
1539
+ "learning_rate": 0.00016393755406618102,
1540
+ "loss": 3.433555908203125,
1541
+ "step": 59100
1542
+ },
1543
+ {
1544
+ "epoch": 0.46885822366668445,
1545
+ "grad_norm": 0.8992140889167786,
1546
+ "learning_rate": 0.00016320993443338642,
1547
+ "loss": 3.4328841145833335,
1548
+ "step": 59400
1549
+ },
1550
+ {
1551
+ "epoch": 0.47122619449328385,
1552
+ "grad_norm": 0.928390383720398,
1553
+ "learning_rate": 0.0001624823148005918,
1554
+ "loss": 3.4311100260416665,
1555
+ "step": 59700
1556
+ },
1557
+ {
1558
+ "epoch": 0.47359416531988324,
1559
+ "grad_norm": 0.8753233551979065,
1560
+ "learning_rate": 0.00016175469516779714,
1561
+ "loss": 3.431182861328125,
1562
+ "step": 60000
1563
+ },
1564
+ {
1565
+ "epoch": 0.47359416531988324,
1566
+ "eval_loss": 3.432565450668335,
1567
+ "eval_runtime": 741.1721,
1568
+ "eval_samples_per_second": 123.38,
1569
+ "eval_steps_per_second": 15.423,
1570
+ "step": 60000
1571
+ },
1572
+ {
1573
+ "epoch": 0.4759621361464827,
1574
+ "grad_norm": 0.9439966082572937,
1575
+ "learning_rate": 0.00016102707553500254,
1576
+ "loss": 3.431356201171875,
1577
+ "step": 60300
1578
+ },
1579
+ {
1580
+ "epoch": 0.4783301069730821,
1581
+ "grad_norm": 0.9623426198959351,
1582
+ "learning_rate": 0.0001602994559022079,
1583
+ "loss": 3.4319246419270835,
1584
+ "step": 60600
1585
+ },
1586
+ {
1587
+ "epoch": 0.4806980777996815,
1588
+ "grad_norm": 1.1217174530029297,
1589
+ "learning_rate": 0.0001595718362694133,
1590
+ "loss": 3.4286568196614584,
1591
+ "step": 60900
1592
+ },
1593
+ {
1594
+ "epoch": 0.48306604862628094,
1595
+ "grad_norm": 0.9596153497695923,
1596
+ "learning_rate": 0.00015884421663661864,
1597
+ "loss": 3.4278682454427085,
1598
+ "step": 61200
1599
+ },
1600
+ {
1601
+ "epoch": 0.48543401945288034,
1602
+ "grad_norm": 1.0474796295166016,
1603
+ "learning_rate": 0.00015811659700382404,
1604
+ "loss": 3.429913330078125,
1605
+ "step": 61500
1606
+ },
1607
+ {
1608
+ "epoch": 0.48780199027947974,
1609
+ "grad_norm": 0.8793846368789673,
1610
+ "learning_rate": 0.0001573889773710294,
1611
+ "loss": 3.4282792154947916,
1612
+ "step": 61800
1613
+ },
1614
+ {
1615
+ "epoch": 0.4901699611060792,
1616
+ "grad_norm": 0.9113200902938843,
1617
+ "learning_rate": 0.00015666135773823478,
1618
+ "loss": 3.4286865234375,
1619
+ "step": 62100
1620
+ },
1621
+ {
1622
+ "epoch": 0.4925379319326786,
1623
+ "grad_norm": 0.9840859174728394,
1624
+ "learning_rate": 0.00015593373810544016,
1625
+ "loss": 3.4279158528645834,
1626
+ "step": 62400
1627
+ },
1628
+ {
1629
+ "epoch": 0.494905902759278,
1630
+ "grad_norm": 0.9114407896995544,
1631
+ "learning_rate": 0.00015520611847264556,
1632
+ "loss": 3.4287504069010417,
1633
+ "step": 62700
1634
+ },
1635
+ {
1636
+ "epoch": 0.49727387358587744,
1637
+ "grad_norm": 0.8448418378829956,
1638
+ "learning_rate": 0.0001544784988398509,
1639
+ "loss": 3.425767415364583,
1640
+ "step": 63000
1641
+ },
1642
+ {
1643
+ "epoch": 0.49727387358587744,
1644
+ "eval_loss": 3.428375244140625,
1645
+ "eval_runtime": 744.2897,
1646
+ "eval_samples_per_second": 122.863,
1647
+ "eval_steps_per_second": 15.358,
1648
+ "step": 63000
1649
+ },
1650
+ {
1651
+ "epoch": 0.49964184441247683,
1652
+ "grad_norm": 0.9205408096313477,
1653
+ "learning_rate": 0.00015375087920705628,
1654
+ "loss": 3.4254256184895833,
1655
+ "step": 63300
1656
+ },
1657
+ {
1658
+ "epoch": 0.5020098152390763,
1659
+ "grad_norm": 1.0273767709732056,
1660
+ "learning_rate": 0.00015302325957426165,
1661
+ "loss": 3.4268212890625,
1662
+ "step": 63600
1663
+ },
1664
+ {
1665
+ "epoch": 0.5043777860656756,
1666
+ "grad_norm": 0.8491344451904297,
1667
+ "learning_rate": 0.00015229563994146702,
1668
+ "loss": 3.425308837890625,
1669
+ "step": 63900
1670
+ },
1671
+ {
1672
+ "epoch": 0.5067457568922751,
1673
+ "grad_norm": 0.9568387269973755,
1674
+ "learning_rate": 0.00015156802030867242,
1675
+ "loss": 3.4257462565104166,
1676
+ "step": 64200
1677
+ },
1678
+ {
1679
+ "epoch": 0.5091137277188745,
1680
+ "grad_norm": 0.912223756313324,
1681
+ "learning_rate": 0.00015084040067587777,
1682
+ "loss": 3.42352783203125,
1683
+ "step": 64500
1684
+ },
1685
+ {
1686
+ "epoch": 0.5114816985454739,
1687
+ "grad_norm": 0.8855020403862,
1688
+ "learning_rate": 0.00015011278104308317,
1689
+ "loss": 3.42487060546875,
1690
+ "step": 64800
1691
+ },
1692
+ {
1693
+ "epoch": 0.5138496693720733,
1694
+ "grad_norm": 0.9171079993247986,
1695
+ "learning_rate": 0.00014938516141028852,
1696
+ "loss": 3.425098876953125,
1697
+ "step": 65100
1698
+ },
1699
+ {
1700
+ "epoch": 0.5162176401986728,
1701
+ "grad_norm": 0.9581006169319153,
1702
+ "learning_rate": 0.0001486575417774939,
1703
+ "loss": 3.422734781901042,
1704
+ "step": 65400
1705
+ },
1706
+ {
1707
+ "epoch": 0.5185856110252721,
1708
+ "grad_norm": 0.9489786624908447,
1709
+ "learning_rate": 0.00014792992214469926,
1710
+ "loss": 3.4213761393229167,
1711
+ "step": 65700
1712
+ },
1713
+ {
1714
+ "epoch": 0.5209535818518716,
1715
+ "grad_norm": 0.9567045569419861,
1716
+ "learning_rate": 0.00014720230251190466,
1717
+ "loss": 3.4233223470052083,
1718
+ "step": 66000
1719
+ },
1720
+ {
1721
+ "epoch": 0.5209535818518716,
1722
+ "eval_loss": 3.423550844192505,
1723
+ "eval_runtime": 747.1444,
1724
+ "eval_samples_per_second": 122.394,
1725
+ "eval_steps_per_second": 15.3,
1726
+ "step": 66000
1727
+ },
1728
+ {
1729
+ "epoch": 0.523321552678471,
1730
+ "grad_norm": 0.9048585891723633,
1731
+ "learning_rate": 0.00014647468287911004,
1732
+ "loss": 3.421425374348958,
1733
+ "step": 66300
1734
+ },
1735
+ {
1736
+ "epoch": 0.5256895235050704,
1737
+ "grad_norm": 0.8782548904418945,
1738
+ "learning_rate": 0.0001457470632463154,
1739
+ "loss": 3.4216788736979167,
1740
+ "step": 66600
1741
+ },
1742
+ {
1743
+ "epoch": 0.5280574943316698,
1744
+ "grad_norm": 0.9210931658744812,
1745
+ "learning_rate": 0.00014501944361352078,
1746
+ "loss": 3.420052083333333,
1747
+ "step": 66900
1748
+ },
1749
+ {
1750
+ "epoch": 0.5304254651582693,
1751
+ "grad_norm": 0.8783855438232422,
1752
+ "learning_rate": 0.00014429182398072616,
1753
+ "loss": 3.4197184244791665,
1754
+ "step": 67200
1755
+ },
1756
+ {
1757
+ "epoch": 0.5327934359848686,
1758
+ "grad_norm": 0.9573942422866821,
1759
+ "learning_rate": 0.00014356420434793153,
1760
+ "loss": 3.4213602701822916,
1761
+ "step": 67500
1762
+ },
1763
+ {
1764
+ "epoch": 0.5351614068114681,
1765
+ "grad_norm": 0.8869844079017639,
1766
+ "learning_rate": 0.0001428365847151369,
1767
+ "loss": 3.4201835123697917,
1768
+ "step": 67800
1769
+ },
1770
+ {
1771
+ "epoch": 0.5375293776380675,
1772
+ "grad_norm": 0.9585769176483154,
1773
+ "learning_rate": 0.00014210896508234228,
1774
+ "loss": 3.420860595703125,
1775
+ "step": 68100
1776
+ },
1777
+ {
1778
+ "epoch": 0.539897348464667,
1779
+ "grad_norm": 0.8971334099769592,
1780
+ "learning_rate": 0.00014138134544954765,
1781
+ "loss": 3.4193851725260416,
1782
+ "step": 68400
1783
+ },
1784
+ {
1785
+ "epoch": 0.5422653192912663,
1786
+ "grad_norm": 0.9371477365493774,
1787
+ "learning_rate": 0.00014065372581675302,
1788
+ "loss": 3.4193025716145833,
1789
+ "step": 68700
1790
+ },
1791
+ {
1792
+ "epoch": 0.5446332901178658,
1793
+ "grad_norm": 0.9081939458847046,
1794
+ "learning_rate": 0.0001399261061839584,
1795
+ "loss": 3.4187516276041667,
1796
+ "step": 69000
1797
+ },
1798
+ {
1799
+ "epoch": 0.5446332901178658,
1800
+ "eval_loss": 3.4199793338775635,
1801
+ "eval_runtime": 750.7467,
1802
+ "eval_samples_per_second": 121.807,
1803
+ "eval_steps_per_second": 15.226,
1804
+ "step": 69000
1805
+ },
1806
+ {
1807
+ "epoch": 0.5470012609444652,
1808
+ "grad_norm": 0.9167564511299133,
1809
+ "learning_rate": 0.00013919848655116377,
1810
+ "loss": 3.419979248046875,
1811
+ "step": 69300
1812
+ },
1813
+ {
1814
+ "epoch": 0.5493692317710646,
1815
+ "grad_norm": 0.9261924624443054,
1816
+ "learning_rate": 0.00013847086691836914,
1817
+ "loss": 3.4188728841145832,
1818
+ "step": 69600
1819
+ },
1820
+ {
1821
+ "epoch": 0.551737202597664,
1822
+ "grad_norm": 0.9604618549346924,
1823
+ "learning_rate": 0.00013774324728557452,
1824
+ "loss": 3.4166548665364584,
1825
+ "step": 69900
1826
+ },
1827
+ {
1828
+ "epoch": 0.5541051734242635,
1829
+ "grad_norm": 0.9066981673240662,
1830
+ "learning_rate": 0.0001370156276527799,
1831
+ "loss": 3.4174702962239585,
1832
+ "step": 70200
1833
+ },
1834
+ {
1835
+ "epoch": 0.5564731442508628,
1836
+ "grad_norm": 0.9094845056533813,
1837
+ "learning_rate": 0.0001362880080199853,
1838
+ "loss": 3.417271728515625,
1839
+ "step": 70500
1840
+ },
1841
+ {
1842
+ "epoch": 0.5588411150774623,
1843
+ "grad_norm": 0.8867021799087524,
1844
+ "learning_rate": 0.00013556038838719066,
1845
+ "loss": 3.4159663899739585,
1846
+ "step": 70800
1847
+ },
1848
+ {
1849
+ "epoch": 0.5612090859040617,
1850
+ "grad_norm": 0.8904138207435608,
1851
+ "learning_rate": 0.00013483276875439604,
1852
+ "loss": 3.41653564453125,
1853
+ "step": 71100
1854
+ },
1855
+ {
1856
+ "epoch": 0.563577056730661,
1857
+ "grad_norm": 0.9619826674461365,
1858
+ "learning_rate": 0.00013410514912160138,
1859
+ "loss": 3.417818603515625,
1860
+ "step": 71400
1861
+ },
1862
+ {
1863
+ "epoch": 0.5659450275572605,
1864
+ "grad_norm": 0.9813979864120483,
1865
+ "learning_rate": 0.00013337752948880676,
1866
+ "loss": 3.4158150227864583,
1867
+ "step": 71700
1868
+ },
1869
+ {
1870
+ "epoch": 0.56831299838386,
1871
+ "grad_norm": 0.946321427822113,
1872
+ "learning_rate": 0.00013264990985601213,
1873
+ "loss": 3.416580810546875,
1874
+ "step": 72000
1875
+ },
1876
+ {
1877
+ "epoch": 0.56831299838386,
1878
+ "eval_loss": 3.4163966178894043,
1879
+ "eval_runtime": 745.3651,
1880
+ "eval_samples_per_second": 122.686,
1881
+ "eval_steps_per_second": 15.336,
1882
+ "step": 72000
1883
+ },
1884
+ {
1885
+ "epoch": 0.5706809692104593,
1886
+ "grad_norm": 0.9013136625289917,
1887
+ "learning_rate": 0.00013192229022321753,
1888
+ "loss": 3.414710693359375,
1889
+ "step": 72300
1890
+ },
1891
+ {
1892
+ "epoch": 0.5730489400370588,
1893
+ "grad_norm": 0.8942293524742126,
1894
+ "learning_rate": 0.0001311946705904229,
1895
+ "loss": 3.4147599283854166,
1896
+ "step": 72600
1897
+ },
1898
+ {
1899
+ "epoch": 0.5754169108636582,
1900
+ "grad_norm": 1.0226171016693115,
1901
+ "learning_rate": 0.00013046705095762828,
1902
+ "loss": 3.41486328125,
1903
+ "step": 72900
1904
+ },
1905
+ {
1906
+ "epoch": 0.5777848816902575,
1907
+ "grad_norm": 0.9574885964393616,
1908
+ "learning_rate": 0.00012973943132483365,
1909
+ "loss": 3.4147432454427085,
1910
+ "step": 73200
1911
+ },
1912
+ {
1913
+ "epoch": 0.580152852516857,
1914
+ "grad_norm": 0.932759165763855,
1915
+ "learning_rate": 0.00012901181169203902,
1916
+ "loss": 3.4122733561197918,
1917
+ "step": 73500
1918
+ },
1919
+ {
1920
+ "epoch": 0.5825208233434565,
1921
+ "grad_norm": 0.8803161382675171,
1922
+ "learning_rate": 0.0001282841920592444,
1923
+ "loss": 3.414296875,
1924
+ "step": 73800
1925
+ },
1926
+ {
1927
+ "epoch": 0.5848887941700558,
1928
+ "grad_norm": 1.021998643875122,
1929
+ "learning_rate": 0.00012755657242644977,
1930
+ "loss": 3.4131294759114583,
1931
+ "step": 74100
1932
+ },
1933
+ {
1934
+ "epoch": 0.5872567649966552,
1935
+ "grad_norm": 0.968071460723877,
1936
+ "learning_rate": 0.00012682895279365514,
1937
+ "loss": 3.413003133138021,
1938
+ "step": 74400
1939
+ },
1940
+ {
1941
+ "epoch": 0.5896247358232547,
1942
+ "grad_norm": 1.0821932554244995,
1943
+ "learning_rate": 0.00012610133316086052,
1944
+ "loss": 3.4129736328125,
1945
+ "step": 74700
1946
+ },
1947
+ {
1948
+ "epoch": 0.591992706649854,
1949
+ "grad_norm": 0.8909016847610474,
1950
+ "learning_rate": 0.0001253737135280659,
1951
+ "loss": 3.412833048502604,
1952
+ "step": 75000
1953
+ },
1954
+ {
1955
+ "epoch": 0.591992706649854,
1956
+ "eval_loss": 3.4130373001098633,
1957
+ "eval_runtime": 749.7485,
1958
+ "eval_samples_per_second": 121.969,
1959
+ "eval_steps_per_second": 15.246,
1960
+ "step": 75000
1961
+ },
1962
+ {
1963
+ "epoch": 0.5943606774764535,
1964
+ "grad_norm": 1.0038580894470215,
1965
+ "learning_rate": 0.00012464609389527126,
1966
+ "loss": 3.4115226236979166,
1967
+ "step": 75300
1968
+ },
1969
+ {
1970
+ "epoch": 0.5967286483030529,
1971
+ "grad_norm": 0.9283474683761597,
1972
+ "learning_rate": 0.00012391847426247664,
1973
+ "loss": 3.409629109700521,
1974
+ "step": 75600
1975
+ },
1976
+ {
1977
+ "epoch": 0.5990966191296523,
1978
+ "grad_norm": 0.9440540671348572,
1979
+ "learning_rate": 0.000123190854629682,
1980
+ "loss": 3.4109674072265626,
1981
+ "step": 75900
1982
+ },
1983
+ {
1984
+ "epoch": 0.6014645899562517,
1985
+ "grad_norm": 0.8556481003761292,
1986
+ "learning_rate": 0.00012246323499688738,
1987
+ "loss": 3.410178019205729,
1988
+ "step": 76200
1989
+ },
1990
+ {
1991
+ "epoch": 0.6038325607828512,
1992
+ "grad_norm": 0.9701557159423828,
1993
+ "learning_rate": 0.00012173561536409277,
1994
+ "loss": 3.4105710856119793,
1995
+ "step": 76500
1996
+ },
1997
+ {
1998
+ "epoch": 0.6062005316094505,
1999
+ "grad_norm": 0.9372541904449463,
2000
+ "learning_rate": 0.00012100799573129814,
2001
+ "loss": 3.408436075846354,
2002
+ "step": 76800
2003
+ },
2004
+ {
2005
+ "epoch": 0.60856850243605,
2006
+ "grad_norm": 0.9367093443870544,
2007
+ "learning_rate": 0.00012028037609850352,
2008
+ "loss": 3.408902791341146,
2009
+ "step": 77100
2010
+ },
2011
+ {
2012
+ "epoch": 0.6109364732626494,
2013
+ "grad_norm": 0.9765172004699707,
2014
+ "learning_rate": 0.0001195527564657089,
2015
+ "loss": 3.410556437174479,
2016
+ "step": 77400
2017
+ },
2018
+ {
2019
+ "epoch": 0.6133044440892488,
2020
+ "grad_norm": 0.9547196626663208,
2021
+ "learning_rate": 0.00011882513683291428,
2022
+ "loss": 3.409205118815104,
2023
+ "step": 77700
2024
+ },
2025
+ {
2026
+ "epoch": 0.6156724149158482,
2027
+ "grad_norm": 0.9072284698486328,
2028
+ "learning_rate": 0.00011809751720011964,
2029
+ "loss": 3.4097003173828124,
2030
+ "step": 78000
2031
+ },
2032
+ {
2033
+ "epoch": 0.6156724149158482,
2034
+ "eval_loss": 3.4099109172821045,
2035
+ "eval_runtime": 817.8309,
2036
+ "eval_samples_per_second": 111.815,
2037
+ "eval_steps_per_second": 13.977,
2038
+ "step": 78000
2039
+ },
2040
+ {
2041
+ "epoch": 0.6180403857424477,
2042
+ "grad_norm": 0.8856763243675232,
2043
+ "learning_rate": 0.00011736989756732501,
2044
+ "loss": 3.4088720703125,
2045
+ "step": 78300
2046
+ },
2047
+ {
2048
+ "epoch": 0.620408356569047,
2049
+ "grad_norm": 0.9035690426826477,
2050
+ "learning_rate": 0.00011664227793453038,
2051
+ "loss": 3.4085628255208333,
2052
+ "step": 78600
2053
+ },
2054
+ {
2055
+ "epoch": 0.6227763273956465,
2056
+ "grad_norm": 0.9037633538246155,
2057
+ "learning_rate": 0.00011591465830173576,
2058
+ "loss": 3.4089361572265626,
2059
+ "step": 78900
2060
+ },
2061
+ {
2062
+ "epoch": 0.6251442982222459,
2063
+ "grad_norm": 0.91520756483078,
2064
+ "learning_rate": 0.00011518703866894114,
2065
+ "loss": 3.408426513671875,
2066
+ "step": 79200
2067
+ },
2068
+ {
2069
+ "epoch": 0.6275122690488453,
2070
+ "grad_norm": 0.9762275815010071,
2071
+ "learning_rate": 0.00011445941903614652,
2072
+ "loss": 3.4068282063802084,
2073
+ "step": 79500
2074
+ },
2075
+ {
2076
+ "epoch": 0.6298802398754447,
2077
+ "grad_norm": 0.9305161833763123,
2078
+ "learning_rate": 0.00011373179940335189,
2079
+ "loss": 3.403935953776042,
2080
+ "step": 79800
2081
+ },
2082
+ {
2083
+ "epoch": 0.6322482107020442,
2084
+ "grad_norm": 0.8783509135246277,
2085
+ "learning_rate": 0.00011300417977055726,
2086
+ "loss": 3.4058880615234375,
2087
+ "step": 80100
2088
+ },
2089
+ {
2090
+ "epoch": 0.6346161815286435,
2091
+ "grad_norm": 0.9528281092643738,
2092
+ "learning_rate": 0.00011227656013776265,
2093
+ "loss": 3.4069441731770835,
2094
+ "step": 80400
2095
+ },
2096
+ {
2097
+ "epoch": 0.636984152355243,
2098
+ "grad_norm": 0.9882702827453613,
2099
+ "learning_rate": 0.00011154894050496802,
2100
+ "loss": 3.407682088216146,
2101
+ "step": 80700
2102
+ },
2103
+ {
2104
+ "epoch": 0.6393521231818424,
2105
+ "grad_norm": 0.9206790328025818,
2106
+ "learning_rate": 0.0001108213208721734,
2107
+ "loss": 3.4039154052734375,
2108
+ "step": 81000
2109
+ },
2110
+ {
2111
+ "epoch": 0.6393521231818424,
2112
+ "eval_loss": 3.40670108795166,
2113
+ "eval_runtime": 820.9942,
2114
+ "eval_samples_per_second": 111.384,
2115
+ "eval_steps_per_second": 13.923,
2116
+ "step": 81000
2117
+ },
2118
+ {
2119
+ "epoch": 0.6417200940084418,
2120
+ "grad_norm": 0.925731360912323,
2121
+ "learning_rate": 0.00011009370123937877,
2122
+ "loss": 3.406180419921875,
2123
+ "step": 81300
2124
+ },
2125
+ {
2126
+ "epoch": 0.6440880648350412,
2127
+ "grad_norm": 0.9606015086174011,
2128
+ "learning_rate": 0.00010936608160658413,
2129
+ "loss": 3.406502482096354,
2130
+ "step": 81600
2131
+ },
2132
+ {
2133
+ "epoch": 0.6464560356616407,
2134
+ "grad_norm": 0.9114608764648438,
2135
+ "learning_rate": 0.0001086384619737895,
2136
+ "loss": 3.4049051920572917,
2137
+ "step": 81900
2138
+ },
2139
+ {
2140
+ "epoch": 0.64882400648824,
2141
+ "grad_norm": 0.905232310295105,
2142
+ "learning_rate": 0.00010791084234099489,
2143
+ "loss": 3.4034344482421877,
2144
+ "step": 82200
2145
+ },
2146
+ {
2147
+ "epoch": 0.6511919773148395,
2148
+ "grad_norm": 0.9017631411552429,
2149
+ "learning_rate": 0.00010718322270820026,
2150
+ "loss": 3.4042232259114584,
2151
+ "step": 82500
2152
+ },
2153
+ {
2154
+ "epoch": 0.6535599481414389,
2155
+ "grad_norm": 0.9682673215866089,
2156
+ "learning_rate": 0.00010645560307540564,
2157
+ "loss": 3.40289794921875,
2158
+ "step": 82800
2159
+ },
2160
+ {
2161
+ "epoch": 0.6559279189680383,
2162
+ "grad_norm": 0.9999443888664246,
2163
+ "learning_rate": 0.00010572798344261101,
2164
+ "loss": 3.4032177734375,
2165
+ "step": 83100
2166
+ },
2167
+ {
2168
+ "epoch": 0.6582958897946377,
2169
+ "grad_norm": 0.9269556403160095,
2170
+ "learning_rate": 0.00010500036380981638,
2171
+ "loss": 3.4007576497395835,
2172
+ "step": 83400
2173
+ },
2174
+ {
2175
+ "epoch": 0.6606638606212372,
2176
+ "grad_norm": 0.9589893817901611,
2177
+ "learning_rate": 0.00010427274417702177,
2178
+ "loss": 3.4032047526041667,
2179
+ "step": 83700
2180
+ },
2181
+ {
2182
+ "epoch": 0.6630318314478366,
2183
+ "grad_norm": 0.8739861249923706,
2184
+ "learning_rate": 0.00010354512454422714,
2185
+ "loss": 3.400506795247396,
2186
+ "step": 84000
2187
+ },
2188
+ {
2189
+ "epoch": 0.6630318314478366,
2190
+ "eval_loss": 3.4034643173217773,
2191
+ "eval_runtime": 825.994,
2192
+ "eval_samples_per_second": 110.71,
2193
+ "eval_steps_per_second": 13.839,
2194
+ "step": 84000
2195
+ },
2196
+ {
2197
+ "epoch": 0.665399802274436,
2198
+ "grad_norm": 0.9189532399177551,
2199
+ "learning_rate": 0.00010281750491143252,
2200
+ "loss": 3.402564697265625,
2201
+ "step": 84300
2202
+ },
2203
+ {
2204
+ "epoch": 0.6677677731010354,
2205
+ "grad_norm": 0.9483964443206787,
2206
+ "learning_rate": 0.00010208988527863789,
2207
+ "loss": 3.4014821370442707,
2208
+ "step": 84600
2209
+ },
2210
+ {
2211
+ "epoch": 0.6701357439276349,
2212
+ "grad_norm": 0.9440945386886597,
2213
+ "learning_rate": 0.00010136226564584325,
2214
+ "loss": 3.400501912434896,
2215
+ "step": 84900
2216
+ },
2217
+ {
2218
+ "epoch": 0.6725037147542342,
2219
+ "grad_norm": 0.9399909973144531,
2220
+ "learning_rate": 0.00010063464601304864,
2221
+ "loss": 3.4025087483723957,
2222
+ "step": 85200
2223
+ },
2224
+ {
2225
+ "epoch": 0.6748716855808337,
2226
+ "grad_norm": 0.9791007041931152,
2227
+ "learning_rate": 9.990702638025401e-05,
2228
+ "loss": 3.399855753580729,
2229
+ "step": 85500
2230
+ },
2231
+ {
2232
+ "epoch": 0.6772396564074331,
2233
+ "grad_norm": 0.8749154210090637,
2234
+ "learning_rate": 9.917940674745938e-05,
2235
+ "loss": 3.4002801513671876,
2236
+ "step": 85800
2237
+ },
2238
+ {
2239
+ "epoch": 0.6796076272340325,
2240
+ "grad_norm": 0.9691766500473022,
2241
+ "learning_rate": 9.845178711466476e-05,
2242
+ "loss": 3.4014939371744792,
2243
+ "step": 86100
2244
+ },
2245
+ {
2246
+ "epoch": 0.6819755980606319,
2247
+ "grad_norm": 0.9257389307022095,
2248
+ "learning_rate": 9.772416748187013e-05,
2249
+ "loss": 3.4006268310546877,
2250
+ "step": 86400
2251
+ },
2252
+ {
2253
+ "epoch": 0.6843435688872314,
2254
+ "grad_norm": 0.961001992225647,
2255
+ "learning_rate": 9.699654784907552e-05,
2256
+ "loss": 3.400779215494792,
2257
+ "step": 86700
2258
+ },
2259
+ {
2260
+ "epoch": 0.6867115397138307,
2261
+ "grad_norm": 0.9671078324317932,
2262
+ "learning_rate": 9.626892821628089e-05,
2263
+ "loss": 3.3995322672526043,
2264
+ "step": 87000
2265
+ },
2266
+ {
2267
+ "epoch": 0.6867115397138307,
2268
+ "eval_loss": 3.4005441665649414,
2269
+ "eval_runtime": 830.8743,
2270
+ "eval_samples_per_second": 110.06,
2271
+ "eval_steps_per_second": 13.758,
2272
+ "step": 87000
2273
+ },
2274
+ {
2275
+ "epoch": 0.6890795105404302,
2276
+ "grad_norm": 0.9077408909797668,
2277
+ "learning_rate": 9.554130858348626e-05,
2278
+ "loss": 3.398675333658854,
2279
+ "step": 87300
2280
+ },
2281
+ {
2282
+ "epoch": 0.6914474813670296,
2283
+ "grad_norm": 0.934999942779541,
2284
+ "learning_rate": 9.481368895069164e-05,
2285
+ "loss": 3.398826090494792,
2286
+ "step": 87600
2287
+ },
2288
+ {
2289
+ "epoch": 0.693815452193629,
2290
+ "grad_norm": 0.9157312512397766,
2291
+ "learning_rate": 9.408606931789702e-05,
2292
+ "loss": 3.3968377685546876,
2293
+ "step": 87900
2294
+ },
2295
+ {
2296
+ "epoch": 0.6961834230202284,
2297
+ "grad_norm": 0.9654635190963745,
2298
+ "learning_rate": 9.335844968510237e-05,
2299
+ "loss": 3.398967081705729,
2300
+ "step": 88200
2301
+ },
2302
+ {
2303
+ "epoch": 0.6985513938468279,
2304
+ "grad_norm": 0.9347310066223145,
2305
+ "learning_rate": 9.263083005230776e-05,
2306
+ "loss": 3.398814493815104,
2307
+ "step": 88500
2308
+ },
2309
+ {
2310
+ "epoch": 0.7009193646734272,
2311
+ "grad_norm": 0.9343422651290894,
2312
+ "learning_rate": 9.190321041951313e-05,
2313
+ "loss": 3.3974904378255206,
2314
+ "step": 88800
2315
+ }
2316
+ ],
2317
+ "logging_steps": 300,
2318
+ "max_steps": 126691,
2319
+ "num_input_tokens_seen": 0,
2320
+ "num_train_epochs": 1,
2321
+ "save_steps": 500,
2322
+ "stateful_callbacks": {
2323
+ "TrainerControl": {
2324
+ "args": {
2325
+ "should_epoch_stop": false,
2326
+ "should_evaluate": false,
2327
+ "should_log": false,
2328
+ "should_save": true,
2329
+ "should_training_stop": false
2330
+ },
2331
+ "attributes": {}
2332
+ }
2333
+ },
2334
+ "total_flos": 6.2594298740736e+16,
2335
+ "train_batch_size": 72,
2336
+ "trial_name": null,
2337
+ "trial_params": null
2338
+ }