FierceLLM commited on
Commit
e0b1602
·
verified ·
1 Parent(s): bd6798e

Upload folder using huggingface_hub

Browse files
Files changed (7) hide show
  1. inference.py +33 -0
  2. optimizer.pt +3 -0
  3. rng_state.pth +3 -0
  4. scaler.pt +3 -0
  5. scheduler.pt +3 -0
  6. trainer_state.json +1336 -0
  7. training_args.bin +3 -0
inference.py ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import torch
2
+ from transformers import AutoTokenizer, AutoModelForCausalLM
3
+ from peft import PeftModel
4
+
5
+ # 1. Пути к моделям
6
+ base_model_id = "sberbank-ai/rugpt3small_based_on_gpt2"
7
+ # Укажите путь к папке, которую вы скачали из Colab (например, checkpoint-1860)
8
+ adapter_path = "."
9
+
10
+ # 2. Загрузка токенизатора и базовой модели
11
+ tokenizer = AutoTokenizer.from_pretrained(base_model_id)
12
+ model = AutoModelForCausalLM.from_pretrained(base_model_id, torch_dtype=torch.float16, device_map="auto")
13
+
14
+ # 3. Подгрузка LoRA адаптера
15
+ model = PeftModel.from_pretrained(model, adapter_path)
16
+ model.eval()
17
+
18
+ def generate(text):
19
+ prompt = f"Пользователь: {text}\nПомощник:"
20
+ inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
21
+
22
+ with torch.no_grad():
23
+ outputs = model.generate(
24
+ **inputs,
25
+ max_new_tokens=150,
26
+ do_sample=True,
27
+ top_p=0.9,
28
+ repetition_penalty=1.2
29
+ )
30
+ return tokenizer.decode(outputs[0], skip_special_tokens=True).split("Помощник:")[-1].strip()
31
+
32
+ # Тест
33
+ print(generate(input('Prompt: ')))
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f1e1f91665081be1400758c757e852899908fea5c474ad64d64ac9af014e4e0c
3
+ size 2380711
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6965c4a1ed8b328620d69032102216e144231373c64df6e5914004f150173fc0
3
+ size 14645
scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9ee17376c713ff30ee2fa1e53cb75919bdf726bdefb90a9a1b9537e1df4505ce
3
+ size 1383
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:849ecc6a14587080576796a01e4aed4ccbec7d27095fdec0362226adff5b0f70
3
+ size 1465
trainer_state.json ADDED
@@ -0,0 +1,1336 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 3.0,
6
+ "eval_steps": 500,
7
+ "global_step": 1860,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.016148566814695196,
14
+ "grad_norm": 0.5020289421081543,
15
+ "learning_rate": 8.999999999999999e-05,
16
+ "loss": 2.439466857910156,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.03229713362939039,
21
+ "grad_norm": 0.6233699321746826,
22
+ "learning_rate": 0.00019,
23
+ "loss": 2.4973506927490234,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.04844570044408559,
28
+ "grad_norm": 0.6460151076316833,
29
+ "learning_rate": 0.00029,
30
+ "loss": 2.579629898071289,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.06459426725878079,
35
+ "grad_norm": 0.5584802031517029,
36
+ "learning_rate": 0.00039000000000000005,
37
+ "loss": 2.5269956588745117,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.08074283407347597,
42
+ "grad_norm": 0.5267783403396606,
43
+ "learning_rate": 0.00049,
44
+ "loss": 2.5723337173461913,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.09689140088817118,
49
+ "grad_norm": 0.492374062538147,
50
+ "learning_rate": 0.00059,
51
+ "loss": 2.6084869384765623,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.11303996770286637,
56
+ "grad_norm": 0.533662736415863,
57
+ "learning_rate": 0.00069,
58
+ "loss": 2.527654838562012,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.12918853451756157,
63
+ "grad_norm": 0.568081796169281,
64
+ "learning_rate": 0.00079,
65
+ "loss": 2.584039497375488,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.14533710133225677,
70
+ "grad_norm": 0.5420770049095154,
71
+ "learning_rate": 0.0008900000000000001,
72
+ "loss": 2.5998212814331056,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.16148566814695195,
77
+ "grad_norm": 0.5972040295600891,
78
+ "learning_rate": 0.00099,
79
+ "loss": 2.61820011138916,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.17763423496164715,
84
+ "grad_norm": 0.622533917427063,
85
+ "learning_rate": 0.0009999354806331361,
86
+ "loss": 2.5819944381713866,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.19378280177634236,
91
+ "grad_norm": 0.6911935210227966,
92
+ "learning_rate": 0.0009997124721002689,
93
+ "loss": 2.5768102645874023,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.20993136859103753,
98
+ "grad_norm": 0.7095156908035278,
99
+ "learning_rate": 0.000999330248902402,
100
+ "loss": 2.6130306243896486,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.22607993540573273,
105
+ "grad_norm": 0.5791682600975037,
106
+ "learning_rate": 0.0009987889328206437,
107
+ "loss": 2.562555503845215,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.24222850222042794,
112
+ "grad_norm": 0.5518380403518677,
113
+ "learning_rate": 0.0009980886963250907,
114
+ "loss": 2.518760108947754,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.25837706903512314,
119
+ "grad_norm": 0.4897823631763458,
120
+ "learning_rate": 0.000997229762519879,
121
+ "loss": 2.6402866363525392,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.2745256358498183,
126
+ "grad_norm": 0.5050747394561768,
127
+ "learning_rate": 0.0009962124050720978,
128
+ "loss": 2.684323310852051,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.29067420266451355,
133
+ "grad_norm": 0.468423068523407,
134
+ "learning_rate": 0.0009950369481245985,
135
+ "loss": 2.6152185440063476,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.3068227694792087,
140
+ "grad_norm": 0.5091232657432556,
141
+ "learning_rate": 0.0009937037661927161,
142
+ "loss": 2.531853675842285,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.3229713362939039,
147
+ "grad_norm": 0.4922482967376709,
148
+ "learning_rate": 0.0009922132840449458,
149
+ "loss": 2.6094560623168945,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.33911990310859913,
154
+ "grad_norm": 0.5051465034484863,
155
+ "learning_rate": 0.0009905659765676053,
156
+ "loss": 2.559980583190918,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.3552684699232943,
161
+ "grad_norm": 0.4865105450153351,
162
+ "learning_rate": 0.0009887623686135306,
163
+ "loss": 2.508647346496582,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.3714170367379895,
168
+ "grad_norm": 0.5287356376647949,
169
+ "learning_rate": 0.0009868030348348512,
170
+ "loss": 2.6150222778320313,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.3875656035526847,
175
+ "grad_norm": 0.4643533229827881,
176
+ "learning_rate": 0.0009846885994998983,
177
+ "loss": 2.6150381088256838,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.4037141703673799,
182
+ "grad_norm": 0.46244189143180847,
183
+ "learning_rate": 0.0009824197362943063,
184
+ "loss": 2.5374935150146483,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.41986273718207506,
189
+ "grad_norm": 0.480276882648468,
190
+ "learning_rate": 0.000979997168106366,
191
+ "loss": 2.5654741287231446,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.4360113039967703,
196
+ "grad_norm": 0.5552269816398621,
197
+ "learning_rate": 0.0009774216667967062,
198
+ "loss": 2.6036794662475584,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.45215987081146547,
203
+ "grad_norm": 0.511289656162262,
204
+ "learning_rate": 0.000974694052952366,
205
+ "loss": 2.610031318664551,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.4683084376261607,
210
+ "grad_norm": 0.5037236213684082,
211
+ "learning_rate": 0.000971815195625348,
212
+ "loss": 2.516169548034668,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.4844570044408559,
217
+ "grad_norm": 0.5199276804924011,
218
+ "learning_rate": 0.000968786012055726,
219
+ "loss": 2.5069480895996095,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.500605571255551,
224
+ "grad_norm": 0.5875343680381775,
225
+ "learning_rate": 0.0009656074673794017,
226
+ "loss": 2.639841651916504,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.5167541380702463,
231
+ "grad_norm": 0.5489600896835327,
232
+ "learning_rate": 0.0009622805743205998,
233
+ "loss": 2.5628652572631836,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.5329027048849415,
238
+ "grad_norm": 0.4753468334674835,
239
+ "learning_rate": 0.0009588063928692012,
240
+ "loss": 2.5956233978271483,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.5490512716996366,
245
+ "grad_norm": 0.5152420997619629,
246
+ "learning_rate": 0.0009551860299430173,
247
+ "loss": 2.597700500488281,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.5651998385143319,
252
+ "grad_norm": 0.4520896375179291,
253
+ "learning_rate": 0.0009514206390351116,
254
+ "loss": 2.586415481567383,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.5813484053290271,
259
+ "grad_norm": 0.5123590230941772,
260
+ "learning_rate": 0.0009475114198462837,
261
+ "loss": 2.555033302307129,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.5974969721437222,
266
+ "grad_norm": 0.6008352637290955,
267
+ "learning_rate": 0.0009434596179028271,
268
+ "loss": 2.6199901580810545,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.6136455389584174,
273
+ "grad_norm": 0.4769132435321808,
274
+ "learning_rate": 0.0009392665241596914,
275
+ "loss": 2.5420787811279295,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.6297941057731127,
280
+ "grad_norm": 0.4474424421787262,
281
+ "learning_rate": 0.0009349334745891666,
282
+ "loss": 2.549270820617676,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.6459426725878078,
287
+ "grad_norm": 0.5046530365943909,
288
+ "learning_rate": 0.0009304618497552253,
289
+ "loss": 2.540346145629883,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.662091239402503,
294
+ "grad_norm": 0.5442773699760437,
295
+ "learning_rate": 0.0009258530743736586,
296
+ "loss": 2.550925636291504,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.6782398062171983,
301
+ "grad_norm": 0.45155641436576843,
302
+ "learning_rate": 0.0009211086168581433,
303
+ "loss": 2.5896928787231444,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.6943883730318934,
308
+ "grad_norm": 0.48448678851127625,
309
+ "learning_rate": 0.0009162299888523867,
310
+ "loss": 2.568522834777832,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.7105369398465886,
315
+ "grad_norm": 0.4634808897972107,
316
+ "learning_rate": 0.0009112187447484979,
317
+ "loss": 2.543706512451172,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.7266855066612838,
322
+ "grad_norm": 0.520962655544281,
323
+ "learning_rate": 0.0009060764811917397,
324
+ "loss": 2.4791580200195313,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.742834073475979,
329
+ "grad_norm": 0.495394766330719,
330
+ "learning_rate": 0.0009008048365718167,
331
+ "loss": 2.6086082458496094,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.7589826402906742,
336
+ "grad_norm": 0.4325544834136963,
337
+ "learning_rate": 0.0008954054905008639,
338
+ "loss": 2.5405605316162108,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.7751312071053694,
343
+ "grad_norm": 0.4992341697216034,
344
+ "learning_rate": 0.0008898801632783013,
345
+ "loss": 2.6021982192993165,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.7912797739200645,
350
+ "grad_norm": 0.5032821893692017,
351
+ "learning_rate": 0.0008842306153427246,
352
+ "loss": 2.5671119689941406,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 0.8074283407347598,
357
+ "grad_norm": 0.44175952672958374,
358
+ "learning_rate": 0.000878458646711008,
359
+ "loss": 2.5145410537719726,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 0.823576907549455,
364
+ "grad_norm": 0.48530301451683044,
365
+ "learning_rate": 0.0008725660964047959,
366
+ "loss": 2.4978832244873046,
367
+ "step": 510
368
+ },
369
+ {
370
+ "epoch": 0.8397254743641501,
371
+ "grad_norm": 0.4604915976524353,
372
+ "learning_rate": 0.0008665548418645672,
373
+ "loss": 2.5596445083618162,
374
+ "step": 520
375
+ },
376
+ {
377
+ "epoch": 0.8558740411788454,
378
+ "grad_norm": 0.45781826972961426,
379
+ "learning_rate": 0.0008604267983514594,
380
+ "loss": 2.6085268020629884,
381
+ "step": 530
382
+ },
383
+ {
384
+ "epoch": 0.8720226079935406,
385
+ "grad_norm": 0.48819592595100403,
386
+ "learning_rate": 0.000854183918337043,
387
+ "loss": 2.5747554779052733,
388
+ "step": 540
389
+ },
390
+ {
391
+ "epoch": 0.8881711748082358,
392
+ "grad_norm": 0.4929693043231964,
393
+ "learning_rate": 0.0008478281908812387,
394
+ "loss": 2.543058395385742,
395
+ "step": 550
396
+ },
397
+ {
398
+ "epoch": 0.9043197416229309,
399
+ "grad_norm": 0.4913038909435272,
400
+ "learning_rate": 0.0008413616409985779,
401
+ "loss": 2.5399295806884767,
402
+ "step": 560
403
+ },
404
+ {
405
+ "epoch": 0.9204683084376262,
406
+ "grad_norm": 0.47384563088417053,
407
+ "learning_rate": 0.0008347863290130087,
408
+ "loss": 2.5927974700927736,
409
+ "step": 570
410
+ },
411
+ {
412
+ "epoch": 0.9366168752523214,
413
+ "grad_norm": 0.4775764048099518,
414
+ "learning_rate": 0.0008281043499014498,
415
+ "loss": 2.5593168258666994,
416
+ "step": 580
417
+ },
418
+ {
419
+ "epoch": 0.9527654420670165,
420
+ "grad_norm": 0.5058761239051819,
421
+ "learning_rate": 0.0008213178326263049,
422
+ "loss": 2.552435111999512,
423
+ "step": 590
424
+ },
425
+ {
426
+ "epoch": 0.9689140088817118,
427
+ "grad_norm": 0.4922596216201782,
428
+ "learning_rate": 0.0008144289394571484,
429
+ "loss": 2.5472679138183594,
430
+ "step": 600
431
+ },
432
+ {
433
+ "epoch": 0.985062575696407,
434
+ "grad_norm": 0.49022358655929565,
435
+ "learning_rate": 0.0008074398652817998,
436
+ "loss": 2.5109460830688475,
437
+ "step": 610
438
+ },
439
+ {
440
+ "epoch": 1.0,
441
+ "grad_norm": 1.6876914501190186,
442
+ "learning_rate": 0.0008003528369070043,
443
+ "loss": 2.465944290161133,
444
+ "step": 620
445
+ },
446
+ {
447
+ "epoch": 1.0161485668146952,
448
+ "grad_norm": 0.4119199812412262,
449
+ "learning_rate": 0.0007931701123489439,
450
+ "loss": 2.520769500732422,
451
+ "step": 630
452
+ },
453
+ {
454
+ "epoch": 1.0322971336293905,
455
+ "grad_norm": 0.4147922992706299,
456
+ "learning_rate": 0.000785893980113806,
457
+ "loss": 2.5548782348632812,
458
+ "step": 640
459
+ },
460
+ {
461
+ "epoch": 1.0484457004440857,
462
+ "grad_norm": 0.5313045382499695,
463
+ "learning_rate": 0.0007785267584686366,
464
+ "loss": 2.6331764221191407,
465
+ "step": 650
466
+ },
467
+ {
468
+ "epoch": 1.0645942672587807,
469
+ "grad_norm": 0.45284605026245117,
470
+ "learning_rate": 0.00077107079470271,
471
+ "loss": 2.519462013244629,
472
+ "step": 660
473
+ },
474
+ {
475
+ "epoch": 1.080742834073476,
476
+ "grad_norm": 0.5042719841003418,
477
+ "learning_rate": 0.0007635284643796545,
478
+ "loss": 2.4921422958374024,
479
+ "step": 670
480
+ },
481
+ {
482
+ "epoch": 1.0968914008881712,
483
+ "grad_norm": 0.4403098225593567,
484
+ "learning_rate": 0.0007559021705805671,
485
+ "loss": 2.454839897155762,
486
+ "step": 680
487
+ },
488
+ {
489
+ "epoch": 1.1130399677028664,
490
+ "grad_norm": 0.4963165819644928,
491
+ "learning_rate": 0.0007481943431383622,
492
+ "loss": 2.5821470260620116,
493
+ "step": 690
494
+ },
495
+ {
496
+ "epoch": 1.1291885345175616,
497
+ "grad_norm": 0.4509197175502777,
498
+ "learning_rate": 0.000740407437863596,
499
+ "loss": 2.4973094940185545,
500
+ "step": 700
501
+ },
502
+ {
503
+ "epoch": 1.1453371013322569,
504
+ "grad_norm": 0.49439796805381775,
505
+ "learning_rate": 0.0007325439357620147,
506
+ "loss": 2.6476114273071287,
507
+ "step": 710
508
+ },
509
+ {
510
+ "epoch": 1.1614856681469519,
511
+ "grad_norm": 0.5243302583694458,
512
+ "learning_rate": 0.0007246063422440747,
513
+ "loss": 2.4758913040161135,
514
+ "step": 720
515
+ },
516
+ {
517
+ "epoch": 1.177634234961647,
518
+ "grad_norm": 0.6043158769607544,
519
+ "learning_rate": 0.0007165971863266878,
520
+ "loss": 2.5820987701416014,
521
+ "step": 730
522
+ },
523
+ {
524
+ "epoch": 1.1937828017763423,
525
+ "grad_norm": 0.44207850098609924,
526
+ "learning_rate": 0.0007085190198274438,
527
+ "loss": 2.4599235534667967,
528
+ "step": 740
529
+ },
530
+ {
531
+ "epoch": 1.2099313685910376,
532
+ "grad_norm": 0.4254566431045532,
533
+ "learning_rate": 0.0007003744165515704,
534
+ "loss": 2.4942739486694334,
535
+ "step": 750
536
+ },
537
+ {
538
+ "epoch": 1.2260799354057328,
539
+ "grad_norm": 0.41949278116226196,
540
+ "learning_rate": 0.0006921659714718863,
541
+ "loss": 2.505445098876953,
542
+ "step": 760
543
+ },
544
+ {
545
+ "epoch": 1.242228502220428,
546
+ "grad_norm": 0.4123310148715973,
547
+ "learning_rate": 0.0006838962999020094,
548
+ "loss": 2.5693735122680663,
549
+ "step": 770
550
+ },
551
+ {
552
+ "epoch": 1.2583770690351233,
553
+ "grad_norm": 0.4186009168624878,
554
+ "learning_rate": 0.0006755680366630865,
555
+ "loss": 2.4493398666381836,
556
+ "step": 780
557
+ },
558
+ {
559
+ "epoch": 1.2745256358498183,
560
+ "grad_norm": 0.444654643535614,
561
+ "learning_rate": 0.0006671838352443049,
562
+ "loss": 2.5728691101074217,
563
+ "step": 790
564
+ },
565
+ {
566
+ "epoch": 1.2906742026645135,
567
+ "grad_norm": 0.40202823281288147,
568
+ "learning_rate": 0.0006587463669574584,
569
+ "loss": 2.526685333251953,
570
+ "step": 800
571
+ },
572
+ {
573
+ "epoch": 1.3068227694792087,
574
+ "grad_norm": 0.4873361885547638,
575
+ "learning_rate": 0.0006502583200858335,
576
+ "loss": 2.5635454177856447,
577
+ "step": 810
578
+ },
579
+ {
580
+ "epoch": 1.322971336293904,
581
+ "grad_norm": 0.5394927859306335,
582
+ "learning_rate": 0.0006417223990276883,
583
+ "loss": 2.6018707275390627,
584
+ "step": 820
585
+ },
586
+ {
587
+ "epoch": 1.3391199031085992,
588
+ "grad_norm": 0.5254472494125366,
589
+ "learning_rate": 0.0006331413234345977,
590
+ "loss": 2.5202842712402345,
591
+ "step": 830
592
+ },
593
+ {
594
+ "epoch": 1.3552684699232942,
595
+ "grad_norm": 0.4611901342868805,
596
+ "learning_rate": 0.0006245178273449383,
597
+ "loss": 2.527310371398926,
598
+ "step": 840
599
+ },
600
+ {
601
+ "epoch": 1.3714170367379894,
602
+ "grad_norm": 0.46280530095100403,
603
+ "learning_rate": 0.0006158546583127886,
604
+ "loss": 2.5010074615478515,
605
+ "step": 850
606
+ },
607
+ {
608
+ "epoch": 1.3875656035526847,
609
+ "grad_norm": 0.47044530510902405,
610
+ "learning_rate": 0.0006071545765325253,
611
+ "loss": 2.658343505859375,
612
+ "step": 860
613
+ },
614
+ {
615
+ "epoch": 1.4037141703673799,
616
+ "grad_norm": 0.5649057030677795,
617
+ "learning_rate": 0.0005984203539593897,
618
+ "loss": 2.514650344848633,
619
+ "step": 870
620
+ },
621
+ {
622
+ "epoch": 1.4198627371820751,
623
+ "grad_norm": 0.5100232362747192,
624
+ "learning_rate": 0.0005896547734263077,
625
+ "loss": 2.4994720458984374,
626
+ "step": 880
627
+ },
628
+ {
629
+ "epoch": 1.4360113039967703,
630
+ "grad_norm": 0.4990105926990509,
631
+ "learning_rate": 0.0005808606277572453,
632
+ "loss": 2.489163398742676,
633
+ "step": 890
634
+ },
635
+ {
636
+ "epoch": 1.4521598708114656,
637
+ "grad_norm": 0.473297655582428,
638
+ "learning_rate": 0.0005720407188773791,
639
+ "loss": 2.534769630432129,
640
+ "step": 900
641
+ },
642
+ {
643
+ "epoch": 1.4683084376261606,
644
+ "grad_norm": 0.5112643837928772,
645
+ "learning_rate": 0.000563197856920368,
646
+ "loss": 2.5247997283935546,
647
+ "step": 910
648
+ },
649
+ {
650
+ "epoch": 1.4844570044408558,
651
+ "grad_norm": 0.4357326924800873,
652
+ "learning_rate": 0.0005543348593330093,
653
+ "loss": 2.508163642883301,
654
+ "step": 920
655
+ },
656
+ {
657
+ "epoch": 1.500605571255551,
658
+ "grad_norm": 0.47014695405960083,
659
+ "learning_rate": 0.0005454545499775651,
660
+ "loss": 2.6127824783325195,
661
+ "step": 930
662
+ },
663
+ {
664
+ "epoch": 1.5167541380702463,
665
+ "grad_norm": 0.4659437835216522,
666
+ "learning_rate": 0.0005365597582320436,
667
+ "loss": 2.4793100357055664,
668
+ "step": 940
669
+ },
670
+ {
671
+ "epoch": 1.5329027048849415,
672
+ "grad_norm": 0.5408269166946411,
673
+ "learning_rate": 0.0005276533180887248,
674
+ "loss": 2.45506591796875,
675
+ "step": 950
676
+ },
677
+ {
678
+ "epoch": 1.5490512716996365,
679
+ "grad_norm": 0.5870039463043213,
680
+ "learning_rate": 0.000518738067251214,
681
+ "loss": 2.480586814880371,
682
+ "step": 960
683
+ },
684
+ {
685
+ "epoch": 1.565199838514332,
686
+ "grad_norm": 0.48131951689720154,
687
+ "learning_rate": 0.0005098168462303141,
688
+ "loss": 2.589830207824707,
689
+ "step": 970
690
+ },
691
+ {
692
+ "epoch": 1.581348405329027,
693
+ "grad_norm": 0.4618188440799713,
694
+ "learning_rate": 0.0005008924974390041,
695
+ "loss": 2.5488056182861327,
696
+ "step": 980
697
+ },
698
+ {
699
+ "epoch": 1.5974969721437222,
700
+ "grad_norm": 0.49082285165786743,
701
+ "learning_rate": 0.0004919678642868092,
702
+ "loss": 2.4781982421875,
703
+ "step": 990
704
+ },
705
+ {
706
+ "epoch": 1.6136455389584174,
707
+ "grad_norm": 0.47744420170783997,
708
+ "learning_rate": 0.0004830457902738558,
709
+ "loss": 2.517325210571289,
710
+ "step": 1000
711
+ },
712
+ {
713
+ "epoch": 1.6297941057731127,
714
+ "grad_norm": 0.507945716381073,
715
+ "learning_rate": 0.0004741291180848961,
716
+ "loss": 2.5076452255249024,
717
+ "step": 1010
718
+ },
719
+ {
720
+ "epoch": 1.645942672587808,
721
+ "grad_norm": 0.42816001176834106,
722
+ "learning_rate": 0.000465220688683594,
723
+ "loss": 2.671817398071289,
724
+ "step": 1020
725
+ },
726
+ {
727
+ "epoch": 1.662091239402503,
728
+ "grad_norm": 0.4258963167667389,
729
+ "learning_rate": 0.00045632334040735764,
730
+ "loss": 2.533784103393555,
731
+ "step": 1030
732
+ },
733
+ {
734
+ "epoch": 1.6782398062171984,
735
+ "grad_norm": 0.494028240442276,
736
+ "learning_rate": 0.00044743990806300917,
737
+ "loss": 2.514291000366211,
738
+ "step": 1040
739
+ },
740
+ {
741
+ "epoch": 1.6943883730318934,
742
+ "grad_norm": 0.4230322539806366,
743
+ "learning_rate": 0.00043857322202358066,
744
+ "loss": 2.5531696319580077,
745
+ "step": 1050
746
+ },
747
+ {
748
+ "epoch": 1.7105369398465886,
749
+ "grad_norm": 0.5738111734390259,
750
+ "learning_rate": 0.00042972610732652105,
751
+ "loss": 2.5059112548828124,
752
+ "step": 1060
753
+ },
754
+ {
755
+ "epoch": 1.7266855066612838,
756
+ "grad_norm": 0.5092839002609253,
757
+ "learning_rate": 0.0004209013827736042,
758
+ "loss": 2.5219795227050783,
759
+ "step": 1070
760
+ },
761
+ {
762
+ "epoch": 1.7428340734759789,
763
+ "grad_norm": 0.4812857508659363,
764
+ "learning_rate": 0.00041210186003282274,
765
+ "loss": 2.5235408782958983,
766
+ "step": 1080
767
+ },
768
+ {
769
+ "epoch": 1.7589826402906743,
770
+ "grad_norm": 0.47096627950668335,
771
+ "learning_rate": 0.000403330342742556,
772
+ "loss": 2.574551582336426,
773
+ "step": 1090
774
+ },
775
+ {
776
+ "epoch": 1.7751312071053693,
777
+ "grad_norm": 0.4319113790988922,
778
+ "learning_rate": 0.0003945896256182949,
779
+ "loss": 2.610904502868652,
780
+ "step": 1100
781
+ },
782
+ {
783
+ "epoch": 1.7912797739200645,
784
+ "grad_norm": 0.44047966599464417,
785
+ "learning_rate": 0.0003858824935622115,
786
+ "loss": 2.5323257446289062,
787
+ "step": 1110
788
+ },
789
+ {
790
+ "epoch": 1.8074283407347598,
791
+ "grad_norm": 0.548047661781311,
792
+ "learning_rate": 0.00037721172077585287,
793
+ "loss": 2.5165468215942384,
794
+ "step": 1120
795
+ },
796
+ {
797
+ "epoch": 1.823576907549455,
798
+ "grad_norm": 0.46526339650154114,
799
+ "learning_rate": 0.00036858006987624723,
800
+ "loss": 2.502303886413574,
801
+ "step": 1130
802
+ },
803
+ {
804
+ "epoch": 1.8397254743641502,
805
+ "grad_norm": 0.4635223150253296,
806
+ "learning_rate": 0.0003599902910156984,
807
+ "loss": 2.5442089080810546,
808
+ "step": 1140
809
+ },
810
+ {
811
+ "epoch": 1.8558740411788452,
812
+ "grad_norm": 0.5317935347557068,
813
+ "learning_rate": 0.0003514451210055527,
814
+ "loss": 2.600077247619629,
815
+ "step": 1150
816
+ },
817
+ {
818
+ "epoch": 1.8720226079935407,
819
+ "grad_norm": 0.5463606119155884,
820
+ "learning_rate": 0.00034294728244421756,
821
+ "loss": 2.574476623535156,
822
+ "step": 1160
823
+ },
824
+ {
825
+ "epoch": 1.8881711748082357,
826
+ "grad_norm": 0.4650241732597351,
827
+ "learning_rate": 0.00033449948284970617,
828
+ "loss": 2.500654411315918,
829
+ "step": 1170
830
+ },
831
+ {
832
+ "epoch": 1.904319741622931,
833
+ "grad_norm": 0.40839987993240356,
834
+ "learning_rate": 0.00032610441379698937,
835
+ "loss": 2.4712839126586914,
836
+ "step": 1180
837
+ },
838
+ {
839
+ "epoch": 1.9204683084376262,
840
+ "grad_norm": 0.49943020939826965,
841
+ "learning_rate": 0.0003177647500604252,
842
+ "loss": 2.5296091079711913,
843
+ "step": 1190
844
+ },
845
+ {
846
+ "epoch": 1.9366168752523214,
847
+ "grad_norm": 0.4655015468597412,
848
+ "learning_rate": 0.00030948314876154306,
849
+ "loss": 2.5075130462646484,
850
+ "step": 1200
851
+ },
852
+ {
853
+ "epoch": 1.9527654420670166,
854
+ "grad_norm": 0.45307499170303345,
855
+ "learning_rate": 0.00030126224852245056,
856
+ "loss": 2.464124298095703,
857
+ "step": 1210
858
+ },
859
+ {
860
+ "epoch": 1.9689140088817116,
861
+ "grad_norm": 0.5530602931976318,
862
+ "learning_rate": 0.0002931046686251365,
863
+ "loss": 2.553061866760254,
864
+ "step": 1220
865
+ },
866
+ {
867
+ "epoch": 1.985062575696407,
868
+ "grad_norm": 0.46495500206947327,
869
+ "learning_rate": 0.0002850130081769334,
870
+ "loss": 2.486197853088379,
871
+ "step": 1230
872
+ },
873
+ {
874
+ "epoch": 2.0,
875
+ "grad_norm": 1.9545954465866089,
876
+ "learning_rate": 0.00027698984528241036,
877
+ "loss": 2.4371877670288087,
878
+ "step": 1240
879
+ },
880
+ {
881
+ "epoch": 2.016148566814695,
882
+ "grad_norm": 0.48022302985191345,
883
+ "learning_rate": 0.00026903773622195636,
884
+ "loss": 2.512773895263672,
885
+ "step": 1250
886
+ },
887
+ {
888
+ "epoch": 2.0322971336293905,
889
+ "grad_norm": 0.433242529630661,
890
+ "learning_rate": 0.00026115921463731694,
891
+ "loss": 2.5300994873046876,
892
+ "step": 1260
893
+ },
894
+ {
895
+ "epoch": 2.0484457004440855,
896
+ "grad_norm": 0.47226834297180176,
897
+ "learning_rate": 0.0002533567907243446,
898
+ "loss": 2.421502113342285,
899
+ "step": 1270
900
+ },
901
+ {
902
+ "epoch": 2.064594267258781,
903
+ "grad_norm": 0.5992064476013184,
904
+ "learning_rate": 0.00024563295043321783,
905
+ "loss": 2.5453359603881838,
906
+ "step": 1280
907
+ },
908
+ {
909
+ "epoch": 2.080742834073476,
910
+ "grad_norm": 0.4261581599712372,
911
+ "learning_rate": 0.0002379901546763879,
912
+ "loss": 2.495037841796875,
913
+ "step": 1290
914
+ },
915
+ {
916
+ "epoch": 2.0968914008881714,
917
+ "grad_norm": 0.4328082203865051,
918
+ "learning_rate": 0.00023043083854449987,
919
+ "loss": 2.464985466003418,
920
+ "step": 1300
921
+ },
922
+ {
923
+ "epoch": 2.1130399677028664,
924
+ "grad_norm": 0.4510248303413391,
925
+ "learning_rate": 0.00022295741053054296,
926
+ "loss": 2.5308864593505858,
927
+ "step": 1310
928
+ },
929
+ {
930
+ "epoch": 2.1291885345175614,
931
+ "grad_norm": 0.49293237924575806,
932
+ "learning_rate": 0.00021557225176247353,
933
+ "loss": 2.5278299331665037,
934
+ "step": 1320
935
+ },
936
+ {
937
+ "epoch": 2.145337101332257,
938
+ "grad_norm": 0.4132377505302429,
939
+ "learning_rate": 0.0002082777152445589,
940
+ "loss": 2.398031234741211,
941
+ "step": 1330
942
+ },
943
+ {
944
+ "epoch": 2.161485668146952,
945
+ "grad_norm": 0.5191354751586914,
946
+ "learning_rate": 0.00020107612510768014,
947
+ "loss": 2.5248828887939454,
948
+ "step": 1340
949
+ },
950
+ {
951
+ "epoch": 2.1776342349616473,
952
+ "grad_norm": 0.5512005686759949,
953
+ "learning_rate": 0.00019396977586883475,
954
+ "loss": 2.4451154708862304,
955
+ "step": 1350
956
+ },
957
+ {
958
+ "epoch": 2.1937828017763423,
959
+ "grad_norm": 0.42351678013801575,
960
+ "learning_rate": 0.00018696093170007493,
961
+ "loss": 2.573942756652832,
962
+ "step": 1360
963
+ },
964
+ {
965
+ "epoch": 2.2099313685910373,
966
+ "grad_norm": 0.45575806498527527,
967
+ "learning_rate": 0.00018005182570711366,
968
+ "loss": 2.5537620544433595,
969
+ "step": 1370
970
+ },
971
+ {
972
+ "epoch": 2.226079935405733,
973
+ "grad_norm": 0.46785682439804077,
974
+ "learning_rate": 0.0001732446592178295,
975
+ "loss": 2.491817092895508,
976
+ "step": 1380
977
+ },
978
+ {
979
+ "epoch": 2.242228502220428,
980
+ "grad_norm": 0.45513054728507996,
981
+ "learning_rate": 0.00016654160108089594,
982
+ "loss": 2.5171764373779295,
983
+ "step": 1390
984
+ },
985
+ {
986
+ "epoch": 2.2583770690351233,
987
+ "grad_norm": 0.43288710713386536,
988
+ "learning_rate": 0.00015994478697475885,
989
+ "loss": 2.5143251419067383,
990
+ "step": 1400
991
+ },
992
+ {
993
+ "epoch": 2.2745256358498183,
994
+ "grad_norm": 0.4459301233291626,
995
+ "learning_rate": 0.00015345631872718213,
996
+ "loss": 2.5065849304199217,
997
+ "step": 1410
998
+ },
999
+ {
1000
+ "epoch": 2.2906742026645137,
1001
+ "grad_norm": 0.501880407333374,
1002
+ "learning_rate": 0.00014707826364557985,
1003
+ "loss": 2.4833837509155274,
1004
+ "step": 1420
1005
+ },
1006
+ {
1007
+ "epoch": 2.3068227694792087,
1008
+ "grad_norm": 0.4559042453765869,
1009
+ "learning_rate": 0.00014081265385834557,
1010
+ "loss": 2.5120367050170898,
1011
+ "step": 1430
1012
+ },
1013
+ {
1014
+ "epoch": 2.3229713362939037,
1015
+ "grad_norm": 0.48048946261405945,
1016
+ "learning_rate": 0.000134661485667391,
1017
+ "loss": 2.4629817962646485,
1018
+ "step": 1440
1019
+ },
1020
+ {
1021
+ "epoch": 2.339119903108599,
1022
+ "grad_norm": 0.46413764357566833,
1023
+ "learning_rate": 0.0001286267189120986,
1024
+ "loss": 2.4572961807250975,
1025
+ "step": 1450
1026
+ },
1027
+ {
1028
+ "epoch": 2.355268469923294,
1029
+ "grad_norm": 0.4971129298210144,
1030
+ "learning_rate": 0.000122710276344893,
1031
+ "loss": 2.5448049545288085,
1032
+ "step": 1460
1033
+ },
1034
+ {
1035
+ "epoch": 2.3714170367379896,
1036
+ "grad_norm": 0.45018401741981506,
1037
+ "learning_rate": 0.00011691404301862746,
1038
+ "loss": 2.551463317871094,
1039
+ "step": 1470
1040
+ },
1041
+ {
1042
+ "epoch": 2.3875656035526847,
1043
+ "grad_norm": 0.49596303701400757,
1044
+ "learning_rate": 0.00011123986568598249,
1045
+ "loss": 2.5440711975097656,
1046
+ "step": 1480
1047
+ },
1048
+ {
1049
+ "epoch": 2.4037141703673797,
1050
+ "grad_norm": 0.47923141717910767,
1051
+ "learning_rate": 0.00010568955221106713,
1052
+ "loss": 2.45603084564209,
1053
+ "step": 1490
1054
+ },
1055
+ {
1056
+ "epoch": 2.419862737182075,
1057
+ "grad_norm": 0.4507387578487396,
1058
+ "learning_rate": 0.0001002648709934108,
1059
+ "loss": 2.458144187927246,
1060
+ "step": 1500
1061
+ },
1062
+ {
1063
+ "epoch": 2.43601130399677,
1064
+ "grad_norm": 0.46995073556900024,
1065
+ "learning_rate": 9.496755040452915e-05,
1066
+ "loss": 2.4886669158935546,
1067
+ "step": 1510
1068
+ },
1069
+ {
1070
+ "epoch": 2.4521598708114656,
1071
+ "grad_norm": 0.4773581326007843,
1072
+ "learning_rate": 8.979927823724321e-05,
1073
+ "loss": 2.548818016052246,
1074
+ "step": 1520
1075
+ },
1076
+ {
1077
+ "epoch": 2.4683084376261606,
1078
+ "grad_norm": 0.49100548028945923,
1079
+ "learning_rate": 8.476170116792736e-05,
1080
+ "loss": 2.5328250885009767,
1081
+ "step": 1530
1082
+ },
1083
+ {
1084
+ "epoch": 2.484457004440856,
1085
+ "grad_norm": 0.5164358615875244,
1086
+ "learning_rate": 7.985642423185718e-05,
1087
+ "loss": 2.4474281311035155,
1088
+ "step": 1540
1089
+ },
1090
+ {
1091
+ "epoch": 2.500605571255551,
1092
+ "grad_norm": 0.48450803756713867,
1093
+ "learning_rate": 7.508501031182585e-05,
1094
+ "loss": 2.470208168029785,
1095
+ "step": 1550
1096
+ },
1097
+ {
1098
+ "epoch": 2.5167541380702465,
1099
+ "grad_norm": 0.4779358208179474,
1100
+ "learning_rate": 7.044897964018949e-05,
1101
+ "loss": 2.443818283081055,
1102
+ "step": 1560
1103
+ },
1104
+ {
1105
+ "epoch": 2.5329027048849415,
1106
+ "grad_norm": 0.42919352650642395,
1107
+ "learning_rate": 6.594980931450223e-05,
1108
+ "loss": 2.4840776443481447,
1109
+ "step": 1570
1110
+ },
1111
+ {
1112
+ "epoch": 2.5490512716996365,
1113
+ "grad_norm": 0.4021783769130707,
1114
+ "learning_rate": 6.158893282689454e-05,
1115
+ "loss": 2.450935173034668,
1116
+ "step": 1580
1117
+ },
1118
+ {
1119
+ "epoch": 2.565199838514332,
1120
+ "grad_norm": 0.5504807829856873,
1121
+ "learning_rate": 5.7367739607344093e-05,
1122
+ "loss": 2.477644348144531,
1123
+ "step": 1590
1124
+ },
1125
+ {
1126
+ "epoch": 2.581348405329027,
1127
+ "grad_norm": 0.3885093331336975,
1128
+ "learning_rate": 5.328757458098665e-05,
1129
+ "loss": 2.449785041809082,
1130
+ "step": 1600
1131
+ },
1132
+ {
1133
+ "epoch": 2.5974969721437224,
1134
+ "grad_norm": 0.5313092470169067,
1135
+ "learning_rate": 4.934973773960572e-05,
1136
+ "loss": 2.564461898803711,
1137
+ "step": 1610
1138
+ },
1139
+ {
1140
+ "epoch": 2.6136455389584174,
1141
+ "grad_norm": 0.5081238150596619,
1142
+ "learning_rate": 4.5555483727438896e-05,
1143
+ "loss": 2.5144027709960937,
1144
+ "step": 1620
1145
+ },
1146
+ {
1147
+ "epoch": 2.6297941057731125,
1148
+ "grad_norm": 0.45351824164390564,
1149
+ "learning_rate": 4.190602144143207e-05,
1150
+ "loss": 2.5690656661987306,
1151
+ "step": 1630
1152
+ },
1153
+ {
1154
+ "epoch": 2.645942672587808,
1155
+ "grad_norm": 0.49749699234962463,
1156
+ "learning_rate": 3.840251364607045e-05,
1157
+ "loss": 2.5524566650390623,
1158
+ "step": 1640
1159
+ },
1160
+ {
1161
+ "epoch": 2.662091239402503,
1162
+ "grad_norm": 0.4736417233943939,
1163
+ "learning_rate": 3.50460766029066e-05,
1164
+ "loss": 2.437306022644043,
1165
+ "step": 1650
1166
+ },
1167
+ {
1168
+ "epoch": 2.6782398062171984,
1169
+ "grad_norm": 0.54044508934021,
1170
+ "learning_rate": 3.183777971490576e-05,
1171
+ "loss": 2.4329130172729494,
1172
+ "step": 1660
1173
+ },
1174
+ {
1175
+ "epoch": 2.6943883730318934,
1176
+ "grad_norm": 0.5381774306297302,
1177
+ "learning_rate": 2.8778645185720487e-05,
1178
+ "loss": 2.5384393692016602,
1179
+ "step": 1670
1180
+ },
1181
+ {
1182
+ "epoch": 2.7105369398465884,
1183
+ "grad_norm": 0.4624033570289612,
1184
+ "learning_rate": 2.5869647694003962e-05,
1185
+ "loss": 2.5221799850463866,
1186
+ "step": 1680
1187
+ },
1188
+ {
1189
+ "epoch": 2.726685506661284,
1190
+ "grad_norm": 0.49552807211875916,
1191
+ "learning_rate": 2.3111714082864887e-05,
1192
+ "loss": 2.519091987609863,
1193
+ "step": 1690
1194
+ },
1195
+ {
1196
+ "epoch": 2.742834073475979,
1197
+ "grad_norm": 0.4731680154800415,
1198
+ "learning_rate": 2.0505723064563886e-05,
1199
+ "loss": 2.4723621368408204,
1200
+ "step": 1700
1201
+ },
1202
+ {
1203
+ "epoch": 2.7589826402906743,
1204
+ "grad_norm": 0.44819337129592896,
1205
+ "learning_rate": 1.8052504940544613e-05,
1206
+ "loss": 2.5209144592285155,
1207
+ "step": 1710
1208
+ },
1209
+ {
1210
+ "epoch": 2.7751312071053693,
1211
+ "grad_norm": 0.4628264307975769,
1212
+ "learning_rate": 1.575284133688909e-05,
1213
+ "loss": 2.502878189086914,
1214
+ "step": 1720
1215
+ },
1216
+ {
1217
+ "epoch": 2.7912797739200643,
1218
+ "grad_norm": 0.4762296676635742,
1219
+ "learning_rate": 1.3607464955282257e-05,
1220
+ "loss": 2.4997129440307617,
1221
+ "step": 1730
1222
+ },
1223
+ {
1224
+ "epoch": 2.8074283407347598,
1225
+ "grad_norm": 0.4384547173976898,
1226
+ "learning_rate": 1.1617059339563806e-05,
1227
+ "loss": 2.6152523040771483,
1228
+ "step": 1740
1229
+ },
1230
+ {
1231
+ "epoch": 2.8235769075494552,
1232
+ "grad_norm": 0.4384756088256836,
1233
+ "learning_rate": 9.782258657942467e-06,
1234
+ "loss": 2.4833805084228517,
1235
+ "step": 1750
1236
+ },
1237
+ {
1238
+ "epoch": 2.8397254743641502,
1239
+ "grad_norm": 0.4431445300579071,
1240
+ "learning_rate": 8.103647500942112e-06,
1241
+ "loss": 2.500337028503418,
1242
+ "step": 1760
1243
+ },
1244
+ {
1245
+ "epoch": 2.8558740411788452,
1246
+ "grad_norm": 0.4854304790496826,
1247
+ "learning_rate": 6.581760695143934e-06,
1248
+ "loss": 2.4700483322143554,
1249
+ "step": 1770
1250
+ },
1251
+ {
1252
+ "epoch": 2.8720226079935407,
1253
+ "grad_norm": 0.4667441248893738,
1254
+ "learning_rate": 5.217083132783907e-06,
1255
+ "loss": 2.4867990493774412,
1256
+ "step": 1780
1257
+ },
1258
+ {
1259
+ "epoch": 2.8881711748082357,
1260
+ "grad_norm": 0.49439942836761475,
1261
+ "learning_rate": 4.010049617260203e-06,
1262
+ "loss": 2.515974426269531,
1263
+ "step": 1790
1264
+ },
1265
+ {
1266
+ "epoch": 2.904319741622931,
1267
+ "grad_norm": 0.43787845969200134,
1268
+ "learning_rate": 2.961044724599016e-06,
1269
+ "loss": 2.5289798736572267,
1270
+ "step": 1800
1271
+ },
1272
+ {
1273
+ "epoch": 2.920468308437626,
1274
+ "grad_norm": 0.4790705144405365,
1275
+ "learning_rate": 2.0704026809241215e-06,
1276
+ "loss": 2.4601634979248046,
1277
+ "step": 1810
1278
+ },
1279
+ {
1280
+ "epoch": 2.936616875252321,
1281
+ "grad_norm": 0.4470031261444092,
1282
+ "learning_rate": 1.338407255968288e-06,
1283
+ "loss": 2.4816938400268556,
1284
+ "step": 1820
1285
+ },
1286
+ {
1287
+ "epoch": 2.9527654420670166,
1288
+ "grad_norm": 0.4893916845321655,
1289
+ "learning_rate": 7.652916726604287e-07,
1290
+ "loss": 2.529372978210449,
1291
+ "step": 1830
1292
+ },
1293
+ {
1294
+ "epoch": 2.9689140088817116,
1295
+ "grad_norm": 0.431090384721756,
1296
+ "learning_rate": 3.5123853281793237e-07,
1297
+ "loss": 2.551029586791992,
1298
+ "step": 1840
1299
+ },
1300
+ {
1301
+ "epoch": 2.985062575696407,
1302
+ "grad_norm": 0.4225512742996216,
1303
+ "learning_rate": 9.637975896759077e-08,
1304
+ "loss": 2.5007448196411133,
1305
+ "step": 1850
1306
+ },
1307
+ {
1308
+ "epoch": 3.0,
1309
+ "grad_norm": 1.7053178548812866,
1310
+ "learning_rate": 7.965523131092667e-10,
1311
+ "loss": 2.677412414550781,
1312
+ "step": 1860
1313
+ }
1314
+ ],
1315
+ "logging_steps": 10,
1316
+ "max_steps": 1860,
1317
+ "num_input_tokens_seen": 0,
1318
+ "num_train_epochs": 3,
1319
+ "save_steps": 200,
1320
+ "stateful_callbacks": {
1321
+ "TrainerControl": {
1322
+ "args": {
1323
+ "should_epoch_stop": false,
1324
+ "should_evaluate": false,
1325
+ "should_log": false,
1326
+ "should_save": true,
1327
+ "should_training_stop": true
1328
+ },
1329
+ "attributes": {}
1330
+ }
1331
+ },
1332
+ "total_flos": 1.131504576233472e+16,
1333
+ "train_batch_size": 4,
1334
+ "trial_name": null,
1335
+ "trial_params": null
1336
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b17cd6c1327794248ee3fffe6dc4886bf86f8e57c52dfbe11af4497c6b28798e
3
+ size 5137