MwSpace commited on
Commit
1b68735
·
verified ·
1 Parent(s): 298f9c4

Upload RegTech-4B-Instruct

Browse files
model-00001-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9ee9c50ede7bfc0ae3ab41ce923abf9b8e20d37a229bdc4ce6ba2802ab00658e
3
  size 4967215360
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f59ea02ad2810389028c4270786bd5b0c1b87435f666acd50bb71fc2e438273f
3
  size 4967215360
model-00002-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:34a6b171a7c5549d5752b9825a04c4d02b7f16a146b554685c2e9347d1a27224
3
  size 3077766632
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f348a1ba7d66204a1b5de57ff3b79a834a88aefbf020fb45b37f1f6299989645
3
  size 3077766632
training_report.json CHANGED
@@ -3,18 +3,18 @@
3
  "model_name": "RegTech-4B-Instruct",
4
  "dataset": "./train.jsonl",
5
  "env_file": "/home/ubuntu/sophia-core-server/.tuning/.env.4B",
6
- "train_samples": 923,
7
- "eval_samples": 102,
8
  "params": {
9
- "rank": 16,
10
- "alpha": 32,
11
- "dropout": 0.1,
12
- "lr": 5e-06,
13
  "scheduler": "cosine",
14
- "epochs": 3,
15
- "effective_batch": 4,
16
  "max_seq_length": 4096,
17
- "neftune_alpha": 5.0,
18
  "target_modules": [
19
  "q_proj",
20
  "k_proj",
@@ -26,635 +26,158 @@
26
  ]
27
  },
28
  "results": {
29
- "total_steps": 693,
30
- "final_train_loss": 1.241,
31
- "best_eval_loss": 1.1907687187194824,
32
- "best_eval_step": 680,
33
- "elapsed_minutes": 11.9
 
34
  },
35
  "loss_history": {
36
  "train": [
37
- [
38
- 5,
39
- 1.9266
40
- ],
41
  [
42
  10,
43
- 2.1546
44
- ],
45
- [
46
- 15,
47
- 2.377
48
  ],
49
  [
50
  20,
51
- 2.1251
52
- ],
53
- [
54
- 25,
55
- 2.3294
56
  ],
57
  [
58
  30,
59
- 2.2016
60
- ],
61
- [
62
- 35,
63
- 2.1198
64
  ],
65
  [
66
  40,
67
- 2.0536
68
- ],
69
- [
70
- 45,
71
- 2.0804
72
  ],
73
  [
74
  50,
75
- 1.98
76
- ],
77
- [
78
- 55,
79
- 1.6711
80
  ],
81
  [
82
  60,
83
- 2.043
84
- ],
85
- [
86
- 65,
87
- 1.7905
88
  ],
89
  [
90
  70,
91
- 1.9725
92
- ],
93
- [
94
- 75,
95
- 1.8905
96
  ],
97
  [
98
  80,
99
- 1.8013
100
- ],
101
- [
102
- 85,
103
- 1.6943
104
  ],
105
  [
106
  90,
107
- 1.5479
108
- ],
109
- [
110
- 95,
111
- 1.71
112
  ],
113
  [
114
  100,
115
- 1.7296
116
- ],
117
- [
118
- 105,
119
- 1.6177
120
  ],
121
  [
122
  110,
123
- 1.5224
124
- ],
125
- [
126
- 115,
127
- 1.6453
128
  ],
129
  [
130
  120,
131
- 1.4372
132
- ],
133
- [
134
- 125,
135
- 1.3471
136
  ],
137
  [
138
  130,
139
- 1.7257
140
- ],
141
- [
142
- 135,
143
- 1.307
144
  ],
145
  [
146
  140,
147
- 1.6563
148
- ],
149
- [
150
- 145,
151
- 1.4156
152
  ],
153
  [
154
  150,
155
- 1.5117
156
- ],
157
- [
158
- 155,
159
- 1.5545
160
  ],
161
  [
162
  160,
163
- 1.3888
164
- ],
165
- [
166
- 165,
167
- 1.5327
168
  ],
169
  [
170
  170,
171
- 1.4855
172
- ],
173
- [
174
- 175,
175
- 1.1613
176
  ],
177
  [
178
  180,
179
- 1.2964
180
- ],
181
- [
182
- 185,
183
- 1.443
184
  ],
185
  [
186
  190,
187
- 1.4158
188
- ],
189
- [
190
- 195,
191
- 1.3793
192
  ],
193
  [
194
  200,
195
- 1.1051
196
- ],
197
- [
198
- 205,
199
- 1.3441
200
  ],
201
  [
202
  210,
203
- 1.2532
204
- ],
205
- [
206
- 215,
207
- 1.296
208
  ],
209
  [
210
  220,
211
- 1.1679
212
- ],
213
- [
214
- 225,
215
- 1.3165
216
  ],
217
  [
218
  230,
219
- 1.2472
220
- ],
221
- [
222
- 235,
223
- 1.5172
224
  ],
225
  [
226
  240,
227
- 1.2431
228
- ],
229
- [
230
- 245,
231
- 1.2391
232
  ],
233
  [
234
  250,
235
- 1.1359
236
- ],
237
- [
238
- 255,
239
- 1.181
240
  ],
241
  [
242
  260,
243
- 1.3262
244
- ],
245
- [
246
- 265,
247
- 1.4351
248
  ],
249
  [
250
  270,
251
- 1.2283
252
- ],
253
- [
254
- 275,
255
- 1.2195
256
  ],
257
  [
258
  280,
259
- 1.3892
260
- ],
261
- [
262
- 285,
263
- 1.4254
264
  ],
265
  [
266
  290,
267
- 1.2606
268
- ],
269
- [
270
- 295,
271
- 1.1506
272
- ],
273
- [
274
- 300,
275
- 1.138
276
- ],
277
- [
278
- 305,
279
- 1.3738
280
- ],
281
- [
282
- 310,
283
- 1.2216
284
- ],
285
- [
286
- 315,
287
- 1.2873
288
- ],
289
- [
290
- 320,
291
- 1.1959
292
- ],
293
- [
294
- 325,
295
- 1.2746
296
- ],
297
- [
298
- 330,
299
- 1.2089
300
- ],
301
- [
302
- 335,
303
- 1.2466
304
- ],
305
- [
306
- 340,
307
- 1.1855
308
- ],
309
- [
310
- 345,
311
- 1.3954
312
- ],
313
- [
314
- 350,
315
- 1.0918
316
- ],
317
- [
318
- 355,
319
- 1.2062
320
- ],
321
- [
322
- 360,
323
- 1.2809
324
- ],
325
- [
326
- 365,
327
- 1.3698
328
- ],
329
- [
330
- 370,
331
- 1.3147
332
- ],
333
- [
334
- 375,
335
- 1.1451
336
- ],
337
- [
338
- 380,
339
- 1.0194
340
- ],
341
- [
342
- 385,
343
- 1.1412
344
- ],
345
- [
346
- 390,
347
- 1.1606
348
- ],
349
- [
350
- 395,
351
- 1.1469
352
- ],
353
- [
354
- 400,
355
- 1.2781
356
- ],
357
- [
358
- 405,
359
- 1.2447
360
- ],
361
- [
362
- 410,
363
- 1.3158
364
- ],
365
- [
366
- 415,
367
- 1.1832
368
- ],
369
- [
370
- 420,
371
- 1.2036
372
- ],
373
- [
374
- 425,
375
- 1.1602
376
- ],
377
- [
378
- 430,
379
- 1.4217
380
- ],
381
- [
382
- 435,
383
- 1.1954
384
- ],
385
- [
386
- 440,
387
- 1.1913
388
- ],
389
- [
390
- 445,
391
- 1.0779
392
- ],
393
- [
394
- 450,
395
- 1.1522
396
- ],
397
- [
398
- 455,
399
- 1.2223
400
- ],
401
- [
402
- 460,
403
- 1.0818
404
- ],
405
- [
406
- 465,
407
- 1.429
408
- ],
409
- [
410
- 470,
411
- 1.145
412
- ],
413
- [
414
- 475,
415
- 1.1874
416
- ],
417
- [
418
- 480,
419
- 1.0495
420
- ],
421
- [
422
- 485,
423
- 1.0664
424
- ],
425
- [
426
- 490,
427
- 1.2633
428
- ],
429
- [
430
- 495,
431
- 1.3179
432
- ],
433
- [
434
- 500,
435
- 1.2056
436
- ],
437
- [
438
- 505,
439
- 1.1259
440
- ],
441
- [
442
- 510,
443
- 1.2683
444
- ],
445
- [
446
- 515,
447
- 1.0229
448
- ],
449
- [
450
- 520,
451
- 1.2201
452
- ],
453
- [
454
- 525,
455
- 1.1291
456
- ],
457
- [
458
- 530,
459
- 1.1688
460
- ],
461
- [
462
- 535,
463
- 1.2019
464
- ],
465
- [
466
- 540,
467
- 1.1733
468
- ],
469
- [
470
- 545,
471
- 1.0913
472
- ],
473
- [
474
- 550,
475
- 1.2309
476
- ],
477
- [
478
- 555,
479
- 1.315
480
- ],
481
- [
482
- 560,
483
- 1.1578
484
- ],
485
- [
486
- 565,
487
- 1.2228
488
- ],
489
- [
490
- 570,
491
- 0.9872
492
- ],
493
- [
494
- 575,
495
- 1.1328
496
- ],
497
- [
498
- 580,
499
- 1.1709
500
- ],
501
- [
502
- 585,
503
- 1.1675
504
- ],
505
- [
506
- 590,
507
- 1.3192
508
- ],
509
- [
510
- 595,
511
- 1.0701
512
- ],
513
- [
514
- 600,
515
- 1.1484
516
- ],
517
- [
518
- 605,
519
- 0.9753
520
- ],
521
- [
522
- 610,
523
- 1.2143
524
- ],
525
- [
526
- 615,
527
- 1.238
528
- ],
529
- [
530
- 620,
531
- 1.149
532
- ],
533
- [
534
- 625,
535
- 1.1859
536
- ],
537
- [
538
- 630,
539
- 1.225
540
- ],
541
- [
542
- 635,
543
- 1.1635
544
- ],
545
- [
546
- 640,
547
- 1.2214
548
- ],
549
- [
550
- 645,
551
- 1.1366
552
- ],
553
- [
554
- 650,
555
- 1.3328
556
- ],
557
- [
558
- 655,
559
- 1.1442
560
- ],
561
- [
562
- 660,
563
- 1.0937
564
- ],
565
- [
566
- 665,
567
- 1.1968
568
- ],
569
- [
570
- 670,
571
- 1.2908
572
- ],
573
- [
574
- 675,
575
- 1.2003
576
- ],
577
- [
578
- 680,
579
- 1.0809
580
- ],
581
- [
582
- 685,
583
- 1.2908
584
- ],
585
- [
586
- 690,
587
- 1.241
588
  ]
589
  ],
590
  "eval": [
591
- [
592
- 40,
593
- 2.1869590282440186
594
- ],
595
  [
596
  80,
597
- 1.8702703714370728
598
- ],
599
- [
600
- 120,
601
- 1.5918081998825073
602
  ],
603
  [
604
  160,
605
- 1.460960865020752
606
- ],
607
- [
608
- 200,
609
- 1.3858165740966797
610
  ],
611
  [
612
  240,
613
- 1.3407992124557495
614
- ],
615
- [
616
- 280,
617
- 1.3039580583572388
618
- ],
619
- [
620
- 320,
621
- 1.2727303504943848
622
- ],
623
- [
624
- 360,
625
- 1.245557188987732
626
- ],
627
- [
628
- 400,
629
- 1.2276334762573242
630
- ],
631
- [
632
- 440,
633
- 1.213688850402832
634
- ],
635
- [
636
- 480,
637
- 1.2049111127853394
638
- ],
639
- [
640
- 520,
641
- 1.1985464096069336
642
- ],
643
- [
644
- 560,
645
- 1.1946879625320435
646
- ],
647
  [
648
- 600,
649
- 1.1919087171554565
650
  ],
651
  [
652
- 640,
653
- 1.1909754276275635
654
  ],
655
  [
656
- 680,
657
- 1.1907687187194824
658
  ]
659
  ]
660
  }
 
3
  "model_name": "RegTech-4B-Instruct",
4
  "dataset": "./train.jsonl",
5
  "env_file": "/home/ubuntu/sophia-core-server/.tuning/.env.4B",
6
+ "train_samples": 2330,
7
+ "eval_samples": 258,
8
  "params": {
9
+ "rank": 4,
10
+ "alpha": 8,
11
+ "dropout": 0.05,
12
+ "lr": 1e-05,
13
  "scheduler": "cosine",
14
+ "epochs": 1,
15
+ "effective_batch": 8,
16
  "max_seq_length": 4096,
17
+ "neftune_alpha": 0.0,
18
  "target_modules": [
19
  "q_proj",
20
  "k_proj",
 
26
  ]
27
  },
28
  "results": {
29
+ "total_steps": 292,
30
+ "final_train_loss": 1.5045,
31
+ "best_eval_loss": 1.601854681968689,
32
+ "best_eval_step": 240,
33
+ "best_token_accuracy": 0.6812,
34
+ "elapsed_minutes": 8.6
35
  },
36
  "loss_history": {
37
  "train": [
 
 
 
 
38
  [
39
  10,
40
+ 2.1906
 
 
 
 
41
  ],
42
  [
43
  20,
44
+ 2.0417
 
 
 
 
45
  ],
46
  [
47
  30,
48
+ 2.1217
 
 
 
 
49
  ],
50
  [
51
  40,
52
+ 2.0513
 
 
 
 
53
  ],
54
  [
55
  50,
56
+ 1.9839
 
 
 
 
57
  ],
58
  [
59
  60,
60
+ 1.9423
 
 
 
 
61
  ],
62
  [
63
  70,
64
+ 1.9321
 
 
 
 
65
  ],
66
  [
67
  80,
68
+ 1.8047
 
 
 
 
69
  ],
70
  [
71
  90,
72
+ 1.7045
 
 
 
 
73
  ],
74
  [
75
  100,
76
+ 1.8603
 
 
 
 
77
  ],
78
  [
79
  110,
80
+ 1.721
 
 
 
 
81
  ],
82
  [
83
  120,
84
+ 1.6419
 
 
 
 
85
  ],
86
  [
87
  130,
88
+ 1.5821
 
 
 
 
89
  ],
90
  [
91
  140,
92
+ 1.5593
 
 
 
 
93
  ],
94
  [
95
  150,
96
+ 1.4756
 
 
 
 
97
  ],
98
  [
99
  160,
100
+ 1.4945
 
 
 
 
101
  ],
102
  [
103
  170,
104
+ 1.5168
 
 
 
 
105
  ],
106
  [
107
  180,
108
+ 1.5689
 
 
 
 
109
  ],
110
  [
111
  190,
112
+ 1.3763
 
 
 
 
113
  ],
114
  [
115
  200,
116
+ 1.5759
 
 
 
 
117
  ],
118
  [
119
  210,
120
+ 1.477
 
 
 
 
121
  ],
122
  [
123
  220,
124
+ 1.4889
 
 
 
 
125
  ],
126
  [
127
  230,
128
+ 1.4514
 
 
 
 
129
  ],
130
  [
131
  240,
132
+ 1.441
 
 
 
 
133
  ],
134
  [
135
  250,
136
+ 1.427
 
 
 
 
137
  ],
138
  [
139
  260,
140
+ 1.4423
 
 
 
 
141
  ],
142
  [
143
  270,
144
+ 1.4199
 
 
 
 
145
  ],
146
  [
147
  280,
148
+ 1.457
 
 
 
 
149
  ],
150
  [
151
  290,
152
+ 1.5045
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
153
  ]
154
  ],
155
  "eval": [
 
 
 
 
156
  [
157
  80,
158
+ 2.036996841430664
 
 
 
 
159
  ],
160
  [
161
  160,
162
+ 1.6603444814682007
 
 
 
 
163
  ],
164
  [
165
  240,
166
+ 1.601854681968689
167
+ ]
168
+ ],
169
+ "token_accuracy": [
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
170
  [
171
+ 80,
172
+ 0.661
173
  ],
174
  [
175
+ 160,
176
+ 0.6759
177
  ],
178
  [
179
+ 240,
180
+ 0.6812
181
  ]
182
  ]
183
  }