Timusgeorge commited on
Commit
8bda97a
·
verified ·
1 Parent(s): 85f238f

Upload training_log_200.json

Browse files
Files changed (1) hide show
  1. outputs/training_log_200.json +1423 -0
outputs/training_log_200.json ADDED
@@ -0,0 +1,1423 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "steps": [
3
+ 1,
4
+ 2,
5
+ 3,
6
+ 4,
7
+ 5,
8
+ 6,
9
+ 7,
10
+ 8,
11
+ 9,
12
+ 10,
13
+ 11,
14
+ 12,
15
+ 13,
16
+ 14,
17
+ 15,
18
+ 16,
19
+ 17,
20
+ 18,
21
+ 19,
22
+ 20,
23
+ 21,
24
+ 22,
25
+ 23,
26
+ 24,
27
+ 25,
28
+ 26,
29
+ 27,
30
+ 28,
31
+ 29,
32
+ 30,
33
+ 31,
34
+ 32,
35
+ 33,
36
+ 34,
37
+ 35,
38
+ 36,
39
+ 37,
40
+ 38,
41
+ 39,
42
+ 40,
43
+ 41,
44
+ 42,
45
+ 43,
46
+ 44,
47
+ 45,
48
+ 46,
49
+ 47,
50
+ 48,
51
+ 49,
52
+ 50,
53
+ 51,
54
+ 52,
55
+ 53,
56
+ 54,
57
+ 55,
58
+ 56,
59
+ 57,
60
+ 58,
61
+ 59,
62
+ 60,
63
+ 61,
64
+ 62,
65
+ 63,
66
+ 64,
67
+ 65,
68
+ 66,
69
+ 67,
70
+ 68,
71
+ 69,
72
+ 70,
73
+ 71,
74
+ 72,
75
+ 73,
76
+ 74,
77
+ 75,
78
+ 76,
79
+ 77,
80
+ 78,
81
+ 79,
82
+ 80,
83
+ 81,
84
+ 82,
85
+ 83,
86
+ 84,
87
+ 85,
88
+ 86,
89
+ 87,
90
+ 88,
91
+ 89,
92
+ 90,
93
+ 91,
94
+ 92,
95
+ 93,
96
+ 94,
97
+ 95,
98
+ 96,
99
+ 97,
100
+ 98,
101
+ 99,
102
+ 100,
103
+ 101,
104
+ 102,
105
+ 103,
106
+ 104,
107
+ 105,
108
+ 106,
109
+ 107,
110
+ 108,
111
+ 109,
112
+ 110,
113
+ 111,
114
+ 112,
115
+ 113,
116
+ 114,
117
+ 115,
118
+ 116,
119
+ 117,
120
+ 118,
121
+ 119,
122
+ 120,
123
+ 121,
124
+ 122,
125
+ 123,
126
+ 124,
127
+ 125,
128
+ 126,
129
+ 127,
130
+ 128,
131
+ 129,
132
+ 130,
133
+ 131,
134
+ 132,
135
+ 133,
136
+ 134,
137
+ 135,
138
+ 136,
139
+ 137,
140
+ 138,
141
+ 139,
142
+ 140,
143
+ 141,
144
+ 142,
145
+ 143,
146
+ 144,
147
+ 145,
148
+ 146,
149
+ 147,
150
+ 148,
151
+ 149,
152
+ 150,
153
+ 151,
154
+ 152,
155
+ 153,
156
+ 154,
157
+ 155,
158
+ 156,
159
+ 157,
160
+ 158,
161
+ 159,
162
+ 160,
163
+ 161,
164
+ 162,
165
+ 163,
166
+ 164,
167
+ 165,
168
+ 166,
169
+ 167,
170
+ 168,
171
+ 169,
172
+ 170,
173
+ 171,
174
+ 172,
175
+ 173,
176
+ 174,
177
+ 175,
178
+ 176,
179
+ 177,
180
+ 178,
181
+ 179,
182
+ 180,
183
+ 181,
184
+ 182,
185
+ 183,
186
+ 184,
187
+ 185,
188
+ 186,
189
+ 187,
190
+ 188,
191
+ 189,
192
+ 190,
193
+ 191,
194
+ 192,
195
+ 193,
196
+ 194,
197
+ 195,
198
+ 196,
199
+ 197,
200
+ 198,
201
+ 199,
202
+ 200
203
+ ],
204
+ "rewards": [
205
+ 0.184,
206
+ 0.1201,
207
+ 0.1201,
208
+ 0.0333,
209
+ 0.1145,
210
+ 0.1035,
211
+ 0.244,
212
+ 0.1729,
213
+ 0.1007,
214
+ 0.1063,
215
+ 0.1174,
216
+ 0.3363,
217
+ 0.18,
218
+ 0.1736,
219
+ 0.2347,
220
+ 0.0333,
221
+ 0.1063,
222
+ 0.0416,
223
+ 0.1174,
224
+ 0.2712,
225
+ 0.2014,
226
+ 0.1736,
227
+ 0.1736,
228
+ 0.1174,
229
+ 0.0444,
230
+ 0.1763,
231
+ 0.1792,
232
+ 0.2069,
233
+ 0.1736,
234
+ 0.1673,
235
+ 0.2014,
236
+ 0.2018,
237
+ 0.3584,
238
+ 0.1856,
239
+ 0.2347,
240
+ 0.1991,
241
+ 0.193,
242
+ 0.1229,
243
+ 0.2513,
244
+ 0.2201,
245
+ 0.2347,
246
+ 0.0333,
247
+ 0.1645,
248
+ 0.1736,
249
+ 0.2597,
250
+ 0.2708,
251
+ 0.2485,
252
+ 0.2014,
253
+ 0.1847,
254
+ 0.1847,
255
+ 0.2907,
256
+ 0.1063,
257
+ 0.1903,
258
+ 0.1736,
259
+ 0.1945,
260
+ 0.1173,
261
+ 0.1063,
262
+ 0.293,
263
+ 0.2847,
264
+ 0.2763,
265
+ 0.1173,
266
+ 0.2347,
267
+ 0.2145,
268
+ 0.3002,
269
+ 0.1145,
270
+ 0.1035,
271
+ 0.2569,
272
+ 0.1173,
273
+ 0.2996,
274
+ 0.2903,
275
+ 0.3751,
276
+ 0.0333,
277
+ 0.2347,
278
+ 0.1903,
279
+ 0.1146,
280
+ 0.0333,
281
+ 0.109,
282
+ 0.3341,
283
+ 0.2224,
284
+ 0.2347,
285
+ 0.2702,
286
+ 0.1812,
287
+ 0.1903,
288
+ 0.2224,
289
+ 0.3013,
290
+ 0.1903,
291
+ 0.1118,
292
+ 0.1646,
293
+ 0.179,
294
+ 0.2375,
295
+ 0.209,
296
+ 0.3885,
297
+ 0.2796,
298
+ 0.2846,
299
+ 0.1145,
300
+ 0.2903,
301
+ 0.1903,
302
+ 0.1763,
303
+ 0.1007,
304
+ 0.1736,
305
+ 0.2168,
306
+ 0.2435,
307
+ 0.2146,
308
+ 0.2958,
309
+ 0.263,
310
+ 0.1903,
311
+ 0.3647,
312
+ 0.2569,
313
+ 0.1257,
314
+ 0.0333,
315
+ 0.2501,
316
+ 0.2907,
317
+ 0.2173,
318
+ 0.2935,
319
+ 0.3485,
320
+ 0.3264,
321
+ 0.368,
322
+ 0.1007,
323
+ 0.1201,
324
+ 0.109,
325
+ 0.3207,
326
+ 0.2324,
327
+ 0.2542,
328
+ 0.2946,
329
+ 0.3514,
330
+ 0.2597,
331
+ 0.399,
332
+ 0.4013,
333
+ 0.3701,
334
+ 0.4363,
335
+ 0.025,
336
+ 0.0333,
337
+ 0.368,
338
+ 0.0333,
339
+ 0.1958,
340
+ 0.3046,
341
+ 0.3208,
342
+ 0.2401,
343
+ 0.3013,
344
+ 0.2553,
345
+ 0.3074,
346
+ 0.2347,
347
+ 0.368,
348
+ 0.2344,
349
+ 0.2708,
350
+ 0.3335,
351
+ 0.2819,
352
+ 0.3241,
353
+ 0.3813,
354
+ 0.0333,
355
+ 0.0361,
356
+ 0.1145,
357
+ 0.1174,
358
+ 0.293,
359
+ 0.2769,
360
+ 0.0472,
361
+ 0.5063,
362
+ 0.1874,
363
+ 0.3625,
364
+ 0.1862,
365
+ 0.1945,
366
+ 0.3051,
367
+ 0.1173,
368
+ 0.3541,
369
+ 0.1007,
370
+ 0.2784,
371
+ 0.0217,
372
+ 0.1173,
373
+ 0.184,
374
+ 0.184,
375
+ 0.2347,
376
+ 0.3374,
377
+ 0.1955,
378
+ 0.3514,
379
+ 0.2206,
380
+ 0.3546,
381
+ 0.109,
382
+ 0.2824,
383
+ 0.1708,
384
+ 0.3514,
385
+ 0.1958,
386
+ 0.3958,
387
+ 0.3013,
388
+ 0.2485,
389
+ 0.0979,
390
+ 0.2875,
391
+ 0.3013,
392
+ 0.3124,
393
+ 0.4051,
394
+ 0.2764,
395
+ 0.2542,
396
+ 0.1285,
397
+ 0.4053,
398
+ 0.1895,
399
+ 0.2375,
400
+ 0.3196,
401
+ 0.2625,
402
+ 0.3735,
403
+ 0.1874,
404
+ 0.3462
405
+ ],
406
+ "reward_std": [
407
+ 0.2209,
408
+ 0.0756,
409
+ 0.1148,
410
+ 0.0078,
411
+ 0.1227,
412
+ 0.0992,
413
+ 0.2901,
414
+ 0.1895,
415
+ 0.1031,
416
+ 0.0952,
417
+ 0.1109,
418
+ 0.1909,
419
+ 0.1995,
420
+ 0.0,
421
+ 0.0864,
422
+ 0.0078,
423
+ 0.0952,
424
+ 0.0039,
425
+ 0.1109,
426
+ 0.3442,
427
+ 0.0078,
428
+ 0.0,
429
+ 0.0078,
430
+ 0.1109,
431
+ 0.0235,
432
+ 0.0039,
433
+ 0.0078,
434
+ 0.0157,
435
+ 0.0,
436
+ 0.1895,
437
+ 0.0078,
438
+ 0.0007,
439
+ 0.2614,
440
+ 0.2484,
441
+ 0.0864,
442
+ 0.0046,
443
+ 0.0275,
444
+ 0.1345,
445
+ 0.0629,
446
+ 0.272,
447
+ 0.0864,
448
+ 0.0078,
449
+ 0.217,
450
+ 0.0,
451
+ 0.1218,
452
+ 0.1061,
453
+ 0.0668,
454
+ 0.0078,
455
+ 0.0157,
456
+ 0.0157,
457
+ 0.1407,
458
+ 0.1266,
459
+ 0.0235,
460
+ 0.0,
461
+ 0.2358,
462
+ 0.1188,
463
+ 0.0952,
464
+ 0.1689,
465
+ 0.1571,
466
+ 0.1061,
467
+ 0.1188,
468
+ 0.0864,
469
+ 0.2484,
470
+ 0.1588,
471
+ 0.1227,
472
+ 0.0913,
473
+ 0.1178,
474
+ 0.1266,
475
+ 0.3843,
476
+ 0.165,
477
+ 0.2615,
478
+ 0.0078,
479
+ 0.0864,
480
+ 0.0235,
481
+ 0.107,
482
+ 0.0078,
483
+ 0.0914,
484
+ 0.0385,
485
+ 0.2751,
486
+ 0.0864,
487
+ 0.1366,
488
+ 0.2013,
489
+ 0.0235,
490
+ 0.2751,
491
+ 0.1336,
492
+ 0.0235,
493
+ 0.1188,
494
+ 0.1856,
495
+ 0.239,
496
+ 0.0903,
497
+ 0.2563,
498
+ 0.0684,
499
+ 0.0936,
500
+ 0.165,
501
+ 0.1227,
502
+ 0.1336,
503
+ 0.0235,
504
+ 0.0039,
505
+ 0.1031,
506
+ 0.0,
507
+ 0.2925,
508
+ 0.0989,
509
+ 0.2641,
510
+ 0.0,
511
+ 0.0936,
512
+ 0.0235,
513
+ 0.0047,
514
+ 0.1178,
515
+ 0.1306,
516
+ 0.0078,
517
+ 0.1083,
518
+ 0.3717,
519
+ 0.2445,
520
+ 0.1604,
521
+ 0.0668,
522
+ 0.0196,
523
+ 0.0393,
524
+ 0.1031,
525
+ 0.1306,
526
+ 0.0914,
527
+ 0.0432,
528
+ 0.0204,
529
+ 0.0589,
530
+ 0.0062,
531
+ 0.0786,
532
+ 0.1218,
533
+ 0.0832,
534
+ 0.0078,
535
+ 0.0284,
536
+ 0.0572,
537
+ 0.0117,
538
+ 0.0078,
539
+ 0.0393,
540
+ 0.0078,
541
+ 0.0,
542
+ 0.1211,
543
+ 0.0354,
544
+ 0.1714,
545
+ 0.1414,
546
+ 0.1155,
547
+ 0.0164,
548
+ 0.0864,
549
+ 0.0393,
550
+ 0.2765,
551
+ 0.1061,
552
+ 0.0062,
553
+ 0.1532,
554
+ 0.0308,
555
+ 0.0283,
556
+ 0.0078,
557
+ 0.004,
558
+ 0.1227,
559
+ 0.1109,
560
+ 0.1375,
561
+ 0.0975,
562
+ 0.0275,
563
+ 0.0982,
564
+ 0.0196,
565
+ 0.0235,
566
+ 0.2476,
567
+ 0.2358,
568
+ 0.3922,
569
+ 0.1266,
570
+ 0.0668,
571
+ 0.1031,
572
+ 0.1045,
573
+ 0.0165,
574
+ 0.1188,
575
+ 0.2131,
576
+ 0.2209,
577
+ 0.0864,
578
+ 0.0589,
579
+ 0.0075,
580
+ 0.0786,
581
+ 0.2726,
582
+ 0.074,
583
+ 0.1148,
584
+ 0.36,
585
+ 0.004,
586
+ 0.0786,
587
+ 0.0236,
588
+ 0.0236,
589
+ 0.0078,
590
+ 0.0668,
591
+ 0.0991,
592
+ 0.161,
593
+ 0.1336,
594
+ 0.0235,
595
+ 0.0668,
596
+ 0.1139,
597
+ 0.1139,
598
+ 0.0952,
599
+ 0.0448,
600
+ 0.2131,
601
+ 0.0903,
602
+ 0.2065,
603
+ 0.0472,
604
+ 0.0235,
605
+ 0.0196,
606
+ 0.0622
607
+ ],
608
+ "kl": [
609
+ 0.0,
610
+ 0.0,
611
+ 3e-06,
612
+ 5e-06,
613
+ 2e-06,
614
+ 4e-06,
615
+ 2e-06,
616
+ 3e-06,
617
+ 1e-05,
618
+ 3e-06,
619
+ 0.001917,
620
+ 7e-06,
621
+ 0.001059,
622
+ 5e-06,
623
+ 1.3e-05,
624
+ 3e-06,
625
+ 5e-06,
626
+ 6e-06,
627
+ 8e-06,
628
+ 8e-06,
629
+ 1.2e-05,
630
+ 4.7e-05,
631
+ 4.8e-05,
632
+ 3.2e-05,
633
+ 3.3e-05,
634
+ 0.000108,
635
+ 0.00018,
636
+ 4.2e-05,
637
+ 0.000189,
638
+ 0.00012,
639
+ 9.3e-05,
640
+ 0.000155,
641
+ 0.00196,
642
+ 0.000149,
643
+ 0.000252,
644
+ 0.000233,
645
+ 0.000311,
646
+ 0.000286,
647
+ 0.000172,
648
+ 0.000169,
649
+ 0.000146,
650
+ 0.005918,
651
+ 0.000294,
652
+ 0.000185,
653
+ 0.000377,
654
+ 9.5e-05,
655
+ 9.7e-05,
656
+ 0.000185,
657
+ 0.000191,
658
+ 0.000213,
659
+ 0.000139,
660
+ 0.000185,
661
+ 0.000328,
662
+ 0.000269,
663
+ 0.000423,
664
+ 0.000312,
665
+ 0.000403,
666
+ 0.000629,
667
+ 0.000958,
668
+ 0.000654,
669
+ 0.000763,
670
+ 0.000818,
671
+ 0.000679,
672
+ 0.001007,
673
+ 0.000409,
674
+ 0.000742,
675
+ 0.001032,
676
+ 0.000433,
677
+ 0.000424,
678
+ 0.001175,
679
+ 0.065512,
680
+ 0.000491,
681
+ 0.001283,
682
+ 0.001551,
683
+ 0.000743,
684
+ 0.00205,
685
+ 0.001048,
686
+ 0.003152,
687
+ 0.001422,
688
+ 0.002206,
689
+ 0.001268,
690
+ 0.001376,
691
+ 0.0006,
692
+ 0.000647,
693
+ 0.002288,
694
+ 0.000986,
695
+ 0.003312,
696
+ 0.00304,
697
+ 0.001072,
698
+ 0.003339,
699
+ 0.000917,
700
+ 0.001449,
701
+ 0.001279,
702
+ 0.003114,
703
+ 0.008185,
704
+ 0.001049,
705
+ 0.000395,
706
+ 0.005086,
707
+ 0.004066,
708
+ 0.007162,
709
+ 0.00197,
710
+ 0.001734,
711
+ 0.003092,
712
+ 0.002859,
713
+ 0.001129,
714
+ 0.000954,
715
+ 0.0037,
716
+ 0.008848,
717
+ 0.003338,
718
+ 0.003114,
719
+ 0.013662,
720
+ 0.00386,
721
+ 0.001231,
722
+ 0.002798,
723
+ 0.001819,
724
+ 0.006505,
725
+ 0.002929,
726
+ 0.002063,
727
+ 0.003029,
728
+ 0.053483,
729
+ 0.007063,
730
+ 0.002513,
731
+ 0.015775,
732
+ 0.004121,
733
+ 0.004982,
734
+ 0.007406,
735
+ 0.004541,
736
+ 0.005338,
737
+ 0.051157,
738
+ 0.003495,
739
+ 0.003043,
740
+ 0.005987,
741
+ 0.008458,
742
+ 0.001201,
743
+ 0.002248,
744
+ 0.079172,
745
+ 0.005182,
746
+ 0.003687,
747
+ 0.002551,
748
+ 0.192144,
749
+ 0.005151,
750
+ 0.004355,
751
+ 0.00832,
752
+ 0.002969,
753
+ 0.003038,
754
+ 0.000624,
755
+ 0.008018,
756
+ 0.003553,
757
+ 0.005504,
758
+ 0.012273,
759
+ 0.001665,
760
+ 0.002202,
761
+ 0.001595,
762
+ 0.001366,
763
+ 0.001963,
764
+ 0.00278,
765
+ 0.007543,
766
+ 0.016324,
767
+ 0.013537,
768
+ 0.002584,
769
+ 0.001686,
770
+ 0.003062,
771
+ 0.008756,
772
+ 0.006232,
773
+ 0.007933,
774
+ 0.151755,
775
+ 0.004479,
776
+ 0.001787,
777
+ 0.004011,
778
+ 0.007719,
779
+ 0.002736,
780
+ 0.004371,
781
+ 0.121158,
782
+ 0.009865,
783
+ 0.111958,
784
+ 0.001871,
785
+ 0.003641,
786
+ 0.002508,
787
+ 0.004169,
788
+ 0.005104,
789
+ 0.001672,
790
+ 0.003376,
791
+ 0.008028,
792
+ 0.003024,
793
+ 0.004631,
794
+ 0.003015,
795
+ 0.005141,
796
+ 0.004173,
797
+ 0.001354,
798
+ 0.004468,
799
+ 0.005965,
800
+ 0.000716,
801
+ 0.003562,
802
+ 0.004835,
803
+ 0.004605,
804
+ 0.144598,
805
+ 0.004515,
806
+ 0.004581,
807
+ 0.002088,
808
+ 0.006087
809
+ ],
810
+ "completion_length": [
811
+ 317.0,
812
+ 311.5,
813
+ 313.0,
814
+ 337.5,
815
+ 203.0,
816
+ 245.0,
817
+ 277.0,
818
+ 292.5,
819
+ 462.0,
820
+ 322.5,
821
+ 364.5,
822
+ 491.0,
823
+ 413.5,
824
+ 243.0,
825
+ 272.0,
826
+ 286.5,
827
+ 161.0,
828
+ 512.0,
829
+ 224.0,
830
+ 343.5,
831
+ 298.0,
832
+ 120.0,
833
+ 247.0,
834
+ 301.0,
835
+ 512.0,
836
+ 193.5,
837
+ 188.0,
838
+ 478.5,
839
+ 131.0,
840
+ 411.5,
841
+ 344.5,
842
+ 327.0,
843
+ 399.0,
844
+ 223.0,
845
+ 167.0,
846
+ 327.0,
847
+ 285.5,
848
+ 203.0,
849
+ 211.5,
850
+ 322.5,
851
+ 230.5,
852
+ 362.5,
853
+ 372.0,
854
+ 137.0,
855
+ 156.0,
856
+ 354.0,
857
+ 482.0,
858
+ 386.0,
859
+ 274.5,
860
+ 261.5,
861
+ 439.5,
862
+ 438.5,
863
+ 207.0,
864
+ 290.5,
865
+ 196.0,
866
+ 449.0,
867
+ 159.0,
868
+ 272.0,
869
+ 172.0,
870
+ 239.0,
871
+ 337.5,
872
+ 368.5,
873
+ 225.0,
874
+ 424.5,
875
+ 341.5,
876
+ 177.5,
877
+ 179.0,
878
+ 273.5,
879
+ 440.5,
880
+ 362.5,
881
+ 401.5,
882
+ 220.0,
883
+ 295.0,
884
+ 223.0,
885
+ 228.0,
886
+ 350.5,
887
+ 321.5,
888
+ 237.5,
889
+ 350.5,
890
+ 290.0,
891
+ 315.0,
892
+ 341.5,
893
+ 189.0,
894
+ 414.0,
895
+ 270.0,
896
+ 200.5,
897
+ 230.5,
898
+ 267.0,
899
+ 202.0,
900
+ 174.5,
901
+ 376.5,
902
+ 372.5,
903
+ 251.0,
904
+ 322.5,
905
+ 156.0,
906
+ 323.5,
907
+ 252.5,
908
+ 125.0,
909
+ 140.5,
910
+ 121.5,
911
+ 236.5,
912
+ 307.5,
913
+ 198.0,
914
+ 275.0,
915
+ 353.0,
916
+ 211.0,
917
+ 303.0,
918
+ 191.0,
919
+ 205.0,
920
+ 323.5,
921
+ 311.5,
922
+ 343.5,
923
+ 359.0,
924
+ 372.5,
925
+ 394.5,
926
+ 337.0,
927
+ 398.0,
928
+ 267.5,
929
+ 426.5,
930
+ 309.5,
931
+ 231.5,
932
+ 430.5,
933
+ 416.0,
934
+ 369.0,
935
+ 388.5,
936
+ 435.5,
937
+ 382.5,
938
+ 261.0,
939
+ 466.0,
940
+ 425.0,
941
+ 144.0,
942
+ 310.5,
943
+ 302.5,
944
+ 318.0,
945
+ 334.5,
946
+ 512.0,
947
+ 184.5,
948
+ 228.5,
949
+ 310.5,
950
+ 322.5,
951
+ 329.0,
952
+ 187.0,
953
+ 291.0,
954
+ 354.0,
955
+ 280.5,
956
+ 512.0,
957
+ 183.0,
958
+ 357.5,
959
+ 262.5,
960
+ 169.5,
961
+ 343.5,
962
+ 401.5,
963
+ 441.5,
964
+ 426.0,
965
+ 512.0,
966
+ 322.5,
967
+ 456.0,
968
+ 212.0,
969
+ 321.0,
970
+ 324.0,
971
+ 413.0,
972
+ 431.0,
973
+ 273.0,
974
+ 236.5,
975
+ 123.5,
976
+ 496.0,
977
+ 335.5,
978
+ 279.5,
979
+ 322.0,
980
+ 243.0,
981
+ 313.5,
982
+ 227.0,
983
+ 428.0,
984
+ 318.5,
985
+ 389.5,
986
+ 413.0,
987
+ 364.0,
988
+ 488.5,
989
+ 176.5,
990
+ 243.0,
991
+ 262.0,
992
+ 512.0,
993
+ 241.0,
994
+ 244.0,
995
+ 248.5,
996
+ 217.0,
997
+ 310.0,
998
+ 206.5,
999
+ 453.0,
1000
+ 284.0,
1001
+ 250.5,
1002
+ 427.5,
1003
+ 391.5,
1004
+ 344.0,
1005
+ 210.0,
1006
+ 330.5,
1007
+ 313.0,
1008
+ 391.0,
1009
+ 222.0,
1010
+ 334.5
1011
+ ],
1012
+ "loss": [
1013
+ -0.2943,
1014
+ 0.4545,
1015
+ -0.3589,
1016
+ -0.361,
1017
+ -0.0626,
1018
+ -0.3143,
1019
+ -0.2067,
1020
+ -0.2332,
1021
+ -0.0765,
1022
+ 0.4151,
1023
+ -0.2859,
1024
+ -0.0259,
1025
+ -0.1684,
1026
+ 0.0,
1027
+ 0.1844,
1028
+ -0.1791,
1029
+ 0.1228,
1030
+ -0.0,
1031
+ -0.0347,
1032
+ -0.3468,
1033
+ -0.075,
1034
+ 0.0,
1035
+ 0.1498,
1036
+ -0.2065,
1037
+ 0.0,
1038
+ -0.2298,
1039
+ -0.26,
1040
+ 0.0492,
1041
+ 0.0,
1042
+ 0.0163,
1043
+ 0.0902,
1044
+ 0.0303,
1045
+ -0.2002,
1046
+ 0.1141,
1047
+ -0.1438,
1048
+ 0.0212,
1049
+ -0.3862,
1050
+ -0.1845,
1051
+ 0.0317,
1052
+ -0.4153,
1053
+ 0.0904,
1054
+ 0.288,
1055
+ -0.266,
1056
+ 0.0,
1057
+ -0.2219,
1058
+ 0.2973,
1059
+ 0.0439,
1060
+ 0.1357,
1061
+ 0.096,
1062
+ -0.3453,
1063
+ -0.1166,
1064
+ -0.1184,
1065
+ -0.2653,
1066
+ 0.0,
1067
+ -0.119,
1068
+ 0.0897,
1069
+ 0.1155,
1070
+ -0.1689,
1071
+ -0.1602,
1072
+ 0.1478,
1073
+ -0.3653,
1074
+ 0.275,
1075
+ -0.0911,
1076
+ 0.1457,
1077
+ -0.3527,
1078
+ 0.2368,
1079
+ -0.1816,
1080
+ -0.1511,
1081
+ -0.1147,
1082
+ 0.2914,
1083
+ -0.1945,
1084
+ -0.0666,
1085
+ -0.4405,
1086
+ -0.3663,
1087
+ -0.0991,
1088
+ 0.3217,
1089
+ 0.4185,
1090
+ 0.1411,
1091
+ -0.3257,
1092
+ 0.0901,
1093
+ -0.4172,
1094
+ -0.2866,
1095
+ -0.1863,
1096
+ -0.1554,
1097
+ 0.0183,
1098
+ -0.2581,
1099
+ -0.2866,
1100
+ 0.1006,
1101
+ -0.5773,
1102
+ -0.2449,
1103
+ -0.2544,
1104
+ -0.2644,
1105
+ 0.1295,
1106
+ -0.0887,
1107
+ -0.1993,
1108
+ -0.1671,
1109
+ -0.0851,
1110
+ -0.0441,
1111
+ 0.1131,
1112
+ 0.0,
1113
+ -0.5963,
1114
+ -0.4238,
1115
+ -0.1249,
1116
+ 0.0,
1117
+ -0.032,
1118
+ -0.2603,
1119
+ -0.2651,
1120
+ -0.2293,
1121
+ -0.2482,
1122
+ -0.0745,
1123
+ -0.4547,
1124
+ -0.3468,
1125
+ -0.1457,
1126
+ 0.1584,
1127
+ 0.0421,
1128
+ 0.0501,
1129
+ 0.1506,
1130
+ 0.3948,
1131
+ 0.1416,
1132
+ 0.4622,
1133
+ -0.0655,
1134
+ 0.1332,
1135
+ -0.1323,
1136
+ -0.132,
1137
+ 0.1336,
1138
+ -0.1192,
1139
+ -0.2391,
1140
+ 0.0054,
1141
+ 0.0696,
1142
+ -0.0183,
1143
+ -0.073,
1144
+ 0.0821,
1145
+ -0.1154,
1146
+ -0.1383,
1147
+ 0.0,
1148
+ 0.0001,
1149
+ -0.0783,
1150
+ 0.0016,
1151
+ -0.0011,
1152
+ -0.415,
1153
+ -0.1666,
1154
+ -0.2606,
1155
+ -0.0921,
1156
+ -0.3155,
1157
+ 0.2833,
1158
+ 0.0,
1159
+ -0.1931,
1160
+ 0.3007,
1161
+ -0.0013,
1162
+ -0.0638,
1163
+ -0.3383,
1164
+ 0.1945,
1165
+ 0.1128,
1166
+ -0.0365,
1167
+ 0.0,
1168
+ -0.414,
1169
+ -0.0867,
1170
+ -0.2621,
1171
+ 0.4124,
1172
+ 0.0022,
1173
+ 0.1694,
1174
+ -0.1329,
1175
+ -0.2148,
1176
+ -0.0672,
1177
+ 0.0543,
1178
+ 0.0229,
1179
+ 0.3698,
1180
+ 0.1479,
1181
+ 0.2458,
1182
+ -0.1687,
1183
+ -0.0845,
1184
+ 0.1057,
1185
+ -0.1368,
1186
+ -0.1452,
1187
+ -0.2222,
1188
+ 0.0137,
1189
+ 0.2873,
1190
+ 0.034,
1191
+ 0.1075,
1192
+ -0.0407,
1193
+ -0.1478,
1194
+ 0.0,
1195
+ 0.0232,
1196
+ 0.055,
1197
+ -0.1805,
1198
+ -0.3354,
1199
+ 0.0023,
1200
+ 0.1245,
1201
+ -0.092,
1202
+ -0.1219,
1203
+ -0.1001,
1204
+ 0.1396,
1205
+ -0.2172,
1206
+ -0.3041,
1207
+ -0.259,
1208
+ -0.388,
1209
+ 0.1804,
1210
+ 0.0378,
1211
+ -0.3296,
1212
+ 0.3155
1213
+ ],
1214
+ "grad_norm": [
1215
+ 0.1961,
1216
+ 0.1958,
1217
+ 0.167,
1218
+ 0.1481,
1219
+ 0.1628,
1220
+ 0.2135,
1221
+ 0.1081,
1222
+ 0.1042,
1223
+ 0.172,
1224
+ 0.189,
1225
+ NaN,
1226
+ 0.1705,
1227
+ NaN,
1228
+ 0.0,
1229
+ 0.2238,
1230
+ 0.1466,
1231
+ 0.1339,
1232
+ 0.1383,
1233
+ 0.14,
1234
+ 0.097,
1235
+ 0.1361,
1236
+ 0.0,
1237
+ 0.285,
1238
+ 0.0758,
1239
+ 0.1444,
1240
+ 0.1839,
1241
+ 0.2411,
1242
+ 0.1278,
1243
+ 0.0,
1244
+ 0.1871,
1245
+ 0.0803,
1246
+ 0.0971,
1247
+ NaN,
1248
+ 0.2251,
1249
+ 0.2385,
1250
+ 0.1113,
1251
+ 0.2192,
1252
+ 0.2427,
1253
+ 0.1562,
1254
+ 0.1537,
1255
+ 0.2454,
1256
+ 7.313,
1257
+ 0.1808,
1258
+ 0.0,
1259
+ 0.2211,
1260
+ 0.1802,
1261
+ 0.1352,
1262
+ 0.1725,
1263
+ 0.2209,
1264
+ 0.1537,
1265
+ 0.0943,
1266
+ 0.1949,
1267
+ 0.1484,
1268
+ 0.0,
1269
+ 0.1429,
1270
+ 0.1697,
1271
+ 0.1782,
1272
+ 0.1379,
1273
+ 0.1811,
1274
+ 0.1497,
1275
+ 0.2006,
1276
+ 0.2164,
1277
+ 0.1604,
1278
+ 0.2584,
1279
+ 0.1887,
1280
+ 0.1719,
1281
+ 0.1787,
1282
+ 0.1932,
1283
+ 0.162,
1284
+ 0.1837,
1285
+ 6.6024,
1286
+ 0.0937,
1287
+ 0.1919,
1288
+ 0.2166,
1289
+ 0.0878,
1290
+ 0.1349,
1291
+ 0.1933,
1292
+ 0.1453,
1293
+ 0.0689,
1294
+ 0.23,
1295
+ 0.1865,
1296
+ 0.1643,
1297
+ 0.1729,
1298
+ 0.1429,
1299
+ 0.1652,
1300
+ 0.2979,
1301
+ 0.2033,
1302
+ 0.2461,
1303
+ 0.2547,
1304
+ 0.2016,
1305
+ 0.106,
1306
+ 0.115,
1307
+ 0.1593,
1308
+ 0.1303,
1309
+ 0.2509,
1310
+ 0.1655,
1311
+ 0.2473,
1312
+ 0.398,
1313
+ 0.2547,
1314
+ 0.0009,
1315
+ 0.2819,
1316
+ 0.1811,
1317
+ 0.1835,
1318
+ 0.0001,
1319
+ 0.1994,
1320
+ 0.1029,
1321
+ 0.1525,
1322
+ 0.2811,
1323
+ 0.1642,
1324
+ 0.1278,
1325
+ 0.1342,
1326
+ 0.123,
1327
+ 0.2076,
1328
+ 0.1391,
1329
+ 0.2146,
1330
+ 0.2434,
1331
+ 0.136,
1332
+ 0.265,
1333
+ 0.1568,
1334
+ 8.4723,
1335
+ 0.136,
1336
+ 0.1408,
1337
+ 0.1997,
1338
+ 0.1428,
1339
+ 0.1957,
1340
+ 0.153,
1341
+ 0.1334,
1342
+ 0.0977,
1343
+ 5.4034,
1344
+ 0.2068,
1345
+ 0.3558,
1346
+ 0.182,
1347
+ 0.2308,
1348
+ 0.138,
1349
+ 0.0001,
1350
+ 3.9199,
1351
+ 0.1769,
1352
+ 0.207,
1353
+ 0.2048,
1354
+ 9.8743,
1355
+ 0.0885,
1356
+ 0.2152,
1357
+ 0.2054,
1358
+ 0.0973,
1359
+ 0.1709,
1360
+ 0.1017,
1361
+ 0.2027,
1362
+ 0.1274,
1363
+ 0.2776,
1364
+ 0.1704,
1365
+ 0.1746,
1366
+ 0.1885,
1367
+ 0.2155,
1368
+ 0.1581,
1369
+ 0.1066,
1370
+ 0.203,
1371
+ 0.1085,
1372
+ 0.2463,
1373
+ 0.1368,
1374
+ 0.2517,
1375
+ 0.1909,
1376
+ 0.1723,
1377
+ 0.2901,
1378
+ 0.1457,
1379
+ 0.4256,
1380
+ 4.2154,
1381
+ 0.1762,
1382
+ 0.1586,
1383
+ 0.2176,
1384
+ 0.2246,
1385
+ 0.215,
1386
+ 0.2202,
1387
+ 4.6015,
1388
+ 0.2281,
1389
+ 6.0358,
1390
+ 0.1576,
1391
+ 0.2039,
1392
+ 0.1561,
1393
+ 0.2154,
1394
+ 0.1517,
1395
+ 0.1233,
1396
+ 0.1314,
1397
+ 0.2584,
1398
+ 0.1628,
1399
+ 0.2852,
1400
+ 0.2748,
1401
+ 0.1448,
1402
+ 0.2371,
1403
+ 0.1317,
1404
+ 0.222,
1405
+ 0.256,
1406
+ 0.1449,
1407
+ 0.208,
1408
+ 0.1329,
1409
+ 0.1631,
1410
+ 8.4834,
1411
+ 0.176,
1412
+ 0.2077,
1413
+ 0.2308,
1414
+ 0.1885
1415
+ ],
1416
+ "model": "Qwen/Qwen2.5-3B-Instruct",
1417
+ "method": "GRPO_200_steps",
1418
+ "runtime_seconds": 8412,
1419
+ "peak_reward": 0.5063,
1420
+ "peak_step": 157,
1421
+ "final_reward": 0.3462,
1422
+ "compute_cost": "$0 (free Colab T4)"
1423
+ }