Upload generator checkpoints for round 001

Browse files

Files changed (8) hide show

self_play_hf_a10g_train/round_001/generator_train/README.md +1 -1
self_play_hf_a10g_train/round_001/generator_train/checkpoint-40/model.safetensors +1 -1
self_play_hf_a10g_train/round_001/generator_train/checkpoint-40/optimizer.pt +1 -1
self_play_hf_a10g_train/round_001/generator_train/checkpoint-40/trainer_state.json +389 -389
self_play_hf_a10g_train/round_001/generator_train/checkpoint-50/model.safetensors +1 -1
self_play_hf_a10g_train/round_001/generator_train/checkpoint-50/optimizer.pt +1 -1
self_play_hf_a10g_train/round_001/generator_train/checkpoint-50/trainer_state.json +486 -486
self_play_hf_a10g_train/round_001/generator_train/final_model/model.safetensors +1 -1

self_play_hf_a10g_train/round_001/generator_train/README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/siddeshwar2004-international-institute-of-information-te/osint-self-play-train/runs/w4yxkqbv)


27
28	## Training procedure
29
30	+ [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/siddeshwar2004-international-institute-of-information-te/osint-self-play-train/runs/d6lveb1e)
31
32
33

self_play_hf_a10g_train/round_001/generator_train/checkpoint-40/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f104793ef80b632081adc349f9a54bede0112ea26d13ce2c2a8312cf61dbbfae
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:0827989c90bcaad483dee84b62c1ba69fdf377e659087667ae2a28e1992a2fc6
 size 1976163472

self_play_hf_a10g_train/round_001/generator_train/checkpoint-40/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d04b529c8641e602da72a33b67693f5b64694dac6252d75dad9f985ff685e6b
 size 3952509771

 version https://git-lfs.github.com/spec/v1
+oid sha256:ceec2f7113291001d1654c27484e896c530e9cfd6710e3ffcfdcc4fb0eeee677
 size 3952509771

self_play_hf_a10g_train/round_001/generator_train/checkpoint-40/trainer_state.json CHANGED Viewed

@@ -25,7 +25,7 @@
       "entropy": 1.9362258911132812,
       "epoch": 0.041666666666666664,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 3.343350648880005,
       "kl": 0.0005498419050127268,
       "learning_rate": 5e-06,
       "loss": 0.13995857536792755,
@@ -35,59 +35,59 @@
       "rewards/GeneratorRewardFunction/mean": -0.4352343678474426,
       "rewards/GeneratorRewardFunction/std": 0.306624174118042,
       "step": 1,
-      "step_time": 12.520110770000002
     },
     {
-      "clip_ratio/high_max": 0.0045572915114462376,
-      "clip_ratio/high_mean": 0.0045572915114462376,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.005859375,
-      "entropy": 1.2710224390029907,
       "epoch": 0.08333333333333333,
-      "grad_norm": 2.8392181396484375,
-      "kl": 0.001467077643610537,
       "learning_rate": 4.9000000000000005e-06,
-      "loss": -0.06676606088876724,
       "step": 2,
-      "step_time": 0.22065511100001345
     },
     {
-      "clip_ratio/high_max": 0.013671875,
-      "clip_ratio/high_mean": 0.013671875,
-      "clip_ratio/low_mean": 0.014322916977107525,
-      "clip_ratio/low_min": 0.014322916977107525,
       "clip_ratio/region_mean": 0.02799479104578495,
-      "entropy": 1.871756911277771,
       "epoch": 0.125,
-      "grad_norm": 2.4508721828460693,
-      "kl": 0.004840313456952572,
       "learning_rate": 4.800000000000001e-06,
-      "loss": 0.010330882854759693,
       "step": 3,
-      "step_time": 0.21905603899998027
     },
     {
-      "clip_ratio/high_max": 0.01822916604578495,
-      "clip_ratio/high_mean": 0.01822916604578495,
       "clip_ratio/low_mean": 0.010416666977107525,
       "clip_ratio/low_min": 0.010416666977107525,
-      "clip_ratio/region_mean": 0.02864583395421505,
-      "entropy": 1.1871482133865356,
       "epoch": 0.16666666666666666,
-      "grad_norm": 1.5818687677383423,
-      "kl": 0.005701068323105574,
       "learning_rate": 4.7e-06,
-      "loss": -0.08211664110422134,
       "step": 4,
-      "step_time": 0.21982950500000698
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0006510416860692203,
       "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -95,65 +95,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.0733331441879272,
       "epoch": 0.20833333333333334,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 3.4188177585601807,
-      "kl": 0.018397731706500053,
       "learning_rate": 4.600000000000001e-06,
-      "loss": 0.14518485963344574,
       "num_tokens": 50440.0,
-      "reward": -0.2228125035762787,
-      "reward_std": 0.274566113948822,
-      "rewards/GeneratorRewardFunction/mean": -0.2228125035762787,
-      "rewards/GeneratorRewardFunction/std": 0.2745661437511444,
       "step": 5,
-      "step_time": 12.121955963999994
     },
     {
-      "clip_ratio/high_max": 0.0052083334885537624,
-      "clip_ratio/high_mean": 0.0052083334885537624,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0071614584885537624,
-      "entropy": 1.327884316444397,
       "epoch": 0.25,
-      "grad_norm": 2.6934618949890137,
-      "kl": 0.01829482428729534,
       "learning_rate": 4.5e-06,
-      "loss": -0.037107061594724655,
       "step": 6,
-      "step_time": 0.22655425900001092
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0052083334885537624,
-      "clip_ratio/low_min": 0.0052083334885537624,
-      "clip_ratio/region_mean": 0.01171875,
-      "entropy": 1.2937031984329224,
       "epoch": 0.2916666666666667,
-      "grad_norm": 2.8983969688415527,
-      "kl": 0.021993428468704224,
       "learning_rate": 4.4e-06,
-      "loss": 0.013194209896028042,
       "step": 7,
-      "step_time": 0.22578505299998142
     },
     {
       "clip_ratio/high_max": 0.029296875,
       "clip_ratio/high_mean": 0.029296875,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.029296875,
-      "entropy": 0.7918106913566589,
       "epoch": 0.3333333333333333,
-      "grad_norm": 1.268328309059143,
-      "kl": 0.03330208733677864,
       "learning_rate": 4.3e-06,
-      "loss": -0.12033451348543167,
       "step": 8,
-      "step_time": 0.2253496229999996
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -168,72 +168,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.0043877363204956,
       "epoch": 0.375,
       "frac_reward_zero_std": 0.25,
-      "grad_norm": 1.3302299976348877,
-      "kl": 0.02948068641126156,
       "learning_rate": 4.2000000000000004e-06,
-      "loss": -0.07878098636865616,
       "num_tokens": 75884.0,
-      "reward": -0.12250000238418579,
-      "reward_std": 0.21038061380386353,
-      "rewards/GeneratorRewardFunction/mean": -0.12250000238418579,
-      "rewards/GeneratorRewardFunction/std": 0.21038061380386353,
       "step": 9,
-      "step_time": 11.949294435000013
     },
     {
-      "clip_ratio/high_max": 0.010416666977107525,
-      "clip_ratio/high_mean": 0.010416666977107525,
-      "clip_ratio/low_mean": 0.0032552082557231188,
-      "clip_ratio/low_min": 0.0032552082557231188,
-      "clip_ratio/region_mean": 0.013671875,
-      "entropy": 1.1474007368087769,
       "epoch": 0.4166666666666667,
-      "grad_norm": 2.1202971935272217,
-      "kl": 0.03631855919957161,
       "learning_rate": 4.1e-06,
-      "loss": 0.03980601206421852,
       "step": 10,
-      "step_time": 0.22497136300000875
     },
     {
-      "clip_ratio/high_max": 0.008463541977107525,
-      "clip_ratio/high_mean": 0.008463541977107525,
-      "clip_ratio/low_mean": 0.00390625,
-      "clip_ratio/low_min": 0.00390625,
-      "clip_ratio/region_mean": 0.012369791977107525,
-      "entropy": 0.9981658458709717,
       "epoch": 0.4583333333333333,
-      "grad_norm": 2.094111680984497,
-      "kl": 0.049915943294763565,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.06331142038106918,
       "step": 11,
-      "step_time": 0.22518257699999822
     },
     {
-      "clip_ratio/high_max": 0.0403645820915699,
-      "clip_ratio/high_mean": 0.0403645820915699,
-      "clip_ratio/low_mean": 0.0065104165114462376,
-      "clip_ratio/low_min": 0.0065104165114462376,
-      "clip_ratio/region_mean": 0.046875,
-      "entropy": 1.3572144508361816,
       "epoch": 0.5,
-      "grad_norm": 2.6413395404815674,
-      "kl": 0.053241848945617676,
       "learning_rate": 3.900000000000001e-06,
-      "loss": -0.022430941462516785,
       "step": 12,
-      "step_time": 0.2254562319999991
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.001953125,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -241,65 +241,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.629288673400879,
       "epoch": 0.5416666666666666,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 2.107161283493042,
-      "kl": 0.0636429563164711,
       "learning_rate": 3.8000000000000005e-06,
-      "loss": 0.11612584441900253,
       "num_tokens": 101112.0,
-      "reward": -0.11937499791383743,
-      "reward_std": 0.20747588574886322,
-      "rewards/GeneratorRewardFunction/mean": -0.11937499791383743,
-      "rewards/GeneratorRewardFunction/std": 0.20747590065002441,
       "step": 13,
-      "step_time": 12.014855219999987
     },
     {
-      "clip_ratio/high_max": 0.0032552082557231188,
-      "clip_ratio/high_mean": 0.0032552082557231188,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.00390625,
-      "entropy": 1.4905215501785278,
       "epoch": 0.5833333333333334,
-      "grad_norm": 1.75613272190094,
-      "kl": 0.060588542371988297,
       "learning_rate": 3.7e-06,
-      "loss": 0.0006357845850288868,
       "step": 14,
-      "step_time": 0.21892069699998729
     },
     {
-      "clip_ratio/high_max": 0.0071614584885537624,
-      "clip_ratio/high_mean": 0.0071614584885537624,
-      "clip_ratio/low_mean": 0.009114583022892475,
-      "clip_ratio/low_min": 0.009114583022892475,
-      "clip_ratio/region_mean": 0.01627604104578495,
-      "entropy": 1.2682157754898071,
       "epoch": 0.625,
-      "grad_norm": 2.94674015045166,
-      "kl": 0.08301883935928345,
       "learning_rate": 3.6000000000000003e-06,
-      "loss": -0.0923055037856102,
       "step": 15,
-      "step_time": 0.21824655300000018
     },
     {
-      "clip_ratio/high_max": 0.008463541977107525,
-      "clip_ratio/high_mean": 0.008463541977107525,
-      "clip_ratio/low_mean": 0.01627604104578495,
-      "clip_ratio/low_min": 0.01627604104578495,
-      "clip_ratio/region_mean": 0.02473958395421505,
-      "entropy": 0.9931669235229492,
       "epoch": 0.6666666666666666,
-      "grad_norm": 2.1109514236450195,
-      "kl": 0.09274417906999588,
       "learning_rate": 3.5e-06,
-      "loss": -0.0218100156635046,
       "step": 16,
-      "step_time": 0.21831970400000955
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -314,72 +314,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.376638412475586,
       "epoch": 0.7083333333333334,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.625627279281616,
-      "kl": 0.07451707124710083,
       "learning_rate": 3.4000000000000005e-06,
-      "loss": 0.02886168472468853,
       "num_tokens": 126436.0,
-      "reward": -0.09125000238418579,
-      "reward_std": 0.1655445545911789,
-      "rewards/GeneratorRewardFunction/mean": -0.09125000238418579,
-      "rewards/GeneratorRewardFunction/std": 0.1655445545911789,
       "step": 17,
-      "step_time": 12.074089973000014
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0026041667442768812,
-      "entropy": 0.8447733521461487,
       "epoch": 0.75,
-      "grad_norm": 2.2611021995544434,
-      "kl": 0.08117184042930603,
       "learning_rate": 3.3000000000000006e-06,
-      "loss": -0.003659568028524518,
       "step": 18,
-      "step_time": 0.22418350800001008
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.0071614584885537624,
-      "entropy": 0.9943304061889648,
       "epoch": 0.7916666666666666,
-      "grad_norm": 1.5852197408676147,
-      "kl": 0.08660884946584702,
       "learning_rate": 3.2000000000000003e-06,
-      "loss": -0.10765092819929123,
       "step": 19,
-      "step_time": 0.224853281999998
     },
     {
-      "clip_ratio/high_max": 0.008463541977107525,
-      "clip_ratio/high_mean": 0.008463541977107525,
-      "clip_ratio/low_mean": 0.02213541604578495,
-      "clip_ratio/low_min": 0.02213541604578495,
-      "clip_ratio/region_mean": 0.03059895895421505,
-      "entropy": 1.2907896041870117,
       "epoch": 0.8333333333333334,
-      "grad_norm": 2.97239089012146,
-      "kl": 0.08734595775604248,
       "learning_rate": 3.1000000000000004e-06,
-      "loss": 0.08410018682479858,
       "step": 20,
-      "step_time": 0.22594529400001306
     },
     {
-      "clip_ratio/high_max": 0.0026041667442768812,
-      "clip_ratio/high_mean": 0.0026041667442768812,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0026041667442768812,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -387,72 +387,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.3083521127700806,
       "epoch": 0.875,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 2.6607460975646973,
-      "kl": 0.08000912517309189,
       "learning_rate": 3e-06,
-      "loss": -0.11818201094865799,
       "num_tokens": 151596.0,
-      "reward": -0.22624999284744263,
-      "reward_std": 0.2758048474788666,
-      "rewards/GeneratorRewardFunction/mean": -0.22624999284744263,
-      "rewards/GeneratorRewardFunction/std": 0.27580487728118896,
       "step": 21,
-      "step_time": 11.957008280999986
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.0026041667442768812,
-      "entropy": 1.2017608880996704,
       "epoch": 0.9166666666666666,
-      "grad_norm": 0.8747857809066772,
-      "kl": 0.11337386816740036,
       "learning_rate": 2.9e-06,
-      "loss": -0.003786882385611534,
       "step": 22,
-      "step_time": 0.221026849999987
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0032552082557231188,
-      "entropy": 1.107405662536621,
       "epoch": 0.9583333333333334,
-      "grad_norm": 2.115562915802002,
-      "kl": 0.09759091585874557,
       "learning_rate": 2.8000000000000003e-06,
-      "loss": 0.08772162348031998,
       "step": 23,
-      "step_time": 0.22019210400000588
     },
     {
-      "clip_ratio/high_max": 0.005859375,
-      "clip_ratio/high_mean": 0.005859375,
-      "clip_ratio/low_mean": 0.00390625,
-      "clip_ratio/low_min": 0.00390625,
-      "clip_ratio/region_mean": 0.009765625,
-      "entropy": 0.7833542823791504,
       "epoch": 1.0,
-      "grad_norm": 1.686574101448059,
-      "kl": 0.10800782591104507,
       "learning_rate": 2.7000000000000004e-06,
-      "loss": 0.03493640199303627,
       "step": 24,
-      "step_time": 0.22060076099998582
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -460,20 +460,20 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.0690312385559082,
       "epoch": 1.0416666666666667,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.565182685852051,
-      "kl": 0.12982706725597382,
       "learning_rate": 2.6e-06,
-      "loss": 0.12511824071407318,
       "num_tokens": 177212.0,
-      "reward": -0.12406250089406967,
-      "reward_std": 0.19458690285682678,
-      "rewards/GeneratorRewardFunction/mean": -0.12406250089406967,
-      "rewards/GeneratorRewardFunction/std": 0.19458691775798798,
       "step": 25,
-      "step_time": 12.125360838999995
     },
     {
       "clip_ratio/high_max": 0.00390625,
@@ -481,51 +481,51 @@
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
       "clip_ratio/region_mean": 0.0052083334885537624,
-      "entropy": 0.8722183108329773,
       "epoch": 1.0833333333333333,
-      "grad_norm": 2.401808261871338,
-      "kl": 0.12285982817411423,
       "learning_rate": 2.5e-06,
-      "loss": -0.13922104239463806,
       "step": 26,
-      "step_time": 0.22810240500001555
     },
     {
-      "clip_ratio/high_max": 0.0052083334885537624,
-      "clip_ratio/high_mean": 0.0052083334885537624,
-      "clip_ratio/low_mean": 0.005859375,
-      "clip_ratio/low_min": 0.005859375,
-      "clip_ratio/region_mean": 0.011067708022892475,
-      "entropy": 1.3027639389038086,
       "epoch": 1.125,
-      "grad_norm": 1.7678114175796509,
-      "kl": 0.10112806409597397,
       "learning_rate": 2.4000000000000003e-06,
-      "loss": -0.0586722195148468,
       "step": 27,
-      "step_time": 0.22764332500003093
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0071614584885537624,
-      "clip_ratio/low_min": 0.0071614584885537624,
-      "clip_ratio/region_mean": 0.013671875,
-      "entropy": 0.9790509343147278,
       "epoch": 1.1666666666666667,
-      "grad_norm": 1.9319959878921509,
-      "kl": 0.11484679579734802,
       "learning_rate": 2.3000000000000004e-06,
-      "loss": 0.07509768754243851,
       "step": 28,
-      "step_time": 0.22808939600002986
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0006510416860692203,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -533,65 +533,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 0.9768911004066467,
       "epoch": 1.2083333333333333,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.2773685455322266,
-      "kl": 0.10255210846662521,
       "learning_rate": 2.2e-06,
-      "loss": -0.01104909647256136,
       "num_tokens": 202200.0,
-      "reward": -0.13343749940395355,
-      "reward_std": 0.2115633636713028,
-      "rewards/GeneratorRewardFunction/mean": -0.13343749940395355,
-      "rewards/GeneratorRewardFunction/std": 0.211563378572464,
       "step": 29,
-      "step_time": 11.981290445000013
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 0.9071128368377686,
       "epoch": 1.25,
-      "grad_norm": 2.377110004425049,
-      "kl": 0.11365322023630142,
       "learning_rate": 2.1000000000000002e-06,
-      "loss": 0.07630521804094315,
       "step": 30,
-      "step_time": 0.22243629600001213
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0026041667442768812,
-      "clip_ratio/low_min": 0.0026041667442768812,
-      "clip_ratio/region_mean": 0.009114583022892475,
-      "entropy": 1.3066421747207642,
       "epoch": 1.2916666666666667,
-      "grad_norm": 2.6143717765808105,
-      "kl": 0.09395217150449753,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": -0.023749127984046936,
       "step": 31,
-      "step_time": 0.22260347799999636
     },
     {
-      "clip_ratio/high_max": 0.005859375,
-      "clip_ratio/high_mean": 0.005859375,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0078125,
-      "entropy": 1.2596086263656616,
       "epoch": 1.3333333333333333,
-      "grad_norm": 1.4453171491622925,
-      "kl": 0.09631065279245377,
       "learning_rate": 1.9000000000000002e-06,
-      "loss": -0.04094076156616211,
       "step": 32,
-      "step_time": 0.2226373689999832
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -606,65 +606,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 0.9096196293830872,
       "epoch": 1.375,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.4287660121917725,
-      "kl": 0.15610061585903168,
       "learning_rate": 1.8000000000000001e-06,
-      "loss": 0.060271572321653366,
       "num_tokens": 227556.0,
-      "reward": -0.13343749940395355,
-      "reward_std": 0.19603331387043,
-      "rewards/GeneratorRewardFunction/mean": -0.13343749940395355,
-      "rewards/GeneratorRewardFunction/std": 0.19603331387043,
       "step": 33,
-      "step_time": 12.116691536000019
     },
     {
-      "clip_ratio/high_max": 0.0032552082557231188,
-      "clip_ratio/high_mean": 0.0032552082557231188,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.00390625,
-      "entropy": 1.2461239099502563,
       "epoch": 1.4166666666666667,
-      "grad_norm": 2.0638527870178223,
-      "kl": 0.11391329020261765,
       "learning_rate": 1.7000000000000002e-06,
-      "loss": -0.012484799139201641,
       "step": 34,
-      "step_time": 0.22859811600000057
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.0078125,
-      "entropy": 0.9673511385917664,
       "epoch": 1.4583333333333333,
-      "grad_norm": 2.4296762943267822,
-      "kl": 0.1084410771727562,
       "learning_rate": 1.6000000000000001e-06,
-      "loss": -0.05158400535583496,
       "step": 35,
-      "step_time": 0.23024993899997526
     },
     {
-      "clip_ratio/high_max": 0.00390625,
-      "clip_ratio/high_mean": 0.00390625,
       "clip_ratio/low_mean": 0.0032552082557231188,
       "clip_ratio/low_min": 0.0032552082557231188,
-      "clip_ratio/region_mean": 0.0071614584885537624,
-      "entropy": 0.983039915561676,
       "epoch": 1.5,
-      "grad_norm": 1.957944631576538,
-      "kl": 0.13104547560214996,
       "learning_rate": 1.5e-06,
-      "loss": 0.004632837139070034,
       "step": 36,
-      "step_time": 0.2287184080000202
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -679,65 +679,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.426942229270935,
       "epoch": 1.5416666666666665,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 1.2855005264282227,
-      "kl": 0.14382179081439972,
       "learning_rate": 1.4000000000000001e-06,
-      "loss": -0.0295367781072855,
       "num_tokens": 252640.0,
-      "reward": -0.07735294103622437,
-      "reward_std": 0.3284520208835602,
-      "rewards/GeneratorRewardFunction/mean": -0.07735294103622437,
-      "rewards/GeneratorRewardFunction/std": 0.32845205068588257,
       "step": 37,
-      "step_time": 13.249790346999987
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.0013020833721384406,
-      "entropy": 1.1062594652175903,
       "epoch": 1.5833333333333335,
-      "grad_norm": 1.2463343143463135,
-      "kl": 0.14914868772029877,
       "learning_rate": 1.3e-06,
-      "loss": 0.06158822774887085,
       "step": 38,
-      "step_time": 0.22136241700002302
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 1.3345317840576172,
       "epoch": 1.625,
-      "grad_norm": 2.388456106185913,
-      "kl": 0.1212289109826088,
       "learning_rate": 1.2000000000000002e-06,
-      "loss": 0.013628202490508556,
       "step": 39,
-      "step_time": 0.22244895000000042
     },
     {
-      "clip_ratio/high_max": 0.0026041667442768812,
-      "clip_ratio/high_mean": 0.0026041667442768812,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.0032552082557231188,
-      "entropy": 0.9387586712837219,
       "epoch": 1.6666666666666665,
-      "grad_norm": 2.4696860313415527,
-      "kl": 0.1326405256986618,
       "learning_rate": 1.1e-06,
-      "loss": -0.0440821647644043,
       "step": 40,
-      "step_time": 0.22124087500003498
     }
   ],
   "logging_steps": 1,

       "entropy": 1.9362258911132812,
       "epoch": 0.041666666666666664,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 3.3426833152770996,
       "kl": 0.0005498419050127268,
       "learning_rate": 5e-06,
       "loss": 0.13995857536792755,
       "rewards/GeneratorRewardFunction/mean": -0.4352343678474426,
       "rewards/GeneratorRewardFunction/std": 0.306624174118042,
       "step": 1,
+      "step_time": 12.578062469000088
     },
     {
+      "clip_ratio/high_max": 0.00390625,
+      "clip_ratio/high_mean": 0.00390625,
+      "clip_ratio/low_mean": 0.0026041667442768812,
+      "clip_ratio/low_min": 0.0026041667442768812,
+      "clip_ratio/region_mean": 0.0065104165114462376,
+      "entropy": 1.2686206102371216,
       "epoch": 0.08333333333333333,
+      "grad_norm": 2.8547239303588867,
+      "kl": 0.001546451705507934,
       "learning_rate": 4.9000000000000005e-06,
+      "loss": -0.06681232899427414,
       "step": 2,
+      "step_time": 0.22036709600001814
     },
     {
+      "clip_ratio/high_max": 0.012369791977107525,
+      "clip_ratio/high_mean": 0.012369791977107525,
+      "clip_ratio/low_mean": 0.015625,
+      "clip_ratio/low_min": 0.015625,
       "clip_ratio/region_mean": 0.02799479104578495,
+      "entropy": 1.8668650388717651,
       "epoch": 0.125,
+      "grad_norm": 2.4686105251312256,
+      "kl": 0.005345983896404505,
       "learning_rate": 4.800000000000001e-06,
+      "loss": 0.010777520947158337,
       "step": 3,
+      "step_time": 0.2199646679999887
     },
     {
+      "clip_ratio/high_max": 0.02083333395421505,
+      "clip_ratio/high_mean": 0.02083333395421505,
       "clip_ratio/low_mean": 0.010416666977107525,
       "clip_ratio/low_min": 0.010416666977107525,
+      "clip_ratio/region_mean": 0.03125,
+      "entropy": 1.1842881441116333,
       "epoch": 0.16666666666666666,
+      "grad_norm": 1.569398045539856,
+      "kl": 0.0072342646308243275,
       "learning_rate": 4.7e-06,
+      "loss": -0.08198019117116928,
       "step": 4,
+      "step_time": 0.2201611520000597
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
       "clip_ratio/low_mean": 0.0006510416860692203,
       "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0026041667442768812,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3128995895385742,
       "epoch": 0.20833333333333334,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.202421188354492,
+      "kl": 0.0129135362803936,
       "learning_rate": 4.600000000000001e-06,
+      "loss": -0.0841849148273468,
       "num_tokens": 50440.0,
+      "reward": -0.3341406285762787,
+      "reward_std": 0.3155691623687744,
+      "rewards/GeneratorRewardFunction/mean": -0.3341406285762787,
+      "rewards/GeneratorRewardFunction/std": 0.3155691623687744,
       "step": 5,
+      "step_time": 12.076087126999937
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.0052083334885537624,
+      "clip_ratio/low_min": 0.0052083334885537624,
+      "clip_ratio/region_mean": 0.0078125,
+      "entropy": 1.3001914024353027,
       "epoch": 0.25,
+      "grad_norm": 2.854139804840088,
+      "kl": 0.01436698716133833,
       "learning_rate": 4.5e-06,
+      "loss": 0.02869725041091442,
       "step": 6,
+      "step_time": 0.22715311399997518
     },
     {
+      "clip_ratio/high_max": 0.0071614584885537624,
+      "clip_ratio/high_mean": 0.0071614584885537624,
+      "clip_ratio/low_mean": 0.0071614584885537624,
+      "clip_ratio/low_min": 0.0071614584885537624,
+      "clip_ratio/region_mean": 0.014322916977107525,
+      "entropy": 1.0331100225448608,
       "epoch": 0.2916666666666667,
+      "grad_norm": 1.9297211170196533,
+      "kl": 0.01791433058679104,
       "learning_rate": 4.4e-06,
+      "loss": -0.028683962300419807,
       "step": 7,
+      "step_time": 0.22586069900000894
     },
     {
       "clip_ratio/high_max": 0.029296875,
       "clip_ratio/high_mean": 0.029296875,
+      "clip_ratio/low_mean": 0.01171875,
+      "clip_ratio/low_min": 0.01171875,
+      "clip_ratio/region_mean": 0.041015625,
+      "entropy": 1.1462408304214478,
       "epoch": 0.3333333333333333,
+      "grad_norm": 2.57124924659729,
+      "kl": 0.0388585664331913,
       "learning_rate": 4.3e-06,
+      "loss": 0.08592668920755386,
       "step": 8,
+      "step_time": 0.22552726200001416
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 0.999983549118042,
       "epoch": 0.375,
       "frac_reward_zero_std": 0.25,
+      "grad_norm": 2.0052192211151123,
+      "kl": 0.030047910287976265,
       "learning_rate": 4.2000000000000004e-06,
+      "loss": -0.05663062259554863,
       "num_tokens": 75884.0,
+      "reward": -0.3902343511581421,
+      "reward_std": 0.31722894310951233,
+      "rewards/GeneratorRewardFunction/mean": -0.3902343511581421,
+      "rewards/GeneratorRewardFunction/std": 0.3172289729118347,
       "step": 9,
+      "step_time": 12.047747722000054
     },
     {
+      "clip_ratio/high_max": 0.005859375,
+      "clip_ratio/high_mean": 0.005859375,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0065104165114462376,
+      "entropy": 1.6177984476089478,
       "epoch": 0.4166666666666667,
+      "grad_norm": 2.137237071990967,
+      "kl": 0.04101690649986267,
       "learning_rate": 4.1e-06,
+      "loss": -0.02161034755408764,
       "step": 10,
+      "step_time": 0.2252395229999138
     },
     {
+      "clip_ratio/high_max": 0.01692708395421505,
+      "clip_ratio/high_mean": 0.01692708395421505,
+      "clip_ratio/low_mean": 0.0065104165114462376,
+      "clip_ratio/low_min": 0.0065104165114462376,
+      "clip_ratio/region_mean": 0.0234375,
+      "entropy": 1.038699746131897,
       "epoch": 0.4583333333333333,
+      "grad_norm": 2.672621965408325,
+      "kl": 0.031740155071020126,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 0.056199509650468826,
       "step": 11,
+      "step_time": 0.22556489999999485
     },
     {
+      "clip_ratio/high_max": 0.01822916604578495,
+      "clip_ratio/high_mean": 0.01822916604578495,
+      "clip_ratio/low_mean": 0.010416666977107525,
+      "clip_ratio/low_min": 0.010416666977107525,
+      "clip_ratio/region_mean": 0.02864583395421505,
+      "entropy": 1.296442985534668,
       "epoch": 0.5,
+      "grad_norm": 1.4488099813461304,
+      "kl": 0.04755128547549248,
       "learning_rate": 3.900000000000001e-06,
+      "loss": 0.02385079860687256,
       "step": 12,
+      "step_time": 0.22498397900005784
     },
     {
+      "clip_ratio/high_max": 0.0013020833721384406,
+      "clip_ratio/high_mean": 0.0013020833721384406,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3575109243392944,
       "epoch": 0.5416666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.2914443016052246,
+      "kl": 0.06257984787225723,
       "learning_rate": 3.8000000000000005e-06,
+      "loss": -0.10538653284311295,
       "num_tokens": 101112.0,
+      "reward": -0.22843749821186066,
+      "reward_std": 0.294514924287796,
+      "rewards/GeneratorRewardFunction/mean": -0.22843749821186066,
+      "rewards/GeneratorRewardFunction/std": 0.2945149540901184,
       "step": 13,
+      "step_time": 12.01501083200003
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.001953125,
+      "entropy": 1.2918612957000732,
       "epoch": 0.5833333333333334,
+      "grad_norm": 3.0368542671203613,
+      "kl": 0.04979195073246956,
       "learning_rate": 3.7e-06,
+      "loss": -0.003113487036898732,
       "step": 14,
+      "step_time": 0.21806825399994523
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.005859375,
+      "clip_ratio/low_min": 0.005859375,
+      "clip_ratio/region_mean": 0.008463541977107525,
+      "entropy": 1.1081053018569946,
       "epoch": 0.625,
+      "grad_norm": 3.5923683643341064,
+      "kl": 0.06817911565303802,
       "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.15118412673473358,
       "step": 15,
+      "step_time": 0.217887520999966
     },
     {
+      "clip_ratio/high_max": 0.02018229104578495,
+      "clip_ratio/high_mean": 0.02018229104578495,
+      "clip_ratio/low_mean": 0.0026041667442768812,
+      "clip_ratio/low_min": 0.0026041667442768812,
+      "clip_ratio/region_mean": 0.02278645895421505,
+      "entropy": 1.0803831815719604,
       "epoch": 0.6666666666666666,
+      "grad_norm": 1.789110541343689,
+      "kl": 0.056480005383491516,
       "learning_rate": 3.5e-06,
+      "loss": -0.03890883922576904,
       "step": 16,
+      "step_time": 0.21781940799996846
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 0.8709045052528381,
       "epoch": 0.7083333333333334,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.329393982887268,
+      "kl": 0.06073950603604317,
       "learning_rate": 3.4000000000000005e-06,
+      "loss": -0.11920400708913803,
       "num_tokens": 126436.0,
+      "reward": -0.2240625023841858,
+      "reward_std": 0.2881968021392822,
+      "rewards/GeneratorRewardFunction/mean": -0.2240625023841858,
+      "rewards/GeneratorRewardFunction/std": 0.2881968021392822,
       "step": 17,
+      "step_time": 12.08798373600007
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.083386778831482,
       "epoch": 0.75,
+      "grad_norm": 1.343295931816101,
+      "kl": 0.0919194221496582,
       "learning_rate": 3.3000000000000006e-06,
+      "loss": -0.007308408617973328,
       "step": 18,
+      "step_time": 0.2253850289998809
     },
     {
+      "clip_ratio/high_max": 0.005859375,
+      "clip_ratio/high_mean": 0.005859375,
+      "clip_ratio/low_mean": 0.0026041667442768812,
+      "clip_ratio/low_min": 0.0026041667442768812,
+      "clip_ratio/region_mean": 0.008463541977107525,
+      "entropy": 1.406662940979004,
       "epoch": 0.7916666666666666,
+      "grad_norm": 3.3420534133911133,
+      "kl": 0.06450249999761581,
       "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.12472107261419296,
       "step": 19,
+      "step_time": 0.22467486499999723
     },
     {
+      "clip_ratio/high_max": 0.011067708022892475,
+      "clip_ratio/high_mean": 0.011067708022892475,
+      "clip_ratio/low_mean": 0.0032552082557231188,
+      "clip_ratio/low_min": 0.0032552082557231188,
+      "clip_ratio/region_mean": 0.014322916977107525,
+      "entropy": 1.6491953134536743,
       "epoch": 0.8333333333333334,
+      "grad_norm": 3.3672103881835938,
+      "kl": 0.0773777961730957,
       "learning_rate": 3.1000000000000004e-06,
+      "loss": 0.0035695277620106936,
       "step": 20,
+      "step_time": 0.22389788999998927
     },
     {
+      "clip_ratio/high_max": 0.0006510416860692203,
+      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0006510416860692203,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.4178005456924438,
       "epoch": 0.875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.6333799362182617,
+      "kl": 0.07392226904630661,
       "learning_rate": 3e-06,
+      "loss": -0.09101495891809464,
       "num_tokens": 151596.0,
+      "reward": -0.15257811546325684,
+      "reward_std": 0.24854345619678497,
+      "rewards/GeneratorRewardFunction/mean": -0.15257811546325684,
+      "rewards/GeneratorRewardFunction/std": 0.24854345619678497,
       "step": 21,
+      "step_time": 12.020297105999816
     },
     {
+      "clip_ratio/high_max": 0.0006510416860692203,
+      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.001953125,
+      "entropy": 1.2036248445510864,
       "epoch": 0.9166666666666666,
+      "grad_norm": 2.1499149799346924,
+      "kl": 0.0772874653339386,
       "learning_rate": 2.9e-06,
+      "loss": 0.08120749890804291,
       "step": 22,
+      "step_time": 0.21995178900010615
     },
     {
+      "clip_ratio/high_max": 0.0032552082557231188,
+      "clip_ratio/high_mean": 0.0032552082557231188,
+      "clip_ratio/low_mean": 0.0032552082557231188,
+      "clip_ratio/low_min": 0.0032552082557231188,
+      "clip_ratio/region_mean": 0.0065104165114462376,
+      "entropy": 1.1966055631637573,
       "epoch": 0.9583333333333334,
+      "grad_norm": 2.0064616203308105,
+      "kl": 0.07331382483243942,
       "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.03140506148338318,
       "step": 23,
+      "step_time": 0.21996421700009705
     },
     {
+      "clip_ratio/high_max": 0.011067708022892475,
+      "clip_ratio/high_mean": 0.011067708022892475,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.01171875,
+      "entropy": 0.9102082252502441,
       "epoch": 1.0,
+      "grad_norm": 1.7175334692001343,
+      "kl": 0.14611481130123138,
       "learning_rate": 2.7000000000000004e-06,
+      "loss": -0.021010393276810646,
       "step": 24,
+      "step_time": 0.21931950600014716
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.9153881072998047,
       "epoch": 1.0416666666666667,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.3460445404052734,
+      "kl": 0.09710023552179337,
       "learning_rate": 2.6e-06,
+      "loss": 0.015220091678202152,
       "num_tokens": 177212.0,
+      "reward": -0.15656250715255737,
+      "reward_std": 0.22349287569522858,
+      "rewards/GeneratorRewardFunction/mean": -0.15656250715255737,
+      "rewards/GeneratorRewardFunction/std": 0.22349286079406738,
       "step": 25,
+      "step_time": 12.153388549000056
     },
     {
       "clip_ratio/high_max": 0.00390625,
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
       "clip_ratio/region_mean": 0.0052083334885537624,
+      "entropy": 1.365325927734375,
       "epoch": 1.0833333333333333,
+      "grad_norm": 1.8710312843322754,
+      "kl": 0.0985046848654747,
       "learning_rate": 2.5e-06,
+      "loss": -0.02838735282421112,
       "step": 26,
+      "step_time": 0.22659933299996737
     },
     {
+      "clip_ratio/high_max": 0.008463541977107525,
+      "clip_ratio/high_mean": 0.008463541977107525,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.009765625,
+      "entropy": 1.2517439126968384,
       "epoch": 1.125,
+      "grad_norm": 2.821958303451538,
+      "kl": 0.09274079650640488,
       "learning_rate": 2.4000000000000003e-06,
+      "loss": -0.007298170123249292,
       "step": 27,
+      "step_time": 0.22647249999999985
     },
     {
+      "clip_ratio/high_max": 0.0052083334885537624,
+      "clip_ratio/high_mean": 0.0052083334885537624,
+      "clip_ratio/low_mean": 0.009114583022892475,
+      "clip_ratio/low_min": 0.009114583022892475,
+      "clip_ratio/region_mean": 0.014322916977107525,
+      "entropy": 2.0579044818878174,
       "epoch": 1.1666666666666667,
+      "grad_norm": 3.259742259979248,
+      "kl": 0.10746321082115173,
       "learning_rate": 2.3000000000000004e-06,
+      "loss": 0.021702758967876434,
       "step": 28,
+      "step_time": 0.22640677999993386
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3725861310958862,
       "epoch": 1.2083333333333333,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8806989192962646,
+      "kl": 0.11961983889341354,
       "learning_rate": 2.2e-06,
+      "loss": 0.07187109440565109,
       "num_tokens": 202200.0,
+      "reward": -0.0561029389500618,
+      "reward_std": 0.314301997423172,
+      "rewards/GeneratorRewardFunction/mean": -0.0561029389500618,
+      "rewards/GeneratorRewardFunction/std": 0.314301997423172,
       "step": 29,
+      "step_time": 13.662849896999887
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.2213298082351685,
       "epoch": 1.25,
+      "grad_norm": 2.1918396949768066,
+      "kl": 0.12398240715265274,
       "learning_rate": 2.1000000000000002e-06,
+      "loss": -0.052896980196237564,
       "step": 30,
+      "step_time": 0.2210835590001352
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.001953125,
+      "clip_ratio/low_min": 0.001953125,
+      "clip_ratio/region_mean": 0.00390625,
+      "entropy": 1.2683231830596924,
       "epoch": 1.2916666666666667,
+      "grad_norm": 2.524726390838623,
+      "kl": 0.14297537505626678,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.12745414674282074,
       "step": 31,
+      "step_time": 0.22096665699996265
     },
     {
+      "clip_ratio/high_max": 0.0032552082557231188,
+      "clip_ratio/high_mean": 0.0032552082557231188,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.00390625,
+      "entropy": 1.0583091974258423,
       "epoch": 1.3333333333333333,
+      "grad_norm": 2.408073902130127,
+      "kl": 0.0881701335310936,
       "learning_rate": 1.9000000000000002e-06,
+      "loss": -0.14430458843708038,
       "step": 32,
+      "step_time": 0.21999255600007928
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3751106262207031,
       "epoch": 1.375,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.4002864360809326,
+      "kl": 0.0900505781173706,
       "learning_rate": 1.8000000000000001e-06,
+      "loss": 0.06270528584718704,
       "num_tokens": 227556.0,
+      "reward": -0.11414062231779099,
+      "reward_std": 0.21683935821056366,
+      "rewards/GeneratorRewardFunction/mean": -0.11414062231779099,
+      "rewards/GeneratorRewardFunction/std": 0.21683938801288605,
       "step": 33,
+      "step_time": 12.070902493999938
     },
     {
+      "clip_ratio/high_max": 0.0045572915114462376,
+      "clip_ratio/high_mean": 0.0045572915114462376,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0045572915114462376,
+      "entropy": 1.2606719732284546,
       "epoch": 1.4166666666666667,
+      "grad_norm": 1.671729326248169,
+      "kl": 0.1210540160536766,
       "learning_rate": 1.7000000000000002e-06,
+      "loss": -0.04401962831616402,
       "step": 34,
+      "step_time": 0.2276347459999215
     },
     {
+      "clip_ratio/high_max": 0.0013020833721384406,
+      "clip_ratio/high_mean": 0.0013020833721384406,
+      "clip_ratio/low_mean": 0.001953125,
+      "clip_ratio/low_min": 0.001953125,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.2780500650405884,
       "epoch": 1.4583333333333333,
+      "grad_norm": 2.278010845184326,
+      "kl": 0.11484409123659134,
       "learning_rate": 1.6000000000000001e-06,
+      "loss": -0.08475238084793091,
       "step": 35,
+      "step_time": 0.22882699100000536
     },
     {
+      "clip_ratio/high_max": 0.0052083334885537624,
+      "clip_ratio/high_mean": 0.0052083334885537624,
       "clip_ratio/low_mean": 0.0032552082557231188,
       "clip_ratio/low_min": 0.0032552082557231188,
+      "clip_ratio/region_mean": 0.008463541977107525,
+      "entropy": 1.0553101301193237,
       "epoch": 1.5,
+      "grad_norm": 1.582037091255188,
+      "kl": 0.12029703706502914,
       "learning_rate": 1.5e-06,
+      "loss": 0.06627888232469559,
       "step": 36,
+      "step_time": 0.22751581399984389
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.0647958517074585,
       "epoch": 1.5416666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.1763558387756348,
+      "kl": 0.08708903193473816,
       "learning_rate": 1.4000000000000001e-06,
+      "loss": -0.00017260713502764702,
       "num_tokens": 252640.0,
+      "reward": -0.10210937261581421,
+      "reward_std": 0.19573244452476501,
+      "rewards/GeneratorRewardFunction/mean": -0.10210937261581421,
+      "rewards/GeneratorRewardFunction/std": 0.1957324594259262,
       "step": 37,
+      "step_time": 12.015305628000078
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0026041667442768812,
+      "entropy": 1.0041130781173706,
       "epoch": 1.5833333333333335,
+      "grad_norm": 1.6093602180480957,
+      "kl": 0.11537543684244156,
       "learning_rate": 1.3e-06,
+      "loss": -0.12453166395425797,
       "step": 38,
+      "step_time": 0.22048816200003785
     },
     {
+      "clip_ratio/high_max": 0.0045572915114462376,
+      "clip_ratio/high_mean": 0.0045572915114462376,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.005859375,
+      "entropy": 1.500306487083435,
       "epoch": 1.625,
+      "grad_norm": 3.409069299697876,
+      "kl": 0.10904627293348312,
       "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.12661518156528473,
       "step": 39,
+      "step_time": 0.22087437000004684
     },
     {
+      "clip_ratio/high_max": 0.0078125,
+      "clip_ratio/high_mean": 0.0078125,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.009114583022892475,
+      "entropy": 1.0560635328292847,
       "epoch": 1.6666666666666665,
+      "grad_norm": 2.0718417167663574,
+      "kl": 0.11926760524511337,
       "learning_rate": 1.1e-06,
+      "loss": -0.0004449083062354475,
       "step": 40,
+      "step_time": 0.2202887500000088
     }
   ],
   "logging_steps": 1,

self_play_hf_a10g_train/round_001/generator_train/checkpoint-50/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f1bb3fea31b76835f54fffde7e1eeacafdd13f1ca40601af302caf5d8275af4
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6fa4eed67a84ce4076ba3848a078496971cd34ba048c794e52cc3b4aab54a27
 size 1976163472

self_play_hf_a10g_train/round_001/generator_train/checkpoint-50/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeb016f10d80583c7030f8924276f5af074ee87a36483989ee09deeb02394767
 size 3952509771

 version https://git-lfs.github.com/spec/v1
+oid sha256:b145cc09cf03081708247bd99e0dd46e23f798d922e5e7df9e75880345e1d969
 size 3952509771

self_play_hf_a10g_train/round_001/generator_train/checkpoint-50/trainer_state.json CHANGED Viewed

@@ -25,7 +25,7 @@
       "entropy": 1.9362258911132812,
       "epoch": 0.041666666666666664,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 3.343350648880005,
       "kl": 0.0005498419050127268,
       "learning_rate": 5e-06,
       "loss": 0.13995857536792755,
@@ -35,59 +35,59 @@
       "rewards/GeneratorRewardFunction/mean": -0.4352343678474426,
       "rewards/GeneratorRewardFunction/std": 0.306624174118042,
       "step": 1,
-      "step_time": 12.520110770000002
     },
     {
-      "clip_ratio/high_max": 0.0045572915114462376,
-      "clip_ratio/high_mean": 0.0045572915114462376,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.005859375,
-      "entropy": 1.2710224390029907,
       "epoch": 0.08333333333333333,
-      "grad_norm": 2.8392181396484375,
-      "kl": 0.001467077643610537,
       "learning_rate": 4.9000000000000005e-06,
-      "loss": -0.06676606088876724,
       "step": 2,
-      "step_time": 0.22065511100001345
     },
     {
-      "clip_ratio/high_max": 0.013671875,
-      "clip_ratio/high_mean": 0.013671875,
-      "clip_ratio/low_mean": 0.014322916977107525,
-      "clip_ratio/low_min": 0.014322916977107525,
       "clip_ratio/region_mean": 0.02799479104578495,
-      "entropy": 1.871756911277771,
       "epoch": 0.125,
-      "grad_norm": 2.4508721828460693,
-      "kl": 0.004840313456952572,
       "learning_rate": 4.800000000000001e-06,
-      "loss": 0.010330882854759693,
       "step": 3,
-      "step_time": 0.21905603899998027
     },
     {
-      "clip_ratio/high_max": 0.01822916604578495,
-      "clip_ratio/high_mean": 0.01822916604578495,
       "clip_ratio/low_mean": 0.010416666977107525,
       "clip_ratio/low_min": 0.010416666977107525,
-      "clip_ratio/region_mean": 0.02864583395421505,
-      "entropy": 1.1871482133865356,
       "epoch": 0.16666666666666666,
-      "grad_norm": 1.5818687677383423,
-      "kl": 0.005701068323105574,
       "learning_rate": 4.7e-06,
-      "loss": -0.08211664110422134,
       "step": 4,
-      "step_time": 0.21982950500000698
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0006510416860692203,
       "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -95,65 +95,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.0733331441879272,
       "epoch": 0.20833333333333334,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 3.4188177585601807,
-      "kl": 0.018397731706500053,
       "learning_rate": 4.600000000000001e-06,
-      "loss": 0.14518485963344574,
       "num_tokens": 50440.0,
-      "reward": -0.2228125035762787,
-      "reward_std": 0.274566113948822,
-      "rewards/GeneratorRewardFunction/mean": -0.2228125035762787,
-      "rewards/GeneratorRewardFunction/std": 0.2745661437511444,
       "step": 5,
-      "step_time": 12.121955963999994
     },
     {
-      "clip_ratio/high_max": 0.0052083334885537624,
-      "clip_ratio/high_mean": 0.0052083334885537624,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0071614584885537624,
-      "entropy": 1.327884316444397,
       "epoch": 0.25,
-      "grad_norm": 2.6934618949890137,
-      "kl": 0.01829482428729534,
       "learning_rate": 4.5e-06,
-      "loss": -0.037107061594724655,
       "step": 6,
-      "step_time": 0.22655425900001092
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0052083334885537624,
-      "clip_ratio/low_min": 0.0052083334885537624,
-      "clip_ratio/region_mean": 0.01171875,
-      "entropy": 1.2937031984329224,
       "epoch": 0.2916666666666667,
-      "grad_norm": 2.8983969688415527,
-      "kl": 0.021993428468704224,
       "learning_rate": 4.4e-06,
-      "loss": 0.013194209896028042,
       "step": 7,
-      "step_time": 0.22578505299998142
     },
     {
       "clip_ratio/high_max": 0.029296875,
       "clip_ratio/high_mean": 0.029296875,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.029296875,
-      "entropy": 0.7918106913566589,
       "epoch": 0.3333333333333333,
-      "grad_norm": 1.268328309059143,
-      "kl": 0.03330208733677864,
       "learning_rate": 4.3e-06,
-      "loss": -0.12033451348543167,
       "step": 8,
-      "step_time": 0.2253496229999996
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -168,72 +168,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.0043877363204956,
       "epoch": 0.375,
       "frac_reward_zero_std": 0.25,
-      "grad_norm": 1.3302299976348877,
-      "kl": 0.02948068641126156,
       "learning_rate": 4.2000000000000004e-06,
-      "loss": -0.07878098636865616,
       "num_tokens": 75884.0,
-      "reward": -0.12250000238418579,
-      "reward_std": 0.21038061380386353,
-      "rewards/GeneratorRewardFunction/mean": -0.12250000238418579,
-      "rewards/GeneratorRewardFunction/std": 0.21038061380386353,
       "step": 9,
-      "step_time": 11.949294435000013
     },
     {
-      "clip_ratio/high_max": 0.010416666977107525,
-      "clip_ratio/high_mean": 0.010416666977107525,
-      "clip_ratio/low_mean": 0.0032552082557231188,
-      "clip_ratio/low_min": 0.0032552082557231188,
-      "clip_ratio/region_mean": 0.013671875,
-      "entropy": 1.1474007368087769,
       "epoch": 0.4166666666666667,
-      "grad_norm": 2.1202971935272217,
-      "kl": 0.03631855919957161,
       "learning_rate": 4.1e-06,
-      "loss": 0.03980601206421852,
       "step": 10,
-      "step_time": 0.22497136300000875
     },
     {
-      "clip_ratio/high_max": 0.008463541977107525,
-      "clip_ratio/high_mean": 0.008463541977107525,
-      "clip_ratio/low_mean": 0.00390625,
-      "clip_ratio/low_min": 0.00390625,
-      "clip_ratio/region_mean": 0.012369791977107525,
-      "entropy": 0.9981658458709717,
       "epoch": 0.4583333333333333,
-      "grad_norm": 2.094111680984497,
-      "kl": 0.049915943294763565,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.06331142038106918,
       "step": 11,
-      "step_time": 0.22518257699999822
     },
     {
-      "clip_ratio/high_max": 0.0403645820915699,
-      "clip_ratio/high_mean": 0.0403645820915699,
-      "clip_ratio/low_mean": 0.0065104165114462376,
-      "clip_ratio/low_min": 0.0065104165114462376,
-      "clip_ratio/region_mean": 0.046875,
-      "entropy": 1.3572144508361816,
       "epoch": 0.5,
-      "grad_norm": 2.6413395404815674,
-      "kl": 0.053241848945617676,
       "learning_rate": 3.900000000000001e-06,
-      "loss": -0.022430941462516785,
       "step": 12,
-      "step_time": 0.2254562319999991
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.001953125,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -241,65 +241,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.629288673400879,
       "epoch": 0.5416666666666666,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 2.107161283493042,
-      "kl": 0.0636429563164711,
       "learning_rate": 3.8000000000000005e-06,
-      "loss": 0.11612584441900253,
       "num_tokens": 101112.0,
-      "reward": -0.11937499791383743,
-      "reward_std": 0.20747588574886322,
-      "rewards/GeneratorRewardFunction/mean": -0.11937499791383743,
-      "rewards/GeneratorRewardFunction/std": 0.20747590065002441,
       "step": 13,
-      "step_time": 12.014855219999987
     },
     {
-      "clip_ratio/high_max": 0.0032552082557231188,
-      "clip_ratio/high_mean": 0.0032552082557231188,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.00390625,
-      "entropy": 1.4905215501785278,
       "epoch": 0.5833333333333334,
-      "grad_norm": 1.75613272190094,
-      "kl": 0.060588542371988297,
       "learning_rate": 3.7e-06,
-      "loss": 0.0006357845850288868,
       "step": 14,
-      "step_time": 0.21892069699998729
     },
     {
-      "clip_ratio/high_max": 0.0071614584885537624,
-      "clip_ratio/high_mean": 0.0071614584885537624,
-      "clip_ratio/low_mean": 0.009114583022892475,
-      "clip_ratio/low_min": 0.009114583022892475,
-      "clip_ratio/region_mean": 0.01627604104578495,
-      "entropy": 1.2682157754898071,
       "epoch": 0.625,
-      "grad_norm": 2.94674015045166,
-      "kl": 0.08301883935928345,
       "learning_rate": 3.6000000000000003e-06,
-      "loss": -0.0923055037856102,
       "step": 15,
-      "step_time": 0.21824655300000018
     },
     {
-      "clip_ratio/high_max": 0.008463541977107525,
-      "clip_ratio/high_mean": 0.008463541977107525,
-      "clip_ratio/low_mean": 0.01627604104578495,
-      "clip_ratio/low_min": 0.01627604104578495,
-      "clip_ratio/region_mean": 0.02473958395421505,
-      "entropy": 0.9931669235229492,
       "epoch": 0.6666666666666666,
-      "grad_norm": 2.1109514236450195,
-      "kl": 0.09274417906999588,
       "learning_rate": 3.5e-06,
-      "loss": -0.0218100156635046,
       "step": 16,
-      "step_time": 0.21831970400000955
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -314,72 +314,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.376638412475586,
       "epoch": 0.7083333333333334,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.625627279281616,
-      "kl": 0.07451707124710083,
       "learning_rate": 3.4000000000000005e-06,
-      "loss": 0.02886168472468853,
       "num_tokens": 126436.0,
-      "reward": -0.09125000238418579,
-      "reward_std": 0.1655445545911789,
-      "rewards/GeneratorRewardFunction/mean": -0.09125000238418579,
-      "rewards/GeneratorRewardFunction/std": 0.1655445545911789,
       "step": 17,
-      "step_time": 12.074089973000014
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0026041667442768812,
-      "entropy": 0.8447733521461487,
       "epoch": 0.75,
-      "grad_norm": 2.2611021995544434,
-      "kl": 0.08117184042930603,
       "learning_rate": 3.3000000000000006e-06,
-      "loss": -0.003659568028524518,
       "step": 18,
-      "step_time": 0.22418350800001008
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.0071614584885537624,
-      "entropy": 0.9943304061889648,
       "epoch": 0.7916666666666666,
-      "grad_norm": 1.5852197408676147,
-      "kl": 0.08660884946584702,
       "learning_rate": 3.2000000000000003e-06,
-      "loss": -0.10765092819929123,
       "step": 19,
-      "step_time": 0.224853281999998
     },
     {
-      "clip_ratio/high_max": 0.008463541977107525,
-      "clip_ratio/high_mean": 0.008463541977107525,
-      "clip_ratio/low_mean": 0.02213541604578495,
-      "clip_ratio/low_min": 0.02213541604578495,
-      "clip_ratio/region_mean": 0.03059895895421505,
-      "entropy": 1.2907896041870117,
       "epoch": 0.8333333333333334,
-      "grad_norm": 2.97239089012146,
-      "kl": 0.08734595775604248,
       "learning_rate": 3.1000000000000004e-06,
-      "loss": 0.08410018682479858,
       "step": 20,
-      "step_time": 0.22594529400001306
     },
     {
-      "clip_ratio/high_max": 0.0026041667442768812,
-      "clip_ratio/high_mean": 0.0026041667442768812,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0026041667442768812,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -387,72 +387,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.3083521127700806,
       "epoch": 0.875,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 2.6607460975646973,
-      "kl": 0.08000912517309189,
       "learning_rate": 3e-06,
-      "loss": -0.11818201094865799,
       "num_tokens": 151596.0,
-      "reward": -0.22624999284744263,
-      "reward_std": 0.2758048474788666,
-      "rewards/GeneratorRewardFunction/mean": -0.22624999284744263,
-      "rewards/GeneratorRewardFunction/std": 0.27580487728118896,
       "step": 21,
-      "step_time": 11.957008280999986
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.0026041667442768812,
-      "entropy": 1.2017608880996704,
       "epoch": 0.9166666666666666,
-      "grad_norm": 0.8747857809066772,
-      "kl": 0.11337386816740036,
       "learning_rate": 2.9e-06,
-      "loss": -0.003786882385611534,
       "step": 22,
-      "step_time": 0.221026849999987
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0032552082557231188,
-      "entropy": 1.107405662536621,
       "epoch": 0.9583333333333334,
-      "grad_norm": 2.115562915802002,
-      "kl": 0.09759091585874557,
       "learning_rate": 2.8000000000000003e-06,
-      "loss": 0.08772162348031998,
       "step": 23,
-      "step_time": 0.22019210400000588
     },
     {
-      "clip_ratio/high_max": 0.005859375,
-      "clip_ratio/high_mean": 0.005859375,
-      "clip_ratio/low_mean": 0.00390625,
-      "clip_ratio/low_min": 0.00390625,
-      "clip_ratio/region_mean": 0.009765625,
-      "entropy": 0.7833542823791504,
       "epoch": 1.0,
-      "grad_norm": 1.686574101448059,
-      "kl": 0.10800782591104507,
       "learning_rate": 2.7000000000000004e-06,
-      "loss": 0.03493640199303627,
       "step": 24,
-      "step_time": 0.22060076099998582
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -460,20 +460,20 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.0690312385559082,
       "epoch": 1.0416666666666667,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.565182685852051,
-      "kl": 0.12982706725597382,
       "learning_rate": 2.6e-06,
-      "loss": 0.12511824071407318,
       "num_tokens": 177212.0,
-      "reward": -0.12406250089406967,
-      "reward_std": 0.19458690285682678,
-      "rewards/GeneratorRewardFunction/mean": -0.12406250089406967,
-      "rewards/GeneratorRewardFunction/std": 0.19458691775798798,
       "step": 25,
-      "step_time": 12.125360838999995
     },
     {
       "clip_ratio/high_max": 0.00390625,
@@ -481,51 +481,51 @@
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
       "clip_ratio/region_mean": 0.0052083334885537624,
-      "entropy": 0.8722183108329773,
       "epoch": 1.0833333333333333,
-      "grad_norm": 2.401808261871338,
-      "kl": 0.12285982817411423,
       "learning_rate": 2.5e-06,
-      "loss": -0.13922104239463806,
       "step": 26,
-      "step_time": 0.22810240500001555
     },
     {
-      "clip_ratio/high_max": 0.0052083334885537624,
-      "clip_ratio/high_mean": 0.0052083334885537624,
-      "clip_ratio/low_mean": 0.005859375,
-      "clip_ratio/low_min": 0.005859375,
-      "clip_ratio/region_mean": 0.011067708022892475,
-      "entropy": 1.3027639389038086,
       "epoch": 1.125,
-      "grad_norm": 1.7678114175796509,
-      "kl": 0.10112806409597397,
       "learning_rate": 2.4000000000000003e-06,
-      "loss": -0.0586722195148468,
       "step": 27,
-      "step_time": 0.22764332500003093
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0071614584885537624,
-      "clip_ratio/low_min": 0.0071614584885537624,
-      "clip_ratio/region_mean": 0.013671875,
-      "entropy": 0.9790509343147278,
       "epoch": 1.1666666666666667,
-      "grad_norm": 1.9319959878921509,
-      "kl": 0.11484679579734802,
       "learning_rate": 2.3000000000000004e-06,
-      "loss": 0.07509768754243851,
       "step": 28,
-      "step_time": 0.22808939600002986
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0006510416860692203,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -533,65 +533,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 0.9768911004066467,
       "epoch": 1.2083333333333333,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.2773685455322266,
-      "kl": 0.10255210846662521,
       "learning_rate": 2.2e-06,
-      "loss": -0.01104909647256136,
       "num_tokens": 202200.0,
-      "reward": -0.13343749940395355,
-      "reward_std": 0.2115633636713028,
-      "rewards/GeneratorRewardFunction/mean": -0.13343749940395355,
-      "rewards/GeneratorRewardFunction/std": 0.211563378572464,
       "step": 29,
-      "step_time": 11.981290445000013
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 0.9071128368377686,
       "epoch": 1.25,
-      "grad_norm": 2.377110004425049,
-      "kl": 0.11365322023630142,
       "learning_rate": 2.1000000000000002e-06,
-      "loss": 0.07630521804094315,
       "step": 30,
-      "step_time": 0.22243629600001213
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0026041667442768812,
-      "clip_ratio/low_min": 0.0026041667442768812,
-      "clip_ratio/region_mean": 0.009114583022892475,
-      "entropy": 1.3066421747207642,
       "epoch": 1.2916666666666667,
-      "grad_norm": 2.6143717765808105,
-      "kl": 0.09395217150449753,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": -0.023749127984046936,
       "step": 31,
-      "step_time": 0.22260347799999636
     },
     {
-      "clip_ratio/high_max": 0.005859375,
-      "clip_ratio/high_mean": 0.005859375,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0078125,
-      "entropy": 1.2596086263656616,
       "epoch": 1.3333333333333333,
-      "grad_norm": 1.4453171491622925,
-      "kl": 0.09631065279245377,
       "learning_rate": 1.9000000000000002e-06,
-      "loss": -0.04094076156616211,
       "step": 32,
-      "step_time": 0.2226373689999832
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -606,65 +606,65 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 0.9096196293830872,
       "epoch": 1.375,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 2.4287660121917725,
-      "kl": 0.15610061585903168,
       "learning_rate": 1.8000000000000001e-06,
-      "loss": 0.060271572321653366,
       "num_tokens": 227556.0,
-      "reward": -0.13343749940395355,
-      "reward_std": 0.19603331387043,
-      "rewards/GeneratorRewardFunction/mean": -0.13343749940395355,
-      "rewards/GeneratorRewardFunction/std": 0.19603331387043,
       "step": 33,
-      "step_time": 12.116691536000019
     },
     {
-      "clip_ratio/high_max": 0.0032552082557231188,
-      "clip_ratio/high_mean": 0.0032552082557231188,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.00390625,
-      "entropy": 1.2461239099502563,
       "epoch": 1.4166666666666667,
-      "grad_norm": 2.0638527870178223,
-      "kl": 0.11391329020261765,
       "learning_rate": 1.7000000000000002e-06,
-      "loss": -0.012484799139201641,
       "step": 34,
-      "step_time": 0.22859811600000057
     },
     {
-      "clip_ratio/high_max": 0.0065104165114462376,
-      "clip_ratio/high_mean": 0.0065104165114462376,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.0078125,
-      "entropy": 0.9673511385917664,
       "epoch": 1.4583333333333333,
-      "grad_norm": 2.4296762943267822,
-      "kl": 0.1084410771727562,
       "learning_rate": 1.6000000000000001e-06,
-      "loss": -0.05158400535583496,
       "step": 35,
-      "step_time": 0.23024993899997526
     },
     {
-      "clip_ratio/high_max": 0.00390625,
-      "clip_ratio/high_mean": 0.00390625,
       "clip_ratio/low_mean": 0.0032552082557231188,
       "clip_ratio/low_min": 0.0032552082557231188,
-      "clip_ratio/region_mean": 0.0071614584885537624,
-      "entropy": 0.983039915561676,
       "epoch": 1.5,
-      "grad_norm": 1.957944631576538,
-      "kl": 0.13104547560214996,
       "learning_rate": 1.5e-06,
-      "loss": 0.004632837139070034,
       "step": 36,
-      "step_time": 0.2287184080000202
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -679,72 +679,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.426942229270935,
       "epoch": 1.5416666666666665,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 1.2855005264282227,
-      "kl": 0.14382179081439972,
       "learning_rate": 1.4000000000000001e-06,
-      "loss": -0.0295367781072855,
       "num_tokens": 252640.0,
-      "reward": -0.07735294103622437,
-      "reward_std": 0.3284520208835602,
-      "rewards/GeneratorRewardFunction/mean": -0.07735294103622437,
-      "rewards/GeneratorRewardFunction/std": 0.32845205068588257,
       "step": 37,
-      "step_time": 13.249790346999987
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.0013020833721384406,
-      "entropy": 1.1062594652175903,
       "epoch": 1.5833333333333335,
-      "grad_norm": 1.2463343143463135,
-      "kl": 0.14914868772029877,
       "learning_rate": 1.3e-06,
-      "loss": 0.06158822774887085,
       "step": 38,
-      "step_time": 0.22136241700002302
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 1.3345317840576172,
       "epoch": 1.625,
-      "grad_norm": 2.388456106185913,
-      "kl": 0.1212289109826088,
       "learning_rate": 1.2000000000000002e-06,
-      "loss": 0.013628202490508556,
       "step": 39,
-      "step_time": 0.22244895000000042
     },
     {
-      "clip_ratio/high_max": 0.0026041667442768812,
-      "clip_ratio/high_mean": 0.0026041667442768812,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.0032552082557231188,
-      "entropy": 0.9387586712837219,
       "epoch": 1.6666666666666665,
-      "grad_norm": 2.4696860313415527,
-      "kl": 0.1326405256986618,
       "learning_rate": 1.1e-06,
-      "loss": -0.0440821647644043,
       "step": 40,
-      "step_time": 0.22124087500003498
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -752,72 +752,72 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.2471710443496704,
       "epoch": 1.7083333333333335,
-      "frac_reward_zero_std": 0.5,
-      "grad_norm": 2.290759801864624,
-      "kl": 0.12401092797517776,
       "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.05721667408943176,
       "num_tokens": 277896.0,
-      "reward": -0.11687500029802322,
-      "reward_std": 0.1675596982240677,
-      "rewards/GeneratorRewardFunction/mean": -0.11687500029802322,
-      "rewards/GeneratorRewardFunction/std": 0.1675596833229065,
       "step": 41,
-      "step_time": 12.131979827999999
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 1.2584272623062134,
       "epoch": 1.75,
-      "grad_norm": 0.04703531414270401,
-      "kl": 0.11258962005376816,
       "learning_rate": 9.000000000000001e-07,
-      "loss": 0.001895441091619432,
       "step": 42,
-      "step_time": 0.2273904870000365
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 1.1508691310882568,
       "epoch": 1.7916666666666665,
-      "grad_norm": 1.4680578708648682,
-      "kl": 0.1344568133354187,
       "learning_rate": 8.000000000000001e-07,
-      "loss": -0.10274048894643784,
       "step": 43,
-      "step_time": 0.22648300899999185
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
-      "clip_ratio/low_mean": 0.0013020833721384406,
-      "clip_ratio/low_min": 0.0013020833721384406,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 1.0707014799118042,
       "epoch": 1.8333333333333335,
-      "grad_norm": 2.05830717086792,
-      "kl": 0.14121703803539276,
       "learning_rate": 7.000000000000001e-07,
-      "loss": 0.045286085456609726,
       "step": 44,
-      "step_time": 0.22805016099999875
     },
     {
-      "clip_ratio/high_max": 0.0013020833721384406,
-      "clip_ratio/high_mean": 0.0013020833721384406,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
@@ -825,20 +825,20 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.4754749536514282,
       "epoch": 1.875,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 2.129523277282715,
-      "kl": 0.15608109533786774,
       "learning_rate": 6.000000000000001e-07,
-      "loss": 0.06181947514414787,
       "num_tokens": 303192.0,
-      "reward": -0.04625000059604645,
-      "reward_std": 0.013964240439236164,
-      "rewards/GeneratorRewardFunction/mean": -0.04625000059604645,
-      "rewards/GeneratorRewardFunction/std": 0.013964240439236164,
       "step": 45,
-      "step_time": 12.076911616000018
     },
     {
       "clip_ratio/high_max": 0.0026041667442768812,
@@ -846,44 +846,44 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0026041667442768812,
-      "entropy": 1.0166983604431152,
       "epoch": 1.9166666666666665,
-      "grad_norm": 2.7428877353668213,
-      "kl": 0.16378425061702728,
       "learning_rate": 5.000000000000001e-07,
-      "loss": -0.17563432455062866,
       "step": 46,
-      "step_time": 0.2192206379999675
     },
     {
-      "clip_ratio/high_max": 0.0006510416860692203,
-      "clip_ratio/high_mean": 0.0006510416860692203,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.001953125,
-      "clip_ratio/region_mean": 0.0026041667442768812,
-      "entropy": 1.2661925554275513,
       "epoch": 1.9583333333333335,
-      "grad_norm": 2.3470659255981445,
-      "kl": 0.13440369069576263,
       "learning_rate": 4.0000000000000003e-07,
-      "loss": 0.08357550948858261,
       "step": 47,
-      "step_time": 0.21930876000004673
     },
     {
       "clip_ratio/high_max": 0.0032552082557231188,
       "clip_ratio/high_mean": 0.0032552082557231188,
-      "clip_ratio/low_mean": 0.0006510416860692203,
-      "clip_ratio/low_min": 0.0006510416860692203,
-      "clip_ratio/region_mean": 0.00390625,
-      "entropy": 0.8933156132698059,
       "epoch": 2.0,
-      "grad_norm": 1.1481467485427856,
-      "kl": 0.17724938690662384,
       "learning_rate": 3.0000000000000004e-07,
-      "loss": 0.031690943986177444,
       "step": 48,
-      "step_time": 0.21845309399998314
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -898,35 +898,35 @@
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
-      "entropy": 1.071245551109314,
       "epoch": 2.0416666666666665,
-      "frac_reward_zero_std": 0.25,
-      "grad_norm": 1.4133681058883667,
-      "kl": 0.16416768729686737,
       "learning_rate": 2.0000000000000002e-07,
-      "loss": -0.07582488656044006,
       "num_tokens": 328804.0,
-      "reward": -0.05125000327825546,
-      "reward_std": 0.015329709276556969,
-      "rewards/GeneratorRewardFunction/mean": -0.05125000327825546,
-      "rewards/GeneratorRewardFunction/std": 0.015329709276556969,
       "step": 49,
-      "step_time": 12.023586194000018
     },
     {
-      "clip_ratio/high_max": 0.0032552082557231188,
-      "clip_ratio/high_mean": 0.0032552082557231188,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0032552082557231188,
-      "entropy": 1.2276629209518433,
       "epoch": 2.0833333333333335,
-      "grad_norm": 2.9151129722595215,
-      "kl": 0.150254487991333,
       "learning_rate": 1.0000000000000001e-07,
-      "loss": -0.024596773087978363,
       "step": 50,
-      "step_time": 0.22950664599994752
     }
   ],
   "logging_steps": 1,

       "entropy": 1.9362258911132812,
       "epoch": 0.041666666666666664,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 3.3426833152770996,
       "kl": 0.0005498419050127268,
       "learning_rate": 5e-06,
       "loss": 0.13995857536792755,
       "rewards/GeneratorRewardFunction/mean": -0.4352343678474426,
       "rewards/GeneratorRewardFunction/std": 0.306624174118042,
       "step": 1,
+      "step_time": 12.578062469000088
     },
     {
+      "clip_ratio/high_max": 0.00390625,
+      "clip_ratio/high_mean": 0.00390625,
+      "clip_ratio/low_mean": 0.0026041667442768812,
+      "clip_ratio/low_min": 0.0026041667442768812,
+      "clip_ratio/region_mean": 0.0065104165114462376,
+      "entropy": 1.2686206102371216,
       "epoch": 0.08333333333333333,
+      "grad_norm": 2.8547239303588867,
+      "kl": 0.001546451705507934,
       "learning_rate": 4.9000000000000005e-06,
+      "loss": -0.06681232899427414,
       "step": 2,
+      "step_time": 0.22036709600001814
     },
     {
+      "clip_ratio/high_max": 0.012369791977107525,
+      "clip_ratio/high_mean": 0.012369791977107525,
+      "clip_ratio/low_mean": 0.015625,
+      "clip_ratio/low_min": 0.015625,
       "clip_ratio/region_mean": 0.02799479104578495,
+      "entropy": 1.8668650388717651,
       "epoch": 0.125,
+      "grad_norm": 2.4686105251312256,
+      "kl": 0.005345983896404505,
       "learning_rate": 4.800000000000001e-06,
+      "loss": 0.010777520947158337,
       "step": 3,
+      "step_time": 0.2199646679999887
     },
     {
+      "clip_ratio/high_max": 0.02083333395421505,
+      "clip_ratio/high_mean": 0.02083333395421505,
       "clip_ratio/low_mean": 0.010416666977107525,
       "clip_ratio/low_min": 0.010416666977107525,
+      "clip_ratio/region_mean": 0.03125,
+      "entropy": 1.1842881441116333,
       "epoch": 0.16666666666666666,
+      "grad_norm": 1.569398045539856,
+      "kl": 0.0072342646308243275,
       "learning_rate": 4.7e-06,
+      "loss": -0.08198019117116928,
       "step": 4,
+      "step_time": 0.2201611520000597
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
       "clip_ratio/low_mean": 0.0006510416860692203,
       "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0026041667442768812,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3128995895385742,
       "epoch": 0.20833333333333334,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.202421188354492,
+      "kl": 0.0129135362803936,
       "learning_rate": 4.600000000000001e-06,
+      "loss": -0.0841849148273468,
       "num_tokens": 50440.0,
+      "reward": -0.3341406285762787,
+      "reward_std": 0.3155691623687744,
+      "rewards/GeneratorRewardFunction/mean": -0.3341406285762787,
+      "rewards/GeneratorRewardFunction/std": 0.3155691623687744,
       "step": 5,
+      "step_time": 12.076087126999937
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.0052083334885537624,
+      "clip_ratio/low_min": 0.0052083334885537624,
+      "clip_ratio/region_mean": 0.0078125,
+      "entropy": 1.3001914024353027,
       "epoch": 0.25,
+      "grad_norm": 2.854139804840088,
+      "kl": 0.01436698716133833,
       "learning_rate": 4.5e-06,
+      "loss": 0.02869725041091442,
       "step": 6,
+      "step_time": 0.22715311399997518
     },
     {
+      "clip_ratio/high_max": 0.0071614584885537624,
+      "clip_ratio/high_mean": 0.0071614584885537624,
+      "clip_ratio/low_mean": 0.0071614584885537624,
+      "clip_ratio/low_min": 0.0071614584885537624,
+      "clip_ratio/region_mean": 0.014322916977107525,
+      "entropy": 1.0331100225448608,
       "epoch": 0.2916666666666667,
+      "grad_norm": 1.9297211170196533,
+      "kl": 0.01791433058679104,
       "learning_rate": 4.4e-06,
+      "loss": -0.028683962300419807,
       "step": 7,
+      "step_time": 0.22586069900000894
     },
     {
       "clip_ratio/high_max": 0.029296875,
       "clip_ratio/high_mean": 0.029296875,
+      "clip_ratio/low_mean": 0.01171875,
+      "clip_ratio/low_min": 0.01171875,
+      "clip_ratio/region_mean": 0.041015625,
+      "entropy": 1.1462408304214478,
       "epoch": 0.3333333333333333,
+      "grad_norm": 2.57124924659729,
+      "kl": 0.0388585664331913,
       "learning_rate": 4.3e-06,
+      "loss": 0.08592668920755386,
       "step": 8,
+      "step_time": 0.22552726200001416
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 0.999983549118042,
       "epoch": 0.375,
       "frac_reward_zero_std": 0.25,
+      "grad_norm": 2.0052192211151123,
+      "kl": 0.030047910287976265,
       "learning_rate": 4.2000000000000004e-06,
+      "loss": -0.05663062259554863,
       "num_tokens": 75884.0,
+      "reward": -0.3902343511581421,
+      "reward_std": 0.31722894310951233,
+      "rewards/GeneratorRewardFunction/mean": -0.3902343511581421,
+      "rewards/GeneratorRewardFunction/std": 0.3172289729118347,
       "step": 9,
+      "step_time": 12.047747722000054
     },
     {
+      "clip_ratio/high_max": 0.005859375,
+      "clip_ratio/high_mean": 0.005859375,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0065104165114462376,
+      "entropy": 1.6177984476089478,
       "epoch": 0.4166666666666667,
+      "grad_norm": 2.137237071990967,
+      "kl": 0.04101690649986267,
       "learning_rate": 4.1e-06,
+      "loss": -0.02161034755408764,
       "step": 10,
+      "step_time": 0.2252395229999138
     },
     {
+      "clip_ratio/high_max": 0.01692708395421505,
+      "clip_ratio/high_mean": 0.01692708395421505,
+      "clip_ratio/low_mean": 0.0065104165114462376,
+      "clip_ratio/low_min": 0.0065104165114462376,
+      "clip_ratio/region_mean": 0.0234375,
+      "entropy": 1.038699746131897,
       "epoch": 0.4583333333333333,
+      "grad_norm": 2.672621965408325,
+      "kl": 0.031740155071020126,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 0.056199509650468826,
       "step": 11,
+      "step_time": 0.22556489999999485
     },
     {
+      "clip_ratio/high_max": 0.01822916604578495,
+      "clip_ratio/high_mean": 0.01822916604578495,
+      "clip_ratio/low_mean": 0.010416666977107525,
+      "clip_ratio/low_min": 0.010416666977107525,
+      "clip_ratio/region_mean": 0.02864583395421505,
+      "entropy": 1.296442985534668,
       "epoch": 0.5,
+      "grad_norm": 1.4488099813461304,
+      "kl": 0.04755128547549248,
       "learning_rate": 3.900000000000001e-06,
+      "loss": 0.02385079860687256,
       "step": 12,
+      "step_time": 0.22498397900005784
     },
     {
+      "clip_ratio/high_max": 0.0013020833721384406,
+      "clip_ratio/high_mean": 0.0013020833721384406,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3575109243392944,
       "epoch": 0.5416666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.2914443016052246,
+      "kl": 0.06257984787225723,
       "learning_rate": 3.8000000000000005e-06,
+      "loss": -0.10538653284311295,
       "num_tokens": 101112.0,
+      "reward": -0.22843749821186066,
+      "reward_std": 0.294514924287796,
+      "rewards/GeneratorRewardFunction/mean": -0.22843749821186066,
+      "rewards/GeneratorRewardFunction/std": 0.2945149540901184,
       "step": 13,
+      "step_time": 12.01501083200003
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.001953125,
+      "entropy": 1.2918612957000732,
       "epoch": 0.5833333333333334,
+      "grad_norm": 3.0368542671203613,
+      "kl": 0.04979195073246956,
       "learning_rate": 3.7e-06,
+      "loss": -0.003113487036898732,
       "step": 14,
+      "step_time": 0.21806825399994523
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.005859375,
+      "clip_ratio/low_min": 0.005859375,
+      "clip_ratio/region_mean": 0.008463541977107525,
+      "entropy": 1.1081053018569946,
       "epoch": 0.625,
+      "grad_norm": 3.5923683643341064,
+      "kl": 0.06817911565303802,
       "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.15118412673473358,
       "step": 15,
+      "step_time": 0.217887520999966
     },
     {
+      "clip_ratio/high_max": 0.02018229104578495,
+      "clip_ratio/high_mean": 0.02018229104578495,
+      "clip_ratio/low_mean": 0.0026041667442768812,
+      "clip_ratio/low_min": 0.0026041667442768812,
+      "clip_ratio/region_mean": 0.02278645895421505,
+      "entropy": 1.0803831815719604,
       "epoch": 0.6666666666666666,
+      "grad_norm": 1.789110541343689,
+      "kl": 0.056480005383491516,
       "learning_rate": 3.5e-06,
+      "loss": -0.03890883922576904,
       "step": 16,
+      "step_time": 0.21781940799996846
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 0.8709045052528381,
       "epoch": 0.7083333333333334,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.329393982887268,
+      "kl": 0.06073950603604317,
       "learning_rate": 3.4000000000000005e-06,
+      "loss": -0.11920400708913803,
       "num_tokens": 126436.0,
+      "reward": -0.2240625023841858,
+      "reward_std": 0.2881968021392822,
+      "rewards/GeneratorRewardFunction/mean": -0.2240625023841858,
+      "rewards/GeneratorRewardFunction/std": 0.2881968021392822,
       "step": 17,
+      "step_time": 12.08798373600007
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.083386778831482,
       "epoch": 0.75,
+      "grad_norm": 1.343295931816101,
+      "kl": 0.0919194221496582,
       "learning_rate": 3.3000000000000006e-06,
+      "loss": -0.007308408617973328,
       "step": 18,
+      "step_time": 0.2253850289998809
     },
     {
+      "clip_ratio/high_max": 0.005859375,
+      "clip_ratio/high_mean": 0.005859375,
+      "clip_ratio/low_mean": 0.0026041667442768812,
+      "clip_ratio/low_min": 0.0026041667442768812,
+      "clip_ratio/region_mean": 0.008463541977107525,
+      "entropy": 1.406662940979004,
       "epoch": 0.7916666666666666,
+      "grad_norm": 3.3420534133911133,
+      "kl": 0.06450249999761581,
       "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.12472107261419296,
       "step": 19,
+      "step_time": 0.22467486499999723
     },
     {
+      "clip_ratio/high_max": 0.011067708022892475,
+      "clip_ratio/high_mean": 0.011067708022892475,
+      "clip_ratio/low_mean": 0.0032552082557231188,
+      "clip_ratio/low_min": 0.0032552082557231188,
+      "clip_ratio/region_mean": 0.014322916977107525,
+      "entropy": 1.6491953134536743,
       "epoch": 0.8333333333333334,
+      "grad_norm": 3.3672103881835938,
+      "kl": 0.0773777961730957,
       "learning_rate": 3.1000000000000004e-06,
+      "loss": 0.0035695277620106936,
       "step": 20,
+      "step_time": 0.22389788999998927
     },
     {
+      "clip_ratio/high_max": 0.0006510416860692203,
+      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0006510416860692203,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.4178005456924438,
       "epoch": 0.875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.6333799362182617,
+      "kl": 0.07392226904630661,
       "learning_rate": 3e-06,
+      "loss": -0.09101495891809464,
       "num_tokens": 151596.0,
+      "reward": -0.15257811546325684,
+      "reward_std": 0.24854345619678497,
+      "rewards/GeneratorRewardFunction/mean": -0.15257811546325684,
+      "rewards/GeneratorRewardFunction/std": 0.24854345619678497,
       "step": 21,
+      "step_time": 12.020297105999816
     },
     {
+      "clip_ratio/high_max": 0.0006510416860692203,
+      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.001953125,
+      "entropy": 1.2036248445510864,
       "epoch": 0.9166666666666666,
+      "grad_norm": 2.1499149799346924,
+      "kl": 0.0772874653339386,
       "learning_rate": 2.9e-06,
+      "loss": 0.08120749890804291,
       "step": 22,
+      "step_time": 0.21995178900010615
     },
     {
+      "clip_ratio/high_max": 0.0032552082557231188,
+      "clip_ratio/high_mean": 0.0032552082557231188,
+      "clip_ratio/low_mean": 0.0032552082557231188,
+      "clip_ratio/low_min": 0.0032552082557231188,
+      "clip_ratio/region_mean": 0.0065104165114462376,
+      "entropy": 1.1966055631637573,
       "epoch": 0.9583333333333334,
+      "grad_norm": 2.0064616203308105,
+      "kl": 0.07331382483243942,
       "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.03140506148338318,
       "step": 23,
+      "step_time": 0.21996421700009705
     },
     {
+      "clip_ratio/high_max": 0.011067708022892475,
+      "clip_ratio/high_mean": 0.011067708022892475,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.01171875,
+      "entropy": 0.9102082252502441,
       "epoch": 1.0,
+      "grad_norm": 1.7175334692001343,
+      "kl": 0.14611481130123138,
       "learning_rate": 2.7000000000000004e-06,
+      "loss": -0.021010393276810646,
       "step": 24,
+      "step_time": 0.21931950600014716
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.9153881072998047,
       "epoch": 1.0416666666666667,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.3460445404052734,
+      "kl": 0.09710023552179337,
       "learning_rate": 2.6e-06,
+      "loss": 0.015220091678202152,
       "num_tokens": 177212.0,
+      "reward": -0.15656250715255737,
+      "reward_std": 0.22349287569522858,
+      "rewards/GeneratorRewardFunction/mean": -0.15656250715255737,
+      "rewards/GeneratorRewardFunction/std": 0.22349286079406738,
       "step": 25,
+      "step_time": 12.153388549000056
     },
     {
       "clip_ratio/high_max": 0.00390625,
       "clip_ratio/low_mean": 0.0013020833721384406,
       "clip_ratio/low_min": 0.0013020833721384406,
       "clip_ratio/region_mean": 0.0052083334885537624,
+      "entropy": 1.365325927734375,
       "epoch": 1.0833333333333333,
+      "grad_norm": 1.8710312843322754,
+      "kl": 0.0985046848654747,
       "learning_rate": 2.5e-06,
+      "loss": -0.02838735282421112,
       "step": 26,
+      "step_time": 0.22659933299996737
     },
     {
+      "clip_ratio/high_max": 0.008463541977107525,
+      "clip_ratio/high_mean": 0.008463541977107525,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.009765625,
+      "entropy": 1.2517439126968384,
       "epoch": 1.125,
+      "grad_norm": 2.821958303451538,
+      "kl": 0.09274079650640488,
       "learning_rate": 2.4000000000000003e-06,
+      "loss": -0.007298170123249292,
       "step": 27,
+      "step_time": 0.22647249999999985
     },
     {
+      "clip_ratio/high_max": 0.0052083334885537624,
+      "clip_ratio/high_mean": 0.0052083334885537624,
+      "clip_ratio/low_mean": 0.009114583022892475,
+      "clip_ratio/low_min": 0.009114583022892475,
+      "clip_ratio/region_mean": 0.014322916977107525,
+      "entropy": 2.0579044818878174,
       "epoch": 1.1666666666666667,
+      "grad_norm": 3.259742259979248,
+      "kl": 0.10746321082115173,
       "learning_rate": 2.3000000000000004e-06,
+      "loss": 0.021702758967876434,
       "step": 28,
+      "step_time": 0.22640677999993386
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3725861310958862,
       "epoch": 1.2083333333333333,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.8806989192962646,
+      "kl": 0.11961983889341354,
       "learning_rate": 2.2e-06,
+      "loss": 0.07187109440565109,
       "num_tokens": 202200.0,
+      "reward": -0.0561029389500618,
+      "reward_std": 0.314301997423172,
+      "rewards/GeneratorRewardFunction/mean": -0.0561029389500618,
+      "rewards/GeneratorRewardFunction/std": 0.314301997423172,
       "step": 29,
+      "step_time": 13.662849896999887
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.2213298082351685,
       "epoch": 1.25,
+      "grad_norm": 2.1918396949768066,
+      "kl": 0.12398240715265274,
       "learning_rate": 2.1000000000000002e-06,
+      "loss": -0.052896980196237564,
       "step": 30,
+      "step_time": 0.2210835590001352
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.001953125,
+      "clip_ratio/low_min": 0.001953125,
+      "clip_ratio/region_mean": 0.00390625,
+      "entropy": 1.2683231830596924,
       "epoch": 1.2916666666666667,
+      "grad_norm": 2.524726390838623,
+      "kl": 0.14297537505626678,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.12745414674282074,
       "step": 31,
+      "step_time": 0.22096665699996265
     },
     {
+      "clip_ratio/high_max": 0.0032552082557231188,
+      "clip_ratio/high_mean": 0.0032552082557231188,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.00390625,
+      "entropy": 1.0583091974258423,
       "epoch": 1.3333333333333333,
+      "grad_norm": 2.408073902130127,
+      "kl": 0.0881701335310936,
       "learning_rate": 1.9000000000000002e-06,
+      "loss": -0.14430458843708038,
       "step": 32,
+      "step_time": 0.21999255600007928
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.3751106262207031,
       "epoch": 1.375,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.4002864360809326,
+      "kl": 0.0900505781173706,
       "learning_rate": 1.8000000000000001e-06,
+      "loss": 0.06270528584718704,
       "num_tokens": 227556.0,
+      "reward": -0.11414062231779099,
+      "reward_std": 0.21683935821056366,
+      "rewards/GeneratorRewardFunction/mean": -0.11414062231779099,
+      "rewards/GeneratorRewardFunction/std": 0.21683938801288605,
       "step": 33,
+      "step_time": 12.070902493999938
     },
     {
+      "clip_ratio/high_max": 0.0045572915114462376,
+      "clip_ratio/high_mean": 0.0045572915114462376,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0045572915114462376,
+      "entropy": 1.2606719732284546,
       "epoch": 1.4166666666666667,
+      "grad_norm": 1.671729326248169,
+      "kl": 0.1210540160536766,
       "learning_rate": 1.7000000000000002e-06,
+      "loss": -0.04401962831616402,
       "step": 34,
+      "step_time": 0.2276347459999215
     },
     {
+      "clip_ratio/high_max": 0.0013020833721384406,
+      "clip_ratio/high_mean": 0.0013020833721384406,
+      "clip_ratio/low_mean": 0.001953125,
+      "clip_ratio/low_min": 0.001953125,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.2780500650405884,
       "epoch": 1.4583333333333333,
+      "grad_norm": 2.278010845184326,
+      "kl": 0.11484409123659134,
       "learning_rate": 1.6000000000000001e-06,
+      "loss": -0.08475238084793091,
       "step": 35,
+      "step_time": 0.22882699100000536
     },
     {
+      "clip_ratio/high_max": 0.0052083334885537624,
+      "clip_ratio/high_mean": 0.0052083334885537624,
       "clip_ratio/low_mean": 0.0032552082557231188,
       "clip_ratio/low_min": 0.0032552082557231188,
+      "clip_ratio/region_mean": 0.008463541977107525,
+      "entropy": 1.0553101301193237,
       "epoch": 1.5,
+      "grad_norm": 1.582037091255188,
+      "kl": 0.12029703706502914,
       "learning_rate": 1.5e-06,
+      "loss": 0.06627888232469559,
       "step": 36,
+      "step_time": 0.22751581399984389
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.0647958517074585,
       "epoch": 1.5416666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.1763558387756348,
+      "kl": 0.08708903193473816,
       "learning_rate": 1.4000000000000001e-06,
+      "loss": -0.00017260713502764702,
       "num_tokens": 252640.0,
+      "reward": -0.10210937261581421,
+      "reward_std": 0.19573244452476501,
+      "rewards/GeneratorRewardFunction/mean": -0.10210937261581421,
+      "rewards/GeneratorRewardFunction/std": 0.1957324594259262,
       "step": 37,
+      "step_time": 12.015305628000078
     },
     {
+      "clip_ratio/high_max": 0.0026041667442768812,
+      "clip_ratio/high_mean": 0.0026041667442768812,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0026041667442768812,
+      "entropy": 1.0041130781173706,
       "epoch": 1.5833333333333335,
+      "grad_norm": 1.6093602180480957,
+      "kl": 0.11537543684244156,
       "learning_rate": 1.3e-06,
+      "loss": -0.12453166395425797,
       "step": 38,
+      "step_time": 0.22048816200003785
     },
     {
+      "clip_ratio/high_max": 0.0045572915114462376,
+      "clip_ratio/high_mean": 0.0045572915114462376,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.005859375,
+      "entropy": 1.500306487083435,
       "epoch": 1.625,
+      "grad_norm": 3.409069299697876,
+      "kl": 0.10904627293348312,
       "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.12661518156528473,
       "step": 39,
+      "step_time": 0.22087437000004684
     },
     {
+      "clip_ratio/high_max": 0.0078125,
+      "clip_ratio/high_mean": 0.0078125,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.009114583022892475,
+      "entropy": 1.0560635328292847,
       "epoch": 1.6666666666666665,
+      "grad_norm": 2.0718417167663574,
+      "kl": 0.11926760524511337,
       "learning_rate": 1.1e-06,
+      "loss": -0.0004449083062354475,
       "step": 40,
+      "step_time": 0.2202887500000088
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0013020833721384406,
+      "clip_ratio/low_min": 0.0013020833721384406,
+      "clip_ratio/region_mean": 0.0013020833721384406,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.0184931755065918,
       "epoch": 1.7083333333333335,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.9755194187164307,
+      "kl": 0.1180298700928688,
       "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.03202051296830177,
       "num_tokens": 277896.0,
+      "reward": -0.06937499344348907,
+      "reward_std": 0.1560969203710556,
+      "rewards/GeneratorRewardFunction/mean": -0.06937499344348907,
+      "rewards/GeneratorRewardFunction/std": 0.1560969203710556,
       "step": 41,
+      "step_time": 12.091393732999904
     },
     {
+      "clip_ratio/high_max": 0.0032552082557231188,
+      "clip_ratio/high_mean": 0.0032552082557231188,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.00390625,
+      "entropy": 0.8101570010185242,
       "epoch": 1.75,
+      "grad_norm": 2.101008653640747,
+      "kl": 0.13180766999721527,
       "learning_rate": 9.000000000000001e-07,
+      "loss": -0.03199642524123192,
       "step": 42,
+      "step_time": 0.22810021400005098
     },
     {
+      "clip_ratio/high_max": 0.001953125,
+      "clip_ratio/high_mean": 0.001953125,
+      "clip_ratio/low_mean": 0.0006510416860692203,
+      "clip_ratio/low_min": 0.0006510416860692203,
+      "clip_ratio/region_mean": 0.0026041667442768812,
+      "entropy": 0.9268913269042969,
       "epoch": 1.7916666666666665,
+      "grad_norm": 2.1574151515960693,
+      "kl": 0.11732880026102066,
       "learning_rate": 8.000000000000001e-07,
+      "loss": 0.0002514577645342797,
       "step": 43,
+      "step_time": 0.22811048399989886
     },
     {
+      "clip_ratio/high_max": 0.00390625,
+      "clip_ratio/high_mean": 0.00390625,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.00390625,
+      "entropy": 1.145074486732483,
       "epoch": 1.8333333333333335,
+      "grad_norm": 2.5536458492279053,
+      "kl": 0.12928128242492676,
       "learning_rate": 7.000000000000001e-07,
+      "loss": 0.0016053098952397704,
       "step": 44,
+      "step_time": 0.22788419799985604
     },
     {
+      "clip_ratio/high_max": 0.0006510416860692203,
+      "clip_ratio/high_mean": 0.0006510416860692203,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0006510416860692203,
       "completions/clipped_ratio": 1.0,
       "completions/max_length": 384.0,
       "completions/max_terminated_length": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 1.1803818941116333,
       "epoch": 1.875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 3.2263009548187256,
+      "kl": 0.13209813833236694,
       "learning_rate": 6.000000000000001e-07,
+      "loss": 0.1281612068414688,
       "num_tokens": 303192.0,
+      "reward": -0.11374999582767487,
+      "reward_std": 0.18029142916202545,
+      "rewards/GeneratorRewardFunction/mean": -0.11374999582767487,
+      "rewards/GeneratorRewardFunction/std": 0.18029142916202545,
       "step": 45,
+      "step_time": 12.014625670999976
     },
     {
       "clip_ratio/high_max": 0.0026041667442768812,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0026041667442768812,
+      "entropy": 1.6430233716964722,
       "epoch": 1.9166666666666665,
+      "grad_norm": 2.463127851486206,
+      "kl": 0.11944004148244858,
       "learning_rate": 5.000000000000001e-07,
+      "loss": -0.01078779250383377,
       "step": 46,
+      "step_time": 0.22117237800011935
     },
     {
+      "clip_ratio/high_max": 0.0013020833721384406,
+      "clip_ratio/high_mean": 0.0013020833721384406,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0013020833721384406,
+      "entropy": 1.1240859031677246,
       "epoch": 1.9583333333333335,
+      "grad_norm": 2.1054372787475586,
+      "kl": 0.13911886513233185,
       "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.001417159684933722,
       "step": 47,
+      "step_time": 0.2201927370001613
     },
     {
       "clip_ratio/high_max": 0.0032552082557231188,
       "clip_ratio/high_mean": 0.0032552082557231188,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0032552082557231188,
+      "entropy": 1.3605166673660278,
       "epoch": 2.0,
+      "grad_norm": 1.7440528869628906,
+      "kl": 0.14588220417499542,
       "learning_rate": 3.0000000000000004e-07,
+      "loss": -0.11717051267623901,
       "step": 48,
+      "step_time": 0.21969574700005978
     },
     {
       "clip_ratio/high_max": 0.0,
       "completions/mean_terminated_length": 0.0,
       "completions/min_length": 384.0,
       "completions/min_terminated_length": 0.0,
+      "entropy": 0.9781540036201477,
       "epoch": 2.0416666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 2.4057631492614746,
+      "kl": 0.14009785652160645,
       "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.06281977146863937,
       "num_tokens": 328804.0,
+      "reward": -0.07187499850988388,
+      "reward_std": 0.11617336422204971,
+      "rewards/GeneratorRewardFunction/mean": -0.07187499850988388,
+      "rewards/GeneratorRewardFunction/std": 0.11617336422204971,
       "step": 49,
+      "step_time": 12.04901073699989
     },
     {
+      "clip_ratio/high_max": 0.0013020833721384406,
+      "clip_ratio/high_mean": 0.0013020833721384406,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0013020833721384406,
+      "entropy": 1.6572185754776,
       "epoch": 2.0833333333333335,
+      "grad_norm": 2.6693296432495117,
+      "kl": 0.13599954545497894,
       "learning_rate": 1.0000000000000001e-07,
+      "loss": -0.16521048545837402,
       "step": 50,
+      "step_time": 0.23019724899995708
     }
   ],
   "logging_steps": 1,

self_play_hf_a10g_train/round_001/generator_train/final_model/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f1bb3fea31b76835f54fffde7e1eeacafdd13f1ca40601af302caf5d8275af4
 size 1976163472

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6fa4eed67a84ce4076ba3848a078496971cd34ba048c794e52cc3b4aab54a27
 size 1976163472