diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -1,32025 +1,21833 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
+  "epoch": 0.999266862170088,
   "eval_steps": 500,
-  "global_step": 2000,
+  "global_step": 1363,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.70833587646484,
-      "epoch": 0.0005,
-      "grad_norm": 6.251723469874294,
+      "completion_length": 509.375,
+      "epoch": 0.0007331378299120235,
+      "grad_norm": 2.6448973612837636,
       "kl": 0.0,
-      "learning_rate": 5e-09,
-      "loss": -0.0315,
-      "reward": 0.6384468078613281,
-      "reward_std": 0.2296978384256363,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1597222313284874,
-      "rewards/repetition_penalty_reward": -0.05252542719244957,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "learning_rate": 7.2992700729927e-09,
+      "loss": -0.0482,
+      "reward": 0.68954798579216,
+      "reward_std": 0.25520985573530197,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.263888917863369,
+      "rewards/repetition_penalty_reward": -0.07434091717004776,
+      "rewards/tag_count_reward": 0.5,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 333.6666717529297,
-      "epoch": 0.001,
-      "grad_norm": 4.439731592620521,
+      "completion_length": 498.87501525878906,
+      "epoch": 0.001466275659824047,
+      "grad_norm": 2.76096812642669,
       "kl": 0.0,
-      "learning_rate": 1e-08,
-      "loss": -0.0813,
-      "reward": 0.6252729892730713,
-      "reward_std": 0.29075783491134644,
+      "learning_rate": 1.45985401459854e-08,
+      "loss": -0.0176,
+      "reward": 0.6545102000236511,
+      "reward_std": 0.22549808025360107,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.194444440305233,
-      "rewards/repetition_penalty_reward": -0.06917147152125835,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.2083333507180214,
+      "rewards/repetition_penalty_reward": -0.06423980556428432,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 2
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.2291717529297,
-      "epoch": 0.0015,
-      "grad_norm": 4.648660461286372,
-      "kl": 0.00014925003051757812,
-      "learning_rate": 1.5e-08,
-      "loss": -0.0918,
-      "reward": 0.578189492225647,
-      "reward_std": 0.19131075590848923,
+      "completion_length": 488.4791717529297,
+      "epoch": 0.0021994134897360706,
+      "grad_norm": 2.7544190296661046,
+      "kl": 0.0001468658447265625,
+      "learning_rate": 2.1897810218978102e-08,
+      "loss": -0.1206,
+      "reward": 0.6828474402427673,
+      "reward_std": 0.21180886030197144,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1319444552063942,
-      "rewards/repetition_penalty_reward": -0.05375497601926327,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.2430555745959282,
+      "rewards/repetition_penalty_reward": -0.07062481716275215,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 3
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.8333435058594,
-      "epoch": 0.002,
-      "grad_norm": 3.069933909424734,
-      "kl": 0.00018310546875,
-      "learning_rate": 2e-08,
-      "loss": -0.0881,
-      "reward": 0.6503687500953674,
-      "reward_std": 0.2582377791404724,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.180555559694767,
-      "rewards/repetition_penalty_reward": -0.061436835676431656,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 490.04168701171875,
+      "epoch": 0.002932551319648094,
+      "grad_norm": 2.679496733955865,
+      "kl": 0.00016498565673828125,
+      "learning_rate": 2.91970802919708e-08,
+      "loss": -0.0511,
+      "reward": 0.7352340519428253,
+      "reward_std": 0.3041670620441437,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.284722238779068,
+      "rewards/repetition_penalty_reward": -0.07552988082170486,
+      "rewards/tag_count_reward": 0.5260416865348816,
       "step": 4
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 415.8333435058594,
-      "epoch": 0.0025,
-      "grad_norm": 2.784498697916323,
-      "kl": 0.00012993812561035156,
-      "learning_rate": 2.5e-08,
-      "loss": -0.066,
-      "reward": 0.5441770553588867,
-      "reward_std": 0.21253511309623718,
+      "completion_length": 431.62501525878906,
+      "epoch": 0.0036656891495601175,
+      "grad_norm": 2.7710748320387943,
+      "kl": 0.00017213821411132812,
+      "learning_rate": 3.64963503649635e-08,
+      "loss": -0.0125,
+      "reward": 0.6680092215538025,
+      "reward_std": 0.24565115571022034,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1527777835726738,
-      "rewards/repetition_penalty_reward": -0.10860074311494827,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.2152777835726738,
+      "rewards/repetition_penalty_reward": -0.06289358995854855,
+      "rewards/tag_count_reward": 0.515625,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 432.1041717529297,
-      "epoch": 0.003,
-      "grad_norm": 3.090569400029858,
-      "kl": 0.00017309188842773438,
-      "learning_rate": 3e-08,
-      "loss": -0.0504,
-      "reward": 0.7367339134216309,
-      "reward_std": 0.3796353191137314,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.2500000149011612,
-      "rewards/repetition_penalty_reward": -0.07576615735888481,
-      "rewards/tag_count_reward": 0.5208333432674408,
+      "completion_length": 561.625,
+      "epoch": 0.004398826979472141,
+      "grad_norm": 2.6419901655907245,
+      "kl": 0.00017642974853515625,
+      "learning_rate": 4.3795620437956203e-08,
+      "loss": -0.0065,
+      "reward": 0.7031907737255096,
+      "reward_std": 0.24719806760549545,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2777777761220932,
+      "rewards/repetition_penalty_reward": -0.07458702102303505,
+      "rewards/tag_count_reward": 0.5,
       "step": 6
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 390.5833435058594,
-      "epoch": 0.0035,
-      "grad_norm": 2.8425497031556843,
-      "kl": 0.00014519691467285156,
-      "learning_rate": 3.5e-08,
-      "loss": -0.0414,
-      "reward": 0.6315869688987732,
-      "reward_std": 0.1821143701672554,
+      "completion_length": 471.1458435058594,
+      "epoch": 0.005131964809384164,
+      "grad_norm": 2.575204146630783,
+      "kl": 0.00015974044799804688,
+      "learning_rate": 5.10948905109489e-08,
+      "loss": 0.0184,
+      "reward": 0.5842337310314178,
+      "reward_std": 0.22514298558235168,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1875,
-      "rewards/repetition_penalty_reward": -0.06632974371314049,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "rewards/reasoning_steps_reward": 0.166666679084301,
+      "rewards/repetition_penalty_reward": -0.08243293687701225,
+      "rewards/tag_count_reward": 0.5,
       "step": 7
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 406.2083435058594,
-      "epoch": 0.004,
-      "grad_norm": 2.877982305967783,
-      "kl": 0.0001347064971923828,
-      "learning_rate": 4e-08,
-      "loss": -0.0406,
-      "reward": 0.6656659245491028,
-      "reward_std": 0.26930323243141174,
+      "completion_length": 457.72918701171875,
+      "epoch": 0.005865102639296188,
+      "grad_norm": 2.7932110624723743,
+      "kl": 0.00015878677368164062,
+      "learning_rate": 5.83941605839416e-08,
+      "loss": 0.0322,
+      "reward": 0.5849673748016357,
+      "reward_std": 0.23537325859069824,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2638889104127884,
-      "rewards/repetition_penalty_reward": -0.0982230119407177,
+      "rewards/reasoning_steps_reward": 0.1666666716337204,
+      "rewards/repetition_penalty_reward": -0.08169934153556824,
       "rewards/tag_count_reward": 0.5,
       "step": 8
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 402.97918701171875,
-      "epoch": 0.0045,
-      "grad_norm": 2.796921444089777,
-      "kl": 0.00016069412231445312,
-      "learning_rate": 4.5e-08,
-      "loss": 0.0211,
-      "reward": 0.619064211845398,
-      "reward_std": 0.21635551750659943,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1597222313284874,
-      "rewards/repetition_penalty_reward": -0.061491381376981735,
-      "rewards/tag_count_reward": 0.5,
+      "completion_length": 468.81251525878906,
+      "epoch": 0.006598240469208211,
+      "grad_norm": 3.1047208356259914,
+      "kl": 0.00018215179443359375,
+      "learning_rate": 6.569343065693431e-08,
+      "loss": -0.0461,
+      "reward": 0.6473296880722046,
+      "reward_std": 0.25502097606658936,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.208333358168602,
+      "rewards/repetition_penalty_reward": -0.07142036035656929,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 9
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.52085876464844,
-      "epoch": 0.005,
-      "grad_norm": 2.732127974984369,
-      "kl": 0.00013709068298339844,
-      "learning_rate": 5e-08,
-      "loss": -0.0253,
-      "reward": 0.5867983400821686,
-      "reward_std": 0.2477174624800682,
+      "completion_length": 458.18751525878906,
+      "epoch": 0.007331378299120235,
+      "grad_norm": 2.627504343626485,
+      "kl": 0.00014257431030273438,
+      "learning_rate": 7.2992700729927e-08,
+      "loss": -0.0509,
+      "reward": 0.5702269971370697,
+      "reward_std": 0.17610464990139008,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1875000149011612,
-      "rewards/repetition_penalty_reward": -0.10070168599486351,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.1458333358168602,
+      "rewards/repetition_penalty_reward": -0.08602304756641388,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 483.6041717529297,
-      "epoch": 0.0055,
-      "grad_norm": 2.556791644892623,
-      "kl": 0.00016498565673828125,
-      "learning_rate": 5.4999999999999996e-08,
-      "loss": -0.046,
-      "reward": 0.5901573300361633,
-      "reward_std": 0.25573817640542984,
+      "completion_length": 529.75,
+      "epoch": 0.008064516129032258,
+      "grad_norm": 2.551343107524344,
+      "kl": 0.00016307830810546875,
+      "learning_rate": 8.029197080291971e-08,
+      "loss": -0.0545,
+      "reward": 0.6536203324794769,
+      "reward_std": 0.2523871883749962,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.180555559694767,
-      "rewards/repetition_penalty_reward": -0.09039826691150665,
+      "rewards/reasoning_steps_reward": 0.243055559694767,
+      "rewards/repetition_penalty_reward": -0.08943524211645126,
       "rewards/tag_count_reward": 0.5,
       "step": 11
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.81251525878906,
-      "epoch": 0.006,
-      "grad_norm": 2.970269557370756,
-      "kl": 0.00014209747314453125,
-      "learning_rate": 6e-08,
-      "loss": -0.0726,
-      "reward": 0.5915650725364685,
-      "reward_std": 0.227043054997921,
+      "completion_length": 445.2291717529297,
+      "epoch": 0.008797653958944282,
+      "grad_norm": 3.0366791357232406,
+      "kl": 0.00017404556274414062,
+      "learning_rate": 8.759124087591241e-08,
+      "loss": 0.0279,
+      "reward": 0.583998829126358,
+      "reward_std": 0.21335972100496292,
       "rewards/accuracy_reward": 0.0,
       "rewards/reasoning_steps_reward": 0.1458333432674408,
-      "rewards/repetition_penalty_reward": -0.0594765804708004,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "rewards/repetition_penalty_reward": -0.06183452531695366,
+      "rewards/tag_count_reward": 0.5,
       "step": 12
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 425.5833435058594,
-      "epoch": 0.0065,
-      "grad_norm": 3.55225958110278,
-      "kl": 0.00015544891357421875,
-      "learning_rate": 6.5e-08,
-      "loss": -0.1838,
-      "reward": 0.5981267392635345,
-      "reward_std": 0.2597131133079529,
+      "completion_length": 474.5625,
+      "epoch": 0.009530791788856305,
+      "grad_norm": 3.1395073617735614,
+      "kl": 0.00017595291137695312,
+      "learning_rate": 9.48905109489051e-08,
+      "loss": -0.1077,
+      "reward": 0.5609289705753326,
+      "reward_std": 0.21441183984279633,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1527777835726738,
-      "rewards/repetition_penalty_reward": -0.05985940620303154,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.1250000037252903,
+      "rewards/repetition_penalty_reward": -0.06407104432582855,
+      "rewards/tag_count_reward": 0.5,
       "step": 13
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.5,
-      "epoch": 0.007,
-      "grad_norm": 2.8654839696962204,
-      "kl": 0.00014352798461914062,
-      "learning_rate": 7e-08,
-      "loss": -0.0181,
-      "reward": 0.6581193804740906,
-      "reward_std": 0.33123770356178284,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1875,
-      "rewards/repetition_penalty_reward": -0.08146397396922112,
+      "completion_length": 485.56251525878906,
+      "epoch": 0.010263929618768328,
+      "grad_norm": 2.758079388838085,
+      "kl": 0.00017261505126953125,
+      "learning_rate": 1.021897810218978e-07,
+      "loss": -0.0345,
+      "reward": 0.5964665710926056,
+      "reward_std": 0.17032359540462494,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.1597222313284874,
+      "rewards/repetition_penalty_reward": -0.07367238402366638,
       "rewards/tag_count_reward": 0.5104166865348816,
       "step": 14
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 452.35418701171875,
-      "epoch": 0.0075,
-      "grad_norm": 2.735812818011658,
-      "kl": 0.0001621246337890625,
-      "learning_rate": 7.5e-08,
-      "loss": 0.0199,
-      "reward": 0.7007659077644348,
-      "reward_std": 0.2738788276910782,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.2500000149011612,
-      "rewards/repetition_penalty_reward": -0.08048411272466183,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 470.3125,
+      "epoch": 0.010997067448680353,
+      "grad_norm": 2.605821618375983,
+      "kl": 0.00021219253540039062,
+      "learning_rate": 1.0948905109489052e-07,
+      "loss": -0.0017,
+      "reward": 0.715076208114624,
+      "reward_std": 0.2355574294924736,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2777777910232544,
+      "rewards/repetition_penalty_reward": -0.06270160153508186,
+      "rewards/tag_count_reward": 0.5,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 538.1666717529297,
-      "epoch": 0.008,
-      "grad_norm": 2.4984072149490264,
-      "kl": 0.00014781951904296875,
-      "learning_rate": 8e-08,
-      "loss": 0.0239,
-      "reward": 0.5570363700389862,
-      "reward_std": 0.23343774676322937,
+      "completion_length": 483.5833435058594,
+      "epoch": 0.011730205278592375,
+      "grad_norm": 2.722382736115358,
+      "kl": 0.00017833709716796875,
+      "learning_rate": 1.167883211678832e-07,
+      "loss": -0.0496,
+      "reward": 0.621931403875351,
+      "reward_std": 0.23212532699108124,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1527777835726738,
-      "rewards/repetition_penalty_reward": -0.09574145823717117,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.1875000149011612,
+      "rewards/repetition_penalty_reward": -0.07598524540662766,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 16
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.2916717529297,
-      "epoch": 0.0085,
-      "grad_norm": 3.2191965365951885,
-      "kl": 0.0001621246337890625,
-      "learning_rate": 8.500000000000001e-08,
-      "loss": -0.0334,
-      "reward": 0.5502374768257141,
-      "reward_std": 0.200188048183918,
+      "completion_length": 509.0625305175781,
+      "epoch": 0.012463343108504398,
+      "grad_norm": 2.7955490988819687,
+      "kl": 0.00018405914306640625,
+      "learning_rate": 1.240875912408759e-07,
+      "loss": -0.0281,
+      "reward": 0.6549810469150543,
+      "reward_std": 0.27128641307353973,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1250000074505806,
-      "rewards/repetition_penalty_reward": -0.07997088506817818,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.222222238779068,
+      "rewards/repetition_penalty_reward": -0.06724120303988457,
+      "rewards/tag_count_reward": 0.5,
       "step": 17
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 387.35418701171875,
-      "epoch": 0.009,
-      "grad_norm": 3.501374136164966,
-      "kl": 0.00019168853759765625,
-      "learning_rate": 9e-08,
-      "loss": -0.0635,
-      "reward": 0.5605765283107758,
-      "reward_std": 0.15551594644784927,
+      "completion_length": 518.6041870117188,
+      "epoch": 0.013196480938416423,
+      "grad_norm": 2.723325734305699,
+      "kl": 0.00018548965454101562,
+      "learning_rate": 1.3138686131386862e-07,
+      "loss": -0.0081,
+      "reward": 0.584599107503891,
+      "reward_std": 0.20393361896276474,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1319444514811039,
-      "rewards/repetition_penalty_reward": -0.07136795669794083,
+      "rewards/reasoning_steps_reward": 0.1527777872979641,
+      "rewards/repetition_penalty_reward": -0.06817871518433094,
       "rewards/tag_count_reward": 0.5,
       "step": 18
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.7083435058594,
-      "epoch": 0.0095,
-      "grad_norm": 2.8703850021404986,
-      "kl": 0.0001609325408935547,
-      "learning_rate": 9.499999999999999e-08,
-      "loss": 0.0089,
-      "reward": 0.6698747277259827,
-      "reward_std": 0.21975713968276978,
+      "completion_length": 409.0,
+      "epoch": 0.013929618768328446,
+      "grad_norm": 4.779504705709629,
+      "kl": 0.00019550323486328125,
+      "learning_rate": 1.386861313868613e-07,
+      "loss": 0.0876,
+      "reward": 0.5774352252483368,
+      "reward_std": 0.16354358941316605,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2638889104127884,
-      "rewards/repetition_penalty_reward": -0.09401418641209602,
+      "rewards/reasoning_steps_reward": 0.1527777835726738,
+      "rewards/repetition_penalty_reward": -0.0753425844013691,
       "rewards/tag_count_reward": 0.5,
       "step": 19
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.0625,
-      "epoch": 0.01,
-      "grad_norm": 2.857781731829004,
-      "kl": 0.00016641616821289062,
-      "learning_rate": 1e-07,
-      "loss": -0.0404,
-      "reward": 0.6144264340400696,
-      "reward_std": 0.23488393425941467,
+      "completion_length": 485.2083435058594,
+      "epoch": 0.01466275659824047,
+      "grad_norm": 3.0626779341878616,
+      "kl": 0.00018215179443359375,
+      "learning_rate": 1.45985401459854e-07,
+      "loss": -0.0717,
+      "reward": 0.5419801771640778,
+      "reward_std": 0.16230151802301407,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2013889029622078,
-      "rewards/repetition_penalty_reward": -0.08696247264742851,
+      "rewards/reasoning_steps_reward": 0.1180555634200573,
+      "rewards/repetition_penalty_reward": -0.07607538625597954,
       "rewards/tag_count_reward": 0.5,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.7291717529297,
-      "epoch": 0.0105,
-      "grad_norm": 2.945964454449734,
-      "kl": 0.0001544952392578125,
-      "learning_rate": 1.0499999999999999e-07,
-      "loss": -0.028,
-      "reward": 0.6437437832355499,
-      "reward_std": 0.2618062347173691,
+      "completion_length": 527.2083435058594,
+      "epoch": 0.015395894428152493,
+      "grad_norm": 2.413897203039519,
+      "kl": 0.0001659393310546875,
+      "learning_rate": 1.532846715328467e-07,
+      "loss": 0.0023,
+      "reward": 0.5849822759628296,
+      "reward_std": 0.27357739210128784,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2222222313284874,
-      "rewards/repetition_penalty_reward": -0.07847847789525986,
+      "rewards/reasoning_steps_reward": 0.1805555671453476,
+      "rewards/repetition_penalty_reward": -0.09557333588600159,
       "rewards/tag_count_reward": 0.5,
       "step": 21
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 412.50001525878906,
-      "epoch": 0.011,
-      "grad_norm": 2.5290188531303004,
-      "kl": 0.00010466575622558594,
-      "learning_rate": 1.0999999999999999e-07,
-      "loss": -0.0099,
-      "reward": 0.6274481117725372,
-      "reward_std": 0.2595982700586319,
+      "completion_length": 486.56251525878906,
+      "epoch": 0.016129032258064516,
+      "grad_norm": 2.408879678071363,
+      "kl": 0.00018405914306640625,
+      "learning_rate": 1.6058394160583942e-07,
+      "loss": 0.0098,
+      "reward": 0.6279599368572235,
+      "reward_std": 0.20339544862508774,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2361111268401146,
-      "rewards/repetition_penalty_reward": -0.10866303369402885,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.1944444552063942,
+      "rewards/repetition_penalty_reward": -0.07690121605992317,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 22
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.1666717529297,
-      "epoch": 0.0115,
-      "grad_norm": 2.757687382488654,
-      "kl": 0.00016546249389648438,
-      "learning_rate": 1.15e-07,
-      "loss": 0.0177,
-      "reward": 0.6414158344268799,
-      "reward_std": 0.22706189006567,
+      "completion_length": 555.5625305175781,
+      "epoch": 0.01686217008797654,
+      "grad_norm": 2.6019168865864306,
+      "kl": 0.00014972686767578125,
+      "learning_rate": 1.678832116788321e-07,
+      "loss": -0.0692,
+      "reward": 0.5722634494304657,
+      "reward_std": 0.21821296960115433,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2291666939854622,
-      "rewards/repetition_penalty_reward": -0.08775084465742111,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.166666679084301,
+      "rewards/repetition_penalty_reward": -0.10481992736458778,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 23
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 385.7708435058594,
-      "epoch": 0.012,
-      "grad_norm": 3.020715752986674,
-      "kl": 0.0001327991485595703,
-      "learning_rate": 1.2e-07,
-      "loss": 0.0064,
-      "reward": 0.5981995165348053,
-      "reward_std": 0.22115938365459442,
+      "completion_length": 467.3541717529297,
+      "epoch": 0.017595307917888565,
+      "grad_norm": 3.0166610353722354,
+      "kl": 0.00017309188842773438,
+      "learning_rate": 1.7518248175182481e-07,
+      "loss": -0.0261,
+      "reward": 0.6123618483543396,
+      "reward_std": 0.19541333615779877,
       "rewards/accuracy_reward": 0.0,
       "rewards/reasoning_steps_reward": 0.173611119389534,
-      "rewards/repetition_penalty_reward": -0.075411606580019,
+      "rewards/repetition_penalty_reward": -0.06124930642545223,
       "rewards/tag_count_reward": 0.5,
       "step": 24
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 410.3333435058594,
-      "epoch": 0.0125,
-      "grad_norm": 2.6737799977246337,
-      "kl": 0.00013828277587890625,
-      "learning_rate": 1.25e-07,
-      "loss": 0.0381,
-      "reward": 0.7896432876586914,
-      "reward_std": 0.43896663188934326,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.2916666865348816,
-      "rewards/repetition_penalty_reward": -0.06452339142560959,
-      "rewards/tag_count_reward": 0.5208333730697632,
+      "completion_length": 428.9166717529297,
+      "epoch": 0.018328445747800588,
+      "grad_norm": 3.3196057185136856,
+      "kl": 0.0001983642578125,
+      "learning_rate": 1.824817518248175e-07,
+      "loss": -0.0708,
+      "reward": 0.6493120789527893,
+      "reward_std": 0.24062193930149078,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2083333432674408,
+      "rewards/repetition_penalty_reward": -0.06943796388804913,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 455.2708435058594,
-      "epoch": 0.013,
-      "grad_norm": 2.7398842512902424,
-      "kl": 0.0001811981201171875,
-      "learning_rate": 1.3e-07,
-      "loss": -0.0147,
-      "reward": 0.6110469698905945,
-      "reward_std": 0.21338298171758652,
-      "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2083333358168602,
-      "rewards/repetition_penalty_reward": -0.1077030710875988,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 470.0625,
+      "epoch": 0.01906158357771261,
+      "grad_norm": 2.8082986672044177,
+      "kl": 0.00018548965454101562,
+      "learning_rate": 1.897810218978102e-07,
+      "loss": -0.0244,
+      "reward": 0.78911292552948,
+      "reward_std": 0.3358127474784851,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.2986111044883728,
+      "rewards/repetition_penalty_reward": -0.05637324042618275,
+      "rewards/tag_count_reward": 0.5260416865348816,
       "step": 26
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 414.1041717529297,
-      "epoch": 0.0135,
-      "grad_norm": 2.8122894279350015,
-      "kl": 0.00015592575073242188,
-      "learning_rate": 1.35e-07,
-      "loss": -0.0376,
-      "reward": 0.6806438565254211,
-      "reward_std": 0.22845971584320068,
+      "completion_length": 495.79168701171875,
+      "epoch": 0.019794721407624633,
+      "grad_norm": 2.6824722929765668,
+      "kl": 0.0001621246337890625,
+      "learning_rate": 1.9708029197080292e-07,
+      "loss": -0.0727,
+      "reward": 0.5723992586135864,
+      "reward_std": 0.2219652161002159,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2430555671453476,
-      "rewards/repetition_penalty_reward": -0.06762006506323814,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.173611119389534,
+      "rewards/repetition_penalty_reward": -0.10121183842420578,
+      "rewards/tag_count_reward": 0.5,
       "step": 27
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 442.8958435058594,
-      "epoch": 0.014,
-      "grad_norm": 2.792569424252216,
-      "kl": 0.00018310546875,
-      "learning_rate": 1.4e-07,
-      "loss": -0.0449,
-      "reward": 0.6144725680351257,
-      "reward_std": 0.2537280172109604,
+      "completion_length": 533.0,
+      "epoch": 0.020527859237536656,
+      "grad_norm": 2.870814349622882,
+      "kl": 0.0001850128173828125,
+      "learning_rate": 2.043795620437956e-07,
+      "loss": -0.0336,
+      "reward": 0.6264206767082214,
+      "reward_std": 0.21734951436519623,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.1944444552063942,
-      "rewards/repetition_penalty_reward": -0.09038857370615005,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "rewards/reasoning_steps_reward": 0.2152777910232544,
+      "rewards/repetition_penalty_reward": -0.08885711058974266,
+      "rewards/tag_count_reward": 0.5,
       "step": 28
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.0833435058594,
-      "epoch": 0.0145,
-      "grad_norm": 2.573870828705473,
-      "kl": 0.00014352798461914062,
-      "learning_rate": 1.45e-07,
-      "loss": -0.0278,
-      "reward": 0.6352183520793915,
-      "reward_std": 0.31960034370422363,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1736111268401146,
-      "rewards/repetition_penalty_reward": -0.11130945011973381,
-      "rewards/tag_count_reward": 0.5312500298023224,
+      "completion_length": 496.7708435058594,
+      "epoch": 0.02126099706744868,
+      "grad_norm": 2.5069460426178423,
+      "kl": 0.000171661376953125,
+      "learning_rate": 2.116788321167883e-07,
+      "loss": -0.0277,
+      "reward": 0.6581361889839172,
+      "reward_std": 0.23858975619077682,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2222222313284874,
+      "rewards/repetition_penalty_reward": -0.07450271770358086,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 29
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.125,
-      "epoch": 0.015,
-      "grad_norm": 2.895308039349145,
-      "kl": 0.00012111663818359375,
-      "learning_rate": 1.5e-07,
-      "loss": -0.0451,
-      "reward": 0.6583640277385712,
-      "reward_std": 0.37743693590164185,
-      "rewards/accuracy_reward": 0.06250000186264515,
-      "rewards/reasoning_steps_reward": 0.173611119389534,
-      "rewards/repetition_penalty_reward": -0.09337210655212402,
-      "rewards/tag_count_reward": 0.515625,
+      "completion_length": 475.8750305175781,
+      "epoch": 0.021994134897360705,
+      "grad_norm": 2.648249474912757,
+      "kl": 0.0001735687255859375,
+      "learning_rate": 2.1897810218978103e-07,
+      "loss": -0.0397,
+      "reward": 0.6791504621505737,
+      "reward_std": 0.2867739200592041,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2222222313284874,
+      "rewards/repetition_penalty_reward": -0.07432174310088158,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 417.41668701171875,
-      "epoch": 0.0155,
-      "grad_norm": 3.3217228750439722,
-      "kl": 0.00017309188842773438,
-      "learning_rate": 1.55e-07,
-      "loss": -0.0388,
-      "reward": 0.6766975820064545,
-      "reward_std": 0.3049939051270485,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.173611119389534,
-      "rewards/repetition_penalty_reward": -0.06983024999499321,
-      "rewards/tag_count_reward": 0.5312500298023224,
+      "completion_length": 443.3958435058594,
+      "epoch": 0.022727272727272728,
+      "grad_norm": 2.890033559674892,
+      "kl": 0.00019073486328125,
+      "learning_rate": 2.2627737226277372e-07,
+      "loss": -0.0641,
+      "reward": 0.6335480809211731,
+      "reward_std": 0.2339138686656952,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2013889104127884,
+      "rewards/repetition_penalty_reward": -0.06784084439277649,
+      "rewards/tag_count_reward": 0.5,
       "step": 31
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 467.0625,
-      "epoch": 0.016,
-      "grad_norm": 2.592972499186617,
-      "kl": 0.00017213821411132812,
-      "learning_rate": 1.6e-07,
-      "loss": 0.002,
-      "reward": 0.6280147135257721,
-      "reward_std": 0.2920844256877899,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1666666716337204,
-      "rewards/repetition_penalty_reward": -0.09073532372713089,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 526.6250152587891,
+      "epoch": 0.02346041055718475,
+      "grad_norm": 2.5853064468226976,
+      "kl": 0.00019741058349609375,
+      "learning_rate": 2.335766423357664e-07,
+      "loss": 0.0082,
+      "reward": 0.6064836084842682,
+      "reward_std": 0.21031419932842255,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.1875000111758709,
+      "rewards/repetition_penalty_reward": -0.08101639151573181,
+      "rewards/tag_count_reward": 0.5,
       "step": 32
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 368.2708435058594,
-      "epoch": 0.0165,
-      "grad_norm": 2.885134740538339,
-      "kl": 0.00016164779663085938,
-      "learning_rate": 1.65e-07,
-      "loss": -0.0322,
-      "reward": 0.5996805429458618,
-      "reward_std": 0.2433435320854187,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1458333358168602,
-      "rewards/repetition_penalty_reward": -0.07219448685646057,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "completion_length": 443.12501525878906,
+      "epoch": 0.024193548387096774,
+      "grad_norm": 3.0609420622300325,
+      "kl": 0.00016927719116210938,
+      "learning_rate": 2.408759124087591e-07,
+      "loss": -0.1695,
+      "reward": 0.6632957458496094,
+      "reward_std": 0.24054750055074692,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.1944444589316845,
+      "rewards/repetition_penalty_reward": -0.062398696318268776,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 33
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 412.5208435058594,
-      "epoch": 0.017,
-      "grad_norm": 3.0967481185727936,
-      "kl": 0.00016927719116210938,
-      "learning_rate": 1.7000000000000001e-07,
-      "loss": -0.0958,
-      "reward": 0.6694463491439819,
-      "reward_std": 0.224090114235878,
+      "completion_length": 528.1458435058594,
+      "epoch": 0.024926686217008796,
+      "grad_norm": 2.564707811238524,
+      "kl": 0.00021886825561523438,
+      "learning_rate": 2.481751824817518e-07,
+      "loss": -0.0154,
+      "reward": 0.7042053937911987,
+      "reward_std": 0.2845487892627716,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2222222462296486,
-      "rewards/repetition_penalty_reward": -0.06319255381822586,
+      "rewards/reasoning_steps_reward": 0.2638888955116272,
+      "rewards/repetition_penalty_reward": -0.07010022550821304,
       "rewards/tag_count_reward": 0.5104166865348816,
       "step": 34
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 456.2291717529297,
-      "epoch": 0.0175,
-      "grad_norm": 2.5514196985566495,
-      "kl": 0.00011515617370605469,
-      "learning_rate": 1.75e-07,
-      "loss": -0.0634,
-      "reward": 0.7589674890041351,
-      "reward_std": 0.3829844295978546,
-      "rewards/accuracy_reward": 0.06250000186264515,
+      "completion_length": 499.60418701171875,
+      "epoch": 0.025659824046920823,
+      "grad_norm": 2.646106845035658,
+      "kl": 0.00020170211791992188,
+      "learning_rate": 2.5547445255474454e-07,
+      "loss": -0.0509,
+      "reward": 0.7097957134246826,
+      "reward_std": 0.21529126912355423,
+      "rewards/accuracy_reward": 0.0,
       "rewards/reasoning_steps_reward": 0.2638889104127884,
-      "rewards/repetition_penalty_reward": -0.08825474977493286,
+      "rewards/repetition_penalty_reward": -0.07492654211819172,
       "rewards/tag_count_reward": 0.5208333730697632,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.6458435058594,
-      "epoch": 0.018,
-      "grad_norm": 2.596517737983663,
-      "kl": 0.00011324882507324219,
-      "learning_rate": 1.8e-07,
-      "loss": -0.0258,
-      "reward": 0.6948606371879578,
-      "reward_std": 0.2351381480693817,
+      "completion_length": 521.0625305175781,
+      "epoch": 0.026392961876832845,
+      "grad_norm": 2.856616633787257,
+      "kl": 0.00019311904907226562,
+      "learning_rate": 2.6277372262773725e-07,
+      "loss": 0.0176,
+      "reward": 0.6456855833530426,
+      "reward_std": 0.27881423383951187,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.284722238779068,
-      "rewards/repetition_penalty_reward": -0.08986162021756172,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.215277798473835,
+      "rewards/repetition_penalty_reward": -0.08000890910625458,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 36
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.5416717529297,
-      "epoch": 0.0185,
-      "grad_norm": 2.6997865552883082,
-      "kl": 0.00014734268188476562,
-      "learning_rate": 1.85e-07,
-      "loss": 0.0079,
-      "reward": 0.6786134541034698,
-      "reward_std": 0.34496983885765076,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1944444626569748,
-      "rewards/repetition_penalty_reward": -0.07833104580640793,
-      "rewards/tag_count_reward": 0.5208333730697632,
+      "completion_length": 503.14585876464844,
+      "epoch": 0.027126099706744868,
+      "grad_norm": 2.665887051686472,
+      "kl": 0.00020599365234375,
+      "learning_rate": 2.700729927007299e-07,
+      "loss": -0.0497,
+      "reward": 0.6908453702926636,
+      "reward_std": 0.23081645369529724,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2569444552063942,
+      "rewards/repetition_penalty_reward": -0.07651573792099953,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 37
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.7916717529297,
-      "epoch": 0.019,
-      "grad_norm": 2.8889113372764026,
-      "kl": 0.00016307830810546875,
-      "learning_rate": 1.8999999999999998e-07,
-      "loss": -0.0861,
-      "reward": 0.6670835018157959,
-      "reward_std": 0.297781839966774,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1944444477558136,
-      "rewards/repetition_penalty_reward": -0.0690276212990284,
-      "rewards/tag_count_reward": 0.5208333432674408,
+      "completion_length": 414.3958435058594,
+      "epoch": 0.02785923753665689,
+      "grad_norm": 2.9595822498097104,
+      "kl": 0.00022125244140625,
+      "learning_rate": 2.773722627737226e-07,
+      "loss": -0.0005,
+      "reward": 0.5840825140476227,
+      "reward_std": 0.2131967693567276,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.1527777872979641,
+      "rewards/repetition_penalty_reward": -0.0686953105032444,
+      "rewards/tag_count_reward": 0.5,
       "step": 38
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.50001525878906,
-      "epoch": 0.0195,
-      "grad_norm": 3.0222077809885683,
-      "kl": 0.00017881393432617188,
-      "learning_rate": 1.9499999999999999e-07,
-      "loss": -0.0421,
-      "reward": 0.6102947890758514,
-      "reward_std": 0.2821989879012108,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1527777835726738,
-      "rewards/repetition_penalty_reward": -0.07373302057385445,
+      "completion_length": 523.2500152587891,
+      "epoch": 0.028592375366568914,
+      "grad_norm": 2.71164611926968,
+      "kl": 0.0002307891845703125,
+      "learning_rate": 2.846715328467153e-07,
+      "loss": -0.0273,
+      "reward": 0.624500185251236,
+      "reward_std": 0.23453929275274277,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.1944444626569748,
+      "rewards/repetition_penalty_reward": -0.08036095649003983,
       "rewards/tag_count_reward": 0.5104166865348816,
       "step": 39
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 438.60418701171875,
-      "epoch": 0.02,
-      "grad_norm": 2.8665067076530604,
-      "kl": 0.00017309188842773438,
-      "learning_rate": 2e-07,
-      "loss": -0.066,
-      "reward": 0.6099069118499756,
-      "reward_std": 0.23168403655290604,
+      "completion_length": 480.1458435058594,
+      "epoch": 0.02932551319648094,
+      "grad_norm": 2.8793970958085917,
+      "kl": 0.0002193450927734375,
+      "learning_rate": 2.91970802919708e-07,
+      "loss": -0.0961,
+      "reward": 0.7346545159816742,
+      "reward_std": 0.2827245742082596,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2083333432674408,
-      "rewards/repetition_penalty_reward": -0.0984264425933361,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.270833358168602,
+      "rewards/repetition_penalty_reward": -0.057012153789401054,
+      "rewards/tag_count_reward": 0.5208333730697632,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 552.5416717529297,
-      "epoch": 0.0205,
-      "grad_norm": 2.7988133120372214,
-      "kl": 0.00020265579223632812,
-      "learning_rate": 2.0499999999999997e-07,
-      "loss": -0.0244,
-      "reward": 0.712624192237854,
-      "reward_std": 0.2695208936929703,
+      "completion_length": 495.5208435058594,
+      "epoch": 0.030058651026392963,
+      "grad_norm": 2.7202320117264907,
+      "kl": 0.00029754638671875,
+      "learning_rate": 2.9927007299270075e-07,
+      "loss": 0.0366,
+      "reward": 0.618072509765625,
+      "reward_std": 0.23927630484104156,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2986111417412758,
-      "rewards/repetition_penalty_reward": -0.08598695322871208,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.166666679084301,
+      "rewards/repetition_penalty_reward": -0.06942753493785858,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 41
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 429.68751525878906,
-      "epoch": 0.021,
-      "grad_norm": 3.1003673488903027,
-      "kl": 0.0001983642578125,
-      "learning_rate": 2.0999999999999997e-07,
-      "loss": -0.0657,
-      "reward": 0.6647423803806305,
-      "reward_std": 0.3343476206064224,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1944444589316845,
-      "rewards/repetition_penalty_reward": -0.08178546652197838,
+      "completion_length": 563.6250305175781,
+      "epoch": 0.030791788856304986,
+      "grad_norm": 2.558370045223577,
+      "kl": 0.000270843505859375,
+      "learning_rate": 3.065693430656934e-07,
+      "loss": -0.0406,
+      "reward": 0.698936402797699,
+      "reward_std": 0.2520362436771393,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.270833358168602,
+      "rewards/repetition_penalty_reward": -0.08231363818049431,
       "rewards/tag_count_reward": 0.5104166865348816,
       "step": 42
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.29168701171875,
-      "epoch": 0.0215,
-      "grad_norm": 3.1597548965345204,
-      "kl": 0.000186920166015625,
-      "learning_rate": 2.1499999999999998e-07,
-      "loss": 0.0158,
-      "reward": 0.6541115939617157,
-      "reward_std": 0.2999124675989151,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1527777872979641,
-      "rewards/repetition_penalty_reward": -0.05595788359642029,
-      "rewards/tag_count_reward": 0.515625,
+      "completion_length": 475.97918701171875,
+      "epoch": 0.03152492668621701,
+      "grad_norm": 2.727560907345565,
+      "kl": 0.0002727508544921875,
+      "learning_rate": 3.138686131386861e-07,
+      "loss": -0.0998,
+      "reward": 0.688592404127121,
+      "reward_std": 0.2755677103996277,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2430555745959282,
+      "rewards/repetition_penalty_reward": -0.07529650256037712,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 43
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 447.18751525878906,
-      "epoch": 0.022,
-      "grad_norm": 2.558177785664247,
-      "kl": 0.00014591217041015625,
-      "learning_rate": 2.1999999999999998e-07,
-      "loss": -0.0045,
-      "reward": 0.6448527276515961,
-      "reward_std": 0.25322096794843674,
+      "completion_length": 519.9791870117188,
+      "epoch": 0.03225806451612903,
+      "grad_norm": 2.6698796736155446,
+      "kl": 0.0003490447998046875,
+      "learning_rate": 3.2116788321167883e-07,
+      "loss": -0.0122,
+      "reward": 0.7924045026302338,
+      "reward_std": 0.28541746735572815,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2430555745959282,
-      "rewards/repetition_penalty_reward": -0.0982028879225254,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.333333358168602,
+      "rewards/repetition_penalty_reward": -0.06176219508051872,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 44
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 430.3125,
-      "epoch": 0.0225,
-      "grad_norm": 2.8810601257270263,
-      "kl": 0.00017499923706054688,
-      "learning_rate": 2.25e-07,
-      "loss": -0.0455,
-      "reward": 0.6615873873233795,
-      "reward_std": 0.2432490661740303,
+      "completion_length": 504.58335876464844,
+      "epoch": 0.032991202346041054,
+      "grad_norm": 2.452278139401127,
+      "kl": 0.00032806396484375,
+      "learning_rate": 3.284671532846715e-07,
+      "loss": -0.0191,
+      "reward": 0.6062445044517517,
+      "reward_std": 0.21765749156475067,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.222222238779068,
-      "rewards/repetition_penalty_reward": -0.06063482351601124,
+      "rewards/reasoning_steps_reward": 0.1944444626569748,
+      "rewards/repetition_penalty_reward": -0.08819994330406189,
       "rewards/tag_count_reward": 0.5,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.18751525878906,
-      "epoch": 0.023,
-      "grad_norm": 2.727537687409915,
-      "kl": 0.00017786026000976562,
-      "learning_rate": 2.3e-07,
-      "loss": -0.0767,
-      "reward": 0.7279665172100067,
-      "reward_std": 0.3034803867340088,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.2708333507180214,
-      "rewards/repetition_penalty_reward": -0.07411682605743408,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 495.10418701171875,
+      "epoch": 0.03372434017595308,
+      "grad_norm": 2.6384968933757307,
+      "kl": 0.00043201446533203125,
+      "learning_rate": 3.357664233576642e-07,
+      "loss": -0.009,
+      "reward": 0.7084953188896179,
+      "reward_std": 0.29200321435928345,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2569444626569748,
+      "rewards/repetition_penalty_reward": -0.07969915866851807,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 46
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 348.72918701171875,
-      "epoch": 0.0235,
-      "grad_norm": 3.1997159072003227,
-      "kl": 0.00018548965454101562,
-      "learning_rate": 2.3499999999999997e-07,
-      "loss": 0.0492,
-      "reward": 0.598628580570221,
-      "reward_std": 0.2303108423948288,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.11111111752688885,
-      "rewards/repetition_penalty_reward": -0.043732548132538795,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 502.0208435058594,
+      "epoch": 0.0344574780058651,
+      "grad_norm": 2.662788904527241,
+      "kl": 0.0004863739013671875,
+      "learning_rate": 3.4306569343065697e-07,
+      "loss": 0.0136,
+      "reward": 0.6565942764282227,
+      "reward_std": 0.2551596984267235,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.2361111268401146,
+      "rewards/repetition_penalty_reward": -0.10555854439735413,
+      "rewards/tag_count_reward": 0.5260416865348816,
       "step": 47
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.6458435058594,
-      "epoch": 0.024,
-      "grad_norm": 2.6573394355964783,
-      "kl": 0.00020503997802734375,
-      "learning_rate": 2.4e-07,
-      "loss": 0.033,
-      "reward": 0.6143307387828827,
-      "reward_std": 0.28714819252491,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.166666679084301,
-      "rewards/repetition_penalty_reward": -0.08358598873019218,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 546.5208740234375,
+      "epoch": 0.03519061583577713,
+      "grad_norm": 2.7029202066676996,
+      "kl": 0.0005130767822265625,
+      "learning_rate": 3.5036496350364963e-07,
+      "loss": -0.0636,
+      "reward": 0.7792027294635773,
+      "reward_std": 0.25155991315841675,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.347222238779068,
+      "rewards/repetition_penalty_reward": -0.06801950931549072,
+      "rewards/tag_count_reward": 0.5,
       "step": 48
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 436.62501525878906,
-      "epoch": 0.0245,
-      "grad_norm": 2.7867155541781488,
-      "kl": 0.00023317337036132812,
-      "learning_rate": 2.45e-07,
-      "loss": -0.0491,
-      "reward": 0.6386054158210754,
-      "reward_std": 0.24428075551986694,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1875000149011612,
-      "rewards/repetition_penalty_reward": -0.06972793489694595,
-      "rewards/tag_count_reward": 0.5,
+      "completion_length": 443.06251525878906,
+      "epoch": 0.03592375366568915,
+      "grad_norm": 2.7589483849725522,
+      "kl": 0.0008373260498046875,
+      "learning_rate": 3.5766423357664234e-07,
+      "loss": -0.0326,
+      "reward": 0.6618194282054901,
+      "reward_std": 0.27763861417770386,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.25,
+      "rewards/repetition_penalty_reward": -0.09859726577997208,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 49
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 449.9166717529297,
-      "epoch": 0.025,
-      "grad_norm": 3.006240341565843,
-      "kl": 0.00022745132446289062,
-      "learning_rate": 2.5e-07,
-      "loss": -0.1239,
-      "reward": 0.7317107021808624,
-      "reward_std": 0.27121981978416443,
+      "completion_length": 462.0625305175781,
+      "epoch": 0.036656891495601175,
+      "grad_norm": 2.8648632394348303,
+      "kl": 0.0007076263427734375,
+      "learning_rate": 3.64963503649635e-07,
+      "loss": -0.0441,
+      "reward": 0.6885200440883636,
+      "reward_std": 0.2172483429312706,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.3125000149011612,
-      "rewards/repetition_penalty_reward": -0.08078934252262115,
+      "rewards/reasoning_steps_reward": 0.2777777835726738,
+      "rewards/repetition_penalty_reward": -0.08925776183605194,
       "rewards/tag_count_reward": 0.5,
       "step": 50
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 472.2291717529297,
-      "epoch": 0.0255,
-      "grad_norm": 2.6548371678838856,
-      "kl": 0.00025463104248046875,
-      "learning_rate": 2.55e-07,
-      "loss": -0.0904,
-      "reward": 0.6300550401210785,
-      "reward_std": 0.31470321863889694,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.1666666716337204,
-      "rewards/repetition_penalty_reward": -0.1043199859559536,
-      "rewards/tag_count_reward": 0.5260416865348816,
+      "completion_length": 501.91668701171875,
+      "epoch": 0.0373900293255132,
+      "grad_norm": 2.7944345979797833,
+      "kl": 0.0007419586181640625,
+      "learning_rate": 3.722627737226277e-07,
+      "loss": -0.0331,
+      "reward": 0.7741267681121826,
+      "reward_std": 0.26387324929237366,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.3402777761220932,
+      "rewards/repetition_penalty_reward": -0.07656766846776009,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 51
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 410.37501525878906,
-      "epoch": 0.026,
-      "grad_norm": 2.891679932666362,
-      "kl": 0.00026416778564453125,
-      "learning_rate": 2.6e-07,
-      "loss": -0.0272,
-      "reward": 0.5869153141975403,
-      "reward_std": 0.2003287822008133,
+      "completion_length": 472.18751525878906,
+      "epoch": 0.03812316715542522,
+      "grad_norm": 2.6423146438087497,
+      "kl": 0.00083160400390625,
+      "learning_rate": 3.795620437956204e-07,
+      "loss": 0.0049,
+      "reward": 0.7249100506305695,
+      "reward_std": 0.2071620374917984,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.173611119389534,
-      "rewards/repetition_penalty_reward": -0.0866958275437355,
+      "rewards/reasoning_steps_reward": 0.2986111342906952,
+      "rewards/repetition_penalty_reward": -0.07370108738541603,
       "rewards/tag_count_reward": 0.5,
       "step": 52
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.125,
-      "epoch": 0.0265,
-      "grad_norm": 2.87497343902247,
-      "kl": 0.0002574920654296875,
-      "learning_rate": 2.65e-07,
-      "loss": 0.0957,
-      "reward": 0.6155928373336792,
-      "reward_std": 0.31732793152332306,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.1875000149011612,
-      "rewards/repetition_penalty_reward": -0.0979488454759121,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "completion_length": 505.04168701171875,
+      "epoch": 0.038856304985337244,
+      "grad_norm": 2.6137555315943026,
+      "kl": 0.001148223876953125,
+      "learning_rate": 3.8686131386861313e-07,
+      "loss": -0.0186,
+      "reward": 0.7216832935810089,
+      "reward_std": 0.2934323847293854,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.3055555671453476,
+      "rewards/repetition_penalty_reward": -0.09428896009922028,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 53
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.5833435058594,
-      "epoch": 0.027,
-      "grad_norm": 3.1249467609329815,
-      "kl": 0.00028514862060546875,
-      "learning_rate": 2.7e-07,
-      "loss": -0.0707,
-      "reward": 0.6530064940452576,
-      "reward_std": 0.26522205770015717,
-      "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2361111268401146,
-      "rewards/repetition_penalty_reward": -0.08831300958991051,
-      "rewards/tag_count_reward": 0.5052083432674408,
+      "completion_length": 489.9375,
+      "epoch": 0.039589442815249266,
+      "grad_norm": 2.9424116740549664,
+      "kl": 0.00109100341796875,
+      "learning_rate": 3.9416058394160584e-07,
+      "loss": -0.022,
+      "reward": 0.9018063545227051,
+      "reward_std": 0.3424327075481415,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.4375000298023224,
+      "rewards/repetition_penalty_reward": -0.06694366224110126,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 54
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.7916717529297,
-      "epoch": 0.0275,
-      "grad_norm": 3.7182582598169582,
-      "kl": 0.00043487548828125,
-      "learning_rate": 2.75e-07,
-      "loss": -0.1307,
-      "reward": 0.6811047792434692,
-      "reward_std": 0.3341375142335892,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.2083333432674408,
-      "rewards/repetition_penalty_reward": -0.08972860500216484,
-      "rewards/tag_count_reward": 0.5208333730697632,
-      "step": 55
+      "completion_length": 528.9583435058594,
+      "epoch": 0.04032258064516129,
+      "grad_norm": 2.4966957649374684,
+      "kl": 0.0010433197021484375,
+      "learning_rate": 4.0145985401459856e-07,
+      "loss": -0.0116,
+      "reward": 0.8005258738994598,
+      "reward_std": 0.24090076982975006,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4166667014360428,
+      "rewards/repetition_penalty_reward": -0.11614080145955086,
+      "rewards/tag_count_reward": 0.5,
+      "step": 55
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 431.72918701171875,
-      "epoch": 0.028,
-      "grad_norm": 2.9876795440276056,
-      "kl": 0.00030040740966796875,
-      "learning_rate": 2.8e-07,
-      "loss": -0.0276,
-      "reward": 0.6388545334339142,
-      "reward_std": 0.1873469203710556,
+      "completion_length": 517.4583740234375,
+      "epoch": 0.04105571847507331,
+      "grad_norm": 2.6094881117590223,
+      "kl": 0.001262664794921875,
+      "learning_rate": 4.087591240875912e-07,
+      "loss": -0.0711,
+      "reward": 0.6848195195198059,
+      "reward_std": 0.23144569993019104,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2152777835726738,
-      "rewards/repetition_penalty_reward": -0.0764232836663723,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.236111119389534,
+      "rewards/repetition_penalty_reward": -0.07212491519749165,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 56
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.7916717529297,
-      "epoch": 0.0285,
-      "grad_norm": 2.5753158131037117,
-      "kl": 0.00035953521728515625,
-      "learning_rate": 2.8499999999999997e-07,
-      "loss": -0.0241,
-      "reward": 0.740548849105835,
-      "reward_std": 0.40591859817504883,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.2500000074505806,
-      "rewards/repetition_penalty_reward": -0.09278450906276703,
-      "rewards/tag_count_reward": 0.5416666865348816,
+      "completion_length": 534.0000305175781,
+      "epoch": 0.041788856304985335,
+      "grad_norm": 2.5627446751027807,
+      "kl": 0.001556396484375,
+      "learning_rate": 4.160583941605839e-07,
+      "loss": -0.0015,
+      "reward": 0.8210827708244324,
+      "reward_std": 0.26339250057935715,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4027778059244156,
+      "rewards/repetition_penalty_reward": -0.09211170673370361,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 57
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.2291793823242,
-      "epoch": 0.029,
-      "grad_norm": 5.591928815640096,
-      "kl": 0.0007524490356445312,
-      "learning_rate": 2.9e-07,
-      "loss": 0.0557,
-      "reward": 0.6187903136014938,
-      "reward_std": 0.20580651611089706,
+      "completion_length": 521.6041870117188,
+      "epoch": 0.04252199413489736,
+      "grad_norm": 2.787620990751815,
+      "kl": 0.001438140869140625,
+      "learning_rate": 4.233576642335766e-07,
+      "loss": 0.0411,
+      "reward": 0.8132742345333099,
+      "reward_std": 0.2763310372829437,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.19444445706903934,
-      "rewards/repetition_penalty_reward": -0.07565413787961006,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.3611111342906952,
+      "rewards/repetition_penalty_reward": -0.07908686250448227,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 58
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 421.5416717529297,
-      "epoch": 0.0295,
-      "grad_norm": 3.1936915993711903,
-      "kl": 0.00032329559326171875,
-      "learning_rate": 2.95e-07,
-      "loss": -0.1173,
-      "reward": 0.7119120061397552,
-      "reward_std": 0.47539106011390686,
-      "rewards/accuracy_reward": 0.08333333395421505,
-      "rewards/reasoning_steps_reward": 0.1875000111758709,
-      "rewards/repetition_penalty_reward": -0.07975470274686813,
+      "completion_length": 536.4375,
+      "epoch": 0.04325513196480939,
+      "grad_norm": 2.5844944772028726,
+      "kl": 0.00209808349609375,
+      "learning_rate": 4.306569343065693e-07,
+      "loss": -0.1141,
+      "reward": 0.7877600789070129,
+      "reward_std": 0.23524152487516403,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.3750000298023224,
+      "rewards/repetition_penalty_reward": -0.10807328298687935,
       "rewards/tag_count_reward": 0.5208333730697632,
       "step": 59
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 506.2708435058594,
-      "epoch": 0.03,
-      "grad_norm": 3.162339001956615,
-      "kl": 0.0004940032958984375,
-      "learning_rate": 3e-07,
-      "loss": 0.0028,
-      "reward": 0.7199562191963196,
-      "reward_std": 0.25821222364902496,
+      "completion_length": 526.8333435058594,
+      "epoch": 0.04398826979472141,
+      "grad_norm": 2.4453183077687943,
+      "kl": 0.002227783203125,
+      "learning_rate": 4.3795620437956206e-07,
+      "loss": -0.0189,
+      "reward": 0.8026378750801086,
+      "reward_std": 0.2494141310453415,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.3125000149011612,
-      "rewards/repetition_penalty_reward": -0.09254380315542221,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.381944477558136,
+      "rewards/repetition_penalty_reward": -0.08972325921058655,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 60
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 439.12501525878906,
-      "epoch": 0.0305,
-      "grad_norm": 2.6085011916809364,
-      "kl": 0.0004892349243164062,
-      "learning_rate": 3.05e-07,
-      "loss": -0.0387,
-      "reward": 0.6562853455543518,
-      "reward_std": 0.2614954710006714,
+      "completion_length": 538.2916870117188,
+      "epoch": 0.04472140762463343,
+      "grad_norm": 2.496023501476716,
+      "kl": 0.00217437744140625,
+      "learning_rate": 4.452554744525547e-07,
+      "loss": -0.0263,
+      "reward": 0.7900694012641907,
+      "reward_std": 0.19147495925426483,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2291666865348816,
-      "rewards/repetition_penalty_reward": -0.09371470659971237,
-      "rewards/tag_count_reward": 0.5208333432674408,
+      "rewards/reasoning_steps_reward": 0.3888889104127884,
+      "rewards/repetition_penalty_reward": -0.10402785614132881,
+      "rewards/tag_count_reward": 0.5052083432674408,
       "step": 61
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 438.9791717529297,
-      "epoch": 0.031,
-      "grad_norm": 2.933119213416396,
-      "kl": 0.00045871734619140625,
-      "learning_rate": 3.1e-07,
-      "loss": 0.0025,
-      "reward": 0.7185687720775604,
-      "reward_std": 0.2700326144695282,
+      "completion_length": 502.1041717529297,
+      "epoch": 0.045454545454545456,
+      "grad_norm": 2.4902095639273654,
+      "kl": 0.00255584716796875,
+      "learning_rate": 4.5255474452554743e-07,
+      "loss": 0.0029,
+      "reward": 0.8510425984859467,
+      "reward_std": 0.2535877972841263,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.3125000298023224,
-      "rewards/repetition_penalty_reward": -0.09393121674656868,
+      "rewards/reasoning_steps_reward": 0.4236111342906952,
+      "rewards/repetition_penalty_reward": -0.07256851345300674,
       "rewards/tag_count_reward": 0.5,
       "step": 62
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 403.1458435058594,
-      "epoch": 0.0315,
-      "grad_norm": 2.897102185777002,
-      "kl": 0.000621795654296875,
-      "learning_rate": 3.15e-07,
-      "loss": -0.0791,
-      "reward": 0.6670123040676117,
-      "reward_std": 0.237733893096447,
+      "completion_length": 469.2083435058594,
+      "epoch": 0.04618768328445748,
+      "grad_norm": 2.5574432170277417,
+      "kl": 0.0037078857421875,
+      "learning_rate": 4.5985401459854014e-07,
+      "loss": -0.04,
+      "reward": 0.7994670569896698,
+      "reward_std": 0.21547260135412216,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.2569444477558136,
-      "rewards/repetition_penalty_reward": -0.08993213623762131,
+      "rewards/reasoning_steps_reward": 0.4027777910232544,
+      "rewards/repetition_penalty_reward": -0.10331075266003609,
       "rewards/tag_count_reward": 0.5,
       "step": 63
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 433.6041717529297,
-      "epoch": 0.032,
-      "grad_norm": 2.446714560125192,
-      "kl": 0.0006542205810546875,
-      "learning_rate": 3.2e-07,
-      "loss": 0.0159,
-      "reward": 0.7158828973770142,
-      "reward_std": 0.33434779942035675,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.2638888955116272,
-      "rewards/repetition_penalty_reward": -0.10529769212007523,
-      "rewards/tag_count_reward": 0.5156250298023224,
+      "completion_length": 480.7083435058594,
+      "epoch": 0.0469208211143695,
+      "grad_norm": 2.725179825178671,
+      "kl": 0.00246429443359375,
+      "learning_rate": 4.671532846715328e-07,
+      "loss": -0.0296,
+      "reward": 0.9697330594062805,
+      "reward_std": 0.295375719666481,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.5208333432674408,
+      "rewards/repetition_penalty_reward": -0.07193369045853615,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 64
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.54168701171875,
-      "epoch": 0.0325,
-      "grad_norm": 2.7732151443967163,
-      "kl": 0.000652313232421875,
-      "learning_rate": 3.25e-07,
-      "loss": -0.0358,
-      "reward": 0.8164660930633545,
-      "reward_std": 0.3192940354347229,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.326388917863369,
-      "rewards/repetition_penalty_reward": -0.07242286205291748,
+      "completion_length": 473.29168701171875,
+      "epoch": 0.047653958944281524,
+      "grad_norm": 2.7484533646327804,
+      "kl": 0.005218505859375,
+      "learning_rate": 4.744525547445255e-07,
+      "loss": -0.0117,
+      "reward": 0.8709261417388916,
+      "reward_std": 0.3177572637796402,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4305555522441864,
+      "rewards/repetition_penalty_reward": -0.08046277612447739,
       "rewards/tag_count_reward": 0.5208333730697632,
       "step": 65
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 320.4583435058594,
-      "epoch": 0.033,
-      "grad_norm": 6.165543609500131,
-      "kl": 0.0016994476318359375,
-      "learning_rate": 3.3e-07,
-      "loss": -0.0995,
-      "reward": 0.7236150503158569,
-      "reward_std": 0.33078788220882416,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.2361111268401146,
-      "rewards/repetition_penalty_reward": -0.0645794328302145,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 528.1250305175781,
+      "epoch": 0.04838709677419355,
+      "grad_norm": 2.754230706652707,
+      "kl": 0.0030059814453125,
+      "learning_rate": 4.817518248175182e-07,
+      "loss": 0.0394,
+      "reward": 0.8668566048145294,
+      "reward_std": 0.21845827251672745,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.423611119389534,
+      "rewards/repetition_penalty_reward": -0.07758788764476776,
+      "rewards/tag_count_reward": 0.5208333730697632,
       "step": 66
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.9791717529297,
-      "epoch": 0.0335,
-      "grad_norm": 2.658500757905026,
-      "kl": 0.001007080078125,
-      "learning_rate": 3.35e-07,
-      "loss": -0.0184,
-      "reward": 0.6389293074607849,
-      "reward_std": 0.27491873502731323,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.229166679084301,
-      "rewards/repetition_penalty_reward": -0.12148737907409668,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 464.5833435058594,
+      "epoch": 0.04912023460410557,
+      "grad_norm": 2.785853687350145,
+      "kl": 0.00362396240234375,
+      "learning_rate": 4.89051094890511e-07,
+      "loss": -0.0255,
+      "reward": 0.9353344142436981,
+      "reward_std": 0.24234941601753235,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4861111342906952,
+      "rewards/repetition_penalty_reward": -0.07161007076501846,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 67
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 444.3333435058594,
-      "epoch": 0.034,
-      "grad_norm": 2.6477800642599996,
-      "kl": 0.0009365081787109375,
-      "learning_rate": 3.4000000000000003e-07,
-      "loss": -0.0267,
-      "reward": 0.7566591203212738,
-      "reward_std": 0.3201362192630768,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.270833358168602,
-      "rewards/repetition_penalty_reward": -0.08709090948104858,
-      "rewards/tag_count_reward": 0.5520833432674408,
+      "completion_length": 542.4583435058594,
+      "epoch": 0.04985337243401759,
+      "grad_norm": 2.430982163529705,
+      "kl": 0.00330352783203125,
+      "learning_rate": 4.963503649635036e-07,
+      "loss": -0.0115,
+      "reward": 0.9278749823570251,
+      "reward_std": 0.19417473673820496,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.520833358168602,
+      "rewards/repetition_penalty_reward": -0.09295839816331863,
+      "rewards/tag_count_reward": 0.5,
       "step": 68
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.5833435058594,
-      "epoch": 0.0345,
-      "grad_norm": 2.633615712345152,
-      "kl": 0.001323699951171875,
-      "learning_rate": 3.45e-07,
-      "loss": -0.0703,
-      "reward": 0.7424019575119019,
-      "reward_std": 0.3558398336172104,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.3194444477558136,
-      "rewards/repetition_penalty_reward": -0.11350089311599731,
-      "rewards/tag_count_reward": 0.5156250298023224,
+      "completion_length": 521.8541870117188,
+      "epoch": 0.050586510263929615,
+      "grad_norm": 2.5489498982709047,
+      "kl": 0.00344085693359375,
+      "learning_rate": 5.036496350364964e-07,
+      "loss": -0.0328,
+      "reward": 0.9113207161426544,
+      "reward_std": 0.2536340802907944,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4861111342906952,
+      "rewards/repetition_penalty_reward": -0.08520709350705147,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 69
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 436.72918701171875,
-      "epoch": 0.035,
-      "grad_norm": 2.949344418221538,
-      "kl": 0.0012359619140625,
-      "learning_rate": 3.5e-07,
-      "loss": -0.0637,
-      "reward": 0.7435359060764313,
-      "reward_std": 0.20930662006139755,
+      "completion_length": 559.4791870117188,
+      "epoch": 0.051319648093841645,
+      "grad_norm": 2.4000158911131897,
+      "kl": 0.00331878662109375,
+      "learning_rate": 5.109489051094891e-07,
+      "loss": -0.0455,
+      "reward": 0.9332021176815033,
+      "reward_std": 0.20038650184869766,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.3194444626569748,
-      "rewards/repetition_penalty_reward": -0.0759085863828659,
+      "rewards/reasoning_steps_reward": 0.5347222685813904,
+      "rewards/repetition_penalty_reward": -0.10152019187808037,
       "rewards/tag_count_reward": 0.5,
       "step": 70
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 423.5833435058594,
-      "epoch": 0.0355,
-      "grad_norm": 2.869137528454137,
-      "kl": 0.001552581787109375,
-      "learning_rate": 3.55e-07,
-      "loss": -0.0516,
-      "reward": 0.7146015167236328,
-      "reward_std": 0.29403047263622284,
+      "completion_length": 528.9583587646484,
+      "epoch": 0.05205278592375367,
+      "grad_norm": 2.6501302736560426,
+      "kl": 0.00391387939453125,
+      "learning_rate": 5.182481751824817e-07,
+      "loss": -0.0121,
+      "reward": 1.0358231365680695,
+      "reward_std": 0.25363823771476746,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.298611119389534,
-      "rewards/repetition_penalty_reward": -0.08400958776473999,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.6041666865348816,
+      "rewards/repetition_penalty_reward": -0.0891769677400589,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 71
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 490.0208435058594,
-      "epoch": 0.036,
-      "grad_norm": 2.479062073282576,
-      "kl": 0.001407623291015625,
-      "learning_rate": 3.6e-07,
-      "loss": 0.0264,
-      "reward": 0.766609251499176,
-      "reward_std": 0.3444522023200989,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.3263889104127884,
-      "rewards/repetition_penalty_reward": -0.09102966263890266,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "completion_length": 588.2916870117188,
+      "epoch": 0.05278592375366569,
+      "grad_norm": 2.4485936157125074,
+      "kl": 0.00411224365234375,
+      "learning_rate": 5.255474452554745e-07,
+      "loss": -0.0353,
+      "reward": 0.9984837472438812,
+      "reward_std": 0.23911786824464798,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.5486111640930176,
+      "rewards/repetition_penalty_reward": -0.07096070051193237,
+      "rewards/tag_count_reward": 0.5208333730697632,
       "step": 72
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 403.35418701171875,
-      "epoch": 0.0365,
-      "grad_norm": 2.55373473630631,
-      "kl": 0.00188446044921875,
-      "learning_rate": 3.65e-07,
-      "loss": 0.0128,
-      "reward": 0.8594351708889008,
-      "reward_std": 0.38698044419288635,
-      "rewards/accuracy_reward": 0.06250000186264515,
-      "rewards/reasoning_steps_reward": 0.361111119389534,
-      "rewards/repetition_penalty_reward": -0.10063427314162254,
-      "rewards/tag_count_reward": 0.5364583730697632,
+      "completion_length": 556.4375,
+      "epoch": 0.053519061583577714,
+      "grad_norm": 2.490917274894813,
+      "kl": 0.0072174072265625,
+      "learning_rate": 5.328467153284672e-07,
+      "loss": -0.0127,
+      "reward": 0.9354804754257202,
+      "reward_std": 0.2260909304022789,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.534722238779068,
+      "rewards/repetition_penalty_reward": -0.09924176707863808,
+      "rewards/tag_count_reward": 0.5,
       "step": 73
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 441.31251525878906,
-      "epoch": 0.037,
-      "grad_norm": 2.763489892021762,
-      "kl": 0.00213623046875,
-      "learning_rate": 3.7e-07,
-      "loss": -0.0037,
-      "reward": 0.8403445482254028,
-      "reward_std": 0.22306300699710846,
+      "completion_length": 521.7500305175781,
+      "epoch": 0.054252199413489736,
+      "grad_norm": 2.6783458493753733,
+      "kl": 0.005462646484375,
+      "learning_rate": 5.401459854014598e-07,
+      "loss": -0.0287,
+      "reward": 0.9104893207550049,
+      "reward_std": 0.21142099052667618,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.409722238779068,
-      "rewards/repetition_penalty_reward": -0.10062775760889053,
-      "rewards/tag_count_reward": 0.53125,
+      "rewards/reasoning_steps_reward": 0.486111119389534,
+      "rewards/repetition_penalty_reward": -0.1068718284368515,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 74
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 430.0416717529297,
-      "epoch": 0.0375,
-      "grad_norm": 2.9294440220568005,
-      "kl": 0.00238800048828125,
-      "learning_rate": 3.75e-07,
-      "loss": -0.0807,
-      "reward": 0.8580312430858612,
-      "reward_std": 0.39887402951717377,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.3680555820465088,
-      "rewards/repetition_penalty_reward": -0.08294104412198067,
-      "rewards/tag_count_reward": 0.53125,
+      "completion_length": 512.2500305175781,
+      "epoch": 0.05498533724340176,
+      "grad_norm": 2.4199982126361843,
+      "kl": 0.0055389404296875,
+      "learning_rate": 5.474452554744526e-07,
+      "loss": -0.0385,
+      "reward": 0.9597910344600677,
+      "reward_std": 0.2526519149541855,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.5486111640930176,
+      "rewards/repetition_penalty_reward": -0.09923676028847694,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 75
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 356.8541717529297,
-      "epoch": 0.038,
-      "grad_norm": 2.1979386745725438,
-      "kl": 0.00208282470703125,
-      "learning_rate": 3.7999999999999996e-07,
-      "loss": -0.0118,
-      "reward": 0.8219205439090729,
-      "reward_std": 0.33333858847618103,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.3055555745959282,
-      "rewards/repetition_penalty_reward": -0.0669684112071991,
-      "rewards/tag_count_reward": 0.5416666865348816,
+      "completion_length": 510.5000305175781,
+      "epoch": 0.05571847507331378,
+      "grad_norm": 2.567874458479384,
+      "kl": 0.0051422119140625,
+      "learning_rate": 5.547445255474452e-07,
+      "loss": -0.0047,
+      "reward": 1.0856189727783203,
+      "reward_std": 0.24321593344211578,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.6250000298023224,
+      "rewards/repetition_penalty_reward": -0.07063117437064648,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 76
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 499.41668701171875,
-      "epoch": 0.0385,
-      "grad_norm": 2.4412843501817862,
-      "kl": 0.00276947021484375,
-      "learning_rate": 3.8499999999999997e-07,
-      "loss": 0.0243,
-      "reward": 0.9450303316116333,
-      "reward_std": 0.35558322072029114,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.472222238779068,
-      "rewards/repetition_penalty_reward": -0.10531692206859589,
-      "rewards/tag_count_reward": 0.5364583432674408,
+      "completion_length": 578.2083435058594,
+      "epoch": 0.056451612903225805,
+      "grad_norm": 2.550528253133134,
+      "kl": 0.0053863525390625,
+      "learning_rate": 5.620437956204379e-07,
+      "loss": 0.0184,
+      "reward": 1.1505069136619568,
+      "reward_std": 0.20630817860364914,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.7152778208255768,
+      "rewards/repetition_penalty_reward": -0.07518759742379189,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 77
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.62501525878906,
-      "epoch": 0.039,
-      "grad_norm": 2.8263728812238895,
-      "kl": 0.00323486328125,
-      "learning_rate": 3.8999999999999997e-07,
-      "loss": -0.0533,
-      "reward": 0.7922153770923615,
-      "reward_std": 0.2505815550684929,
+      "completion_length": 490.1458435058594,
+      "epoch": 0.05718475073313783,
+      "grad_norm": 2.5568022714676157,
+      "kl": 0.005523681640625,
+      "learning_rate": 5.693430656934306e-07,
+      "loss": -0.0381,
+      "reward": 1.0803128480911255,
+      "reward_std": 0.27904535830020905,
       "rewards/accuracy_reward": 0.0,
-      "rewards/reasoning_steps_reward": 0.3750000298023224,
-      "rewards/repetition_penalty_reward": -0.08278463035821915,
-      "rewards/tag_count_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.638888955116272,
+      "rewards/repetition_penalty_reward": -0.0794093906879425,
+      "rewards/tag_count_reward": 0.5208333730697632,
       "step": 78
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 408.9791717529297,
-      "epoch": 0.0395,
-      "grad_norm": 2.623388298754155,
-      "kl": 0.00296783447265625,
-      "learning_rate": 3.95e-07,
-      "loss": -0.0619,
-      "reward": 0.8954714834690094,
-      "reward_std": 0.3817988187074661,
-      "rewards/accuracy_reward": 0.06250000186264515,
-      "rewards/reasoning_steps_reward": 0.3819444477558136,
-      "rewards/repetition_penalty_reward": -0.07501471415162086,
-      "rewards/tag_count_reward": 0.5260416865348816,
+      "completion_length": 570.5000305175781,
+      "epoch": 0.05791788856304985,
+      "grad_norm": 2.7737108529156207,
+      "kl": 0.0061187744140625,
+      "learning_rate": 5.766423357664233e-07,
+      "loss": -0.0359,
+      "reward": 1.125738263130188,
+      "reward_std": 0.2861868143081665,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.6527777910232544,
+      "rewards/repetition_penalty_reward": -0.0791228711605072,
+      "rewards/tag_count_reward": 0.5520833730697632,
       "step": 79
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.35418701171875,
-      "epoch": 0.04,
-      "grad_norm": 3.2358128766367216,
-      "kl": 0.0038299560546875,
-      "learning_rate": 4e-07,
-      "loss": -0.0908,
-      "reward": 1.0643112063407898,
-      "reward_std": 0.43053002655506134,
-      "rewards/accuracy_reward": 0.14583333395421505,
-      "rewards/reasoning_steps_reward": 0.4166666567325592,
-      "rewards/repetition_penalty_reward": -0.07110553234815598,
-      "rewards/tag_count_reward": 0.5729166865348816,
+      "completion_length": 658.3125305175781,
+      "epoch": 0.05865102639296188,
+      "grad_norm": 2.3815187987627113,
+      "kl": 0.0054473876953125,
+      "learning_rate": 5.83941605839416e-07,
+      "loss": 0.0008,
+      "reward": 1.0200362801551819,
+      "reward_std": 0.21494220197200775,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.6458333730697632,
+      "rewards/repetition_penalty_reward": -0.13621379435062408,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 80
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 464.41668701171875,
-      "epoch": 0.0405,
-      "grad_norm": 2.469210493769818,
-      "kl": 0.0035552978515625,
-      "learning_rate": 4.05e-07,
-      "loss": 0.0004,
-      "reward": 0.8626311421394348,
-      "reward_std": 0.3268212229013443,
-      "rewards/accuracy_reward": 0.0625,
-      "rewards/reasoning_steps_reward": 0.3680555820465088,
-      "rewards/repetition_penalty_reward": -0.09917446598410606,
-      "rewards/tag_count_reward": 0.53125,
+      "completion_length": 573.5416717529297,
+      "epoch": 0.0593841642228739,
+      "grad_norm": 2.6130817675171194,
+      "kl": 0.0069732666015625,
+      "learning_rate": 5.912408759124087e-07,
+      "loss": 0.0508,
+      "reward": 1.1462955176830292,
+      "reward_std": 0.28369559347629547,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.6527778208255768,
+      "rewards/repetition_penalty_reward": -0.08981562405824661,
+      "rewards/tag_count_reward": 0.5416666865348816,
       "step": 81
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 439.0833435058594,
-      "epoch": 0.041,
-      "grad_norm": 3.0805939483605678,
-      "kl": 0.0042877197265625,
-      "learning_rate": 4.0999999999999994e-07,
-      "loss": -0.019,
-      "reward": 0.9204289317131042,
-      "reward_std": 0.3671407848596573,
-      "rewards/accuracy_reward": 0.08333333395421505,
-      "rewards/reasoning_steps_reward": 0.4027777910232544,
-      "rewards/repetition_penalty_reward": -0.10214058682322502,
-      "rewards/tag_count_reward": 0.5364583432674408,
+      "completion_length": 582.2291870117188,
+      "epoch": 0.060117302052785926,
+      "grad_norm": 2.25648691082032,
+      "kl": 0.006988525390625,
+      "learning_rate": 5.985401459854015e-07,
+      "loss": -0.0314,
+      "reward": 1.0307790040969849,
+      "reward_std": 0.2735845670104027,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.5972222685813904,
+      "rewards/repetition_penalty_reward": -0.09769327193498611,
+      "rewards/tag_count_reward": 0.53125,
       "step": 82
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 521.9166870117188,
-      "epoch": 0.0415,
-      "grad_norm": 2.597320274415619,
-      "kl": 0.0041046142578125,
-      "learning_rate": 4.1499999999999994e-07,
-      "loss": 0.0645,
-      "reward": 1.1805400252342224,
-      "reward_std": 0.43789660930633545,
-      "rewards/accuracy_reward": 0.16666667722165585,
-      "rewards/reasoning_steps_reward": 0.5277778059244156,
-      "rewards/repetition_penalty_reward": -0.08682116121053696,
-      "rewards/tag_count_reward": 0.5729166865348816,
+      "completion_length": 542.8958435058594,
+      "epoch": 0.06085043988269795,
+      "grad_norm": 2.5748740896100406,
+      "kl": 0.00799560546875,
+      "learning_rate": 6.058394160583942e-07,
+      "loss": -0.0757,
+      "reward": 1.1210277676582336,
+      "reward_std": 0.22354952991008759,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.694444477558136,
+      "rewards/repetition_penalty_reward": -0.08383342623710632,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 83
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 475.2708435058594,
-      "epoch": 0.042,
-      "grad_norm": 2.652905559142146,
-      "kl": 0.004302978515625,
-      "learning_rate": 4.1999999999999995e-07,
-      "loss": -0.0013,
-      "reward": 1.1051982939243317,
-      "reward_std": 0.4141012579202652,
-      "rewards/accuracy_reward": 0.12500000558793545,
-      "rewards/reasoning_steps_reward": 0.5138888657093048,
-      "rewards/repetition_penalty_reward": -0.09619061276316643,
-      "rewards/tag_count_reward": 0.5625000298023224,
+      "completion_length": 540.6666870117188,
+      "epoch": 0.06158357771260997,
+      "grad_norm": 2.671125025547467,
+      "kl": 0.009521484375,
+      "learning_rate": 6.131386861313868e-07,
+      "loss": -0.0565,
+      "reward": 1.1098045110702515,
+      "reward_std": 0.22741875797510147,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.6805556118488312,
+      "rewards/repetition_penalty_reward": -0.07075115293264389,
+      "rewards/tag_count_reward": 0.5,
       "step": 84
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.0833435058594,
-      "epoch": 0.0425,
-      "grad_norm": 2.7752719784771798,
-      "kl": 0.00518798828125,
-      "learning_rate": 4.2499999999999995e-07,
-      "loss": -0.0391,
-      "reward": 1.0055087208747864,
-      "reward_std": 0.2745797038078308,
-      "rewards/accuracy_reward": 0.02083333395421505,
-      "rewards/reasoning_steps_reward": 0.5555556118488312,
-      "rewards/repetition_penalty_reward": -0.09171349555253983,
-      "rewards/tag_count_reward": 0.5208333730697632,
+      "completion_length": 489.3333435058594,
+      "epoch": 0.062316715542521994,
+      "grad_norm": 2.7047116143217607,
+      "kl": 0.008575439453125,
+      "learning_rate": 6.204379562043796e-07,
+      "loss": -0.034,
+      "reward": 1.031806230545044,
+      "reward_std": 0.23993152379989624,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.597222238779068,
+      "rewards/repetition_penalty_reward": -0.08624938875436783,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 85
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 419.4791717529297,
-      "epoch": 0.043,
-      "grad_norm": 2.640366127433102,
-      "kl": 0.0047607421875,
-      "learning_rate": 4.2999999999999996e-07,
-      "loss": 0.0125,
-      "reward": 1.0041911602020264,
-      "reward_std": 0.25805340707302094,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.5486111342906952,
-      "rewards/repetition_penalty_reward": -0.12254500389099121,
-      "rewards/tag_count_reward": 0.5364583432674408,
+      "completion_length": 542.9791870117188,
+      "epoch": 0.06304985337243402,
+      "grad_norm": 2.3811852124777007,
+      "kl": 0.011016845703125,
+      "learning_rate": 6.277372262773722e-07,
+      "loss": -0.059,
+      "reward": 1.1634512543678284,
+      "reward_std": 0.1828886717557907,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.7430555820465088,
+      "rewards/repetition_penalty_reward": -0.09002107009291649,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 86
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.2083435058594,
-      "epoch": 0.0435,
-      "grad_norm": 2.780462703093036,
-      "kl": 0.0068511962890625,
-      "learning_rate": 4.3499999999999996e-07,
-      "loss": -0.0254,
-      "reward": 0.9412573575973511,
-      "reward_std": 0.3015138581395149,
-      "rewards/accuracy_reward": 0.0625,
-      "rewards/reasoning_steps_reward": 0.4722222536802292,
-      "rewards/repetition_penalty_reward": -0.1247149184346199,
-      "rewards/tag_count_reward": 0.53125,
+      "completion_length": 560.7916870117188,
+      "epoch": 0.06378299120234604,
+      "grad_norm": 2.6708744424748825,
+      "kl": 0.009613037109375,
+      "learning_rate": 6.350364963503649e-07,
+      "loss": 0.0257,
+      "reward": 1.2677294611930847,
+      "reward_std": 0.17205430567264557,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8263888955116272,
+      "rewards/repetition_penalty_reward": -0.06907607242465019,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 87
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 452.4583435058594,
-      "epoch": 0.044,
-      "grad_norm": 2.9854860146208924,
-      "kl": 0.0058135986328125,
-      "learning_rate": 4.3999999999999997e-07,
-      "loss": -0.0644,
-      "reward": 1.1855429410934448,
-      "reward_std": 0.4236704409122467,
-      "rewards/accuracy_reward": 0.12500000558793545,
-      "rewards/reasoning_steps_reward": 0.604166716337204,
-      "rewards/repetition_penalty_reward": -0.10091547667980194,
-      "rewards/tag_count_reward": 0.5572916865348816,
+      "completion_length": 500.62501525878906,
+      "epoch": 0.06451612903225806,
+      "grad_norm": 2.6527083044097615,
+      "kl": 0.013580322265625,
+      "learning_rate": 6.423357664233577e-07,
+      "loss": -0.0816,
+      "reward": 1.157953143119812,
+      "reward_std": 0.24211852997541428,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.722222238779068,
+      "rewards/repetition_penalty_reward": -0.08510247990489006,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 88
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.37501525878906,
-      "epoch": 0.0445,
-      "grad_norm": 2.6660126680917506,
-      "kl": 0.0048370361328125,
-      "learning_rate": 4.45e-07,
-      "loss": 0.0538,
-      "reward": 1.1993393301963806,
-      "reward_std": 0.45567750930786133,
-      "rewards/accuracy_reward": 0.2083333432674408,
-      "rewards/reasoning_steps_reward": 0.4583333432674408,
-      "rewards/repetition_penalty_reward": -0.11316069215536118,
-      "rewards/tag_count_reward": 0.6458333432674408,
+      "completion_length": 585.2083740234375,
+      "epoch": 0.06524926686217009,
+      "grad_norm": 2.254851707913722,
+      "kl": 0.01177978515625,
+      "learning_rate": 6.496350364963503e-07,
+      "loss": -0.0616,
+      "reward": 1.2707419395446777,
+      "reward_std": 0.23218122124671936,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8263888955116272,
+      "rewards/repetition_penalty_reward": -0.08689698204398155,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 89
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 503.18751525878906,
-      "epoch": 0.045,
-      "grad_norm": 2.6170875678464642,
-      "kl": 0.0070648193359375,
-      "learning_rate": 4.5e-07,
-      "loss": -0.0717,
-      "reward": 1.1190320253372192,
-      "reward_std": 0.36526739597320557,
-      "rewards/accuracy_reward": 0.0625,
-      "rewards/reasoning_steps_reward": 0.6111111640930176,
-      "rewards/repetition_penalty_reward": -0.08582913875579834,
-      "rewards/tag_count_reward": 0.53125,
+      "completion_length": 553.0625,
+      "epoch": 0.06598240469208211,
+      "grad_norm": 2.466044255250126,
+      "kl": 0.01318359375,
+      "learning_rate": 6.56934306569343e-07,
+      "loss": 0.0192,
+      "reward": 1.2977005243301392,
+      "reward_std": 0.2469094917178154,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.8472222685813904,
+      "rewards/repetition_penalty_reward": -0.08077173680067062,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 90
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 437.7083435058594,
-      "epoch": 0.0455,
-      "grad_norm": 2.6475065375904956,
-      "kl": 0.00689697265625,
-      "learning_rate": 4.55e-07,
-      "loss": 0.0389,
-      "reward": 1.283356487751007,
-      "reward_std": 0.5063433349132538,
-      "rewards/accuracy_reward": 0.1666666716337204,
-      "rewards/reasoning_steps_reward": 0.5833333730697632,
-      "rewards/repetition_penalty_reward": -0.08122700080275536,
-      "rewards/tag_count_reward": 0.6145833432674408,
+      "completion_length": 546.8750305175781,
+      "epoch": 0.06671554252199413,
+      "grad_norm": 2.4627490545315553,
+      "kl": 0.012664794921875,
+      "learning_rate": 6.642335766423358e-07,
+      "loss": -0.0433,
+      "reward": 1.2336487770080566,
+      "reward_std": 0.1906793713569641,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8055556118488312,
+      "rewards/repetition_penalty_reward": -0.09274015948176384,
+      "rewards/tag_count_reward": 0.5208333730697632,
       "step": 91
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 419.4583435058594,
-      "epoch": 0.046,
-      "grad_norm": 2.893081594976591,
-      "kl": 0.0062255859375,
-      "learning_rate": 4.6e-07,
-      "loss": 0.0274,
-      "reward": 1.465721845626831,
-      "reward_std": 0.415210023522377,
-      "rewards/accuracy_reward": 0.3333333432674408,
-      "rewards/reasoning_steps_reward": 0.5277778208255768,
-      "rewards/repetition_penalty_reward": -0.08288927376270294,
-      "rewards/tag_count_reward": 0.6875000298023224,
+      "completion_length": 571.0416870117188,
+      "epoch": 0.06744868035190615,
+      "grad_norm": 2.4773692933804274,
+      "kl": 0.01470947265625,
+      "learning_rate": 6.715328467153284e-07,
+      "loss": -0.0215,
+      "reward": 1.2830377221107483,
+      "reward_std": 0.24985270202159882,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8402778506278992,
+      "rewards/repetition_penalty_reward": -0.09890671819448471,
+      "rewards/tag_count_reward": 0.5416666865348816,
       "step": 92
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 496.0833435058594,
-      "epoch": 0.0465,
-      "grad_norm": 3.0157369307824924,
-      "kl": 0.0055694580078125,
-      "learning_rate": 4.65e-07,
-      "loss": -0.0453,
-      "reward": 1.174148678779602,
-      "reward_std": 0.43805110454559326,
-      "rewards/accuracy_reward": 0.14583333395421505,
-      "rewards/reasoning_steps_reward": 0.5069444626569748,
-      "rewards/repetition_penalty_reward": -0.07758747413754463,
-      "rewards/tag_count_reward": 0.5989583432674408,
+      "completion_length": 631.0208435058594,
+      "epoch": 0.06818181818181818,
+      "grad_norm": 2.252251791829593,
+      "kl": 0.015655517578125,
+      "learning_rate": 6.788321167883211e-07,
+      "loss": 0.0148,
+      "reward": 1.3440173268318176,
+      "reward_std": 0.15536434948444366,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9305555820465088,
+      "rewards/repetition_penalty_reward": -0.10737163573503494,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 93
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.6458435058594,
-      "epoch": 0.047,
-      "grad_norm": 3.021710643706005,
-      "kl": 0.00909423828125,
-      "learning_rate": 4.6999999999999995e-07,
-      "loss": 0.0763,
-      "reward": 1.587534487247467,
-      "reward_std": 0.6594474613666534,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.479166716337204,
-      "rewards/repetition_penalty_reward": -0.07392388582229614,
-      "rewards/tag_count_reward": 0.7447916865348816,
+      "completion_length": 568.8958435058594,
+      "epoch": 0.0689149560117302,
+      "grad_norm": 2.371964666409008,
+      "kl": 0.018798828125,
+      "learning_rate": 6.861313868613139e-07,
+      "loss": -0.065,
+      "reward": 1.3092040419578552,
+      "reward_std": 0.21491578966379166,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8888889253139496,
+      "rewards/repetition_penalty_reward": -0.10051822662353516,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 94
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 419.3958435058594,
-      "epoch": 0.0475,
-      "grad_norm": 2.8068774316465617,
-      "kl": 0.0103759765625,
-      "learning_rate": 4.7499999999999995e-07,
-      "loss": -0.0172,
-      "reward": 1.508695363998413,
-      "reward_std": 0.5535295158624649,
-      "rewards/accuracy_reward": 0.3333333432674408,
-      "rewards/reasoning_steps_reward": 0.5694444477558136,
-      "rewards/repetition_penalty_reward": -0.0763741172850132,
-      "rewards/tag_count_reward": 0.6822916865348816,
+      "completion_length": 638.7083740234375,
+      "epoch": 0.06964809384164222,
+      "grad_norm": 2.102439408725684,
+      "kl": 0.01702880859375,
+      "learning_rate": 6.934306569343066e-07,
+      "loss": 0.0856,
+      "reward": 1.3951058387756348,
+      "reward_std": 0.23365377634763718,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.12225543707609177,
+      "rewards/tag_count_reward": 0.5312500298023224,
       "step": 95
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 470.35418701171875,
-      "epoch": 0.048,
-      "grad_norm": 2.8744733124062676,
-      "kl": 0.0072174072265625,
-      "learning_rate": 4.8e-07,
-      "loss": -0.0036,
-      "reward": 1.1895955204963684,
-      "reward_std": 0.4534749835729599,
-      "rewards/accuracy_reward": 0.1875000074505806,
-      "rewards/reasoning_steps_reward": 0.3888889104127884,
-      "rewards/repetition_penalty_reward": -0.11075177043676376,
-      "rewards/tag_count_reward": 0.7239583432674408,
+      "completion_length": 564.2708740234375,
+      "epoch": 0.07038123167155426,
+      "grad_norm": 2.327185590119073,
+      "kl": 0.0244140625,
+      "learning_rate": 7.007299270072993e-07,
+      "loss": -0.0365,
+      "reward": 1.4423339366912842,
+      "reward_std": 0.1464700922369957,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.07849938794970512,
+      "rewards/tag_count_reward": 0.5625000298023224,
       "step": 96
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 427.00001525878906,
-      "epoch": 0.0485,
-      "grad_norm": 2.820798846547903,
-      "kl": 0.010498046875,
-      "learning_rate": 4.85e-07,
-      "loss": 0.0096,
-      "reward": 1.331734836101532,
-      "reward_std": 0.6030288934707642,
-      "rewards/accuracy_reward": 0.3125,
-      "rewards/reasoning_steps_reward": 0.4027778059244156,
-      "rewards/repetition_penalty_reward": -0.10750139504671097,
-      "rewards/tag_count_reward": 0.7239583432674408,
+      "completion_length": 676.8750305175781,
+      "epoch": 0.07111436950146628,
+      "grad_norm": 2.3497921909453523,
+      "kl": 0.021240234375,
+      "learning_rate": 7.080291970802919e-07,
+      "loss": 0.2078,
+      "reward": 1.3351240158081055,
+      "reward_std": 0.14220446348190308,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.14057040959596634,
+      "rewards/tag_count_reward": 0.5104166865348816,
       "step": 97
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 486.1666717529297,
-      "epoch": 0.049,
-      "grad_norm": 2.607464524310001,
-      "kl": 0.010772705078125,
-      "learning_rate": 4.9e-07,
-      "loss": 0.0265,
-      "reward": 1.5102072954177856,
-      "reward_std": 0.5378637164831161,
-      "rewards/accuracy_reward": 0.458333358168602,
-      "rewards/reasoning_steps_reward": 0.298611119389534,
-      "rewards/repetition_penalty_reward": -0.12173716351389885,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 649.0416870117188,
+      "epoch": 0.0718475073313783,
+      "grad_norm": 2.2789434818818886,
+      "kl": 0.0260009765625,
+      "learning_rate": 7.153284671532847e-07,
+      "loss": 0.2727,
+      "reward": 1.3547228574752808,
+      "reward_std": 0.15613484382629395,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9374999701976776,
+      "rewards/repetition_penalty_reward": -0.13486044853925705,
+      "rewards/tag_count_reward": 0.5520833730697632,
       "step": 98
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 504.04168701171875,
-      "epoch": 0.0495,
-      "grad_norm": 2.6750653025151925,
-      "kl": 0.013946533203125,
-      "learning_rate": 4.95e-07,
-      "loss": 0.0658,
-      "reward": 1.610666811466217,
-      "reward_std": 0.6144271492958069,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.3541667014360428,
-      "rewards/repetition_penalty_reward": -0.10287501662969589,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 621.8333740234375,
+      "epoch": 0.07258064516129033,
+      "grad_norm": 2.239779876944864,
+      "kl": 0.0238037109375,
+      "learning_rate": 7.226277372262773e-07,
+      "loss": -0.04,
+      "reward": 1.4298600554466248,
+      "reward_std": 0.12703320011496544,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.08055667206645012,
+      "rewards/tag_count_reward": 0.5520833432674408,
       "step": 99
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.72918701171875,
-      "epoch": 0.05,
-      "grad_norm": 2.7156863679632885,
-      "kl": 0.009613037109375,
-      "learning_rate": 5e-07,
-      "loss": 0.2283,
-      "reward": 1.464966893196106,
-      "reward_std": 0.5712087154388428,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.3402777910232544,
-      "rewards/repetition_penalty_reward": -0.1096859984099865,
-      "rewards/tag_count_reward": 0.8177083432674408,
+      "completion_length": 571.75,
+      "epoch": 0.07331378299120235,
+      "grad_norm": 2.8804572295856166,
+      "kl": 0.02581787109375,
+      "learning_rate": 7.2992700729927e-07,
+      "loss": 0.0164,
+      "reward": 1.377421259880066,
+      "reward_std": 0.2720048576593399,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8819444179534912,
+      "rewards/repetition_penalty_reward": -0.10348153859376907,
+      "rewards/tag_count_reward": 0.5989583432674408,
       "step": 100
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 423.0416717529297,
-      "epoch": 0.0505,
-      "grad_norm": 2.919566854448967,
-      "kl": 0.0150146484375,
-      "learning_rate": 5.049999999999999e-07,
-      "loss": -0.0017,
-      "reward": 1.971518337726593,
-      "reward_std": 0.5628243684768677,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.375,
-      "rewards/repetition_penalty_reward": -0.08056501299142838,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 829.5625305175781,
+      "epoch": 0.07404692082111437,
+      "grad_norm": 2.345441719178201,
+      "kl": 0.02825927734375,
+      "learning_rate": 7.372262773722628e-07,
+      "loss": 0.2908,
+      "reward": 1.3878263235092163,
+      "reward_std": 0.27931635081768036,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.17467374354600906,
+      "rewards/tag_count_reward": 0.5625000298023224,
       "step": 101
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 370.5416717529297,
-      "epoch": 0.051,
-      "grad_norm": 2.864551722431305,
-      "kl": 0.017913818359375,
-      "learning_rate": 5.1e-07,
-      "loss": 0.037,
-      "reward": 1.7677536010742188,
-      "reward_std": 0.4400963932275772,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.3194444626569748,
-      "rewards/repetition_penalty_reward": -0.07252424210309982,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 810.2708435058594,
+      "epoch": 0.0747800586510264,
+      "grad_norm": 2.029032638001561,
+      "kl": 0.0281982421875,
+      "learning_rate": 7.445255474452554e-07,
+      "loss": 0.2321,
+      "reward": 1.4438632726669312,
+      "reward_std": 0.2681792825460434,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.14120623841881752,
+      "rewards/tag_count_reward": 0.640625,
       "step": 102
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 413.66668701171875,
-      "epoch": 0.0515,
-      "grad_norm": 2.962558584851364,
-      "kl": 0.012969970703125,
-      "learning_rate": 5.149999999999999e-07,
-      "loss": -0.0576,
-      "reward": 1.84916353225708,
-      "reward_std": 0.4907376766204834,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.3263888955116272,
-      "rewards/repetition_penalty_reward": -0.07097543030977249,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 716.1875305175781,
+      "epoch": 0.07551319648093842,
+      "grad_norm": 2.150055244776667,
+      "kl": 0.03033447265625,
+      "learning_rate": 7.518248175182481e-07,
+      "loss": 0.1382,
+      "reward": 1.4972922205924988,
+      "reward_std": 0.3046337366104126,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.12423554062843323,
+      "rewards/tag_count_reward": 0.5729166865348816,
       "step": 103
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.3958435058594,
-      "epoch": 0.052,
-      "grad_norm": 3.174614828168193,
-      "kl": 0.015167236328125,
-      "learning_rate": 5.2e-07,
-      "loss": -0.0749,
-      "reward": 1.8075725436210632,
-      "reward_std": 0.28401315957307816,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.2916666865348816,
-      "rewards/repetition_penalty_reward": -0.057010795921087265,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 712.7916870117188,
+      "epoch": 0.07624633431085044,
+      "grad_norm": 2.314344363733894,
+      "kl": 0.0306396484375,
+      "learning_rate": 7.591240875912408e-07,
+      "loss": 0.3068,
+      "reward": 1.419297456741333,
+      "reward_std": 0.2410280853509903,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.1414663940668106,
+      "rewards/tag_count_reward": 0.5677083432674408,
       "step": 104
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 413.75,
-      "epoch": 0.0525,
-      "grad_norm": 2.9070150258769845,
-      "kl": 0.0205078125,
-      "learning_rate": 5.25e-07,
-      "loss": -0.0433,
-      "reward": 1.7146551609039307,
-      "reward_std": 0.5036576092243195,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.36805559694767,
-      "rewards/repetition_penalty_reward": -0.07527554780244827,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 708.4791870117188,
+      "epoch": 0.07697947214076246,
+      "grad_norm": 2.227593566299099,
+      "kl": 0.02899169921875,
+      "learning_rate": 7.664233576642335e-07,
+      "loss": 0.2322,
+      "reward": 1.5039226412773132,
+      "reward_std": 0.3817121684551239,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.1523272842168808,
+      "rewards/tag_count_reward": 0.6354166865348816,
       "step": 105
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 506.22918701171875,
-      "epoch": 0.053,
-      "grad_norm": 2.7140962159705353,
-      "kl": 0.01116943359375,
-      "learning_rate": 5.3e-07,
-      "loss": -0.0411,
-      "reward": 1.7457041144371033,
-      "reward_std": 0.43025586009025574,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.236111119389534,
-      "rewards/repetition_penalty_reward": -0.0997820794582367,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 741.1875305175781,
+      "epoch": 0.07771260997067449,
+      "grad_norm": 2.2189255233187275,
+      "kl": 0.03448486328125,
+      "learning_rate": 7.737226277372263e-07,
+      "loss": 0.0745,
+      "reward": 1.5402050018310547,
+      "reward_std": 0.3311127871274948,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.13687820360064507,
+      "rewards/tag_count_reward": 0.6354166865348816,
       "step": 106
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 390.7708435058594,
-      "epoch": 0.0535,
-      "grad_norm": 2.5890826142014376,
-      "kl": 0.016693115234375,
-      "learning_rate": 5.35e-07,
-      "loss": 0.048,
-      "reward": 1.9064030051231384,
-      "reward_std": 0.3108719140291214,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.2916666865348816,
-      "rewards/repetition_penalty_reward": -0.08838870003819466,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 725.7708435058594,
+      "epoch": 0.07844574780058651,
+      "grad_norm": 2.3727721162936293,
+      "kl": 0.03070068359375,
+      "learning_rate": 7.81021897810219e-07,
+      "loss": 0.0747,
+      "reward": 1.601328730583191,
+      "reward_std": 0.3444855064153671,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.8888889253139496,
+      "rewards/repetition_penalty_reward": -0.11568531394004822,
+      "rewards/tag_count_reward": 0.8072916865348816,
       "step": 107
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.6458435058594,
-      "epoch": 0.054,
-      "grad_norm": 2.4716329573423796,
-      "kl": 0.01641845703125,
-      "learning_rate": 5.4e-07,
-      "loss": -0.0065,
-      "reward": 1.9147586822509766,
-      "reward_std": 0.30019962787628174,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.2986111342906952,
-      "rewards/repetition_penalty_reward": -0.08697742223739624,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 108
-    },
+      "completion_length": 731.2500305175781,
+      "epoch": 0.07917888563049853,
+      "grad_norm": 2.208602964719147,
+      "kl": 0.0318603515625,
+      "learning_rate": 7.883211678832117e-07,
+      "loss": 0.1092,
+      "reward": 1.816445231437683,
+      "reward_std": 0.4272291660308838,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9513888955116272,
+      "rewards/repetition_penalty_reward": -0.11931872367858887,
+      "rewards/tag_count_reward": 0.8177083432674408,
+      "step": 108
+    },
     {
       "clip_ratio": 0.0,
-      "completion_length": 413.6458435058594,
-      "epoch": 0.0545,
-      "grad_norm": 2.954116545096682,
-      "kl": 0.0186767578125,
-      "learning_rate": 5.45e-07,
-      "loss": 0.0025,
-      "reward": 2.002891957759857,
-      "reward_std": 0.39341901242733,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.2430555671453476,
-      "rewards/repetition_penalty_reward": -0.06828875839710236,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 648.1041870117188,
+      "epoch": 0.07991202346041056,
+      "grad_norm": 2.180090722902742,
+      "kl": 0.031005859375,
+      "learning_rate": 7.956204379562043e-07,
+      "loss": 0.0962,
+      "reward": 1.7373812198638916,
+      "reward_std": 0.31745412945747375,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9027777910232544,
+      "rewards/repetition_penalty_reward": -0.11331330239772797,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 109
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 431.93751525878906,
-      "epoch": 0.055,
-      "grad_norm": 2.796630595163655,
-      "kl": 0.013763427734375,
-      "learning_rate": 5.5e-07,
-      "loss": -0.0342,
-      "reward": 2.094782531261444,
-      "reward_std": 0.32828887552022934,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.395833358168602,
-      "rewards/repetition_penalty_reward": -0.10834262520074844,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 628.875,
+      "epoch": 0.08064516129032258,
+      "grad_norm": 2.24336862203659,
+      "kl": 0.03515625,
+      "learning_rate": 8.029197080291971e-07,
+      "loss": 0.0259,
+      "reward": 1.707243025302887,
+      "reward_std": 0.2569514065980911,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8958333730697632,
+      "rewards/repetition_penalty_reward": -0.11567378789186478,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 110
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 455.0,
-      "epoch": 0.0555,
-      "grad_norm": 3.3329482247244755,
-      "kl": 0.013427734375,
-      "learning_rate": 5.55e-07,
-      "loss": 0.1221,
-      "reward": 2.00520521402359,
-      "reward_std": 0.48712170124053955,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.3541666865348816,
-      "rewards/repetition_penalty_reward": -0.07812817022204399,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 668.2916870117188,
+      "epoch": 0.0813782991202346,
+      "grad_norm": 2.1467393949027946,
+      "kl": 0.0316162109375,
+      "learning_rate": 8.102189781021898e-07,
+      "loss": 0.1118,
+      "reward": 1.7002267837524414,
+      "reward_std": 0.3253027945756912,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9027777910232544,
+      "rewards/repetition_penalty_reward": -0.15046779811382294,
+      "rewards/tag_count_reward": 0.90625,
       "step": 111
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 410.37501525878906,
-      "epoch": 0.056,
-      "grad_norm": 2.9159306101645845,
-      "kl": 0.01458740234375,
-      "learning_rate": 5.6e-07,
-      "loss": 0.0302,
-      "reward": 1.945899486541748,
-      "reward_std": 0.5274121165275574,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.3680555522441864,
-      "rewards/repetition_penalty_reward": -0.09923946484923363,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 571.2291870117188,
+      "epoch": 0.08211143695014662,
+      "grad_norm": 2.3046724261447245,
+      "kl": 0.03759765625,
+      "learning_rate": 8.175182481751824e-07,
+      "loss": -0.098,
+      "reward": 1.6816839575767517,
+      "reward_std": 0.24633130431175232,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8333334028720856,
+      "rewards/repetition_penalty_reward": -0.10998266562819481,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 112
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 430.8958435058594,
-      "epoch": 0.0565,
-      "grad_norm": 3.0211550455327836,
-      "kl": 0.02276611328125,
-      "learning_rate": 5.649999999999999e-07,
-      "loss": 0.0349,
-      "reward": 2.0766223669052124,
-      "reward_std": 0.3339201509952545,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.3263888955116272,
-      "rewards/repetition_penalty_reward": -0.07789156958460808,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 544.375,
+      "epoch": 0.08284457478005865,
+      "grad_norm": 2.5306732105186605,
+      "kl": 0.034423828125,
+      "learning_rate": 8.248175182481751e-07,
+      "loss": -0.0392,
+      "reward": 2.261577606201172,
+      "reward_std": 0.3669068068265915,
+      "rewards/accuracy_reward": 0.5416666716337204,
+      "rewards/reasoning_steps_reward": 0.8194445371627808,
+      "rewards/repetition_penalty_reward": -0.08390852063894272,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 113
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 421.3541717529297,
-      "epoch": 0.057,
-      "grad_norm": 2.946457972762416,
-      "kl": 0.0147705078125,
-      "learning_rate": 5.699999999999999e-07,
-      "loss": 0.012,
-      "reward": 1.9260443449020386,
-      "reward_std": 0.4190318286418915,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.402777761220932,
-      "rewards/repetition_penalty_reward": -0.07569188624620438,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 649.6041870117188,
+      "epoch": 0.08357771260997067,
+      "grad_norm": 2.244871151106607,
+      "kl": 0.0389404296875,
+      "learning_rate": 8.321167883211679e-07,
+      "loss": -0.0034,
+      "reward": 1.8438727259635925,
+      "reward_std": 0.42509177327156067,
+      "rewards/accuracy_reward": 0.14583333395421505,
+      "rewards/reasoning_steps_reward": 0.8333333134651184,
+      "rewards/repetition_penalty_reward": -0.11446066945791245,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 114
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.47918701171875,
-      "epoch": 0.0575,
-      "grad_norm": 2.776628513370855,
-      "kl": 0.01708984375,
-      "learning_rate": 5.749999999999999e-07,
-      "loss": -0.0217,
-      "reward": 2.1737382411956787,
-      "reward_std": 0.416288822889328,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.3680555820465088,
-      "rewards/repetition_penalty_reward": -0.09015080332756042,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 634.2916870117188,
+      "epoch": 0.08431085043988269,
+      "grad_norm": 2.491100748223219,
+      "kl": 0.0379638671875,
+      "learning_rate": 8.394160583941605e-07,
+      "loss": 0.0772,
+      "reward": 1.9845237731933594,
+      "reward_std": 0.4105287790298462,
+      "rewards/accuracy_reward": 0.2083333395421505,
+      "rewards/reasoning_steps_reward": 0.8958333134651184,
+      "rewards/repetition_penalty_reward": -0.08318460360169411,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 115
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 462.1458435058594,
-      "epoch": 0.058,
-      "grad_norm": 2.5888150833378383,
-      "kl": 0.01837158203125,
-      "learning_rate": 5.8e-07,
-      "loss": -0.0648,
-      "reward": 2.0337727069854736,
-      "reward_std": 0.3629211187362671,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.291666679084301,
-      "rewards/repetition_penalty_reward": -0.09122735634446144,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 685.6875,
+      "epoch": 0.08504398826979472,
+      "grad_norm": 2.344273362836253,
+      "kl": 0.0421142578125,
+      "learning_rate": 8.467153284671532e-07,
+      "loss": 0.1762,
+      "reward": 1.7933751940727234,
+      "reward_std": 0.20816757529973984,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.10766644030809402,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 116
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.1041717529297,
-      "epoch": 0.0585,
-      "grad_norm": 3.1651475575486065,
-      "kl": 0.02288818359375,
-      "learning_rate": 5.849999999999999e-07,
-      "loss": 0.0276,
-      "reward": 2.0250861048698425,
-      "reward_std": 0.385862335562706,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.284722238779068,
-      "rewards/repetition_penalty_reward": -0.07213617861270905,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 576.9583740234375,
+      "epoch": 0.08577712609970674,
+      "grad_norm": 2.2662508812576356,
+      "kl": 0.042724609375,
+      "learning_rate": 8.540145985401459e-07,
+      "loss": -0.0667,
+      "reward": 1.9130470752716064,
+      "reward_std": 0.31153056025505066,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/reasoning_steps_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.10257799923419952,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 117
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 405.50001525878906,
-      "epoch": 0.059,
-      "grad_norm": 2.995948787512775,
-      "kl": 0.01568603515625,
-      "learning_rate": 5.9e-07,
-      "loss": 0.0545,
-      "reward": 2.079026162624359,
-      "reward_std": 0.4058743417263031,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.3680555745959282,
-      "rewards/repetition_penalty_reward": -0.08069606870412827,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 654.1875305175781,
+      "epoch": 0.08651026392961877,
+      "grad_norm": 2.3816109059086035,
+      "kl": 0.0408935546875,
+      "learning_rate": 8.613138686131386e-07,
+      "loss": 0.0516,
+      "reward": 1.8271796703338623,
+      "reward_std": 0.26171302795410156,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.08948708325624466,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 118
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 427.1458435058594,
-      "epoch": 0.0595,
-      "grad_norm": 3.2921667824300074,
-      "kl": 0.02056884765625,
-      "learning_rate": 5.949999999999999e-07,
-      "loss": 0.0068,
-      "reward": 2.110425293445587,
-      "reward_std": 0.4844990372657776,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.4305555671453476,
-      "rewards/repetition_penalty_reward": -0.07013046741485596,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 602.9583435058594,
+      "epoch": 0.0872434017595308,
+      "grad_norm": 2.2625493199191613,
+      "kl": 0.050537109375,
+      "learning_rate": 8.686131386861314e-07,
+      "loss": -0.02,
+      "reward": 1.8098711371421814,
+      "reward_std": 0.2411314696073532,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.10158723592758179,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 119
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 394.79168701171875,
-      "epoch": 0.06,
-      "grad_norm": 3.0710450999617622,
-      "kl": 0.01605224609375,
-      "learning_rate": 6e-07,
-      "loss": 0.0034,
-      "reward": 1.7129506468772888,
-      "reward_std": 0.3703618347644806,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.3472222238779068,
-      "rewards/repetition_penalty_reward": -0.07177170366048813,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 607.9583740234375,
+      "epoch": 0.08797653958944282,
+      "grad_norm": 2.491338730976297,
+      "kl": 0.0498046875,
+      "learning_rate": 8.759124087591241e-07,
+      "loss": 0.0994,
+      "reward": 1.9433124661445618,
+      "reward_std": 0.28877225518226624,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.1052987314760685,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 120
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 441.18751525878906,
-      "epoch": 0.0605,
-      "grad_norm": 2.7064381875532835,
-      "kl": 0.02081298828125,
-      "learning_rate": 6.049999999999999e-07,
-      "loss": 0.0009,
-      "reward": 1.8438260555267334,
-      "reward_std": 0.46181726455688477,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.3055555522441864,
-      "rewards/repetition_penalty_reward": -0.08672957122325897,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 602.4166870117188,
+      "epoch": 0.08870967741935484,
+      "grad_norm": 2.100723178631127,
+      "kl": 0.049560546875,
+      "learning_rate": 8.832116788321168e-07,
+      "loss": -0.0021,
+      "reward": 1.8328325152397156,
+      "reward_std": 0.14558201283216476,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.09077860787510872,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 121
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.5833435058594,
-      "epoch": 0.061,
-      "grad_norm": 2.9942145930271735,
-      "kl": 0.01763916015625,
-      "learning_rate": 6.1e-07,
-      "loss": -0.0401,
-      "reward": 1.858453392982483,
-      "reward_std": 0.4963291585445404,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.361111119389534,
-      "rewards/repetition_penalty_reward": -0.07036612182855606,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 617.0416870117188,
+      "epoch": 0.08944281524926687,
+      "grad_norm": 2.0146574407917996,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.905109489051094e-07,
+      "loss": -0.0551,
+      "reward": 1.9449394941329956,
+      "reward_std": 0.26772307604551315,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 0.9236111044883728,
+      "rewards/repetition_penalty_reward": -0.09325498715043068,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 122
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.72918701171875,
-      "epoch": 0.0615,
-      "grad_norm": 2.591891405826925,
-      "kl": 0.0142822265625,
-      "learning_rate": 6.149999999999999e-07,
-      "loss": 0.0201,
-      "reward": 2.2280489206314087,
-      "reward_std": 0.35533128678798676,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.4583333730697632,
-      "rewards/repetition_penalty_reward": -0.08445119112730026,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 647.875,
+      "epoch": 0.09017595307917889,
+      "grad_norm": 2.1647631689137072,
+      "kl": 0.055908203125,
+      "learning_rate": 8.978102189781022e-07,
+      "loss": -0.0092,
+      "reward": 2.107422709465027,
+      "reward_std": 0.4037548154592514,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.09570235759019852,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 123
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 507.8958435058594,
-      "epoch": 0.062,
-      "grad_norm": 2.5201772155206448,
-      "kl": 0.01611328125,
-      "learning_rate": 6.2e-07,
-      "loss": 0.0014,
-      "reward": 2.040831744670868,
-      "reward_std": 0.43686023354530334,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.4375,
-      "rewards/repetition_penalty_reward": -0.10500159859657288,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 606.6458435058594,
+      "epoch": 0.09090909090909091,
+      "grad_norm": 2.3175998277197434,
+      "kl": 0.0531005859375,
+      "learning_rate": 9.051094890510949e-07,
+      "loss": 0.0093,
+      "reward": 2.0177698135375977,
+      "reward_std": 0.21625616401433945,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.11243857070803642,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 124
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 403.1041717529297,
-      "epoch": 0.0625,
-      "grad_norm": 2.930044284566675,
-      "kl": 0.0194091796875,
-      "learning_rate": 6.249999999999999e-07,
-      "loss": 0.0418,
-      "reward": 1.9074211716651917,
-      "reward_std": 0.5366443991661072,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.3611111342906952,
-      "rewards/repetition_penalty_reward": -0.08389833942055702,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 547.5208435058594,
+      "epoch": 0.09164222873900293,
+      "grad_norm": 2.3635455743051135,
+      "kl": 0.0628662109375,
+      "learning_rate": 9.124087591240875e-07,
+      "loss": 0.0655,
+      "reward": 1.8874244093894958,
+      "reward_std": 0.06788370944559574,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.09521446004509926,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 125
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.6458435058594,
-      "epoch": 0.063,
-      "grad_norm": 3.0687595839670165,
-      "kl": 0.02783203125,
-      "learning_rate": 6.3e-07,
-      "loss": -0.1223,
-      "reward": 2.101858079433441,
-      "reward_std": 0.38748544454574585,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.3958333879709244,
-      "rewards/repetition_penalty_reward": -0.09085042029619217,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 578.6458435058594,
+      "epoch": 0.09237536656891496,
+      "grad_norm": 4.714739215359856,
+      "kl": 0.09521484375,
+      "learning_rate": 9.197080291970803e-07,
+      "loss": 0.0332,
+      "reward": 1.857076346874237,
+      "reward_std": 0.10263842344284058,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.1029931865632534,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 126
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 404.7291717529297,
-      "epoch": 0.0635,
-      "grad_norm": 2.876756319174346,
-      "kl": 0.019561767578125,
-      "learning_rate": 6.35e-07,
-      "loss": 0.0507,
-      "reward": 2.075514793395996,
-      "reward_std": 0.3558611124753952,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.3541666716337204,
-      "rewards/repetition_penalty_reward": -0.0703187882900238,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 616.3958435058594,
+      "epoch": 0.09310850439882698,
+      "grad_norm": 2.242822379316528,
+      "kl": 0.0604248046875,
+      "learning_rate": 9.270072992700729e-07,
+      "loss": 0.0292,
+      "reward": 2.2475364208221436,
+      "reward_std": 0.2705245167016983,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.07538021355867386,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 127
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 483.1875,
-      "epoch": 0.064,
-      "grad_norm": 2.722649342936597,
-      "kl": 0.0159912109375,
-      "learning_rate": 6.4e-07,
-      "loss": 0.0157,
-      "reward": 1.942257821559906,
-      "reward_std": 0.45219163596630096,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.4375000149011612,
-      "rewards/repetition_penalty_reward": -0.09940891712903976,
+      "completion_length": 566.9791870117188,
+      "epoch": 0.093841642228739,
+      "grad_norm": 2.2965764822384434,
+      "kl": 0.069580078125,
+      "learning_rate": 9.343065693430656e-07,
+      "loss": 0.0055,
+      "reward": 2.1329785585403442,
+      "reward_std": 0.1943557783961296,
+      "rewards/accuracy_reward": 0.20833333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.07535484433174133,
       "rewards/tag_count_reward": 1.0,
       "step": 128
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.5416717529297,
-      "epoch": 0.0645,
-      "grad_norm": 2.721100537467751,
-      "kl": 0.02197265625,
-      "learning_rate": 6.45e-07,
-      "loss": -0.0335,
-      "reward": 1.7678640484809875,
-      "reward_std": 0.4747384488582611,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.3125000149011612,
-      "rewards/repetition_penalty_reward": -0.0706777349114418,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 639.4375,
+      "epoch": 0.09457478005865103,
+      "grad_norm": 2.7047332776537085,
+      "kl": 0.066162109375,
+      "learning_rate": 9.416058394160583e-07,
+      "loss": 0.1901,
+      "reward": 1.9127892851829529,
+      "reward_std": 0.08384755812585354,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.07158574648201466,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 129
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.2083435058594,
-      "epoch": 0.065,
-      "grad_norm": 2.617452029309224,
-      "kl": 0.0174560546875,
-      "learning_rate": 6.5e-07,
-      "loss": -0.0038,
-      "reward": 2.130853533744812,
-      "reward_std": 0.4503345489501953,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.4166666865348816,
-      "rewards/repetition_penalty_reward": -0.07747986912727356,
+      "completion_length": 609.5000305175781,
+      "epoch": 0.09530791788856305,
+      "grad_norm": 2.4797993637993776,
+      "kl": 0.069091796875,
+      "learning_rate": 9.48905109489051e-07,
+      "loss": -0.0213,
+      "reward": 1.9225295186042786,
+      "reward_std": 0.13330717384815216,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.07747054100036621,
       "rewards/tag_count_reward": 1.0,
       "step": 130
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 397.7083435058594,
-      "epoch": 0.0655,
-      "grad_norm": 2.808732238238703,
-      "kl": 0.02032470703125,
-      "learning_rate": 6.55e-07,
-      "loss": -0.011,
-      "reward": 2.1196643710136414,
-      "reward_std": 0.40009158849716187,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.4027778059244156,
-      "rewards/repetition_penalty_reward": -0.07478011026978493,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 595.3750305175781,
+      "epoch": 0.09604105571847507,
+      "grad_norm": 2.3781148023687093,
+      "kl": 0.07080078125,
+      "learning_rate": 9.562043795620438e-07,
+      "loss": 0.1265,
+      "reward": 1.9733397364616394,
+      "reward_std": 0.22801223397254944,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.08916043862700462,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 131
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.5625,
-      "epoch": 0.066,
-      "grad_norm": 2.6151338968076194,
-      "kl": 0.0184326171875,
-      "learning_rate": 6.6e-07,
-      "loss": 0.0189,
-      "reward": 1.877784252166748,
-      "reward_std": 0.3097234219312668,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.2916666865348816,
-      "rewards/repetition_penalty_reward": -0.08054918050765991,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 558.0625,
+      "epoch": 0.0967741935483871,
+      "grad_norm": 2.2188909082146813,
+      "kl": 0.074462890625,
+      "learning_rate": 9.635036496350364e-07,
+      "loss": 0.042,
+      "reward": 1.9614204168319702,
+      "reward_std": 0.18102481961250305,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.10976015031337738,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 132
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.8333435058594,
-      "epoch": 0.0665,
-      "grad_norm": 3.154952772902957,
-      "kl": 0.02117919921875,
-      "learning_rate": 6.65e-07,
-      "loss": 0.0818,
-      "reward": 2.2022292613983154,
-      "reward_std": 0.3770638406276703,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.4375000149011612,
-      "rewards/repetition_penalty_reward": -0.06860406324267387,
+      "completion_length": 525.6666870117188,
+      "epoch": 0.09750733137829912,
+      "grad_norm": 2.3429168691260935,
+      "kl": 0.077392578125,
+      "learning_rate": 9.708029197080291e-07,
+      "loss": 0.043,
+      "reward": 1.9318488240242004,
+      "reward_std": 0.02291060145944357,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.06815127283334732,
       "rewards/tag_count_reward": 1.0,
       "step": 133
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.87501525878906,
-      "epoch": 0.067,
-      "grad_norm": 2.764724446368728,
-      "kl": 0.01763916015625,
-      "learning_rate": 6.7e-07,
-      "loss": -0.0843,
-      "reward": 1.9817876815795898,
-      "reward_std": 0.39721402525901794,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.409722238779068,
-      "rewards/repetition_penalty_reward": -0.09460122510790825,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 562.2708435058594,
+      "epoch": 0.09824046920821114,
+      "grad_norm": 2.523107372125059,
+      "kl": 0.077392578125,
+      "learning_rate": 9.78102189781022e-07,
+      "loss": 0.0068,
+      "reward": 1.9358287453651428,
+      "reward_std": 0.18595868349075317,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.08326847851276398,
+      "rewards/tag_count_reward": 0.984375,
       "step": 134
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 465.7708435058594,
-      "epoch": 0.0675,
-      "grad_norm": 2.3989523347162534,
-      "kl": 0.01953125,
-      "learning_rate": 6.75e-07,
-      "loss": -0.0177,
-      "reward": 2.228469967842102,
-      "reward_std": 0.3507627248764038,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.534722238779068,
-      "rewards/repetition_penalty_reward": -0.0927107036113739,
+      "completion_length": 547.5416870117188,
+      "epoch": 0.09897360703812316,
+      "grad_norm": 2.3009439072227766,
+      "kl": 0.08154296875,
+      "learning_rate": 9.854014598540146e-07,
+      "loss": 0.0738,
+      "reward": 1.959082305431366,
+      "reward_std": 0.16214194893836975,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.07737604528665543,
       "rewards/tag_count_reward": 0.9947916865348816,
       "step": 135
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.06251525878906,
-      "epoch": 0.068,
-      "grad_norm": 3.0855932954768965,
-      "kl": 0.01800537109375,
-      "learning_rate": 6.800000000000001e-07,
-      "loss": 0.0166,
-      "reward": 2.255845546722412,
-      "reward_std": 0.4071827381849289,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.4166666716337204,
-      "rewards/repetition_penalty_reward": -0.07748781517148018,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 560.7916870117188,
+      "epoch": 0.09970674486803519,
+      "grad_norm": 2.3099658884043768,
+      "kl": 0.07763671875,
+      "learning_rate": 9.927007299270073e-07,
+      "loss": 0.02,
+      "reward": 1.9437535405158997,
+      "reward_std": 0.18613886833190918,
+      "rewards/accuracy_reward": 0.06250000186264515,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.08055209368467331,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 136
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.2708435058594,
-      "epoch": 0.0685,
-      "grad_norm": 2.9929865598477066,
-      "kl": 0.019287109375,
-      "learning_rate": 6.85e-07,
-      "loss": -0.0368,
-      "reward": 2.1877795457839966,
-      "reward_std": 0.5341714322566986,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.4513889104127884,
-      "rewards/repetition_penalty_reward": -0.07610936462879181,
+      "completion_length": 571.7500305175781,
+      "epoch": 0.10043988269794721,
+      "grad_norm": 2.361601327653796,
+      "kl": 0.08251953125,
+      "learning_rate": 1e-06,
+      "loss": 0.0423,
+      "reward": 1.9818828105926514,
+      "reward_std": 0.11443111579865217,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.059783823788166046,
       "rewards/tag_count_reward": 1.0,
       "step": 137
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 397.7083435058594,
-      "epoch": 0.069,
-      "grad_norm": 2.954697616837276,
-      "kl": 0.02471923828125,
-      "learning_rate": 6.9e-07,
-      "loss": 0.009,
-      "reward": 1.824935793876648,
-      "reward_std": 0.49531859159469604,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.5000000596046448,
-      "rewards/repetition_penalty_reward": -0.08652260527014732,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 608.9375,
+      "epoch": 0.10117302052785923,
+      "grad_norm": 2.454515004494713,
+      "kl": 0.07861328125,
+      "learning_rate": 9.999985249970096e-07,
+      "loss": -0.0004,
+      "reward": 1.9380502700805664,
+      "reward_std": 0.10458014532923698,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.061949726194143295,
+      "rewards/tag_count_reward": 1.0,
       "step": 138
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 548.0625152587891,
-      "epoch": 0.0695,
-      "grad_norm": 2.506876897622573,
-      "kl": 0.014892578125,
-      "learning_rate": 6.949999999999999e-07,
-      "loss": -0.054,
-      "reward": 1.6296937465667725,
-      "reward_std": 0.4967469274997711,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.451388880610466,
-      "rewards/repetition_penalty_reward": -0.08732018992304802,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 560.3958435058594,
+      "epoch": 0.10190615835777127,
+      "grad_norm": 2.269901600994151,
+      "kl": 0.082763671875,
+      "learning_rate": 9.999940999977079e-07,
+      "loss": 0.0515,
+      "reward": 1.9492172002792358,
+      "reward_std": 0.1285417703911662,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.07508841529488564,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 139
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.0833435058594,
-      "epoch": 0.07,
-      "grad_norm": 2.7570820251386037,
-      "kl": 0.02325439453125,
-      "learning_rate": 7e-07,
-      "loss": 0.0036,
-      "reward": 2.1854411363601685,
-      "reward_std": 0.4105776250362396,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.5138888657093048,
-      "rewards/repetition_penalty_reward": -0.0732395276427269,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 557.4583435058594,
+      "epoch": 0.10263929618768329,
+      "grad_norm": 2.567033517686166,
+      "kl": 0.08251953125,
+      "learning_rate": 9.999867250311034e-07,
+      "loss": 0.0618,
+      "reward": 2.2221978902816772,
+      "reward_std": 0.2952120155096054,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.07641324028372765,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 140
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.2291717529297,
-      "epoch": 0.0705,
-      "grad_norm": 2.6297348721129463,
-      "kl": 0.0208740234375,
-      "learning_rate": 7.049999999999999e-07,
-      "loss": -0.0319,
-      "reward": 1.8632826209068298,
-      "reward_std": 0.35653068125247955,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.4652777910232544,
-      "rewards/repetition_penalty_reward": -0.10199519246816635,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 520.4791870117188,
+      "epoch": 0.10337243401759531,
+      "grad_norm": 9.621459270704188,
+      "kl": 0.117919921875,
+      "learning_rate": 9.99976400145543e-07,
+      "loss": 0.0766,
+      "reward": 1.9341915845870972,
+      "reward_std": 0.0798512976616621,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.04671124555170536,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 141
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 405.81251525878906,
-      "epoch": 0.071,
-      "grad_norm": 3.135261611976366,
-      "kl": 0.02117919921875,
-      "learning_rate": 7.1e-07,
-      "loss": -0.0326,
-      "reward": 2.321570873260498,
-      "reward_std": 0.41436049342155457,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.5277777910232544,
-      "rewards/repetition_penalty_reward": -0.06037369184195995,
+      "completion_length": 576.3125,
+      "epoch": 0.10410557184750734,
+      "grad_norm": 2.309493750807184,
+      "kl": 0.083251953125,
+      "learning_rate": 9.999631254087124e-07,
+      "loss": 0.0645,
+      "reward": 2.1059885025024414,
+      "reward_std": 0.15556566044688225,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.06762255355715752,
       "rewards/tag_count_reward": 1.0,
       "step": 142
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 367.7083435058594,
-      "epoch": 0.0715,
-      "grad_norm": 2.8965793866155183,
-      "kl": 0.02557373046875,
-      "learning_rate": 7.149999999999999e-07,
-      "loss": 0.003,
-      "reward": 2.2131210565567017,
-      "reward_std": 0.3542313575744629,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.541666716337204,
-      "rewards/repetition_penalty_reward": -0.05771246552467346,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 488.9166717529297,
+      "epoch": 0.10483870967741936,
+      "grad_norm": 2.492592510007256,
+      "kl": 0.09814453125,
+      "learning_rate": 9.99946900907635e-07,
+      "loss": 0.054,
+      "reward": 1.9212931394577026,
+      "reward_std": 0.08056900650262833,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05787358991801739,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 143
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.12501525878906,
-      "epoch": 0.072,
-      "grad_norm": 3.04746917441956,
-      "kl": 0.02337646484375,
-      "learning_rate": 7.2e-07,
-      "loss": 0.0068,
-      "reward": 2.1876049041748047,
-      "reward_std": 0.4434930086135864,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.43055559694767,
-      "rewards/repetition_penalty_reward": -0.0762840211391449,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 517.125,
+      "epoch": 0.10557184750733138,
+      "grad_norm": 2.641625952434204,
+      "kl": 0.092041015625,
+      "learning_rate": 9.999277267486716e-07,
+      "loss": -0.0104,
+      "reward": 1.895661175251007,
+      "reward_std": 0.09707108698785305,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.050519492477178574,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 144
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 423.3333435058594,
-      "epoch": 0.0725,
-      "grad_norm": 2.7345052559782155,
-      "kl": 0.02398681640625,
-      "learning_rate": 7.249999999999999e-07,
-      "loss": -0.0068,
-      "reward": 2.092087507247925,
-      "reward_std": 0.38775935769081116,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.548611119389534,
-      "rewards/repetition_penalty_reward": -0.06069031357765198,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 546.3958435058594,
+      "epoch": 0.1063049853372434,
+      "grad_norm": 2.4813074698854085,
+      "kl": 0.09912109375,
+      "learning_rate": 9.999056030575195e-07,
+      "loss": -0.0252,
+      "reward": 2.3760710954666138,
+      "reward_std": 0.5173959732055664,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.06663743779063225,
+      "rewards/tag_count_reward": 0.984375,
       "step": 145
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 423.06251525878906,
-      "epoch": 0.073,
-      "grad_norm": 2.9633251544566503,
-      "kl": 0.02386474609375,
-      "learning_rate": 7.3e-07,
-      "loss": 0.0508,
-      "reward": 1.913641095161438,
-      "reward_std": 0.47340986132621765,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.5138888955116272,
-      "rewards/repetition_penalty_reward": -0.07420631498098373,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 566.9375305175781,
+      "epoch": 0.10703812316715543,
+      "grad_norm": 2.546987058241153,
+      "kl": 0.097412109375,
+      "learning_rate": 9.998805299792124e-07,
+      "loss": 0.0225,
+      "reward": 1.9302016496658325,
+      "reward_std": 0.15545649453997612,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.08195120096206665,
+      "rewards/tag_count_reward": 0.984375,
       "step": 146
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 466.04168701171875,
-      "epoch": 0.0735,
-      "grad_norm": 2.73697900758412,
-      "kl": 0.0244140625,
-      "learning_rate": 7.35e-07,
-      "loss": -0.0118,
-      "reward": 2.186763048171997,
-      "reward_std": 0.4524783492088318,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.5625000596046448,
-      "rewards/repetition_penalty_reward": -0.09969542920589447,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 523.3333435058594,
+      "epoch": 0.10777126099706745,
+      "grad_norm": 2.279115521679075,
+      "kl": 0.09375,
+      "learning_rate": 9.998525076781186e-07,
+      "loss": 0.0485,
+      "reward": 2.1790050268173218,
+      "reward_std": 0.343727208673954,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0709951352328062,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 147
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 450.1041717529297,
-      "epoch": 0.074,
-      "grad_norm": 2.7745954642868256,
-      "kl": 0.02392578125,
-      "learning_rate": 7.4e-07,
-      "loss": 0.0112,
-      "reward": 1.895469844341278,
-      "reward_std": 0.42417220771312714,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.5069444626569748,
-      "rewards/repetition_penalty_reward": -0.09064128994941711,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 505.3333435058594,
+      "epoch": 0.10850439882697947,
+      "grad_norm": 2.450437856988281,
+      "kl": 0.109130859375,
+      "learning_rate": 9.9982153633794e-07,
+      "loss": 0.0185,
+      "reward": 2.1389353275299072,
+      "reward_std": 0.12949354946613312,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.05724521912634373,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 148
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 445.29168701171875,
-      "epoch": 0.0745,
-      "grad_norm": 2.6014655366522357,
-      "kl": 0.02288818359375,
-      "learning_rate": 7.45e-07,
-      "loss": 0.015,
-      "reward": 2.204192638397217,
-      "reward_std": 0.38898123800754547,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.451388880610466,
-      "rewards/repetition_penalty_reward": -0.08052962273359299,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 552.6666870117188,
+      "epoch": 0.1092375366568915,
+      "grad_norm": 2.392731425965375,
+      "kl": 0.105224609375,
+      "learning_rate": 9.997876161617116e-07,
+      "loss": -0.0438,
+      "reward": 1.9390915632247925,
+      "reward_std": 0.14268473163247108,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.052227944135665894,
+      "rewards/tag_count_reward": 0.984375,
       "step": 149
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 455.0208435058594,
-      "epoch": 0.075,
-      "grad_norm": 2.5737888201247574,
-      "kl": 0.02252197265625,
-      "learning_rate": 7.5e-07,
-      "loss": -0.0142,
-      "reward": 2.2747018337249756,
-      "reward_std": 0.37661734223365784,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.5277777910232544,
-      "rewards/repetition_penalty_reward": -0.08640927076339722,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 547.4375305175781,
+      "epoch": 0.10997067448680352,
+      "grad_norm": 2.6243429866910577,
+      "kl": 0.1064453125,
+      "learning_rate": 9.997507473717993e-07,
+      "loss": -0.0684,
+      "reward": 1.918170690536499,
+      "reward_std": 0.1779511570930481,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.05752386339008808,
+      "rewards/tag_count_reward": 0.96875,
       "step": 150
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 380.35418701171875,
-      "epoch": 0.0755,
-      "grad_norm": 3.109877896725919,
-      "kl": 0.030029296875,
-      "learning_rate": 7.55e-07,
-      "loss": 0.0968,
-      "reward": 2.1878127455711365,
-      "reward_std": 0.4361240267753601,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.5208334028720856,
-      "rewards/repetition_penalty_reward": -0.0830206349492073,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 526.9791870117188,
+      "epoch": 0.11070381231671554,
+      "grad_norm": 2.429431812645537,
+      "kl": 0.110107421875,
+      "learning_rate": 9.997109302098988e-07,
+      "loss": 0.0351,
+      "reward": 2.0930378437042236,
+      "reward_std": 0.24497440457344055,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04064269922673702,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 151
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 405.3541717529297,
-      "epoch": 0.076,
-      "grad_norm": 2.883829245260866,
-      "kl": 0.02972412109375,
-      "learning_rate": 7.599999999999999e-07,
-      "loss": 0.0348,
-      "reward": 2.174973964691162,
-      "reward_std": 0.47633519768714905,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.5416667461395264,
-      "rewards/repetition_penalty_reward": -0.06460951268672943,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 551.1041870117188,
+      "epoch": 0.11143695014662756,
+      "grad_norm": 2.735990047546789,
+      "kl": 0.111572265625,
+      "learning_rate": 9.996681649370347e-07,
+      "loss": 0.0556,
+      "reward": 2.1636458039283752,
+      "reward_std": 0.18747984617948532,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0551042165607214,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 152
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.0833435058594,
-      "epoch": 0.0765,
-      "grad_norm": 11.818146755937764,
-      "kl": 0.3184814453125,
-      "learning_rate": 7.65e-07,
-      "loss": -0.0353,
-      "reward": 1.938881516456604,
-      "reward_std": 0.4211771637201309,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.4027778059244156,
-      "rewards/repetition_penalty_reward": -0.11493790149688721,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 578.4583435058594,
+      "epoch": 0.11217008797653959,
+      "grad_norm": 2.325307078829229,
+      "kl": 0.09814453125,
+      "learning_rate": 9.996224518335572e-07,
+      "loss": 0.0049,
+      "reward": 1.9978720545768738,
+      "reward_std": 0.13420861586928368,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05941970832645893,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 153
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 350.4791793823242,
-      "epoch": 0.077,
-      "grad_norm": 9.783552011785373,
-      "kl": 0.1412353515625,
-      "learning_rate": 7.699999999999999e-07,
-      "loss": 0.0569,
-      "reward": 1.8291372656822205,
-      "reward_std": 0.3712882995605469,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.4722222685813904,
-      "rewards/repetition_penalty_reward": -0.08579343557357788,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 491.75,
+      "epoch": 0.11290322580645161,
+      "grad_norm": 2.4201064670759,
+      "kl": 0.103515625,
+      "learning_rate": 9.995737911991421e-07,
+      "loss": -0.0234,
+      "reward": 1.9454825520515442,
+      "reward_std": 0.1356247467920184,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.05798974260687828,
+      "rewards/tag_count_reward": 0.96875,
       "step": 154
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.3333435058594,
-      "epoch": 0.0775,
-      "grad_norm": 2.8193374221463054,
-      "kl": 0.027099609375,
-      "learning_rate": 7.75e-07,
-      "loss": 0.0898,
-      "reward": 2.1005048751831055,
-      "reward_std": 0.42864808440208435,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.4930555820465088,
-      "rewards/repetition_penalty_reward": -0.0696341022849083,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 608.2916870117188,
+      "epoch": 0.11363636363636363,
+      "grad_norm": 2.250316333226382,
+      "kl": 0.093017578125,
+      "learning_rate": 9.995221833527873e-07,
+      "loss": 0.0096,
+      "reward": 1.9684556722640991,
+      "reward_std": 0.14412052184343338,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.05411389470100403,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 155
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.79168701171875,
-      "epoch": 0.078,
-      "grad_norm": 3.00650124802611,
-      "kl": 0.0260009765625,
-      "learning_rate": 7.799999999999999e-07,
-      "loss": 0.0294,
-      "reward": 2.472437024116516,
-      "reward_std": 0.3745059221982956,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.6319445073604584,
-      "rewards/repetition_penalty_reward": -0.0501323863863945,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 551.2500305175781,
+      "epoch": 0.11436950146627566,
+      "grad_norm": 2.3123417188932414,
+      "kl": 0.1025390625,
+      "learning_rate": 9.994676286328118e-07,
+      "loss": 0.0526,
+      "reward": 1.957583487033844,
+      "reward_std": 0.08784053660929203,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.06324994564056396,
+      "rewards/tag_count_reward": 1.0,
       "step": 156
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 443.6458435058594,
-      "epoch": 0.0785,
-      "grad_norm": 2.698570132718695,
-      "kl": 0.02716064453125,
-      "learning_rate": 7.85e-07,
-      "loss": -0.0863,
-      "reward": 2.4511717557907104,
-      "reward_std": 0.2767828330397606,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.5763888955116272,
-      "rewards/repetition_penalty_reward": -0.08875882998108864,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 555.4375305175781,
+      "epoch": 0.11510263929618768,
+      "grad_norm": 2.364580200558665,
+      "kl": 0.10546875,
+      "learning_rate": 9.994101273968526e-07,
+      "loss": -0.0002,
+      "reward": 1.9639785885810852,
+      "reward_std": 0.2663791626691818,
+      "rewards/accuracy_reward": 0.06250000186264515,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.07247984036803246,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 157
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.8333435058594,
-      "epoch": 0.079,
-      "grad_norm": 2.9560567179248194,
-      "kl": 0.0284423828125,
-      "learning_rate": 7.9e-07,
-      "loss": 0.0109,
-      "reward": 2.1405357122421265,
-      "reward_std": 0.46409404277801514,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.4444444626569748,
-      "rewards/repetition_penalty_reward": -0.06432541459798813,
+      "completion_length": 499.6458435058594,
+      "epoch": 0.1158357771260997,
+      "grad_norm": 2.314171354857538,
+      "kl": 0.109130859375,
+      "learning_rate": 9.99349680021863e-07,
+      "loss": 0.0229,
+      "reward": 2.168446123600006,
+      "reward_std": 0.11961105465888977,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05030396394431591,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 158
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.3958435058594,
-      "epoch": 0.0795,
-      "grad_norm": 4.542085974407862,
-      "kl": 0.0609130859375,
-      "learning_rate": 7.95e-07,
-      "loss": -0.1684,
-      "reward": 2.112655282020569,
-      "reward_std": 0.5330419987440109,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.5000000298023224,
-      "rewards/repetition_penalty_reward": -0.0800531879067421,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 566.8750305175781,
+      "epoch": 0.11656891495601172,
+      "grad_norm": 2.3309162622734263,
+      "kl": 0.094970703125,
+      "learning_rate": 9.992862869041102e-07,
+      "loss": -0.0195,
+      "reward": 2.275045156478882,
+      "reward_std": 0.29623332619667053,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.05828823521733284,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 159
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 450.1875,
-      "epoch": 0.08,
-      "grad_norm": 3.8700369269616512,
-      "kl": 0.0513916015625,
-      "learning_rate": 8e-07,
-      "loss": -0.088,
-      "reward": 1.9016221165657043,
-      "reward_std": 0.26658795773983,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.3819444626569748,
-      "rewards/repetition_penalty_reward": -0.13657239079475403,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 555.9791870117188,
+      "epoch": 0.11730205278592376,
+      "grad_norm": 2.4125752206797633,
+      "kl": 0.099609375,
+      "learning_rate": 9.992199484591717e-07,
+      "loss": -0.0082,
+      "reward": 2.190155267715454,
+      "reward_std": 0.15859412401914597,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05984491854906082,
+      "rewards/tag_count_reward": 1.0,
       "step": 160
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.31251525878906,
-      "epoch": 0.0805,
-      "grad_norm": 3.247547106584298,
-      "kl": 0.0306396484375,
-      "learning_rate": 8.05e-07,
-      "loss": -0.0041,
-      "reward": 1.9749692678451538,
-      "reward_std": 0.468127503991127,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.631944477558136,
-      "rewards/repetition_penalty_reward": -0.08926697075366974,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 591.3333435058594,
+      "epoch": 0.11803519061583578,
+      "grad_norm": 2.492754544431609,
+      "kl": 0.095703125,
+      "learning_rate": 9.991506651219344e-07,
+      "loss": 0.0522,
+      "reward": 1.9383143186569214,
+      "reward_std": 0.043892914429306984,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.04779680632054806,
+      "rewards/tag_count_reward": 1.0,
       "step": 161
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.5416717529297,
-      "epoch": 0.081,
-      "grad_norm": 3.0024455965281724,
-      "kl": 0.0406494140625,
-      "learning_rate": 8.1e-07,
-      "loss": -0.1179,
-      "reward": 2.2072755098342896,
-      "reward_std": 0.5785205662250519,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.5694444626569748,
-      "rewards/repetition_penalty_reward": -0.07571066915988922,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 516.0,
+      "epoch": 0.1187683284457478,
+      "grad_norm": 2.5627904900534975,
+      "kl": 0.099609375,
+      "learning_rate": 9.990784373465895e-07,
+      "loss": 0.023,
+      "reward": 2.162955939769745,
+      "reward_std": 0.23758363723754883,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.05579404905438423,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 162
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.0833435058594,
-      "epoch": 0.0815,
-      "grad_norm": 5.717018782517202,
-      "kl": 0.0693359375,
-      "learning_rate": 8.149999999999999e-07,
-      "loss": -0.1785,
-      "reward": 1.6311047077178955,
-      "reward_std": 0.5291544497013092,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.3750000223517418,
-      "rewards/repetition_penalty_reward": -0.061603715643286705,
-      "rewards/tag_count_reward": 0.859375,
+      "completion_length": 541.3958435058594,
+      "epoch": 0.11950146627565983,
+      "grad_norm": 2.5031797258210755,
+      "kl": 0.097412109375,
+      "learning_rate": 9.99003265606631e-07,
+      "loss": 0.0472,
+      "reward": 2.071454405784607,
+      "reward_std": 0.14920172840356827,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.053545668721199036,
+      "rewards/tag_count_reward": 1.0,
       "step": 163
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 402.7708435058594,
-      "epoch": 0.082,
-      "grad_norm": 2.9816895384452073,
-      "kl": 0.03515625,
-      "learning_rate": 8.199999999999999e-07,
-      "loss": -0.0196,
-      "reward": 2.12343430519104,
-      "reward_std": 0.3986600935459137,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.3888889253139496,
-      "rewards/repetition_penalty_reward": -0.08837117999792099,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 551.3958740234375,
+      "epoch": 0.12023460410557185,
+      "grad_norm": 2.547042259721191,
+      "kl": 0.09033203125,
+      "learning_rate": 9.989251503948531e-07,
+      "loss": 0.0935,
+      "reward": 2.1519184708595276,
+      "reward_std": 0.1169380396604538,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.049470532685518265,
+      "rewards/tag_count_reward": 1.0,
       "step": 164
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.5,
-      "epoch": 0.0825,
-      "grad_norm": 2.7857777262413346,
-      "kl": 0.0350341796875,
-      "learning_rate": 8.249999999999999e-07,
-      "loss": -0.0107,
-      "reward": 2.1470755338668823,
-      "reward_std": 0.4360540807247162,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.5000000149011612,
-      "rewards/repetition_penalty_reward": -0.08209127560257912,
+      "completion_length": 612.5208740234375,
+      "epoch": 0.12096774193548387,
+      "grad_norm": 2.2645297165562805,
+      "kl": 0.093994140625,
+      "learning_rate": 9.988440922233447e-07,
+      "loss": 0.0799,
+      "reward": 2.1653225421905518,
+      "reward_std": 0.2170577123761177,
+      "rewards/accuracy_reward": 0.2291666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.06384427845478058,
       "rewards/tag_count_reward": 1.0,
       "step": 165
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.5208435058594,
-      "epoch": 0.083,
-      "grad_norm": 2.904120641790527,
-      "kl": 0.03466796875,
-      "learning_rate": 8.299999999999999e-07,
-      "loss": 0.0829,
-      "reward": 2.2425050735473633,
-      "reward_std": 0.48431138694286346,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.6111111640930176,
-      "rewards/repetition_penalty_reward": -0.0769394002854824,
+      "completion_length": 592.1666870117188,
+      "epoch": 0.1217008797653959,
+      "grad_norm": 2.431650538562101,
+      "kl": 0.095458984375,
+      "learning_rate": 9.987600916234887e-07,
+      "loss": 0.1683,
+      "reward": 1.938806176185608,
+      "reward_std": 0.045028104446828365,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.05424942448735237,
       "rewards/tag_count_reward": 1.0,
       "step": 166
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.43751525878906,
-      "epoch": 0.0835,
-      "grad_norm": 2.7716468429377215,
-      "kl": 0.0323486328125,
-      "learning_rate": 8.349999999999999e-07,
-      "loss": -0.0462,
-      "reward": 2.455272912979126,
-      "reward_std": 0.31839539110660553,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.652777761220932,
-      "rewards/repetition_penalty_reward": -0.07250505313277245,
+      "completion_length": 603.6875305175781,
+      "epoch": 0.12243401759530792,
+      "grad_norm": 2.335284594764373,
+      "kl": 0.08935546875,
+      "learning_rate": 9.986731491459567e-07,
+      "loss": 0.0245,
+      "reward": 2.197871446609497,
+      "reward_std": 0.15528446715325117,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.052128592506051064,
       "rewards/tag_count_reward": 1.0,
       "step": 167
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 398.2291717529297,
-      "epoch": 0.084,
-      "grad_norm": 2.8774923504646184,
-      "kl": 0.032958984375,
-      "learning_rate": 8.399999999999999e-07,
-      "loss": -0.0118,
-      "reward": 2.3479169607162476,
-      "reward_std": 0.284304603934288,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.5069444477558136,
-      "rewards/repetition_penalty_reward": -0.07569434866309166,
+      "completion_length": 569.7500305175781,
+      "epoch": 0.12316715542521994,
+      "grad_norm": 2.3828481630789384,
+      "kl": 0.093017578125,
+      "learning_rate": 9.985832653607058e-07,
+      "loss": 0.0957,
+      "reward": 2.192627727985382,
+      "reward_std": 0.03842144086956978,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.050427746027708054,
       "rewards/tag_count_reward": 1.0,
       "step": 168
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 376.43751525878906,
-      "epoch": 0.0845,
-      "grad_norm": 3.0955160270611013,
-      "kl": 0.0306396484375,
-      "learning_rate": 8.45e-07,
-      "loss": 0.0031,
-      "reward": 2.163801431655884,
-      "reward_std": 0.33351075649261475,
-      "rewards/accuracy_reward": 0.5000000111758709,
-      "rewards/reasoning_steps_reward": 0.7083333432674408,
-      "rewards/repetition_penalty_reward": -0.04453178122639656,
+      "completion_length": 578.1666870117188,
+      "epoch": 0.12390029325513197,
+      "grad_norm": 2.160386876446579,
+      "kl": 0.092529296875,
+      "learning_rate": 9.984904408569757e-07,
+      "loss": -0.0218,
+      "reward": 1.9351824522018433,
+      "reward_std": 0.14489805325865746,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.06481760554015636,
       "rewards/tag_count_reward": 1.0,
       "step": 169
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 439.2708435058594,
-      "epoch": 0.085,
-      "grad_norm": 2.8041778591178126,
-      "kl": 0.0338134765625,
-      "learning_rate": 8.499999999999999e-07,
-      "loss": 0.0152,
-      "reward": 2.1758224964141846,
-      "reward_std": 0.48637865483760834,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.6180555820465088,
-      "rewards/repetition_penalty_reward": -0.08285807259380817,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 591.9791870117188,
+      "epoch": 0.12463343108504399,
+      "grad_norm": 2.582494728505769,
+      "kl": 0.099853515625,
+      "learning_rate": 9.98394676243284e-07,
+      "loss": 0.1153,
+      "reward": 2.173978328704834,
+      "reward_std": 0.23065098375082016,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.04997998662292957,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 170
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 368.125,
-      "epoch": 0.0855,
-      "grad_norm": 3.047194462178732,
-      "kl": 0.0386962890625,
-      "learning_rate": 8.55e-07,
-      "loss": -0.1328,
-      "reward": 2.137127637863159,
-      "reward_std": 0.3549790009856224,
-      "rewards/accuracy_reward": 0.5833333358168602,
-      "rewards/reasoning_steps_reward": 0.6250000447034836,
-      "rewards/repetition_penalty_reward": -0.07120569795370102,
+      "completion_length": 525.9791870117188,
+      "epoch": 0.125366568914956,
+      "grad_norm": 2.360291931663355,
+      "kl": 0.1015625,
+      "learning_rate": 9.982959721474219e-07,
+      "loss": -0.0145,
+      "reward": 2.192633032798767,
+      "reward_std": 0.03827578388154507,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.050422552973032,
       "rewards/tag_count_reward": 1.0,
       "step": 171
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 424.5833435058594,
-      "epoch": 0.086,
-      "grad_norm": 2.8616005778229785,
-      "kl": 0.03955078125,
-      "learning_rate": 8.599999999999999e-07,
-      "loss": -0.0308,
-      "reward": 2.2606923580169678,
-      "reward_std": 0.5883138179779053,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.659722238779068,
-      "rewards/repetition_penalty_reward": -0.08653007447719574,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 497.54168701171875,
+      "epoch": 0.12609970674486803,
+      "grad_norm": 2.644000756748961,
+      "kl": 0.107666015625,
+      "learning_rate": 9.981943292164507e-07,
+      "loss": -0.0266,
+      "reward": 2.1891872882843018,
+      "reward_std": 0.16495954617857933,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05560445971786976,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 172
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.9166717529297,
-      "epoch": 0.0865,
-      "grad_norm": 2.649883532273222,
-      "kl": 0.0318603515625,
-      "learning_rate": 8.65e-07,
-      "loss": -0.0174,
-      "reward": 2.2526204586029053,
-      "reward_std": 0.45084331929683685,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.5625000596046448,
-      "rewards/repetition_penalty_reward": -0.08071288466453552,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 498.79168701171875,
+      "epoch": 0.12683284457478006,
+      "grad_norm": 2.4636582856331315,
+      "kl": 0.104248046875,
+      "learning_rate": 9.980897481166977e-07,
+      "loss": 0.0109,
+      "reward": 1.9538467526435852,
+      "reward_std": 0.18937725573778152,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.056570012122392654,
+      "rewards/tag_count_reward": 0.9895833730697632,
       "step": 173
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 366.625,
-      "epoch": 0.087,
-      "grad_norm": 3.025435169465401,
-      "kl": 0.0360107421875,
-      "learning_rate": 8.699999999999999e-07,
-      "loss": 0.0487,
-      "reward": 2.397473096847534,
-      "reward_std": 0.47506286203861237,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.7222222685813904,
-      "rewards/repetition_penalty_reward": -0.04349912703037262,
+      "completion_length": 535.8750305175781,
+      "epoch": 0.12756598240469208,
+      "grad_norm": 2.3291019775434783,
+      "kl": 0.10302734375,
+      "learning_rate": 9.979822295337521e-07,
+      "loss": -0.0373,
+      "reward": 1.9403542280197144,
+      "reward_std": 0.08776792883872986,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.03534029796719551,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 174
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 431.31251525878906,
-      "epoch": 0.0875,
-      "grad_norm": 2.9618305547728543,
-      "kl": 0.0430908203125,
-      "learning_rate": 8.75e-07,
-      "loss": -0.0493,
-      "reward": 2.137214183807373,
-      "reward_std": 0.5185305774211884,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.6458333730697632,
-      "rewards/repetition_penalty_reward": -0.09195243567228317,
+      "completion_length": 615.0000305175781,
+      "epoch": 0.1282991202346041,
+      "grad_norm": 2.105843364049476,
+      "kl": 0.08984375,
+      "learning_rate": 9.978717741724588e-07,
+      "loss": 0.0256,
+      "reward": 1.9570952653884888,
+      "reward_std": 0.03407964622601867,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.035960348322987556,
       "rewards/tag_count_reward": 1.0,
       "step": 175
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 326.56251525878906,
-      "epoch": 0.088,
-      "grad_norm": 2.9727047540243623,
-      "kl": 0.0399169921875,
-      "learning_rate": 8.799999999999999e-07,
-      "loss": 0.0354,
-      "reward": 2.605048894882202,
-      "reward_std": 0.31301962584257126,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.6875,
-      "rewards/repetition_penalty_reward": -0.04078466631472111,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 594.4791870117188,
+      "epoch": 0.12903225806451613,
+      "grad_norm": 2.585212670700021,
+      "kl": 0.09912109375,
+      "learning_rate": 9.977583827569156e-07,
+      "loss": 0.1018,
+      "reward": 2.166927397251129,
+      "reward_std": 0.08626264333724976,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.05529484711587429,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 176
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.66668701171875,
-      "epoch": 0.0885,
-      "grad_norm": 2.522294184113134,
-      "kl": 0.0426025390625,
-      "learning_rate": 8.85e-07,
-      "loss": -0.0891,
-      "reward": 2.436373710632324,
-      "reward_std": 0.4591614753007889,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.8125000298023224,
-      "rewards/repetition_penalty_reward": -0.06362627819180489,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 574.4375,
+      "epoch": 0.12976539589442815,
+      "grad_norm": 2.3815955363709747,
+      "kl": 0.105712890625,
+      "learning_rate": 9.976420560304679e-07,
+      "loss": -0.0233,
+      "reward": 2.071603298187256,
+      "reward_std": 0.26225684583187103,
+      "rewards/accuracy_reward": 0.14583333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.04992457665503025,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 177
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 398.0,
-      "epoch": 0.089,
-      "grad_norm": 2.952883589913921,
-      "kl": 0.0462646484375,
-      "learning_rate": 8.9e-07,
-      "loss": 0.007,
-      "reward": 2.2954567670822144,
-      "reward_std": 0.47059088945388794,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.6944444477558136,
-      "rewards/repetition_penalty_reward": -0.06044617295265198,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 593.3958435058594,
+      "epoch": 0.13049853372434017,
+      "grad_norm": 2.243479758643072,
+      "kl": 0.100341796875,
+      "learning_rate": 9.975227947557036e-07,
+      "loss": 0.0422,
+      "reward": 1.9449068903923035,
+      "reward_std": 0.04067743383347988,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.04814865067601204,
+      "rewards/tag_count_reward": 1.0,
       "step": 178
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 377.7916717529297,
-      "epoch": 0.0895,
-      "grad_norm": 2.8614701370754245,
-      "kl": 0.04736328125,
-      "learning_rate": 8.95e-07,
-      "loss": -0.0243,
-      "reward": 2.436295747756958,
-      "reward_std": 0.4291905164718628,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.701388955116272,
-      "rewards/repetition_penalty_reward": -0.06717650964856148,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 546.5208435058594,
+      "epoch": 0.1312316715542522,
+      "grad_norm": 2.3950868693631735,
+      "kl": 0.103759765625,
+      "learning_rate": 9.974005997144479e-07,
+      "loss": 0.0154,
+      "reward": 2.0247842669487,
+      "reward_std": 0.1975030368193984,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0585490707308054,
+      "rewards/tag_count_reward": 1.0,
       "step": 179
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 485.9583435058594,
-      "epoch": 0.09,
-      "grad_norm": 3.026265114082148,
-      "kl": 0.0382080078125,
-      "learning_rate": 9e-07,
-      "loss": 0.0719,
-      "reward": 2.1689553260803223,
-      "reward_std": 0.30075494945049286,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.7361111640930176,
-      "rewards/repetition_penalty_reward": -0.06194741278886795,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 606.6458435058594,
+      "epoch": 0.13196480938416422,
+      "grad_norm": 2.2458633692097654,
+      "kl": 0.1025390625,
+      "learning_rate": 9.97275471707759e-07,
+      "loss": 0.015,
+      "reward": 1.9811076521873474,
+      "reward_std": 0.08166738552972674,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03972569480538368,
+      "rewards/tag_count_reward": 1.0,
       "step": 180
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.3125,
-      "epoch": 0.0905,
-      "grad_norm": 2.810163992973923,
-      "kl": 0.04541015625,
-      "learning_rate": 9.05e-07,
-      "loss": 0.0161,
-      "reward": 2.3727446794509888,
-      "reward_std": 0.5085368752479553,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.7083333730697632,
-      "rewards/repetition_penalty_reward": -0.07517208904027939,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 597.5416870117188,
+      "epoch": 0.13269794721407624,
+      "grad_norm": 2.208686653320979,
+      "kl": 0.103515625,
+      "learning_rate": 9.97147411555922e-07,
+      "loss": -0.027,
+      "reward": 2.1563020944595337,
+      "reward_std": 0.2810695618391037,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.05376743897795677,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 181
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 569.9583435058594,
-      "epoch": 0.091,
-      "grad_norm": 2.6212790656780056,
-      "kl": 0.0643310546875,
-      "learning_rate": 9.1e-07,
-      "loss": -0.0303,
-      "reward": 2.1286094188690186,
-      "reward_std": 0.5249549150466919,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.79861119389534,
-      "rewards/repetition_penalty_reward": -0.09187676757574081,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 615.4583740234375,
+      "epoch": 0.13343108504398826,
+      "grad_norm": 2.223637211770504,
+      "kl": 0.098876953125,
+      "learning_rate": 9.970164200984443e-07,
+      "loss": 0.1221,
+      "reward": 1.9517627954483032,
+      "reward_std": 0.02038181759417057,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04823717288672924,
+      "rewards/tag_count_reward": 1.0,
       "step": 182
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 571.0208435058594,
-      "epoch": 0.0915,
-      "grad_norm": 2.7275256259539025,
-      "kl": 0.045166015625,
-      "learning_rate": 9.15e-07,
-      "loss": 0.0061,
-      "reward": 2.457062244415283,
-      "reward_std": 0.44156837463378906,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.8611111640930176,
-      "rewards/repetition_penalty_reward": -0.09154891595244408,
+      "completion_length": 539.5416870117188,
+      "epoch": 0.13416422287390029,
+      "grad_norm": 2.185131937450779,
+      "kl": 0.112060546875,
+      "learning_rate": 9.968824981940493e-07,
+      "loss": 0.0155,
+      "reward": 2.033494234085083,
+      "reward_std": 0.2103577759116888,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.056783486157655716,
       "rewards/tag_count_reward": 0.9791666865348816,
       "step": 183
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 568.0416870117188,
-      "epoch": 0.092,
-      "grad_norm": 2.5794652768185697,
-      "kl": 0.0457763671875,
-      "learning_rate": 9.2e-07,
-      "loss": -0.0542,
-      "reward": 2.1548627614974976,
-      "reward_std": 0.41270676255226135,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.784722238779068,
-      "rewards/repetition_penalty_reward": -0.10381785407662392,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 549.4166870117188,
+      "epoch": 0.1348973607038123,
+      "grad_norm": 2.2887490821871546,
+      "kl": 0.103759765625,
+      "learning_rate": 9.967456467206712e-07,
+      "loss": 0.0392,
+      "reward": 1.9644048810005188,
+      "reward_std": 0.016866141464561224,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03559521585702896,
+      "rewards/tag_count_reward": 1.0,
       "step": 184
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 550.5833435058594,
-      "epoch": 0.0925,
-      "grad_norm": 2.6922728125371544,
-      "kl": 0.0513916015625,
-      "learning_rate": 9.25e-07,
-      "loss": -0.0506,
-      "reward": 2.1982321739196777,
-      "reward_std": 0.47882315516471863,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.909722238779068,
-      "rewards/repetition_penalty_reward": -0.09690695255994797,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 553.9583740234375,
+      "epoch": 0.13563049853372433,
+      "grad_norm": 2.075544050145113,
+      "kl": 0.10791015625,
+      "learning_rate": 9.966058665754494e-07,
+      "loss": 0.0403,
+      "reward": 2.1910440325737,
+      "reward_std": 0.20203115046024323,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04333098791539669,
+      "rewards/tag_count_reward": 0.984375,
       "step": 185
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 552.75,
-      "epoch": 0.093,
-      "grad_norm": 2.34743025577209,
-      "kl": 0.0548095703125,
-      "learning_rate": 9.3e-07,
-      "loss": -0.017,
-      "reward": 2.2561983466148376,
-      "reward_std": 0.37413595616817474,
-      "rewards/accuracy_reward": 0.4583333358168602,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.0944962427020073,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 575.8125,
+      "epoch": 0.13636363636363635,
+      "grad_norm": 2.444422689957302,
+      "kl": 0.107666015625,
+      "learning_rate": 9.964631586747222e-07,
+      "loss": -0.0033,
+      "reward": 2.5688068866729736,
+      "reward_std": 0.3440853953361511,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.056193241849541664,
+      "rewards/tag_count_reward": 1.0,
       "step": 186
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 445.5208435058594,
-      "epoch": 0.0935,
-      "grad_norm": 3.017831161763003,
-      "kl": 0.061767578125,
-      "learning_rate": 9.35e-07,
-      "loss": 0.0359,
-      "reward": 2.617498517036438,
-      "reward_std": 0.2746337354183197,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.86111119389534,
-      "rewards/repetition_penalty_reward": -0.07694609090685844,
+      "completion_length": 553.1458435058594,
+      "epoch": 0.13709677419354838,
+      "grad_norm": 2.3343020822873486,
+      "kl": 0.10595703125,
+      "learning_rate": 9.96317523954021e-07,
+      "loss": 0.0113,
+      "reward": 1.9665733575820923,
+      "reward_std": 0.1026981808245182,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.0473155677318573,
       "rewards/tag_count_reward": 1.0,
       "step": 187
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 516.4166870117188,
-      "epoch": 0.094,
-      "grad_norm": 10.120993359942497,
-      "kl": 0.0875244140625,
-      "learning_rate": 9.399999999999999e-07,
-      "loss": -0.0016,
-      "reward": 2.3637200593948364,
-      "reward_std": 0.35263994336128235,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.92361119389534,
-      "rewards/repetition_penalty_reward": -0.09114107862114906,
+      "completion_length": 527.1458435058594,
+      "epoch": 0.1378299120234604,
+      "grad_norm": 2.329781106869945,
+      "kl": 0.11572265625,
+      "learning_rate": 9.96168963368064e-07,
+      "loss": 0.0768,
+      "reward": 1.9751185774803162,
+      "reward_std": 0.09284409787505865,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.035298120230436325,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 188
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 578.9166717529297,
-      "epoch": 0.0945,
-      "grad_norm": 2.4810269448429314,
-      "kl": 0.060546875,
-      "learning_rate": 9.45e-07,
-      "loss": 0.135,
-      "reward": 2.5320863723754883,
-      "reward_std": 0.4612206518650055,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.12763602659106255,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 568.8125305175781,
+      "epoch": 0.13856304985337242,
+      "grad_norm": 2.482124615192751,
+      "kl": 0.1162109375,
+      "learning_rate": 9.960174778907511e-07,
+      "loss": 0.0832,
+      "reward": 1.9523666501045227,
+      "reward_std": 0.051067665219306946,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03548061661422253,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 189
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 536.8333435058594,
-      "epoch": 0.095,
-      "grad_norm": 2.42276363492381,
-      "kl": 0.0567626953125,
-      "learning_rate": 9.499999999999999e-07,
-      "loss": -0.0277,
-      "reward": 2.275315523147583,
-      "reward_std": 0.42472073435783386,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.09274015948176384,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 502.2083435058594,
+      "epoch": 0.13929618768328444,
+      "grad_norm": 2.7539326807930724,
+      "kl": 0.128173828125,
+      "learning_rate": 9.958630685151552e-07,
+      "loss": -0.1067,
+      "reward": 1.9934042692184448,
+      "reward_std": 0.14851272106170654,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04305417276918888,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 190
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 515.4166870117188,
-      "epoch": 0.0955,
-      "grad_norm": 3.0986857990959504,
-      "kl": 0.102783203125,
-      "learning_rate": 9.55e-07,
-      "loss": -0.069,
-      "reward": 2.445477247238159,
-      "reward_std": 0.40403106808662415,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.10487010702490807,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 507.1458435058594,
+      "epoch": 0.14002932551319647,
+      "grad_norm": 2.4239115093163774,
+      "kl": 0.124755859375,
+      "learning_rate": 9.957057362535175e-07,
+      "loss": -0.0111,
+      "reward": 1.9687672853469849,
+      "reward_std": 0.11539381369948387,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04164946265518665,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 191
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 576.6041717529297,
-      "epoch": 0.096,
-      "grad_norm": 2.527746035134317,
-      "kl": 0.0672607421875,
-      "learning_rate": 9.6e-07,
-      "loss": 0.0669,
-      "reward": 2.4357703924179077,
-      "reward_std": 0.40775516629219055,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.10763245820999146,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 498.97918701171875,
+      "epoch": 0.14076246334310852,
+      "grad_norm": 2.519049551235326,
+      "kl": 0.12939453125,
+      "learning_rate": 9.955454821372408e-07,
+      "loss": -0.0006,
+      "reward": 1.9685339331626892,
+      "reward_std": 0.20130838453769684,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.045354995876550674,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 192
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 561.1250152587891,
-      "epoch": 0.0965,
-      "grad_norm": 2.0944240845048028,
-      "kl": 0.0623779296875,
-      "learning_rate": 9.649999999999999e-07,
-      "loss": -0.012,
-      "reward": 2.684821605682373,
-      "reward_std": 0.2746804505586624,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.11726166307926178,
+      "completion_length": 544.125,
+      "epoch": 0.14149560117302054,
+      "grad_norm": 2.2656746914975896,
+      "kl": 0.12841796875,
+      "learning_rate": 9.953823072168818e-07,
+      "loss": 0.0209,
+      "reward": 2.5191445350646973,
+      "reward_std": 0.3530745655298233,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.039883313700556755,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 193
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 545.1875305175781,
-      "epoch": 0.097,
-      "grad_norm": 2.1965210412413896,
-      "kl": 0.059814453125,
-      "learning_rate": 9.7e-07,
-      "loss": -0.0042,
-      "reward": 2.5165964365005493,
-      "reward_std": 0.41372165083885193,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.09277866780757904,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 482.1666717529297,
+      "epoch": 0.14222873900293256,
+      "grad_norm": 2.4378035107662335,
+      "kl": 0.13720703125,
+      "learning_rate": 9.95216212562145e-07,
+      "loss": 0.0679,
+      "reward": 1.995971918106079,
+      "reward_std": 0.1278656329959631,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03354204259812832,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 194
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 519.5416870117188,
-      "epoch": 0.0975,
-      "grad_norm": 2.4964745244416346,
-      "kl": 0.052978515625,
-      "learning_rate": 9.75e-07,
-      "loss": 0.065,
-      "reward": 2.522639751434326,
-      "reward_std": 0.43553659319877625,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.11277706176042557,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 512.6666870117188,
+      "epoch": 0.1429618768328446,
+      "grad_norm": 2.2820945478569987,
+      "kl": 0.125732421875,
+      "learning_rate": 9.950471992618755e-07,
+      "loss": 0.0234,
+      "reward": 1.9476872682571411,
+      "reward_std": 0.05502081662416458,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.03842394798994064,
+      "rewards/tag_count_reward": 1.0,
       "step": 195
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.7708435058594,
-      "epoch": 0.098,
-      "grad_norm": 2.2610161792561527,
-      "kl": 0.061767578125,
-      "learning_rate": 9.8e-07,
-      "loss": -0.0127,
-      "reward": 2.3144911527633667,
-      "reward_std": 0.4604138135910034,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.10912004858255386,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 588.9166870117188,
+      "epoch": 0.1436950146627566,
+      "grad_norm": 2.5028248973645755,
+      "kl": 0.12353515625,
+      "learning_rate": 9.948752684240514e-07,
+      "loss": 0.0617,
+      "reward": 1.9217350482940674,
+      "reward_std": 0.07230636849999428,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.05569552071392536,
+      "rewards/tag_count_reward": 0.984375,
       "step": 196
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 471.6666717529297,
-      "epoch": 0.0985,
-      "grad_norm": 2.720385116064672,
-      "kl": 0.061767578125,
-      "learning_rate": 9.849999999999999e-07,
-      "loss": 0.0132,
-      "reward": 2.4773154258728027,
-      "reward_std": 0.4094041436910629,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.06955961138010025,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 537.6250305175781,
+      "epoch": 0.14442815249266863,
+      "grad_norm": 2.428726069054531,
+      "kl": 0.115234375,
+      "learning_rate": 9.94700421175777e-07,
+      "loss": 0.0636,
+      "reward": 2.27834951877594,
+      "reward_std": 0.2576148062944412,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.054983872920274734,
+      "rewards/tag_count_reward": 1.0,
       "step": 197
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 537.2500305175781,
-      "epoch": 0.099,
-      "grad_norm": 2.7986049436758194,
-      "kl": 0.06494140625,
-      "learning_rate": 9.9e-07,
-      "loss": 0.0464,
-      "reward": 2.6958858966827393,
-      "reward_std": 0.3497622162103653,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.958333432674408,
-      "rewards/repetition_penalty_reward": -0.11140592023730278,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 531.4166717529297,
+      "epoch": 0.14516129032258066,
+      "grad_norm": 2.0921870960930993,
+      "kl": 0.119873046875,
+      "learning_rate": 9.945226586632757e-07,
+      "loss": 0.0528,
+      "reward": 2.110503077507019,
+      "reward_std": 0.16293007880449295,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04921908490359783,
+      "rewards/tag_count_reward": 1.0,
       "step": 198
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 525.125,
-      "epoch": 0.0995,
-      "grad_norm": 2.5376762252956166,
-      "kl": 0.057861328125,
-      "learning_rate": 9.95e-07,
-      "loss": 0.0873,
-      "reward": 2.4644105434417725,
-      "reward_std": 0.5261338353157043,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.888888955116272,
-      "rewards/repetition_penalty_reward": -0.09635350480675697,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 533.7500305175781,
+      "epoch": 0.14589442815249268,
+      "grad_norm": 2.5544009433480603,
+      "kl": 0.12841796875,
+      "learning_rate": 9.94341982051882e-07,
+      "loss": 0.1531,
+      "reward": 2.2020418643951416,
+      "reward_std": 0.04367715120315552,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04101373255252838,
+      "rewards/tag_count_reward": 1.0,
       "step": 199
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 479.56251525878906,
-      "epoch": 0.1,
-      "grad_norm": 2.51025292795749,
-      "kl": 0.0599365234375,
-      "learning_rate": 1e-06,
-      "loss": -0.0162,
-      "reward": 2.544384002685547,
-      "reward_std": 0.447608157992363,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9166667461395264,
-      "rewards/repetition_penalty_reward": -0.10144944489002228,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 510.3958435058594,
+      "epoch": 0.1466275659824047,
+      "grad_norm": 2.2761467748200888,
+      "kl": 0.1337890625,
+      "learning_rate": 9.94158392526034e-07,
+      "loss": 0.0584,
+      "reward": 1.9831884503364563,
+      "reward_std": 0.0833294466137886,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03243660740554333,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 200
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 569.0625,
-      "epoch": 0.1005,
-      "grad_norm": 2.1126300771805564,
-      "kl": 0.0582275390625,
-      "learning_rate": 9.999993146109795e-07,
-      "loss": 0.0202,
-      "reward": 2.5578041076660156,
-      "reward_std": 0.334363654255867,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.92361119389534,
-      "rewards/repetition_penalty_reward": -0.10539035871624947,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 521.9791870117188,
+      "epoch": 0.14736070381231672,
+      "grad_norm": 2.676798078696678,
+      "kl": 0.124267578125,
+      "learning_rate": 9.939718912892649e-07,
+      "loss": 0.1067,
+      "reward": 2.4419782757759094,
+      "reward_std": 0.08668806962668896,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03718854580074549,
+      "rewards/tag_count_reward": 1.0,
       "step": 201
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 487.8333435058594,
-      "epoch": 0.101,
-      "grad_norm": 2.537230361987624,
-      "kl": 0.068603515625,
-      "learning_rate": 9.999972584460056e-07,
-      "loss": -0.0015,
-      "reward": 2.552291989326477,
-      "reward_std": 0.5273123234510422,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.8750000596046448,
-      "rewards/repetition_penalty_reward": -0.09874986857175827,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 528.8541870117188,
+      "epoch": 0.14809384164222875,
+      "grad_norm": 2.201643714021596,
+      "kl": 0.128662109375,
+      "learning_rate": 9.937824795641966e-07,
+      "loss": 0.0402,
+      "reward": 2.1860954761505127,
+      "reward_std": 0.05664380919188261,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.044807299971580505,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 202
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.3333435058594,
-      "epoch": 0.1015,
-      "grad_norm": 2.663772208431935,
-      "kl": 0.0540771484375,
-      "learning_rate": 9.99993831511342e-07,
-      "loss": 0.0486,
-      "reward": 2.662340521812439,
-      "reward_std": 0.3466527909040451,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.8263889253139496,
-      "rewards/repetition_penalty_reward": -0.08071524277329445,
+      "completion_length": 536.0625305175781,
+      "epoch": 0.14882697947214077,
+      "grad_norm": 2.3529632476015143,
+      "kl": 0.121826171875,
+      "learning_rate": 9.935901585925309e-07,
+      "loss": 0.0326,
+      "reward": 1.9818111658096313,
+      "reward_std": 0.07902031671255827,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.04596656560897827,
       "rewards/tag_count_reward": 1.0,
       "step": 203
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 551.3750305175781,
-      "epoch": 0.102,
-      "grad_norm": 2.3037155314735895,
-      "kl": 0.0634765625,
-      "learning_rate": 9.999890338174275e-07,
-      "loss": 0.116,
-      "reward": 2.5760300159454346,
-      "reward_std": 0.3985503613948822,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.07674792408943176,
+      "completion_length": 506.6250305175781,
+      "epoch": 0.1495601173020528,
+      "grad_norm": 2.216555100598739,
+      "kl": 0.1240234375,
+      "learning_rate": 9.933949296350412e-07,
+      "loss": 0.0381,
+      "reward": 1.9562581181526184,
+      "reward_std": 0.034087372943758965,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.036797499284148216,
       "rewards/tag_count_reward": 1.0,
       "step": 204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.6458435058594,
-      "epoch": 0.1025,
-      "grad_norm": 2.659875652962376,
-      "kl": 0.064453125,
-      "learning_rate": 9.99982865378877e-07,
-      "loss": -0.0381,
-      "reward": 2.600967049598694,
-      "reward_std": 0.34831008315086365,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.8680555820465088,
-      "rewards/repetition_penalty_reward": -0.0691719576716423,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 532.0833587646484,
+      "epoch": 0.15029325513196481,
+      "grad_norm": 2.252511834459066,
+      "kl": 0.125732421875,
+      "learning_rate": 9.931967939715641e-07,
+      "loss": 0.0761,
+      "reward": 1.960132360458374,
+      "reward_std": 0.02215556614100933,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.039867645129561424,
+      "rewards/tag_count_reward": 1.0,
       "step": 205
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.8333435058594,
-      "epoch": 0.103,
-      "grad_norm": 2.672719916018964,
-      "kl": 0.0626220703125,
-      "learning_rate": 9.999753262144804e-07,
-      "loss": 0.1019,
-      "reward": 2.5358208417892456,
-      "reward_std": 0.42981427907943726,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.888888955116272,
-      "rewards/repetition_penalty_reward": -0.061401575803756714,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 515.1041870117188,
+      "epoch": 0.15102639296187684,
+      "grad_norm": 2.1090934911188004,
+      "kl": 0.127197265625,
+      "learning_rate": 9.929957529009918e-07,
+      "loss": 0.0337,
+      "reward": 1.995642364025116,
+      "reward_std": 0.16707224398851395,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03560762293636799,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 206
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.6458435058594,
-      "epoch": 0.1035,
-      "grad_norm": 2.5741947297183385,
-      "kl": 0.0634765625,
-      "learning_rate": 9.999664163472034e-07,
-      "loss": -0.0236,
-      "reward": 2.332731008529663,
-      "reward_std": 0.4647013247013092,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.8611111342906952,
-      "rewards/repetition_penalty_reward": -0.08567183464765549,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 481.4166717529297,
+      "epoch": 0.15175953079178886,
+      "grad_norm": 2.051423391569217,
+      "kl": 0.13623046875,
+      "learning_rate": 9.927918077412628e-07,
+      "loss": -0.0048,
+      "reward": 2.2103371620178223,
+      "reward_std": 0.03615569323301315,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.03271842747926712,
+      "rewards/tag_count_reward": 1.0,
       "step": 207
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 546.7916870117188,
-      "epoch": 0.104,
-      "grad_norm": 2.7033266921870123,
-      "kl": 0.0594482421875,
-      "learning_rate": 9.999561358041868e-07,
-      "loss": -0.0888,
-      "reward": 2.297361373901367,
-      "reward_std": 0.5272791683673859,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.8750001192092896,
-      "rewards/repetition_penalty_reward": -0.07763872668147087,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 471.3541717529297,
+      "epoch": 0.15249266862170088,
+      "grad_norm": 2.664772912161007,
+      "kl": 0.15576171875,
+      "learning_rate": 9.925849598293537e-07,
+      "loss": 0.032,
+      "reward": 2.417176127433777,
+      "reward_std": 0.247524194419384,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03594890981912613,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 208
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 443.62501525878906,
-      "epoch": 0.1045,
-      "grad_norm": 3.90101302775015,
-      "kl": 0.072265625,
-      "learning_rate": 9.99944484616747e-07,
-      "loss": 0.0252,
-      "reward": 2.6521321535110474,
-      "reward_std": 0.33744025230407715,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.8541667461395264,
-      "rewards/repetition_penalty_reward": -0.07703462615609169,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 527.3958435058594,
+      "epoch": 0.1532258064516129,
+      "grad_norm": 2.7816240748478847,
+      "kl": 0.14501953125,
+      "learning_rate": 9.9237521052127e-07,
+      "loss": -0.0241,
+      "reward": 2.0370668172836304,
+      "reward_std": 0.22554985573515296,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.0393221378326416,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 209
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 540.4375,
-      "epoch": 0.105,
-      "grad_norm": 2.31473784045809,
-      "kl": 0.0623779296875,
-      "learning_rate": 9.99931462820376e-07,
-      "loss": 0.0167,
-      "reward": 2.5439374446868896,
-      "reward_std": 0.2827417850494385,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.10884056985378265,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 507.7708435058594,
+      "epoch": 0.15395894428152493,
+      "grad_norm": 2.4349590137522963,
+      "kl": 0.13427734375,
+      "learning_rate": 9.921625611920383e-07,
+      "loss": 0.0232,
+      "reward": 1.9492262601852417,
+      "reward_std": 0.13168392330408096,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.047301506623625755,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 210
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 518.5625,
-      "epoch": 0.1055,
-      "grad_norm": 2.4382433122696763,
-      "kl": 0.074462890625,
-      "learning_rate": 9.999170704547398e-07,
-      "loss": 0.0511,
-      "reward": 2.5632206201553345,
-      "reward_std": 0.31003791093826294,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.0912933386862278,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 469.5625,
+      "epoch": 0.15469208211143695,
+      "grad_norm": 2.288220045433554,
+      "kl": 0.1591796875,
+      "learning_rate": 9.919470132356951e-07,
+      "loss": 0.0722,
+      "reward": 2.18506121635437,
+      "reward_std": 0.11852885410189629,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03368875943124294,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 211
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 503.8125305175781,
-      "epoch": 0.106,
-      "grad_norm": 2.370275119306627,
-      "kl": 0.0654296875,
-      "learning_rate": 9.999013075636804e-07,
-      "loss": -0.008,
-      "reward": 2.4429709911346436,
-      "reward_std": 0.4311106353998184,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.09175140410661697,
+      "completion_length": 505.52085876464844,
+      "epoch": 0.15542521994134897,
+      "grad_norm": 2.4198341602493847,
+      "kl": 0.14501953125,
+      "learning_rate": 9.917285680652805e-07,
+      "loss": 0.0407,
+      "reward": 1.9904600381851196,
+      "reward_std": 0.08161180093884468,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03037323523312807,
       "rewards/tag_count_reward": 1.0,
       "step": 212
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 588.3958740234375,
-      "epoch": 0.1065,
-      "grad_norm": 2.5342323653428696,
-      "kl": 0.0633544921875,
-      "learning_rate": 9.998841741952141e-07,
-      "loss": 0.1784,
-      "reward": 2.6273250579833984,
-      "reward_std": 0.28149472177028656,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.09489719569683075,
+      "completion_length": 512.8333587646484,
+      "epoch": 0.156158357771261,
+      "grad_norm": 2.4090799066503377,
+      "kl": 0.1572265625,
+      "learning_rate": 9.915072271128267e-07,
+      "loss": 0.0703,
+      "reward": 2.2472126483917236,
+      "reward_std": 0.13479421101510525,
+      "rewards/accuracy_reward": 0.2916666679084301,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.030565201304852962,
       "rewards/tag_count_reward": 1.0,
       "step": 213
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 525.9375305175781,
-      "epoch": 0.107,
-      "grad_norm": 2.1916917773556763,
-      "kl": 0.06689453125,
-      "learning_rate": 9.998656704015323e-07,
-      "loss": -0.0292,
-      "reward": 2.3184261322021484,
-      "reward_std": 0.42756618559360504,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.09303238615393639,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 475.8541717529297,
+      "epoch": 0.15689149560117302,
+      "grad_norm": 2.41265188004121,
+      "kl": 0.15380859375,
+      "learning_rate": 9.912829918293494e-07,
+      "loss": -0.0356,
+      "reward": 2.0343655347824097,
+      "reward_std": 0.12357844784855843,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02813446894288063,
+      "rewards/tag_count_reward": 1.0,
       "step": 214
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 622.7708435058594,
-      "epoch": 0.1075,
-      "grad_norm": 2.279834707710596,
-      "kl": 0.065673828125,
-      "learning_rate": 9.998457962390008e-07,
-      "loss": 0.0573,
-      "reward": 2.3788540363311768,
-      "reward_std": 0.44249793887138367,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.09510444849729538,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 509.97918701171875,
+      "epoch": 0.15762463343108504,
+      "grad_norm": 2.5135257964207063,
+      "kl": 0.1591796875,
+      "learning_rate": 9.910558636848384e-07,
+      "loss": 0.0185,
+      "reward": 2.0641019344329834,
+      "reward_std": 0.20102613419294357,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04006483219563961,
+      "rewards/tag_count_reward": 1.0,
       "step": 215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 561.1458435058594,
-      "epoch": 0.108,
-      "grad_norm": 2.4104772332041033,
-      "kl": 0.068603515625,
-      "learning_rate": 9.998245517681593e-07,
-      "loss": 0.0665,
-      "reward": 2.5858339071273804,
-      "reward_std": 0.3917628526687622,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07562451809644699,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 554.1250305175781,
+      "epoch": 0.15835777126099707,
+      "grad_norm": 2.4705818727306736,
+      "kl": 0.15234375,
+      "learning_rate": 9.908258441682483e-07,
+      "loss": 0.1556,
+      "reward": 1.9976014494895935,
+      "reward_std": 0.11414317414164543,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04406532645225525,
+      "rewards/tag_count_reward": 1.0,
       "step": 216
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 494.2291717529297,
-      "epoch": 0.1085,
-      "grad_norm": 2.3453403680398917,
-      "kl": 0.07568359375,
-      "learning_rate": 9.998019370537227e-07,
-      "loss": -0.0702,
-      "reward": 2.553897261619568,
-      "reward_std": 0.29422348737716675,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.06415844522416592,
+      "completion_length": 447.06251525878906,
+      "epoch": 0.1590909090909091,
+      "grad_norm": 2.3388114870879972,
+      "kl": 0.17236328125,
+      "learning_rate": 9.905929347874875e-07,
+      "loss": 0.1217,
+      "reward": 2.140606701374054,
+      "reward_std": 0.1381812645122409,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026059916242957115,
       "rewards/tag_count_reward": 1.0,
       "step": 217
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 535.3541870117188,
-      "epoch": 0.109,
-      "grad_norm": 2.203319463752206,
-      "kl": 0.0732421875,
-      "learning_rate": 9.997779521645791e-07,
-      "loss": -0.0537,
-      "reward": 2.600339412689209,
-      "reward_std": 0.34052593261003494,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.07500774413347244,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 459.6458435058594,
+      "epoch": 0.1598240469208211,
+      "grad_norm": 2.4861533154135693,
+      "kl": 0.16357421875,
+      "learning_rate": 9.903571370694094e-07,
+      "loss": 0.0441,
+      "reward": 1.9717371463775635,
+      "reward_std": 0.04522157460451126,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01784633845090866,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 218
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 511.16668701171875,
-      "epoch": 0.1095,
-      "grad_norm": 2.6145352347525184,
-      "kl": 0.075927734375,
-      "learning_rate": 9.997525971737909e-07,
-      "loss": 0.1401,
-      "reward": 2.736908793449402,
-      "reward_std": 0.2718254253268242,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.09121626242995262,
+      "completion_length": 455.9583435058594,
+      "epoch": 0.16055718475073313,
+      "grad_norm": 2.337842900368109,
+      "kl": 0.17333984375,
+      "learning_rate": 9.901184525598027e-07,
+      "loss": 0.0557,
+      "reward": 2.0282862186431885,
+      "reward_std": 0.1811966523528099,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029005596414208412,
       "rewards/tag_count_reward": 0.9947916865348816,
       "step": 219
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 524.2500305175781,
-      "epoch": 0.11,
-      "grad_norm": 2.5498578386752473,
-      "kl": 0.07666015625,
-      "learning_rate": 9.997258721585931e-07,
-      "loss": 0.0166,
-      "reward": 2.643193244934082,
-      "reward_std": 0.3977600634098053,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.08770973607897758,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 483.7708435058594,
+      "epoch": 0.16129032258064516,
+      "grad_norm": 2.855863111930354,
+      "kl": 0.18115234375,
+      "learning_rate": 9.898768828233794e-07,
+      "loss": 0.0382,
+      "reward": 2.1459413170814514,
+      "reward_std": 0.22265248745679855,
+      "rewards/accuracy_reward": 0.18750000558793545,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03461429849267006,
+      "rewards/tag_count_reward": 1.0,
       "step": 220
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 534.625,
-      "epoch": 0.1105,
-      "grad_norm": 2.4145494510921766,
-      "kl": 0.08544921875,
-      "learning_rate": 9.99697777200395e-07,
-      "loss": 0.0173,
-      "reward": 2.4541492462158203,
-      "reward_std": 0.46001937985420227,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.09446194767951965,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 510.7083435058594,
+      "epoch": 0.16202346041055718,
+      "grad_norm": 2.512452871604219,
+      "kl": 0.1767578125,
+      "learning_rate": 9.896324294437672e-07,
+      "loss": -0.055,
+      "reward": 2.0672988891601562,
+      "reward_std": 0.27433933317661285,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03165953606367111,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 221
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 586.8541870117188,
-      "epoch": 0.111,
-      "grad_norm": 2.465480916047294,
-      "kl": 0.069580078125,
-      "learning_rate": 9.996683123847795e-07,
-      "loss": 0.0974,
-      "reward": 2.7027587890625,
-      "reward_std": 0.3243703097105026,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.09238022565841675,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 482.37501525878906,
+      "epoch": 0.1627565982404692,
+      "grad_norm": 2.497431270952545,
+      "kl": 0.185546875,
+      "learning_rate": 9.893850940234968e-07,
+      "loss": 0.0612,
+      "reward": 2.032313048839569,
+      "reward_std": 0.1233673607930541,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03018704056739807,
+      "rewards/tag_count_reward": 1.0,
       "step": 222
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 557.25,
-      "epoch": 0.1115,
-      "grad_norm": 2.363152779089099,
-      "kl": 0.077880859375,
-      "learning_rate": 9.996374778015007e-07,
-      "loss": 0.075,
-      "reward": 2.7129660844802856,
-      "reward_std": 0.39234504103660583,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.07522866874933243,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 434.0208435058594,
+      "epoch": 0.16348973607038123,
+      "grad_norm": 2.2171293698344763,
+      "kl": 0.197265625,
+      "learning_rate": 9.891348781839924e-07,
+      "loss": 0.0565,
+      "reward": 1.9839209914207458,
+      "reward_std": 0.08671730384230614,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.036912497133016586,
+      "rewards/tag_count_reward": 1.0,
       "step": 223
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 606.8958435058594,
-      "epoch": 0.112,
-      "grad_norm": 2.153335337523184,
-      "kl": 0.073486328125,
-      "learning_rate": 9.996052735444862e-07,
-      "loss": 0.088,
-      "reward": 2.5669835805892944,
-      "reward_std": 0.45203205943107605,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.08579418063163757,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 458.68751525878906,
+      "epoch": 0.16422287390029325,
+      "grad_norm": 2.4157632367769506,
+      "kl": 0.203125,
+      "learning_rate": 9.888817835655614e-07,
+      "loss": 0.0593,
+      "reward": 2.203449249267578,
+      "reward_std": 0.17519402969628572,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025717386044561863,
+      "rewards/tag_count_reward": 1.0,
       "step": 224
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 568.1875305175781,
-      "epoch": 0.1125,
-      "grad_norm": 2.3030578231246324,
-      "kl": 0.069580078125,
-      "learning_rate": 9.99571699711836e-07,
-      "loss": 0.0667,
-      "reward": 2.5682613849639893,
-      "reward_std": 0.37949907779693604,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.09319691359996796,
+      "completion_length": 457.2708435058594,
+      "epoch": 0.16495601173020527,
+      "grad_norm": 2.1811901804547307,
+      "kl": 0.203125,
+      "learning_rate": 9.88625811827383e-07,
+      "loss": 0.0335,
+      "reward": 1.9971312880516052,
+      "reward_std": 0.09780013933777809,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018493805546313524,
       "rewards/tag_count_reward": 0.9947916865348816,
       "step": 225
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 600.0833435058594,
-      "epoch": 0.113,
-      "grad_norm": 2.6766438894868294,
-      "kl": 0.070556640625,
-      "learning_rate": 9.995367564058216e-07,
-      "loss": 0.2762,
-      "reward": 2.503145933151245,
-      "reward_std": 0.5531609952449799,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.12011810764670372,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 451.3333435058594,
+      "epoch": 0.1656891495601173,
+      "grad_norm": 2.6019578181839544,
+      "kl": 0.1923828125,
+      "learning_rate": 9.883669646474973e-07,
+      "loss": 0.0033,
+      "reward": 2.0132646560668945,
+      "reward_std": 0.11891119182109833,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023193655535578728,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 226
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 579.0833740234375,
-      "epoch": 0.1135,
-      "grad_norm": 2.2069984250119963,
-      "kl": 0.074462890625,
-      "learning_rate": 9.995004437328865e-07,
-      "loss": 0.0125,
-      "reward": 2.4455236196517944,
-      "reward_std": 0.4911371320486069,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.08919859677553177,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 415.9791717529297,
+      "epoch": 0.16642228739002932,
+      "grad_norm": 2.3555410793667133,
+      "kl": 0.20703125,
+      "learning_rate": 9.881052437227952e-07,
+      "loss": 0.034,
+      "reward": 2.7692244052886963,
+      "reward_std": 0.2729061245918274,
+      "rewards/accuracy_reward": 0.8125000298023224,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.025914611294865608,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 227
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 562.5000305175781,
-      "epoch": 0.114,
-      "grad_norm": 2.219775988144525,
-      "kl": 0.07666015625,
-      "learning_rate": 9.994627618036452e-07,
-      "loss": 0.0123,
-      "reward": 2.5935659408569336,
-      "reward_std": 0.34948965907096863,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.08351738005876541,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 497.02085876464844,
+      "epoch": 0.16715542521994134,
+      "grad_norm": 2.3616091059425903,
+      "kl": 0.185546875,
+      "learning_rate": 9.878406507690057e-07,
+      "loss": 0.0621,
+      "reward": 1.9636911153793335,
+      "reward_std": 0.03294796636328101,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.029364525340497494,
+      "rewards/tag_count_reward": 1.0,
       "step": 228
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.1666870117188,
-      "epoch": 0.1145,
-      "grad_norm": 2.952466021730348,
-      "kl": 0.080078125,
-      "learning_rate": 9.994237107328838e-07,
-      "loss": 0.0722,
-      "reward": 2.6423157453536987,
-      "reward_std": 0.2888629548251629,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.08685098960995674,
+      "completion_length": 432.9791717529297,
+      "epoch": 0.16788856304985336,
+      "grad_norm": 2.6391305475663263,
+      "kl": 0.1962890625,
+      "learning_rate": 9.875731875206867e-07,
+      "loss": -0.0174,
+      "reward": 1.9969558715820312,
+      "reward_std": 0.16866409545764327,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.023877506144344807,
       "rewards/tag_count_reward": 1.0,
       "step": 229
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.8958435058594,
-      "epoch": 0.115,
-      "grad_norm": 2.1182653417835424,
-      "kl": 0.07373046875,
-      "learning_rate": 9.993832906395582e-07,
-      "loss": 0.0002,
-      "reward": 2.5170371532440186,
-      "reward_std": 0.468481108546257,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.08712967112660408,
+      "completion_length": 430.18751525878906,
+      "epoch": 0.16862170087976538,
+      "grad_norm": 2.4059793072528244,
+      "kl": 0.20166015625,
+      "learning_rate": 9.873028557312117e-07,
+      "loss": 0.0309,
+      "reward": 2.2606165409088135,
+      "reward_std": 0.4185255467891693,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.031050268560647964,
       "rewards/tag_count_reward": 1.0,
       "step": 230
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 546.125,
-      "epoch": 0.1155,
-      "grad_norm": 2.0941520101521065,
-      "kl": 0.072509765625,
-      "learning_rate": 9.993415016467952e-07,
-      "loss": -0.01,
-      "reward": 2.8371798992156982,
-      "reward_std": 0.18849333748221397,
-      "rewards/accuracy_reward": 0.9375,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.07254217192530632,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 487.9583435058594,
+      "epoch": 0.1693548387096774,
+      "grad_norm": 2.3075648633918915,
+      "kl": 0.19482421875,
+      "learning_rate": 9.870296571727593e-07,
+      "loss": 0.0661,
+      "reward": 2.091531753540039,
+      "reward_std": 0.15529845468699932,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02825986687093973,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 231
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 600.3333587646484,
-      "epoch": 0.116,
-      "grad_norm": 2.070220926978154,
-      "kl": 0.0732421875,
-      "learning_rate": 9.992983438818915e-07,
-      "loss": 0.0136,
-      "reward": 2.483844041824341,
-      "reward_std": 0.35293829441070557,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.09254487603902817,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 472.2083435058594,
+      "epoch": 0.17008797653958943,
+      "grad_norm": 2.322103071917664,
+      "kl": 0.2080078125,
+      "learning_rate": 9.867535936363014e-07,
+      "loss": -0.0263,
+      "reward": 2.481574058532715,
+      "reward_std": 0.3974439948797226,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.035787204280495644,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 232
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 499.60418701171875,
-      "epoch": 0.1165,
-      "grad_norm": 3.1702925639839306,
-      "kl": 0.08349609375,
-      "learning_rate": 9.992538174763127e-07,
-      "loss": -0.0305,
-      "reward": 2.5292654037475586,
-      "reward_std": 0.334541991353035,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.09226257354021072,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 481.8750305175781,
+      "epoch": 0.17082111436950145,
+      "grad_norm": 2.512718529548141,
+      "kl": 0.19189453125,
+      "learning_rate": 9.864746669315918e-07,
+      "loss": 0.0368,
+      "reward": 2.0009429454803467,
+      "reward_std": 0.08158356510102749,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01989055424928665,
+      "rewards/tag_count_reward": 1.0,
       "step": 233
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.8125152587891,
-      "epoch": 0.117,
-      "grad_norm": 2.3960583772955424,
-      "kl": 0.07763671875,
-      "learning_rate": 9.992079225656944e-07,
-      "loss": 0.029,
-      "reward": 2.762247085571289,
-      "reward_std": 0.279547318816185,
-      "rewards/accuracy_reward": 0.9375,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.09018350392580032,
+      "completion_length": 565.75,
+      "epoch": 0.17155425219941348,
+      "grad_norm": 2.4334008578543735,
+      "kl": 0.17529296875,
+      "learning_rate": 9.861928788871535e-07,
+      "loss": 0.0988,
+      "reward": 2.0528666973114014,
+      "reward_std": 0.2537204041145742,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02873060293495655,
       "rewards/tag_count_reward": 0.984375,
       "step": 234
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 607.2083435058594,
-      "epoch": 0.1175,
-      "grad_norm": 2.042913157935333,
-      "kl": 0.068115234375,
-      "learning_rate": 9.9916065928984e-07,
-      "loss": -0.0039,
-      "reward": 2.4307457208633423,
-      "reward_std": 0.44265393912792206,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.902777761220932,
-      "rewards/repetition_penalty_reward": -0.11786547303199768,
+      "completion_length": 469.4583435058594,
+      "epoch": 0.17228739002932553,
+      "grad_norm": 2.3972353284423304,
+      "kl": 0.2041015625,
+      "learning_rate": 9.859082313502675e-07,
+      "loss": 0.0168,
+      "reward": 2.2656466960906982,
+      "reward_std": 0.33335772156715393,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026020064018666744,
       "rewards/tag_count_reward": 1.0,
       "step": 235
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 533.5208435058594,
-      "epoch": 0.118,
-      "grad_norm": 2.2072960786944313,
-      "kl": 0.073974609375,
-      "learning_rate": 9.991120277927223e-07,
-      "loss": 0.0585,
-      "reward": 2.7634425163269043,
-      "reward_std": 0.2200346365571022,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.10461306571960449,
+      "completion_length": 463.16668701171875,
+      "epoch": 0.17302052785923755,
+      "grad_norm": 2.575842711191836,
+      "kl": 0.19970703125,
+      "learning_rate": 9.8562072618696e-07,
+      "loss": 0.0457,
+      "reward": 2.0120570063591003,
+      "reward_std": 0.17007002606987953,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.022665289230644703,
       "rewards/tag_count_reward": 1.0,
       "step": 236
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.6458435058594,
-      "epoch": 0.1185,
-      "grad_norm": 2.2413703328479935,
-      "kl": 0.076171875,
-      "learning_rate": 9.990620282224806e-07,
-      "loss": -0.024,
-      "reward": 2.489652156829834,
-      "reward_std": 0.32129333913326263,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.09368134289979935,
+      "completion_length": 443.7083435058594,
+      "epoch": 0.17375366568914957,
+      "grad_norm": 2.545760915484643,
+      "kl": 0.201171875,
+      "learning_rate": 9.853303652819915e-07,
+      "loss": 0.0767,
+      "reward": 2.1953667402267456,
+      "reward_std": 0.10493875481188297,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.026855461299419403,
       "rewards/tag_count_reward": 1.0,
       "step": 237
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 509.1041717529297,
-      "epoch": 0.119,
-      "grad_norm": 2.255281998818256,
-      "kl": 0.071044921875,
-      "learning_rate": 9.990106607314225e-07,
-      "loss": 0.0002,
-      "reward": 2.6565502882003784,
-      "reward_std": 0.40016523003578186,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.07261638343334198,
+      "completion_length": 444.2708435058594,
+      "epoch": 0.1744868035190616,
+      "grad_norm": 2.7557749541944268,
+      "kl": 0.2119140625,
+      "learning_rate": 9.850371505388423e-07,
+      "loss": 0.094,
+      "reward": 1.9746447801589966,
+      "reward_std": 0.013843707740306854,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025355206802487373,
       "rewards/tag_count_reward": 1.0,
       "step": 238
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 528.0833587646484,
-      "epoch": 0.1195,
-      "grad_norm": 2.188877162746338,
-      "kl": 0.07568359375,
-      "learning_rate": 9.989579254760224e-07,
-      "loss": -0.0314,
-      "reward": 2.826788544654846,
-      "reward_std": 0.20467501878738403,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.05862821638584137,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 483.6250305175781,
+      "epoch": 0.17521994134897362,
+      "grad_norm": 2.299442195057228,
+      "kl": 0.19873046875,
+      "learning_rate": 9.847410838797023e-07,
+      "loss": -0.005,
+      "reward": 2.4455658197402954,
+      "reward_std": 0.34960001707077026,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028392494656145573,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 239
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 568.8125305175781,
-      "epoch": 0.12,
-      "grad_norm": 2.434441145634029,
-      "kl": 0.074951171875,
-      "learning_rate": 9.989038226169207e-07,
-      "loss": 0.1175,
-      "reward": 2.318480372428894,
-      "reward_std": 0.2832699418067932,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.07908925786614418,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 466.81251525878906,
+      "epoch": 0.17595307917888564,
+      "grad_norm": 2.4207285910028347,
+      "kl": 0.21337890625,
+      "learning_rate": 9.844421672454568e-07,
+      "loss": 0.0215,
+      "reward": 2.165701985359192,
+      "reward_std": 0.2287914901971817,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.032214757055044174,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 240
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 533.5416870117188,
-      "epoch": 0.1205,
-      "grad_norm": 2.378465168474232,
-      "kl": 0.081787109375,
-      "learning_rate": 9.988483523189248e-07,
-      "loss": 0.0519,
-      "reward": 2.758083462715149,
-      "reward_std": 0.313043013215065,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.07524998486042023,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 561.4166870117188,
+      "epoch": 0.17668621700879766,
+      "grad_norm": 2.606638173149529,
+      "kl": 0.2119140625,
+      "learning_rate": 9.84140402595674e-07,
+      "loss": -0.0635,
+      "reward": 2.1458557844161987,
+      "reward_std": 0.42205628752708435,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.0399082750082016,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 241
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 646.6041870117188,
-      "epoch": 0.121,
-      "grad_norm": 2.0129363099493394,
-      "kl": 0.070068359375,
-      "learning_rate": 9.98791514751006e-07,
-      "loss": -0.0271,
-      "reward": 2.4740262031555176,
-      "reward_std": 0.3102487027645111,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.08847374841570854,
+      "completion_length": 488.2083435058594,
+      "epoch": 0.1774193548387097,
+      "grad_norm": 2.3562918788818914,
+      "kl": 0.1962890625,
+      "learning_rate": 9.838357919085933e-07,
+      "loss": -0.0014,
+      "reward": 2.0086446404457092,
+      "reward_std": 0.1550162397325039,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.026077693328261375,
       "rewards/tag_count_reward": 1.0,
       "step": 242
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 495.85418701171875,
-      "epoch": 0.1215,
-      "grad_norm": 2.3579635378621226,
-      "kl": 0.080810546875,
-      "learning_rate": 9.98733310086302e-07,
-      "loss": 0.0068,
-      "reward": 2.6361684799194336,
-      "reward_std": 0.22484752535820007,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.0860537700355053,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 465.68751525878906,
+      "epoch": 0.1781524926686217,
+      "grad_norm": 3.015046047499862,
+      "kl": 0.19775390625,
+      "learning_rate": 9.835283371811109e-07,
+      "loss": -0.0831,
+      "reward": 2.0528554916381836,
+      "reward_std": 0.28607890009880066,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025269586592912674,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 243
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 570.1250305175781,
-      "epoch": 0.122,
-      "grad_norm": 2.2032148417869277,
-      "kl": 0.0771484375,
-      "learning_rate": 9.98673738502114e-07,
-      "loss": -0.0345,
-      "reward": 2.1713971495628357,
-      "reward_std": 0.3244406059384346,
-      "rewards/accuracy_reward": 0.27083333395421505,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07860295474529266,
+      "completion_length": 556.4166870117188,
+      "epoch": 0.17888563049853373,
+      "grad_norm": 2.324053410132789,
+      "kl": 0.18603515625,
+      "learning_rate": 9.832180404287672e-07,
+      "loss": 0.0356,
+      "reward": 2.3999125957489014,
+      "reward_std": 0.34801794588565826,
+      "rewards/accuracy_reward": 0.4375000298023224,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03064296767115593,
       "rewards/tag_count_reward": 1.0,
       "step": 244
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 607.0833435058594,
-      "epoch": 0.1225,
-      "grad_norm": 2.343457795616331,
-      "kl": 0.07861328125,
-      "learning_rate": 9.986128001799076e-07,
-      "loss": -0.0081,
-      "reward": 2.586448907852173,
-      "reward_std": 0.3658638447523117,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.08889832720160484,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 547.3125305175781,
+      "epoch": 0.17961876832844575,
+      "grad_norm": 2.483675172609574,
+      "kl": 0.18701171875,
+      "learning_rate": 9.829049036857338e-07,
+      "loss": -0.0115,
+      "reward": 2.0943979024887085,
+      "reward_std": 0.2273593619465828,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030602077022194862,
+      "rewards/tag_count_reward": 1.0,
       "step": 245
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 528.2708435058594,
-      "epoch": 0.123,
-      "grad_norm": 2.1457635532124315,
-      "kl": 0.09033203125,
-      "learning_rate": 9.985504953053113e-07,
-      "loss": 0.0243,
-      "reward": 2.761418104171753,
-      "reward_std": 0.19703956693410873,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.07365139201283455,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 516.2500305175781,
+      "epoch": 0.18035190615835778,
+      "grad_norm": 2.261230507474765,
+      "kl": 0.18115234375,
+      "learning_rate": 9.825889290048009e-07,
+      "loss": -0.0115,
+      "reward": 1.9686490893363953,
+      "reward_std": 0.03400381188839674,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.024406529031693935,
+      "rewards/tag_count_reward": 1.0,
       "step": 246
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 606.6458435058594,
-      "epoch": 0.1235,
-      "grad_norm": 2.3768865639458063,
-      "kl": 0.083740234375,
-      "learning_rate": 9.984868240681164e-07,
-      "loss": 0.061,
-      "reward": 2.5193967819213867,
-      "reward_std": 0.4161098003387451,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.08129774034023285,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 578.375,
+      "epoch": 0.1810850439882698,
+      "grad_norm": 2.4081317889508536,
+      "kl": 0.1767578125,
+      "learning_rate": 9.822701184573617e-07,
+      "loss": -0.0415,
+      "reward": 2.3041937351226807,
+      "reward_std": 0.4814845621585846,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029139596037566662,
+      "rewards/tag_count_reward": 1.0,
       "step": 247
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 626.9375305175781,
-      "epoch": 0.124,
-      "grad_norm": 2.4645417816762683,
-      "kl": 0.077392578125,
-      "learning_rate": 9.98421786662277e-07,
-      "loss": 0.148,
-      "reward": 2.6498433351516724,
-      "reward_std": 0.4323410838842392,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.08626773580908775,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 695.2916870117188,
+      "epoch": 0.18181818181818182,
+      "grad_norm": 2.013219887318077,
+      "kl": 0.16162109375,
+      "learning_rate": 9.819484741334009e-07,
+      "loss": -0.0087,
+      "reward": 2.386115550994873,
+      "reward_std": 0.4011628329753876,
+      "rewards/accuracy_reward": 0.458333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04444010742008686,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 248
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 543.25,
-      "epoch": 0.1245,
-      "grad_norm": 2.3866168405234474,
-      "kl": 0.081298828125,
-      "learning_rate": 9.983553832859078e-07,
-      "loss": 0.0302,
-      "reward": 2.5024802684783936,
-      "reward_std": 0.43941864371299744,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.07043641060590744,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 662.6041870117188,
+      "epoch": 0.18255131964809385,
+      "grad_norm": 2.121922144164688,
+      "kl": 0.1767578125,
+      "learning_rate": 9.816239981414798e-07,
+      "loss": 0.1018,
+      "reward": 2.027174472808838,
+      "reward_std": 0.22916549444198608,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.04227009415626526,
+      "rewards/tag_count_reward": 1.0,
       "step": 249
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 571.1875305175781,
-      "epoch": 0.125,
-      "grad_norm": 2.425419283542172,
-      "kl": 0.112060546875,
-      "learning_rate": 9.982876141412855e-07,
-      "loss": 0.034,
-      "reward": 2.78093945980072,
-      "reward_std": 0.2996261715888977,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.07496321201324463,
-      "rewards/tag_count_reward": 0.9739583730697632,
+      "completion_length": 616.3750305175781,
+      "epoch": 0.18328445747800587,
+      "grad_norm": 2.323030202609986,
+      "kl": 0.1826171875,
+      "learning_rate": 9.812966926087233e-07,
+      "loss": -0.0441,
+      "reward": 2.2639695405960083,
+      "reward_std": 0.4275299608707428,
+      "rewards/accuracy_reward": 0.3333333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04158623516559601,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 250
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 620.5,
-      "epoch": 0.1255,
-      "grad_norm": 2.129504256319349,
-      "kl": 0.080322265625,
-      "learning_rate": 9.982184794348462e-07,
-      "loss": 0.0166,
-      "reward": 2.693773031234741,
-      "reward_std": 0.40914659202098846,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.08400484919548035,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 634.3541870117188,
+      "epoch": 0.1840175953079179,
+      "grad_norm": 2.2692788356949185,
+      "kl": 0.18994140625,
+      "learning_rate": 9.809665596808052e-07,
+      "loss": -0.0243,
+      "reward": 2.1400359869003296,
+      "reward_std": 0.311031524091959,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03704751655459404,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 251
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 534.3958435058594,
-      "epoch": 0.126,
-      "grad_norm": 1.8697440201638618,
-      "kl": 0.087890625,
-      "learning_rate": 9.981479793771866e-07,
-      "loss": 0.0042,
-      "reward": 2.5290188789367676,
-      "reward_std": 0.21817893348634243,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.10466165468096733,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 642.2916870117188,
+      "epoch": 0.18475073313782991,
+      "grad_norm": 1.9963336498318256,
+      "kl": 0.1689453125,
+      "learning_rate": 9.80633601521935e-07,
+      "loss": -0.0222,
+      "reward": 2.2108322381973267,
+      "reward_std": 0.38528619706630707,
+      "rewards/accuracy_reward": 0.3125000149011612,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.044376133009791374,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 252
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 609.8958587646484,
-      "epoch": 0.1265,
-      "grad_norm": 2.3009060679085156,
-      "kl": 0.078369140625,
-      "learning_rate": 9.98076114183062e-07,
-      "loss": 0.1217,
-      "reward": 2.6637524366378784,
-      "reward_std": 0.40659724175930023,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06194208189845085,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 571.9375305175781,
+      "epoch": 0.18548387096774194,
+      "grad_norm": 2.1395612032304605,
+      "kl": 0.1923828125,
+      "learning_rate": 9.802978203148422e-07,
+      "loss": 0.0066,
+      "reward": 2.5844688415527344,
+      "reward_std": 0.35509173572063446,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05094785802066326,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 253
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 720.5416870117188,
-      "epoch": 0.127,
-      "grad_norm": 2.2567238155019322,
-      "kl": 0.080078125,
-      "learning_rate": 9.98002884071386e-07,
-      "loss": 0.0781,
-      "reward": 2.4784340858459473,
-      "reward_std": 0.4698047339916229,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.11531602591276169,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 617.6458435058594,
+      "epoch": 0.18621700879765396,
+      "grad_norm": 1.895221846754078,
+      "kl": 0.185546875,
+      "learning_rate": 9.799592182607642e-07,
+      "loss": 0.0354,
+      "reward": 2.242966055870056,
+      "reward_std": 0.3878481537103653,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.05217302590608597,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 254
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 644.8125305175781,
-      "epoch": 0.1275,
-      "grad_norm": 1.972516265850252,
-      "kl": 0.081298828125,
-      "learning_rate": 9.979282892652304e-07,
-      "loss": 0.0858,
-      "reward": 2.5695180892944336,
-      "reward_std": 0.34912221878767014,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.11277362704277039,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 625.3541870117188,
+      "epoch": 0.18695014662756598,
+      "grad_norm": 2.3377888789478147,
+      "kl": 0.17138671875,
+      "learning_rate": 9.796177975794298e-07,
+      "loss": 0.0756,
+      "reward": 2.0248435735702515,
+      "reward_std": 0.2661816030740738,
+      "rewards/accuracy_reward": 0.10416666977107525,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.041128676384687424,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 255
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 641.7708435058594,
-      "epoch": 0.128,
-      "grad_norm": 2.042073924733626,
-      "kl": 0.08740234375,
-      "learning_rate": 9.97852329991824e-07,
-      "loss": 0.0308,
-      "reward": 2.818283200263977,
-      "reward_std": 0.27264343202114105,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06886980310082436,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 680.1041870117188,
+      "epoch": 0.187683284457478,
+      "grad_norm": 2.1512517683797894,
+      "kl": 0.1572265625,
+      "learning_rate": 9.79273560509046e-07,
+      "loss": -0.0595,
+      "reward": 2.554927945137024,
+      "reward_std": 0.4941348135471344,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.04576661065220833,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 256
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 572.0625305175781,
-      "epoch": 0.1285,
-      "grad_norm": 2.101899385079832,
-      "kl": 0.08544921875,
-      "learning_rate": 9.977750064825519e-07,
-      "loss": -0.024,
-      "reward": 2.627909779548645,
-      "reward_std": 0.3649473935365677,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.08215974271297455,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 633.8125305175781,
+      "epoch": 0.18841642228739003,
+      "grad_norm": 2.7630684380572603,
+      "kl": 0.18310546875,
+      "learning_rate": 9.789265093062822e-07,
+      "loss": 0.0441,
+      "reward": 1.9179131984710693,
+      "reward_std": 0.12576640397310257,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0404201652854681,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 257
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 498.64585876464844,
-      "epoch": 0.129,
-      "grad_norm": 2.2345487850590944,
-      "kl": 0.088134765625,
-      "learning_rate": 9.976963189729547e-07,
-      "loss": -0.0191,
-      "reward": 2.7989070415496826,
-      "reward_std": 0.24870866537094116,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.06220416724681854,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 573.6875305175781,
+      "epoch": 0.18914956011730205,
+      "grad_norm": 2.396423250364506,
+      "kl": 0.18017578125,
+      "learning_rate": 9.785766462462569e-07,
+      "loss": -0.012,
+      "reward": 2.2367652654647827,
+      "reward_std": 0.28754863142967224,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.030595812946558,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 258
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 715.6250305175781,
-      "epoch": 0.1295,
-      "grad_norm": 1.8695009477650302,
-      "kl": 0.07861328125,
-      "learning_rate": 9.976162677027284e-07,
-      "loss": 0.0655,
-      "reward": 2.5826069116592407,
-      "reward_std": 0.4399617910385132,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.11010143533349037,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 590.2708435058594,
+      "epoch": 0.18988269794721407,
+      "grad_norm": 2.450809574492532,
+      "kl": 0.18896484375,
+      "learning_rate": 9.782239736225212e-07,
+      "loss": 0.0219,
+      "reward": 2.128044545650482,
+      "reward_std": 0.2238977551460266,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03862226940691471,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 259
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 501.1458435058594,
-      "epoch": 0.13,
-      "grad_norm": 2.1459813731795068,
-      "kl": 0.08251953125,
-      "learning_rate": 9.975348529157229e-07,
-      "loss": 0.0961,
-      "reward": 2.8910681009292603,
-      "reward_std": 0.10162430070340633,
-      "rewards/accuracy_reward": 1.0,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0776820220053196,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 609.7708740234375,
+      "epoch": 0.1906158357771261,
+      "grad_norm": 2.472322699922063,
+      "kl": 0.1943359375,
+      "learning_rate": 9.778684937470449e-07,
+      "loss": -0.0137,
+      "reward": 2.080292046070099,
+      "reward_std": 0.2516675442457199,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.03602752089500427,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 260
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 555.25,
-      "epoch": 0.1305,
-      "grad_norm": 2.0994299368541287,
-      "kl": 0.0859375,
-      "learning_rate": 9.974520748599421e-07,
-      "loss": 0.0963,
-      "reward": 2.3302276134490967,
-      "reward_std": 0.17742525041103363,
-      "rewards/accuracy_reward": 0.4375,
+      "completion_length": 601.0416870117188,
+      "epoch": 0.19134897360703812,
+      "grad_norm": 2.371141310592578,
+      "kl": 0.189453125,
+      "learning_rate": 9.775102089502006e-07,
+      "loss": 0.0055,
+      "reward": 2.4550044536590576,
+      "reward_std": 0.4750853478908539,
+      "rewards/accuracy_reward": 0.5833333432674408,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.07775864750146866,
-      "rewards/tag_count_reward": 0.984375,
+      "rewards/repetition_penalty_reward": -0.041523367166519165,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 261
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 707.6041870117188,
-      "epoch": 0.131,
-      "grad_norm": 2.179306110235832,
-      "kl": 0.09033203125,
-      "learning_rate": 9.973679337875418e-07,
-      "loss": 0.0756,
-      "reward": 2.457505941390991,
-      "reward_std": 0.49539755284786224,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.09978591650724411,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 671.1875305175781,
+      "epoch": 0.19208211143695014,
+      "grad_norm": 2.2457744714397823,
+      "kl": 0.16943359375,
+      "learning_rate": 9.771491215807494e-07,
+      "loss": 0.036,
+      "reward": 2.567304491996765,
+      "reward_std": 0.27622977923601866,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.057695645838975906,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 262
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 616.2916870117188,
-      "epoch": 0.1315,
-      "grad_norm": 2.0703888587416466,
-      "kl": 0.08544921875,
-      "learning_rate": 9.972824299548309e-07,
-      "loss": 0.0048,
-      "reward": 2.7762060165405273,
-      "reward_std": 0.2107193972915411,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.07796090468764305,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 619.9166870117188,
+      "epoch": 0.19281524926686217,
+      "grad_norm": 2.2302173486507244,
+      "kl": 0.1708984375,
+      "learning_rate": 9.76785234005824e-07,
+      "loss": 0.0567,
+      "reward": 2.4142779111862183,
+      "reward_std": 0.15193303674459457,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04405543580651283,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 263
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 475.9166717529297,
-      "epoch": 0.132,
-      "grad_norm": 2.170217179415964,
-      "kl": 0.090087890625,
-      "learning_rate": 9.971955636222684e-07,
-      "loss": 0.0146,
-      "reward": 2.930613875389099,
-      "reward_std": 0.0612574927508831,
-      "rewards/accuracy_reward": 1.0,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.05549720861017704,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 642.8333435058594,
+      "epoch": 0.1935483870967742,
+      "grad_norm": 2.0145102947205626,
+      "kl": 0.169921875,
+      "learning_rate": 9.764185486109145e-07,
+      "loss": 0.0162,
+      "reward": 2.172469139099121,
+      "reward_std": 0.23066802322864532,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04628100246191025,
+      "rewards/tag_count_reward": 0.96875,
       "step": 264
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.8958435058594,
-      "epoch": 0.1325,
-      "grad_norm": 2.0247597136853077,
-      "kl": 0.093994140625,
-      "learning_rate": 9.971073350544644e-07,
-      "loss": 0.0141,
-      "reward": 2.8639657497406006,
-      "reward_std": 0.18884775042533875,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.06658982113003731,
+      "completion_length": 629.7500305175781,
+      "epoch": 0.1942815249266862,
+      "grad_norm": 2.0038074970978776,
+      "kl": 0.1630859375,
+      "learning_rate": 9.760490677998522e-07,
+      "loss": 0.0212,
+      "reward": 2.1879026293754578,
+      "reward_std": 0.05894716642796993,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.04820855334401131,
       "rewards/tag_count_reward": 1.0,
       "step": 265
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 613.6041870117188,
-      "epoch": 0.133,
-      "grad_norm": 2.819432158137642,
-      "kl": 0.124267578125,
-      "learning_rate": 9.970177445201783e-07,
-      "loss": 0.0593,
-      "reward": 2.438739776611328,
-      "reward_std": 0.35922619700431824,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07688540033996105,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 698.6875305175781,
+      "epoch": 0.19501466275659823,
+      "grad_norm": 2.2584906259961723,
+      "kl": 0.14599609375,
+      "learning_rate": 9.756767939947943e-07,
+      "loss": 0.0732,
+      "reward": 2.205389618873596,
+      "reward_std": 0.015887603163719177,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.044610561802983284,
+      "rewards/tag_count_reward": 1.0,
       "step": 266
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 521.1458587646484,
-      "epoch": 0.1335,
-      "grad_norm": 2.046082487346144,
-      "kl": 0.101806640625,
-      "learning_rate": 9.969267922923188e-07,
-      "loss": 0.0155,
-      "reward": 2.68787944316864,
-      "reward_std": 0.290618859231472,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.09163457155227661,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 643.2291870117188,
+      "epoch": 0.19574780058651026,
+      "grad_norm": 2.342739537155942,
+      "kl": 0.16650390625,
+      "learning_rate": 9.753017296362071e-07,
+      "loss": 0.0894,
+      "reward": 2.6615763902664185,
+      "reward_std": 0.15336718410253525,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.043284930288791656,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 267
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 531.6041870117188,
-      "epoch": 0.134,
-      "grad_norm": 2.415289797288351,
-      "kl": 0.10546875,
-      "learning_rate": 9.968344786479415e-07,
-      "loss": 0.0305,
-      "reward": 2.6710007190704346,
-      "reward_std": 0.35774578154087067,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.05469386838376522,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 628.5,
+      "epoch": 0.19648093841642228,
+      "grad_norm": 2.2474890401882432,
+      "kl": 0.15087890625,
+      "learning_rate": 9.749238771828508e-07,
+      "loss": 0.0413,
+      "reward": 2.3291032314300537,
+      "reward_std": 0.29626287519931793,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05631352588534355,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 268
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 486.10418701171875,
-      "epoch": 0.1345,
-      "grad_norm": 2.0309227835825108,
-      "kl": 0.10546875,
-      "learning_rate": 9.967408038682505e-07,
-      "loss": 0.0142,
-      "reward": 2.8688745498657227,
-      "reward_std": 0.1512543261051178,
-      "rewards/accuracy_reward": 1.0,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.06688930839300156,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 607.5208435058594,
+      "epoch": 0.1972140762463343,
+      "grad_norm": 2.1688862261955264,
+      "kl": 0.17529296875,
+      "learning_rate": 9.745432391117634e-07,
+      "loss": 0.0159,
+      "reward": 2.17527574300766,
+      "reward_std": 0.11154358834028244,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.0400020070374012,
+      "rewards/tag_count_reward": 1.0,
       "step": 269
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 502.2708435058594,
-      "epoch": 0.135,
-      "grad_norm": 2.2773691497710242,
-      "kl": 0.1025390625,
-      "learning_rate": 9.96645768238595e-07,
-      "loss": 0.0202,
-      "reward": 2.5804989337921143,
-      "reward_std": 0.20569386333227158,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.10873730108141899,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 616.2291870117188,
+      "epoch": 0.19794721407624633,
+      "grad_norm": 2.272593328423986,
+      "kl": 0.18359375,
+      "learning_rate": 9.741598179182438e-07,
+      "loss": 0.0672,
+      "reward": 2.16366446018219,
+      "reward_std": 0.218302384018898,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.037724535912275314,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 270
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 519.25,
-      "epoch": 0.1355,
-      "grad_norm": 2.1749339879371896,
-      "kl": 0.106689453125,
-      "learning_rate": 9.965493720484698e-07,
-      "loss": 0.0813,
-      "reward": 2.627415657043457,
-      "reward_std": 0.32304753363132477,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.06702888198196888,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 586.5416870117188,
+      "epoch": 0.19868035190615835,
+      "grad_norm": 2.145976535817121,
+      "kl": 0.16748046875,
+      "learning_rate": 9.73773616115836e-07,
+      "loss": 0.0378,
+      "reward": 2.7103559970855713,
+      "reward_std": 0.017032308503985405,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0396440215408802,
+      "rewards/tag_count_reward": 1.0,
       "step": 271
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.9375305175781,
-      "epoch": 0.136,
-      "grad_norm": 1.908928580484598,
-      "kl": 0.12060546875,
-      "learning_rate": 9.964516155915151e-07,
-      "loss": 0.061,
-      "reward": 2.5479973554611206,
-      "reward_std": 0.32585373520851135,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.0770026333630085,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 587.3541870117188,
+      "epoch": 0.19941348973607037,
+      "grad_norm": 2.3472461743913517,
+      "kl": 0.18408203125,
+      "learning_rate": 9.733846362363127e-07,
+      "loss": 0.0767,
+      "reward": 2.156644105911255,
+      "reward_std": 0.13528572767972946,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.037800345569849014,
+      "rewards/tag_count_reward": 1.0,
       "step": 272
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 619.9791870117188,
-      "epoch": 0.1365,
-      "grad_norm": 1.9025926132999502,
-      "kl": 0.1201171875,
-      "learning_rate": 9.963524991655133e-07,
-      "loss": -0.02,
-      "reward": 2.6221734285354614,
-      "reward_std": 0.2964826971292496,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.07053492963314056,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 604.0208435058594,
+      "epoch": 0.2001466275659824,
+      "grad_norm": 2.087923346496973,
+      "kl": 0.162109375,
+      "learning_rate": 9.729928808296582e-07,
+      "loss": 0.0308,
+      "reward": 2.173057436943054,
+      "reward_std": 0.15152714774012566,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03527583181858063,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 273
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 577.2291870117188,
-      "epoch": 0.137,
-      "grad_norm": 2.695248913656631,
-      "kl": 0.11669921875,
-      "learning_rate": 9.962520230723906e-07,
-      "loss": -0.0972,
-      "reward": 2.581347942352295,
-      "reward_std": 0.22622781991958618,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.08184656128287315,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 501.2083435058594,
+      "epoch": 0.20087976539589442,
+      "grad_norm": 2.1601887207000066,
+      "kl": 0.19677734375,
+      "learning_rate": 9.725983524640518e-07,
+      "loss": 0.0332,
+      "reward": 1.9604487419128418,
+      "reward_std": 0.03581496700644493,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03260680288076401,
+      "rewards/tag_count_reward": 1.0,
       "step": 274
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 623.5208435058594,
-      "epoch": 0.1375,
-      "grad_norm": 3.342402691090167,
-      "kl": 0.12939453125,
-      "learning_rate": 9.961501876182148e-07,
-      "loss": 0.2172,
-      "reward": 2.620313286781311,
-      "reward_std": 0.4897034168243408,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.0689227245748043,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 496.00001525878906,
+      "epoch": 0.20161290322580644,
+      "grad_norm": 2.393209229139749,
+      "kl": 0.18994140625,
+      "learning_rate": 9.722010537258516e-07,
+      "loss": 0.0625,
+      "reward": 2.202053427696228,
+      "reward_std": 0.04029459087178111,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.034057735465466976,
+      "rewards/tag_count_reward": 1.0,
       "step": 275
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 522.1666717529297,
-      "epoch": 0.138,
-      "grad_norm": 2.3942345495108803,
-      "kl": 0.12939453125,
-      "learning_rate": 9.960469931131936e-07,
-      "loss": 0.0718,
-      "reward": 2.6490787267684937,
-      "reward_std": 0.3025604486465454,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.05925481766462326,
+      "completion_length": 487.875,
+      "epoch": 0.20234604105571846,
+      "grad_norm": 2.382514107507378,
+      "kl": 0.21142578125,
+      "learning_rate": 9.71800987219577e-07,
+      "loss": 0.0567,
+      "reward": 2.2166248559951782,
+      "reward_std": 0.036631904542446136,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02643065620213747,
       "rewards/tag_count_reward": 1.0,
       "step": 276
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 506.5,
-      "epoch": 0.1385,
-      "grad_norm": 2.3474305496678625,
-      "kl": 0.1181640625,
-      "learning_rate": 9.959424398716763e-07,
-      "loss": 0.0796,
-      "reward": 2.911013603210449,
-      "reward_std": 0.09207849018275738,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.06294489465653896,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 486.29168701171875,
+      "epoch": 0.20307917888563048,
+      "grad_norm": 2.2044873376719267,
+      "kl": 0.2001953125,
+      "learning_rate": 9.713981555678912e-07,
+      "loss": 0.0244,
+      "reward": 2.4693304300308228,
+      "reward_std": 0.03412939794361591,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.023725169710814953,
+      "rewards/tag_count_reward": 1.0,
       "step": 277
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 627.6666870117188,
-      "epoch": 0.139,
-      "grad_norm": 2.6905854255736252,
-      "kl": 0.15625,
-      "learning_rate": 9.958365282121496e-07,
-      "loss": 0.0858,
-      "reward": 2.7694180011749268,
-      "reward_std": 0.29491981118917465,
-      "rewards/accuracy_reward": 0.8541666865348816,
+      "completion_length": 469.0416717529297,
+      "epoch": 0.20381231671554254,
+      "grad_norm": 2.3670075341233603,
+      "kl": 0.20458984375,
+      "learning_rate": 9.709925614115849e-07,
+      "loss": 0.0399,
+      "reward": 2.7084211111068726,
+      "reward_std": 0.0664563006721437,
+      "rewards/accuracy_reward": 0.75,
       "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.06738761439919472,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "rewards/repetition_penalty_reward": -0.024217759259045124,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 278
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.91668701171875,
-      "epoch": 0.1395,
-      "grad_norm": 2.175289440432667,
-      "kl": 0.16796875,
-      "learning_rate": 9.95729258457239e-07,
-      "loss": 0.0046,
-      "reward": 2.836862325668335,
-      "reward_std": 0.21854999661445618,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.08674902468919754,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 279
-    },
-    {
+      "completion_length": 486.5,
+      "epoch": 0.20454545454545456,
+      "grad_norm": 2.191730991957038,
+      "kl": 0.22216796875,
+      "learning_rate": 9.705842074095585e-07,
+      "loss": 0.0132,
+      "reward": 2.4243065118789673,
+      "reward_std": 0.15112738870084286,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.02881855797022581,
+      "rewards/tag_count_reward": 0.9947916865348816,
+      "step": 279
+    },
+    {
       "clip_ratio": 0.0,
-      "completion_length": 577.4583435058594,
-      "epoch": 0.14,
-      "grad_norm": 5.672542060786621,
-      "kl": 0.24072265625,
-      "learning_rate": 9.956206309337066e-07,
-      "loss": -0.005,
-      "reward": 2.5967882871627808,
-      "reward_std": 0.48753632605075836,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.075086809694767,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 451.35418701171875,
+      "epoch": 0.20527859237536658,
+      "grad_norm": 2.4081949008810892,
+      "kl": 0.20947265625,
+      "learning_rate": 9.70173096238805e-07,
+      "loss": 0.0093,
+      "reward": 2.2207422256469727,
+      "reward_std": 0.02591150812804699,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024049400817602873,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 280
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 589.9791870117188,
-      "epoch": 0.1405,
-      "grad_norm": 5.053359884020266,
-      "kl": 0.23046875,
-      "learning_rate": 9.955106459724508e-07,
-      "loss": 0.1177,
-      "reward": 2.557823896408081,
-      "reward_std": 0.23683376610279083,
-      "rewards/accuracy_reward": 0.6666666716337204,
+      "completion_length": 515.75,
+      "epoch": 0.2060117302052786,
+      "grad_norm": 2.1888626480370226,
+      "kl": 0.19970703125,
+      "learning_rate": 9.697592305943917e-07,
+      "loss": 0.059,
+      "reward": 2.210089087486267,
+      "reward_std": 0.05643948353827,
+      "rewards/accuracy_reward": 0.25,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.0741206556558609,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02602214924991131,
+      "rewards/tag_count_reward": 1.0,
       "step": 281
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 647.2291870117188,
-      "epoch": 0.141,
-      "grad_norm": 3.63123333573302,
-      "kl": 0.2919921875,
-      "learning_rate": 9.953993039085048e-07,
-      "loss": 0.094,
-      "reward": 2.555752992630005,
-      "reward_std": 0.38118627667427063,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.06751113198697567,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 430.06251525878906,
+      "epoch": 0.20674486803519063,
+      "grad_norm": 2.306900726886975,
+      "kl": 0.234375,
+      "learning_rate": 9.693426131894432e-07,
+      "loss": 0.0345,
+      "reward": 2.2312620878219604,
+      "reward_std": 0.009207626804709435,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018738062120974064,
+      "rewards/tag_count_reward": 1.0,
       "step": 282
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 848.5000305175781,
-      "epoch": 0.1415,
-      "grad_norm": 12.94083486478269,
-      "kl": 0.4365234375,
-      "learning_rate": 9.952866050810363e-07,
-      "loss": 0.2525,
-      "reward": 2.34884250164032,
-      "reward_std": 0.5896148979663849,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.07476872578263283,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 468.8125,
+      "epoch": 0.20747800586510265,
+      "grad_norm": 2.50092671528508,
+      "kl": 0.2138671875,
+      "learning_rate": 9.689232467551244e-07,
+      "loss": 0.0516,
+      "reward": 2.225408911705017,
+      "reward_std": 0.02732059359550476,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019382827915251255,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 283
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 537.2500305175781,
-      "epoch": 0.142,
-      "grad_norm": 921.7663615274216,
-      "kl": 3.4921875,
-      "learning_rate": 9.951725498333448e-07,
-      "loss": 0.2981,
-      "reward": 2.666219711303711,
-      "reward_std": 0.38224542140960693,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.06121090054512024,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 484.00001525878906,
+      "epoch": 0.20821114369501467,
+      "grad_norm": 2.242448357158379,
+      "kl": 0.21533203125,
+      "learning_rate": 9.6850113404062e-07,
+      "loss": 0.0484,
+      "reward": 2.4914671182632446,
+      "reward_std": 0.08239620085805655,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029366333037614822,
+      "rewards/tag_count_reward": 1.0,
       "step": 284
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 840.1458740234375,
-      "epoch": 0.1425,
-      "grad_norm": 1120.8208786375085,
-      "kl": 8.21875,
-      "learning_rate": 9.950571385128625e-07,
-      "loss": 0.488,
-      "reward": 2.1636295914649963,
-      "reward_std": 0.5795368552207947,
-      "rewards/accuracy_reward": 0.3333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.07768993638455868,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 529.5416870117188,
+      "epoch": 0.2089442815249267,
+      "grad_norm": 2.1535790290088297,
+      "kl": 0.1884765625,
+      "learning_rate": 9.68076277813119e-07,
+      "loss": 0.0288,
+      "reward": 2.2297321557998657,
+      "reward_std": 0.009526743553578854,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02026796853169799,
+      "rewards/tag_count_reward": 1.0,
       "step": 285
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 779.0000305175781,
-      "epoch": 0.143,
-      "grad_norm": 13.757784684112176,
-      "kl": 0.984375,
-      "learning_rate": 9.949403714711526e-07,
-      "loss": 0.2595,
-      "reward": 2.427113175392151,
-      "reward_std": 0.5199109017848969,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.06420639157295227,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 474.4583435058594,
+      "epoch": 0.20967741935483872,
+      "grad_norm": 2.2587788742542476,
+      "kl": 0.23486328125,
+      "learning_rate": 9.67648680857796e-07,
+      "loss": 0.0467,
+      "reward": 2.2198795676231384,
+      "reward_std": 0.011471754871308804,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030120414681732655,
+      "rewards/tag_count_reward": 1.0,
       "step": 286
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 830.5208435058594,
-      "epoch": 0.1435,
-      "grad_norm": 24.88573937996162,
-      "kl": 0.892578125,
-      "learning_rate": 9.948222490639075e-07,
-      "loss": 0.3276,
-      "reward": 2.313633441925049,
-      "reward_std": 0.5377289652824402,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.07699155062437057,
-      "rewards/tag_count_reward": 0.8489583730697632,
+      "completion_length": 503.2708435058594,
+      "epoch": 0.21041055718475074,
+      "grad_norm": 2.2164587123984467,
+      "kl": 0.22021484375,
+      "learning_rate": 9.672183459777922e-07,
+      "loss": 0.0474,
+      "reward": 2.4430179595947266,
+      "reward_std": 0.08577717002481222,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025732184760272503,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 287
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 682.3750305175781,
-      "epoch": 0.144,
-      "grad_norm": 108.97734325463617,
-      "kl": 1.734375,
-      "learning_rate": 9.947027716509488e-07,
-      "loss": 0.2837,
-      "reward": 2.294344663619995,
-      "reward_std": 0.6158420443534851,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.07718315534293652,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 469.5833435058594,
+      "epoch": 0.21114369501466276,
+      "grad_norm": 2.362743221503858,
+      "kl": 0.224609375,
+      "learning_rate": 9.667852759941971e-07,
+      "loss": 0.0202,
+      "reward": 2.4414188861846924,
+      "reward_std": 0.10892442986369133,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02733116876333952,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 288
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 729.6875,
-      "epoch": 0.1445,
-      "grad_norm": 20.647159290728784,
-      "kl": 0.93359375,
-      "learning_rate": 9.94581939596225e-07,
-      "loss": 0.1069,
-      "reward": 2.5923370122909546,
-      "reward_std": 0.4817170798778534,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.058704692870378494,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 431.3333435058594,
+      "epoch": 0.2118768328445748,
+      "grad_norm": 2.394523367281667,
+      "kl": 0.24853515625,
+      "learning_rate": 9.663494737460316e-07,
+      "loss": 0.03,
+      "reward": 2.4509284496307373,
+      "reward_std": 0.11794408224523067,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.01608549989759922,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 289
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.1666870117188,
-      "epoch": 0.145,
-      "grad_norm": 23.007824810794826,
-      "kl": 0.37890625,
-      "learning_rate": 9.944597532678119e-07,
-      "loss": 0.1326,
-      "reward": 2.522615909576416,
-      "reward_std": 0.5047437995672226,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.07460657134652138,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 415.35418701171875,
+      "epoch": 0.2126099706744868,
+      "grad_norm": 2.247143974513609,
+      "kl": 0.23779296875,
+      "learning_rate": 9.659109420902268e-07,
+      "loss": 0.0313,
+      "reward": 2.225088596343994,
+      "reward_std": 0.02959524537436664,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.017966951709240675,
+      "rewards/tag_count_reward": 1.0,
       "step": 290
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 613.8125,
-      "epoch": 0.1455,
-      "grad_norm": 17.27026907734221,
-      "kl": 0.34375,
-      "learning_rate": 9.943362130379101e-07,
-      "loss": 0.1261,
-      "reward": 2.5630831718444824,
-      "reward_std": 0.35013893246650696,
-      "rewards/accuracy_reward": 0.6666666865348816,
+      "completion_length": 443.2916717529297,
+      "epoch": 0.21334310850439883,
+      "grad_norm": 2.2347183819263403,
+      "kl": 0.244140625,
+      "learning_rate": 9.654696839016074e-07,
+      "loss": 0.0357,
+      "reward": 2.465317726135254,
+      "reward_std": 0.046680874191224575,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.061916783452034,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.024265680462121964,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 291
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.3125152587891,
-      "epoch": 0.146,
-      "grad_norm": 24.305363731366423,
-      "kl": 0.4072265625,
-      "learning_rate": 9.942113192828444e-07,
-      "loss": 0.0284,
-      "reward": 2.6639617681503296,
-      "reward_std": 0.3908410295844078,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.05826057866215706,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 470.47918701171875,
+      "epoch": 0.21407624633431085,
+      "grad_norm": 2.2968281472400487,
+      "kl": 0.24072265625,
+      "learning_rate": 9.650257020728714e-07,
+      "loss": 0.0412,
+      "reward": 2.6881933212280273,
+      "reward_std": 0.11760031245648861,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03055677004158497,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 292
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 454.125,
-      "epoch": 0.1465,
-      "grad_norm": 7.404474348588299,
-      "kl": 0.22705078125,
-      "learning_rate": 9.940850723830632e-07,
-      "loss": 0.0509,
-      "reward": 2.862213373184204,
-      "reward_std": 0.18731126189231873,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.0613978561013937,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 428.9583435058594,
+      "epoch": 0.21480938416422288,
+      "grad_norm": 2.6544213087854915,
+      "kl": 0.24755859375,
+      "learning_rate": 9.645789995145727e-07,
+      "loss": 0.0737,
+      "reward": 2.4477990865707397,
+      "reward_std": 0.11806142888963223,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.01921477634459734,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 293
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 621.3125305175781,
-      "epoch": 0.147,
-      "grad_norm": 18.874856559368098,
-      "kl": 0.2001953125,
-      "learning_rate": 9.939574727231362e-07,
-      "loss": 0.0696,
-      "reward": 2.7581335306167603,
-      "reward_std": 0.3472418487071991,
-      "rewards/accuracy_reward": 0.8541666865348816,
+      "completion_length": 465.2291717529297,
+      "epoch": 0.2155425219941349,
+      "grad_norm": 2.4050553831347856,
+      "kl": 0.23291015625,
+      "learning_rate": 9.641295791551005e-07,
+      "loss": 0.0226,
+      "reward": 2.7129329442977905,
+      "reward_std": 0.07855140301398933,
+      "rewards/accuracy_reward": 0.7291666865348816,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.06999156251549721,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.016233783215284348,
+      "rewards/tag_count_reward": 1.0,
       "step": 294
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 549.125,
-      "epoch": 0.1475,
-      "grad_norm": 3.2744531346829038,
-      "kl": 0.14990234375,
-      "learning_rate": 9.93828520691754e-07,
-      "loss": 0.0335,
-      "reward": 2.661821484565735,
-      "reward_std": 0.22525277733802795,
-      "rewards/accuracy_reward": 0.7500000298023224,
+      "completion_length": 434.875,
+      "epoch": 0.21627565982404692,
+      "grad_norm": 2.469488150327451,
+      "kl": 0.2431640625,
+      "learning_rate": 9.63677443940661e-07,
+      "loss": 0.0516,
+      "reward": 2.4651942253112793,
+      "reward_std": 0.03956274874508381,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.08123417943716049,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022653001360595226,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 295
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 630.3958435058594,
-      "epoch": 0.148,
-      "grad_norm": 3.3512313017643782,
-      "kl": 0.212890625,
-      "learning_rate": 9.93698216681727e-07,
-      "loss": 0.0249,
-      "reward": 2.5591964721679688,
-      "reward_std": 0.309579461812973,
-      "rewards/accuracy_reward": 0.6458333730697632,
+      "completion_length": 485.06251525878906,
+      "epoch": 0.21700879765395895,
+      "grad_norm": 2.2897669783775063,
+      "kl": 0.23681640625,
+      "learning_rate": 9.632225968352577e-07,
+      "loss": 0.0192,
+      "reward": 2.234976053237915,
+      "reward_std": 0.010166795924305916,
+      "rewards/accuracy_reward": 0.25,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.086636982858181,
+      "rewards/repetition_penalty_reward": -0.015024024993181229,
       "rewards/tag_count_reward": 1.0,
       "step": 296
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 570.3958740234375,
-      "epoch": 0.1485,
-      "grad_norm": 19.392543852050114,
-      "kl": 0.19921875,
-      "learning_rate": 9.93566561089984e-07,
-      "loss": 0.1167,
-      "reward": 2.6523066759109497,
-      "reward_std": 0.39907996356487274,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.05429063364863396,
+      "completion_length": 480.7708435058594,
+      "epoch": 0.21774193548387097,
+      "grad_norm": 2.3075335900529943,
+      "kl": 0.26123046875,
+      "learning_rate": 9.62765040820672e-07,
+      "loss": -0.0061,
+      "reward": 2.465970039367676,
+      "reward_std": 0.06250624358654022,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018405052833259106,
       "rewards/tag_count_reward": 0.9843750298023224,
       "step": 297
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.3125305175781,
-      "epoch": 0.149,
-      "grad_norm": 4.2670800629296775,
-      "kl": 0.22900390625,
-      "learning_rate": 9.934335543175705e-07,
-      "loss": 0.022,
-      "reward": 2.6927382946014404,
-      "reward_std": 0.3433649092912674,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.05899788439273834,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 415.2708435058594,
+      "epoch": 0.218475073313783,
+      "grad_norm": 2.2643235265355184,
+      "kl": 0.24951171875,
+      "learning_rate": 9.623047788964438e-07,
+      "loss": 0.0291,
+      "reward": 1.9690996408462524,
+      "reward_std": 0.06486085802316666,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013539265841245651,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 298
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 618.9583435058594,
-      "epoch": 0.1495,
-      "grad_norm": 15.195924787873745,
-      "kl": 0.28076171875,
-      "learning_rate": 9.932991967696482e-07,
-      "loss": 0.1031,
-      "reward": 2.660310745239258,
-      "reward_std": 0.16687491163611412,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.041078392416238785,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 468.87501525878906,
+      "epoch": 0.21920821114369501,
+      "grad_norm": 2.3259557842622804,
+      "kl": 0.2607421875,
+      "learning_rate": 9.61841814079852e-07,
+      "loss": 0.0513,
+      "reward": 2.464868426322937,
+      "reward_std": 0.07912581693381071,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01429840736091137,
+      "rewards/tag_count_reward": 1.0,
       "step": 299
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 555.4375305175781,
-      "epoch": 0.15,
-      "grad_norm": 23.003706484527033,
-      "kl": 0.33984375,
-      "learning_rate": 9.931634888554935e-07,
-      "loss": 0.1633,
-      "reward": 2.595449686050415,
-      "reward_std": 0.35070881247520447,
-      "rewards/accuracy_reward": 0.6666666865348816,
+      "completion_length": 500.9583435058594,
+      "epoch": 0.21994134897360704,
+      "grad_norm": 2.298594281909164,
+      "kl": 0.2568359375,
+      "learning_rate": 9.613761494058944e-07,
+      "loss": 0.0419,
+      "reward": 2.2143933176994324,
+      "reward_std": 0.0780528886243701,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.039967115968465805,
-      "rewards/tag_count_reward": 0.96875,
+      "rewards/repetition_penalty_reward": -0.01477324403822422,
+      "rewards/tag_count_reward": 1.0,
       "step": 300
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.4791870117188,
-      "epoch": 0.1505,
-      "grad_norm": 29.883708582664426,
-      "kl": 1.10546875,
-      "learning_rate": 9.930264309884964e-07,
-      "loss": 0.1903,
-      "reward": 2.266157388687134,
-      "reward_std": 0.4054761230945587,
-      "rewards/accuracy_reward": 0.3541666716337204,
+      "completion_length": 494.1666717529297,
+      "epoch": 0.22067448680351906,
+      "grad_norm": 2.473598352431548,
+      "kl": 0.2529296875,
+      "learning_rate": 9.609077879272677e-07,
+      "loss": 0.0927,
+      "reward": 2.474399447441101,
+      "reward_std": 0.025512659922242165,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.05155107006430626,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.020392313599586487,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 559.6875305175781,
-      "epoch": 0.151,
-      "grad_norm": 53.32541543626509,
-      "kl": 1.33203125,
-      "learning_rate": 9.928880235861588e-07,
-      "loss": 0.0845,
-      "reward": 2.680440068244934,
-      "reward_std": 0.240939699113369,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 432.85418701171875,
+      "epoch": 0.22140762463343108,
+      "grad_norm": 2.4769798485568435,
+      "kl": 0.2724609375,
+      "learning_rate": 9.604367327143478e-07,
+      "loss": 0.0744,
+      "reward": 2.7345763444900513,
+      "reward_std": 0.009569189045578241,
+      "rewards/accuracy_reward": 0.75,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.033101567067205906,
-      "rewards/tag_count_reward": 0.984375,
+      "rewards/repetition_penalty_reward": -0.015423623379319906,
+      "rewards/tag_count_reward": 1.0,
       "step": 302
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 569.5833587646484,
-      "epoch": 0.1515,
-      "grad_norm": 64.08652020758656,
-      "kl": 1.0302734375,
-      "learning_rate": 9.927482670700936e-07,
-      "loss": 0.1684,
-      "reward": 2.6656733751296997,
-      "reward_std": 0.3831760287284851,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.054812896996736526,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 485.9583435058594,
+      "epoch": 0.2221407624633431,
+      "grad_norm": 2.059232163669745,
+      "kl": 0.271484375,
+      "learning_rate": 9.599629868551694e-07,
+      "loss": 0.0208,
+      "reward": 2.714403748512268,
+      "reward_std": 0.07619825517758727,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014763115905225277,
+      "rewards/tag_count_reward": 1.0,
       "step": 303
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 505.60418701171875,
-      "epoch": 0.152,
-      "grad_norm": 4.124901631085503,
-      "kl": 0.162109375,
-      "learning_rate": 9.926071618660237e-07,
-      "loss": -0.017,
-      "reward": 2.7977336645126343,
-      "reward_std": 0.2716551870107651,
-      "rewards/accuracy_reward": 0.8541666865348816,
+      "completion_length": 451.75001525878906,
+      "epoch": 0.22287390029325513,
+      "grad_norm": 2.284473798213216,
+      "kl": 0.2861328125,
+      "learning_rate": 9.594865534554065e-07,
+      "loss": 0.0445,
+      "reward": 2.2089085578918457,
+      "reward_std": 0.10246565705165267,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.04948872700333595,
+      "rewards/repetition_penalty_reward": -0.0133137465454638,
       "rewards/tag_count_reward": 1.0,
       "step": 304
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 535.5000305175781,
-      "epoch": 0.1525,
-      "grad_norm": 2.3959309961624955,
-      "kl": 0.169921875,
-      "learning_rate": 9.924647084037797e-07,
-      "loss": 0.028,
-      "reward": 2.503369092941284,
-      "reward_std": 0.22217638790607452,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.057394931092858315,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 447.125,
+      "epoch": 0.22360703812316715,
+      "grad_norm": 2.340649408671738,
+      "kl": 0.2978515625,
+      "learning_rate": 9.59007435638351e-07,
+      "loss": 0.0569,
+      "reward": 2.461604356765747,
+      "reward_std": 0.0789910196326673,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01756238378584385,
+      "rewards/tag_count_reward": 1.0,
       "step": 305
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 533.0208435058594,
-      "epoch": 0.153,
-      "grad_norm": 2.4185306667509985,
-      "kl": 0.149658203125,
-      "learning_rate": 9.923209071172994e-07,
-      "loss": 0.0305,
-      "reward": 2.573015809059143,
-      "reward_std": 0.3675818666815758,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06934532895684242,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 440.1875,
+      "epoch": 0.22434017595307917,
+      "grad_norm": 2.3064380591396088,
+      "kl": 0.3193359375,
+      "learning_rate": 9.585256365448923e-07,
+      "loss": 0.0539,
+      "reward": 1.9698742032051086,
+      "reward_std": 0.04649292537942529,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01450089504942298,
+      "rewards/tag_count_reward": 0.984375,
       "step": 306
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 533.2500305175781,
-      "epoch": 0.1535,
-      "grad_norm": 3.4451894822132405,
-      "kl": 0.146484375,
-      "learning_rate": 9.921757584446268e-07,
-      "loss": 0.038,
-      "reward": 2.809865355491638,
-      "reward_std": 0.27805351465940475,
-      "rewards/accuracy_reward": 0.8958333730697632,
+      "completion_length": 457.0833435058594,
+      "epoch": 0.2250733137829912,
+      "grad_norm": 2.648188486696646,
+      "kl": 0.33203125,
+      "learning_rate": 9.580411593334981e-07,
+      "loss": 0.1127,
+      "reward": 2.217950165271759,
+      "reward_std": 0.06731168460100889,
+      "rewards/accuracy_reward": 0.25,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.07902374118566513,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014688808470964432,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 307
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 626.2708740234375,
-      "epoch": 0.154,
-      "grad_norm": 4.282437820486171,
-      "kl": 0.18994140625,
-      "learning_rate": 9.9202926282791e-07,
-      "loss": 0.0255,
-      "reward": 2.4780622720718384,
-      "reward_std": 0.4932084083557129,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.051451750099658966,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 441.37501525878906,
+      "epoch": 0.22580645161290322,
+      "grad_norm": 2.309228727065534,
+      "kl": 0.3447265625,
+      "learning_rate": 9.575540071801917e-07,
+      "loss": 0.0566,
+      "reward": 2.4283636808395386,
+      "reward_std": 0.15362592600286007,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.012608693446964025,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 308
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 544.6875305175781,
-      "epoch": 0.1545,
-      "grad_norm": 3.8575808680226182,
-      "kl": 0.16064453125,
-      "learning_rate": 9.918814207133997e-07,
-      "loss": -0.0068,
-      "reward": 2.1725984811782837,
-      "reward_std": 0.3830345869064331,
-      "rewards/accuracy_reward": 0.2916666716337204,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.08434605225920677,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 465.18751525878906,
+      "epoch": 0.22653958944281524,
+      "grad_norm": 2.614179249326471,
+      "kl": 0.384765625,
+      "learning_rate": 9.570641832785327e-07,
+      "loss": 0.094,
+      "reward": 2.6822060346603394,
+      "reward_std": 0.13260857947170734,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01571073057129979,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 309
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 556.2083740234375,
-      "epoch": 0.155,
-      "grad_norm": 2.30299380218455,
-      "kl": 0.1865234375,
-      "learning_rate": 9.917322325514487e-07,
-      "loss": 0.0359,
-      "reward": 2.8288975954055786,
-      "reward_std": 0.22805538028478622,
+      "completion_length": 450.7708435058594,
+      "epoch": 0.22727272727272727,
+      "grad_norm": 2.417871183482608,
+      "kl": 0.4619140625,
+      "learning_rate": 9.565716908395955e-07,
+      "loss": 0.0293,
+      "reward": 2.8668872117996216,
+      "reward_std": 0.2632347270846367,
       "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.05999153107404709,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018529420718550682,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 310
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 571.8333435058594,
-      "epoch": 0.1555,
-      "grad_norm": 13.544980888404456,
-      "kl": 0.1787109375,
-      "learning_rate": 9.915816987965102e-07,
-      "loss": 0.1167,
-      "reward": 2.6313341856002808,
-      "reward_std": 0.3306514471769333,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.06137407571077347,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 432.56251525878906,
+      "epoch": 0.2280058651026393,
+      "grad_norm": 3.0765232905747797,
+      "kl": 0.4814453125,
+      "learning_rate": 9.56076533091948e-07,
+      "loss": -0.0079,
+      "reward": 2.4041491746902466,
+      "reward_std": 0.23771148175001144,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012517540715634823,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 311
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 601.6041870117188,
-      "epoch": 0.156,
-      "grad_norm": 7.684331357658625,
-      "kl": 0.29296875,
-      "learning_rate": 9.91429819907136e-07,
-      "loss": 0.1471,
-      "reward": 2.8133013248443604,
-      "reward_std": 0.28423790633678436,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.06690708734095097,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 469.8958435058594,
+      "epoch": 0.2287390029325513,
+      "grad_norm": 2.240908886249793,
+      "kl": 0.4716796875,
+      "learning_rate": 9.55578713281631e-07,
+      "loss": 0.0439,
+      "reward": 2.4784440994262695,
+      "reward_std": 0.030433733016252518,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.014611462131142616,
+      "rewards/tag_count_reward": 1.0,
       "step": 312
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 568.6666870117188,
-      "epoch": 0.1565,
-      "grad_norm": 16.451352502057013,
-      "kl": 0.5234375,
-      "learning_rate": 9.912765963459756e-07,
-      "loss": -0.0008,
-      "reward": 2.7371630668640137,
-      "reward_std": 0.3937046229839325,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.05103146657347679,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 455.1666717529297,
+      "epoch": 0.22947214076246333,
+      "grad_norm": 2.520573028942589,
+      "kl": 0.4326171875,
+      "learning_rate": 9.550782346721367e-07,
+      "loss": 0.0075,
+      "reward": 2.711169958114624,
+      "reward_std": 0.07687797211110592,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.011052338872104883,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 313
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 538.75,
-      "epoch": 0.157,
-      "grad_norm": 5.827769683111703,
-      "kl": 0.4130859375,
-      "learning_rate": 9.911220285797748e-07,
-      "loss": 0.0415,
-      "reward": 2.58489727973938,
-      "reward_std": 0.38202086091041565,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.06614442355930805,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 428.8541717529297,
+      "epoch": 0.23020527859237536,
+      "grad_norm": 2.3656359919816317,
+      "kl": 0.357421875,
+      "learning_rate": 9.545751005443868e-07,
+      "loss": 0.038,
+      "reward": 2.6742382049560547,
+      "reward_std": 0.11472383048385382,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.016734230797737837,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 314
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 527.9166870117188,
-      "epoch": 0.1575,
-      "grad_norm": 7.880587052881426,
-      "kl": 0.20703125,
-      "learning_rate": 9.909661170793733e-07,
-      "loss": 0.1088,
-      "reward": 2.4540834426879883,
-      "reward_std": 0.39223696291446686,
-      "rewards/accuracy_reward": 0.5208333432674408,
+      "completion_length": 444.85418701171875,
+      "epoch": 0.23093841642228738,
+      "grad_norm": 2.3225730368171638,
+      "kl": 0.3291015625,
+      "learning_rate": 9.54069314196712e-07,
+      "loss": 0.0479,
+      "reward": 2.733163356781006,
+      "reward_std": 0.029640105552971363,
+      "rewards/accuracy_reward": 0.75,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.059805694967508316,
+      "rewards/repetition_penalty_reward": -0.009892286732792854,
       "rewards/tag_count_reward": 1.0,
       "step": 315
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 550.7291717529297,
-      "epoch": 0.158,
-      "grad_norm": 6.6106566025225515,
-      "kl": 0.314453125,
-      "learning_rate": 9.908088623197048e-07,
-      "loss": 0.013,
-      "reward": 2.4705549478530884,
-      "reward_std": 0.46846726536750793,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.058959029614925385,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 441.16668701171875,
+      "epoch": 0.2316715542521994,
+      "grad_norm": 2.0945568663598833,
+      "kl": 0.330078125,
+      "learning_rate": 9.535608789448292e-07,
+      "loss": -0.0054,
+      "reward": 2.2132298946380615,
+      "reward_std": 0.074584124609828,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.015936759300529957,
+      "rewards/tag_count_reward": 1.0,
       "step": 316
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 567.0208435058594,
-      "epoch": 0.1585,
-      "grad_norm": 2.7832594906032084,
-      "kl": 0.24462890625,
-      "learning_rate": 9.906502647797945e-07,
-      "loss": -0.0046,
-      "reward": 2.705116033554077,
-      "reward_std": 0.33963292837142944,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.058772869408130646,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 445.9166717529297,
+      "epoch": 0.23240469208211142,
+      "grad_norm": 2.2173137518118557,
+      "kl": 0.31640625,
+      "learning_rate": 9.53049798121821e-07,
+      "loss": 0.0195,
+      "reward": 2.6972047090530396,
+      "reward_std": 0.1472337245941162,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011128632817417383,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 317
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 566.4583435058594,
-      "epoch": 0.159,
-      "grad_norm": 6.607393683777124,
-      "kl": 0.19873046875,
-      "learning_rate": 9.904903249427582e-07,
-      "loss": 0.0072,
-      "reward": 2.756907343864441,
-      "reward_std": 0.3417035788297653,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.074690081179142,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 434.0208435058594,
+      "epoch": 0.23313782991202345,
+      "grad_norm": 2.2714359196119216,
+      "kl": 0.298828125,
+      "learning_rate": 9.525360750781127e-07,
+      "loss": 0.023,
+      "reward": 2.46536922454834,
+      "reward_std": 0.05973909609019756,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.013797647785395384,
+      "rewards/tag_count_reward": 1.0,
       "step": 318
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 525.0833587646484,
-      "epoch": 0.1595,
-      "grad_norm": 12.632626492261867,
-      "kl": 0.22802734375,
-      "learning_rate": 9.903290432958003e-07,
-      "loss": 0.0901,
-      "reward": 2.739717960357666,
-      "reward_std": 0.4267748296260834,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03979583643376827,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 472.50001525878906,
+      "epoch": 0.23387096774193547,
+      "grad_norm": 2.3225641603627203,
+      "kl": 0.310546875,
+      "learning_rate": 9.520197131814513e-07,
+      "loss": -0.0068,
+      "reward": 2.4521666765213013,
+      "reward_std": 0.10633763670921326,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.013111229985952377,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 319
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.00001525878906,
-      "epoch": 0.16,
-      "grad_norm": 3.2432048734417296,
-      "kl": 0.169921875,
-      "learning_rate": 9.901664203302124e-07,
-      "loss": 0.0588,
-      "reward": 2.945529341697693,
-      "reward_std": 0.02130332589149475,
-      "rewards/accuracy_reward": 1.0,
+      "completion_length": 471.54168701171875,
+      "epoch": 0.23460410557184752,
+      "grad_norm": 2.7993035724053668,
+      "kl": 0.2958984375,
+      "learning_rate": 9.515007158168826e-07,
+      "loss": 0.0932,
+      "reward": 2.487420082092285,
+      "reward_std": 0.01015830459073186,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.054470714181661606,
+      "rewards/repetition_penalty_reward": -0.012580114882439375,
       "rewards/tag_count_reward": 1.0,
       "step": 320
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 511.7708435058594,
-      "epoch": 0.1605,
-      "grad_norm": 13.83323285922156,
-      "kl": 0.26025390625,
-      "learning_rate": 9.900024565413727e-07,
-      "loss": 0.075,
-      "reward": 2.590381622314453,
-      "reward_std": 0.46982041001319885,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.06760460883378983,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 462.37501525878906,
+      "epoch": 0.23533724340175954,
+      "grad_norm": 2.299642746627153,
+      "kl": 0.3056640625,
+      "learning_rate": 9.509790863867295e-07,
+      "loss": 0.0191,
+      "reward": 2.6968696117401123,
+      "reward_std": 0.13661886751651764,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.014936027117073536,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 321
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 568.3958435058594,
-      "epoch": 0.161,
-      "grad_norm": 15.041988051632119,
-      "kl": 0.603515625,
-      "learning_rate": 9.89837152428743e-07,
-      "loss": 0.0217,
-      "reward": 2.7006497383117676,
-      "reward_std": 0.3142661973834038,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.04761423170566559,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 464.31251525878906,
+      "epoch": 0.23607038123167157,
+      "grad_norm": 2.302831523396359,
+      "kl": 0.3037109375,
+      "learning_rate": 9.504548283105699e-07,
+      "loss": 0.0451,
+      "reward": 2.207852602005005,
+      "reward_std": 0.10325483605265617,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.01436968706548214,
+      "rewards/tag_count_reward": 1.0,
       "step": 322
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 498.0833435058594,
-      "epoch": 0.1615,
-      "grad_norm": 8.377756641490475,
-      "kl": 0.564453125,
-      "learning_rate": 9.896705084958687e-07,
-      "loss": 0.0812,
-      "reward": 2.581056237220764,
-      "reward_std": 0.424957811832428,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04741601645946503,
+      "completion_length": 450.7916717529297,
+      "epoch": 0.2368035190615836,
+      "grad_norm": 2.5294492963009243,
+      "kl": 0.3466796875,
+      "learning_rate": 9.499279450252134e-07,
+      "loss": 0.0435,
+      "reward": 2.4603819847106934,
+      "reward_std": 0.07487065717577934,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.01531249936670065,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 323
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 561.6875,
-      "epoch": 0.162,
-      "grad_norm": 24.710240478593196,
-      "kl": 0.708984375,
-      "learning_rate": 9.895025252503755e-07,
-      "loss": 0.2563,
-      "reward": 2.6197162866592407,
-      "reward_std": 0.4363028407096863,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.05736706592142582,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 480.0625,
+      "epoch": 0.2375366568914956,
+      "grad_norm": 2.895694121410533,
+      "kl": 0.369140625,
+      "learning_rate": 9.493984399846797e-07,
+      "loss": 0.0487,
+      "reward": 2.2224709391593933,
+      "reward_std": 0.04628606699407101,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.010167931206524372,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 324
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.5625,
-      "epoch": 0.1625,
-      "grad_norm": 9.070483774061584,
-      "kl": 0.58203125,
-      "learning_rate": 9.8933320320397e-07,
-      "loss": 0.0186,
-      "reward": 2.583137035369873,
-      "reward_std": 0.3166651949286461,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04707140102982521,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 439.1875,
+      "epoch": 0.23826979472140764,
+      "grad_norm": 2.8875499359334356,
+      "kl": 0.3447265625,
+      "learning_rate": 9.488663166601758e-07,
+      "loss": 0.0641,
+      "reward": 2.215409219264984,
+      "reward_std": 0.07832126133143902,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.01375747099518776,
+      "rewards/tag_count_reward": 1.0,
       "step": 325
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 480.0416717529297,
-      "epoch": 0.163,
-      "grad_norm": 4.3751653300427655,
-      "kl": 0.4638671875,
-      "learning_rate": 9.891625428724364e-07,
-      "loss": 0.0585,
-      "reward": 2.6971195936203003,
-      "reward_std": 0.33363979309797287,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.04072774015367031,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 504.1458435058594,
+      "epoch": 0.23900293255131966,
+      "grad_norm": 3.1100488401558453,
+      "kl": 0.40234375,
+      "learning_rate": 9.483315785400726e-07,
+      "loss": 0.1025,
+      "reward": 2.4860798120498657,
+      "reward_std": 0.008559350855648518,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013920174911618233,
+      "rewards/tag_count_reward": 1.0,
       "step": 326
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.9791717529297,
-      "epoch": 0.1635,
-      "grad_norm": 8.17049817832142,
-      "kl": 0.4169921875,
-      "learning_rate": 9.889905447756355e-07,
-      "loss": -0.0211,
-      "reward": 2.66062331199646,
-      "reward_std": 0.09492377191781998,
+      "completion_length": 478.77085876464844,
+      "epoch": 0.23973607038123168,
+      "grad_norm": 4.380042599170408,
+      "kl": 0.435546875,
+      "learning_rate": 9.477942291298827e-07,
+      "loss": 0.0878,
+      "reward": 2.7181226015090942,
+      "reward_std": 0.08395953010767698,
       "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.05639079958200455,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.009308004518970847,
+      "rewards/tag_count_reward": 0.984375,
       "step": 327
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 553.0833435058594,
-      "epoch": 0.164,
-      "grad_norm": 11.036171582992713,
-      "kl": 0.36328125,
-      "learning_rate": 9.888172094375033e-07,
-      "loss": -0.0311,
-      "reward": 2.6875771284103394,
-      "reward_std": 0.2717094421386719,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.053742485120892525,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 486.16668701171875,
+      "epoch": 0.2404692082111437,
+      "grad_norm": 5.1350823066691245,
+      "kl": 0.4521484375,
+      "learning_rate": 9.472542719522371e-07,
+      "loss": 0.0624,
+      "reward": 2.9456522464752197,
+      "reward_std": 0.14936763793230057,
+      "rewards/accuracy_reward": 0.9791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012681130785495043,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 328
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 475.93751525878906,
-      "epoch": 0.1645,
-      "grad_norm": 2.6290357341375863,
-      "kl": 0.166015625,
-      "learning_rate": 9.886425373860496e-07,
-      "loss": -0.0091,
-      "reward": 2.445455312728882,
-      "reward_std": 0.3463872969150543,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.04239194467663765,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 477.2708435058594,
+      "epoch": 0.24120234604105573,
+      "grad_norm": 24.607110481841282,
+      "kl": 1.037109375,
+      "learning_rate": 9.467117105468623e-07,
+      "loss": 0.1827,
+      "reward": 2.4695119857788086,
+      "reward_std": 0.07141697756014764,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013127019628882408,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 329
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 549.9791870117188,
-      "epoch": 0.165,
-      "grad_norm": 2.8947233993694232,
-      "kl": 0.15380859375,
-      "learning_rate": 9.88466529153356e-07,
-      "loss": 0.0504,
-      "reward": 2.676490306854248,
-      "reward_std": 0.26038385927677155,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07350974902510643,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 452.8333435058594,
+      "epoch": 0.24193548387096775,
+      "grad_norm": 65.55752383537028,
+      "kl": 1.91015625,
+      "learning_rate": 9.461665484705571e-07,
+      "loss": 0.1293,
+      "reward": 2.2242066860198975,
+      "reward_std": 0.04578477330505848,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010168405715376139,
+      "rewards/tag_count_reward": 0.984375,
       "step": 330
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 442.12501525878906,
-      "epoch": 0.1655,
-      "grad_norm": 2.304611040563405,
-      "kl": 0.1357421875,
-      "learning_rate": 9.882891852755732e-07,
-      "loss": 0.0241,
-      "reward": 2.857384443283081,
-      "reward_std": 0.18227218464016914,
-      "rewards/accuracy_reward": 0.9375,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06622675433754921,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 460.18751525878906,
+      "epoch": 0.24266862170087977,
+      "grad_norm": 27.520381811057142,
+      "kl": 1.36328125,
+      "learning_rate": 9.456187892971687e-07,
+      "loss": 0.1238,
+      "reward": 2.4319708347320557,
+      "reward_std": 0.148020438849926,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.009001555386930704,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 331
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.7708435058594,
-      "epoch": 0.166,
-      "grad_norm": 2.2368549675600944,
-      "kl": 0.13671875,
-      "learning_rate": 9.881105062929221e-07,
-      "loss": -0.0458,
-      "reward": 2.5673773288726807,
-      "reward_std": 0.4164246767759323,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.040261661633849144,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 470.9166717529297,
+      "epoch": 0.2434017595307918,
+      "grad_norm": 5.897429847753733,
+      "kl": 0.580078125,
+      "learning_rate": 9.450684366175703e-07,
+      "loss": 0.0808,
+      "reward": 2.2141419649124146,
+      "reward_std": 0.08268354088068008,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013288679532706738,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 332
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 583.4375152587891,
-      "epoch": 0.1665,
-      "grad_norm": 3.020419228903663,
-      "kl": 0.12939453125,
-      "learning_rate": 9.879304927496896e-07,
-      "loss": 0.1167,
-      "reward": 2.7053964138031006,
-      "reward_std": 0.3210095912218094,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06196486949920654,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 459.56251525878906,
+      "epoch": 0.24413489736070382,
+      "grad_norm": 4.821721286003609,
+      "kl": 0.48828125,
+      "learning_rate": 9.445154940396367e-07,
+      "loss": 0.0482,
+      "reward": 2.23613703250885,
+      "reward_std": 0.008423366351053119,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01386305270716548,
+      "rewards/tag_count_reward": 1.0,
       "step": 333
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 529.2708587646484,
-      "epoch": 0.167,
-      "grad_norm": 2.375485512826028,
-      "kl": 0.142578125,
-      "learning_rate": 9.877491451942284e-07,
-      "loss": 0.0589,
-      "reward": 2.5137102603912354,
-      "reward_std": 0.3925721198320389,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.05747038125991821,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 461.72918701171875,
+      "epoch": 0.24486803519061584,
+      "grad_norm": 4.5305477335749424,
+      "kl": 0.39453125,
+      "learning_rate": 9.439599651882211e-07,
+      "loss": 0.0641,
+      "reward": 1.9890110492706299,
+      "reward_std": 0.12262681126594543,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010989056900143623,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 334
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.5,
-      "epoch": 0.1675,
-      "grad_norm": 4.018502569391315,
-      "kl": 0.146484375,
-      "learning_rate": 9.875664641789543e-07,
-      "loss": 0.1097,
-      "reward": 2.4702670574188232,
-      "reward_std": 0.21461456269025803,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.050566382706165314,
+      "completion_length": 429.4166717529297,
+      "epoch": 0.24560117302052786,
+      "grad_norm": 3.0480664219928526,
+      "kl": 0.3857421875,
+      "learning_rate": 9.43401853705131e-07,
+      "loss": 0.0616,
+      "reward": 2.2384225726127625,
+      "reward_std": 0.008934499695897102,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011577559635043144,
       "rewards/tag_count_reward": 1.0,
       "step": 335
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 563.6875,
-      "epoch": 0.168,
-      "grad_norm": 2.9361596954162597,
-      "kl": 0.14208984375,
-      "learning_rate": 9.873824502603459e-07,
-      "loss": -0.0059,
-      "reward": 2.709442138671875,
-      "reward_std": 0.3301195055246353,
-      "rewards/accuracy_reward": 0.7708333730697632,
+      "completion_length": 443.37501525878906,
+      "epoch": 0.24633431085043989,
+      "grad_norm": 2.9009848462349264,
+      "kl": 0.443359375,
+      "learning_rate": 9.428411632491048e-07,
+      "loss": 0.054,
+      "reward": 2.1951489448547363,
+      "reward_std": 0.10253655072301626,
+      "rewards/accuracy_reward": 0.2083333432674408,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.06139139086008072,
+      "rewards/repetition_penalty_reward": -0.013184436596930027,
       "rewards/tag_count_reward": 1.0,
       "step": 336
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 590.7916870117188,
-      "epoch": 0.1685,
-      "grad_norm": 4.349944868969375,
-      "kl": 0.1650390625,
-      "learning_rate": 9.871971039989407e-07,
-      "loss": 0.0989,
-      "reward": 2.6142622232437134,
-      "reward_std": 0.44250747561454773,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.07844629138708115,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 432.5833435058594,
+      "epoch": 0.2470674486803519,
+      "grad_norm": 7.098171576738261,
+      "kl": 0.4609375,
+      "learning_rate": 9.422778974957873e-07,
+      "loss": -0.0096,
+      "reward": 2.2252637147903442,
+      "reward_std": 0.20562057942152023,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.007375375367701054,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 337
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 454.06251525878906,
-      "epoch": 0.169,
-      "grad_norm": 2.19737492930891,
-      "kl": 0.16650390625,
-      "learning_rate": 9.870104259593362e-07,
-      "loss": 0.0282,
-      "reward": 2.822553515434265,
-      "reward_std": 0.14519703015685081,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.04550204798579216,
+      "completion_length": 456.5833435058594,
+      "epoch": 0.24780058651026393,
+      "grad_norm": 4.45344368844307,
+      "kl": 0.4345703125,
+      "learning_rate": 9.41712060137706e-07,
+      "loss": 0.0747,
+      "reward": 2.2418224811553955,
+      "reward_std": 0.006912755314260721,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.008177584502846003,
       "rewards/tag_count_reward": 1.0,
       "step": 338
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 521.3333435058594,
-      "epoch": 0.1695,
-      "grad_norm": 2.595702991755517,
-      "kl": 0.21337890625,
-      "learning_rate": 9.86822416710186e-07,
-      "loss": -0.0125,
-      "reward": 2.728282928466797,
-      "reward_std": 0.35869090259075165,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04255035147070885,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 496.27085876464844,
+      "epoch": 0.24853372434017595,
+      "grad_norm": 6.6523792877479675,
+      "kl": 0.51953125,
+      "learning_rate": 9.411436548842465e-07,
+      "loss": 0.1281,
+      "reward": 2.1983273029327393,
+      "reward_std": 0.1371548529714346,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013478230219334364,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 339
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 487.3333435058594,
-      "epoch": 0.17,
-      "grad_norm": 2.150403718440524,
-      "kl": 0.18505859375,
-      "learning_rate": 9.866330768241983e-07,
-      "loss": 0.0148,
-      "reward": 2.5233949422836304,
-      "reward_std": 0.3504791557788849,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.06688292883336544,
+      "completion_length": 474.12501525878906,
+      "epoch": 0.24926686217008798,
+      "grad_norm": 3.555591622399211,
+      "kl": 0.599609375,
+      "learning_rate": 9.405726854616288e-07,
+      "loss": 0.0606,
+      "reward": 2.445413589477539,
+      "reward_std": 0.10354876844212413,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012919682543724775,
       "rewards/tag_count_reward": 1.0,
       "step": 340
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 499.25,
-      "epoch": 0.1705,
-      "grad_norm": 2.1347353681012384,
-      "kl": 0.1826171875,
-      "learning_rate": 9.86442406878136e-07,
-      "loss": 0.0095,
-      "reward": 2.8164087533950806,
-      "reward_std": 0.22795867174863815,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.06032741814851761,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 459.8333435058594,
+      "epoch": 0.25,
+      "grad_norm": 4.3052672307178526,
+      "kl": 0.67578125,
+      "learning_rate": 9.399991556128821e-07,
+      "loss": 0.0259,
+      "reward": 2.4495670795440674,
+      "reward_std": 0.14659255044534802,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.00876629538834095,
+      "rewards/tag_count_reward": 1.0,
       "step": 341
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 545.9791870117188,
-      "epoch": 0.171,
-      "grad_norm": 2.0936215044851685,
-      "kl": 0.14453125,
-      "learning_rate": 9.862504074528126e-07,
-      "loss": -0.0212,
-      "reward": 2.819482445716858,
-      "reward_std": 0.2626145929098129,
-      "rewards/accuracy_reward": 0.8958333730697632,
+      "completion_length": 447.7708435058594,
+      "epoch": 0.250733137829912,
+      "grad_norm": 7.772010913258851,
+      "kl": 0.564453125,
+      "learning_rate": 9.394230690978209e-07,
+      "loss": 0.0445,
+      "reward": 2.4938722252845764,
+      "reward_std": 0.0052741896361112595,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.07635113224387169,
+      "rewards/repetition_penalty_reward": -0.00612785667181015,
       "rewards/tag_count_reward": 1.0,
       "step": 342
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 541.4375,
-      "epoch": 0.1715,
-      "grad_norm": 2.104187790019279,
-      "kl": 0.15478515625,
-      "learning_rate": 9.860570791330911e-07,
-      "loss": 0.0196,
-      "reward": 2.7721027135849,
-      "reward_std": 0.3143990561366081,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.07164733856916428,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 432.29168701171875,
+      "epoch": 0.25146627565982405,
+      "grad_norm": 5.815094134114697,
+      "kl": 0.5634765625,
+      "learning_rate": 9.388444296930198e-07,
+      "loss": 0.0456,
+      "reward": 2.4859039783477783,
+      "reward_std": 0.022549844114109874,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.00888778269290924,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 343
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 584.7291870117188,
-      "epoch": 0.172,
-      "grad_norm": 3.299557850274513,
-      "kl": 0.16455078125,
-      "learning_rate": 9.85862422507884e-07,
-      "loss": 0.1283,
-      "reward": 2.278268575668335,
-      "reward_std": 0.44967466592788696,
-      "rewards/accuracy_reward": 0.395833358168602,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.04812048375606537,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 478.0208435058594,
+      "epoch": 0.25219941348973607,
+      "grad_norm": 9.393448474685972,
+      "kl": 0.58203125,
+      "learning_rate": 9.382632411917896e-07,
+      "loss": 0.0719,
+      "reward": 2.7372546195983887,
+      "reward_std": 0.007755943341180682,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012745357118546963,
+      "rewards/tag_count_reward": 1.0,
       "step": 344
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 579.9583435058594,
-      "epoch": 0.1725,
-      "grad_norm": 4.038057650027608,
-      "kl": 0.16552734375,
-      "learning_rate": 9.856664381701483e-07,
-      "loss": 0.0722,
-      "reward": 2.5613759756088257,
-      "reward_std": 0.376383513212204,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.06188800558447838,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 434.4791717529297,
+      "epoch": 0.2529325513196481,
+      "grad_norm": 5.15109218597285,
+      "kl": 0.611328125,
+      "learning_rate": 9.376795074041511e-07,
+      "loss": 0.0736,
+      "reward": 1.992047905921936,
+      "reward_std": 0.007327872794121504,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0079521588049829,
+      "rewards/tag_count_reward": 1.0,
       "step": 345
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 485.10418701171875,
-      "epoch": 0.173,
-      "grad_norm": 2.3341365558471643,
-      "kl": 0.15625,
-      "learning_rate": 9.854691267168871e-07,
-      "loss": 0.059,
-      "reward": 2.5120105743408203,
-      "reward_std": 0.23116411548107862,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.057433972135186195,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 523.4375152587891,
+      "epoch": 0.2536656891495601,
+      "grad_norm": 32.341677849946365,
+      "kl": 1.18359375,
+      "learning_rate": 9.370932321568116e-07,
+      "loss": 0.2629,
+      "reward": 2.4761067628860474,
+      "reward_std": 0.04537955252453685,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01347667258232832,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 346
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 540.1875305175781,
-      "epoch": 0.1735,
-      "grad_norm": 2.6154155854500614,
-      "kl": 0.1572265625,
-      "learning_rate": 9.852704887491445e-07,
-      "loss": -0.0386,
-      "reward": 2.24581515789032,
-      "reward_std": 0.4455568790435791,
-      "rewards/accuracy_reward": 0.3333333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.05974029190838337,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 522.5,
+      "epoch": 0.25439882697947214,
+      "grad_norm": 28.958564691751725,
+      "kl": 2.06640625,
+      "learning_rate": 9.36504419293139e-07,
+      "loss": 0.2469,
+      "reward": 2.23344486951828,
+      "reward_std": 0.02600767184048891,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01134685194119811,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 347
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 543.5,
-      "epoch": 0.174,
-      "grad_norm": 2.774589039274609,
-      "kl": 0.16796875,
-      "learning_rate": 9.850705248720068e-07,
-      "loss": 0.0403,
-      "reward": 2.727095603942871,
-      "reward_std": 0.4202606528997421,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.047210052609443665,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 511.7083435058594,
+      "epoch": 0.25513196480938416,
+      "grad_norm": 50.041207601652744,
+      "kl": 2.23046875,
+      "learning_rate": 9.359130726731364e-07,
+      "loss": 0.2488,
+      "reward": 2.407168984413147,
+      "reward_std": 0.16616932256147265,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.016442209482192993,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 348
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 659.2083435058594,
-      "epoch": 0.1745,
-      "grad_norm": 4.335912070161832,
-      "kl": 0.18359375,
-      "learning_rate": 9.848692356945981e-07,
-      "loss": 0.083,
-      "reward": 2.5149093866348267,
-      "reward_std": 0.48283551633358,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.07884062826633453,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 468.9583435058594,
+      "epoch": 0.2558651026392962,
+      "grad_norm": 8.90761662789548,
+      "kl": 1.38671875,
+      "learning_rate": 9.353191961734172e-07,
+      "loss": 0.151,
+      "reward": 2.44021075963974,
+      "reward_std": 0.12433899194002151,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.011178134009242058,
+      "rewards/tag_count_reward": 1.0,
       "step": 349
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 424.60418701171875,
-      "epoch": 0.175,
-      "grad_norm": 2.911920115218028,
-      "kl": 0.1474609375,
-      "learning_rate": 9.846666218300807e-07,
-      "loss": 0.0423,
-      "reward": 2.867781400680542,
-      "reward_std": 0.18726971745491028,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.06798264011740685,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 452.3333435058594,
+      "epoch": 0.2565982404692082,
+      "grad_norm": 27.671954739000196,
+      "kl": 0.587890625,
+      "learning_rate": 9.347227936871798e-07,
+      "loss": 0.153,
+      "reward": 2.46974778175354,
+      "reward_std": 0.07871474791318178,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.009418966248631477,
+      "rewards/tag_count_reward": 1.0,
       "step": 350
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 625.1875,
-      "epoch": 0.1755,
-      "grad_norm": 4.16432723769119,
-      "kl": 0.263671875,
-      "learning_rate": 9.844626838956513e-07,
-      "loss": 0.0903,
-      "reward": 2.526502013206482,
-      "reward_std": 0.4054105877876282,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.055095236748456955,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 426.06251525878906,
+      "epoch": 0.25733137829912023,
+      "grad_norm": 4.774439255958196,
+      "kl": 0.546875,
+      "learning_rate": 9.341238691241817e-07,
+      "loss": 0.0509,
+      "reward": 2.4622308015823364,
+      "reward_std": 0.1002035103738308,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.00999134499579668,
+      "rewards/tag_count_reward": 1.0,
       "step": 351
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.2083740234375,
-      "epoch": 0.176,
-      "grad_norm": 4.351440295785368,
-      "kl": 0.3583984375,
-      "learning_rate": 9.8425742251254e-07,
-      "loss": 0.0664,
-      "reward": 2.6749093532562256,
-      "reward_std": 0.30670662224292755,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.03863241523504257,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 454.1041717529297,
+      "epoch": 0.25806451612903225,
+      "grad_norm": 7.830072090889241,
+      "kl": 0.47265625,
+      "learning_rate": 9.33522426410714e-07,
+      "loss": 0.0825,
+      "reward": 2.218370020389557,
+      "reward_std": 0.07793176430277526,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010796691058203578,
+      "rewards/tag_count_reward": 1.0,
       "step": 352
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 551.6458587646484,
-      "epoch": 0.1765,
-      "grad_norm": 4.117439533311138,
-      "kl": 0.6171875,
-      "learning_rate": 9.84050838306009e-07,
-      "loss": 0.1052,
-      "reward": 2.7304115295410156,
-      "reward_std": 0.3043531756848097,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.0734081044793129,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 443.3125,
+      "epoch": 0.2587976539589443,
+      "grad_norm": 5.924916968606259,
+      "kl": 0.966796875,
+      "learning_rate": 9.329184694895761e-07,
+      "loss": 0.0849,
+      "reward": 2.240042746067047,
+      "reward_std": 0.006934693781659007,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.00995726091787219,
+      "rewards/tag_count_reward": 1.0,
       "step": 353
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 593.0,
-      "epoch": 0.177,
-      "grad_norm": 7.403178869874331,
-      "kl": 1.310546875,
-      "learning_rate": 9.838429319053495e-07,
-      "loss": 0.1308,
-      "reward": 2.756809949874878,
-      "reward_std": 0.3105107471346855,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.08173201233148575,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 480.62501525878906,
+      "epoch": 0.2595307917888563,
+      "grad_norm": 17.74912709208456,
+      "kl": 1.1953125,
+      "learning_rate": 9.323120023200489e-07,
+      "loss": 0.0712,
+      "reward": 2.201182782649994,
+      "reward_std": 0.10400985646992922,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.00715067470446229,
+      "rewards/tag_count_reward": 1.0,
       "step": 354
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.6250305175781,
-      "epoch": 0.1775,
-      "grad_norm": 21.446192643297536,
-      "kl": 2.4765625,
-      "learning_rate": 9.836337039438803e-07,
-      "loss": 0.2692,
-      "reward": 2.3152072429656982,
-      "reward_std": 0.29953232035040855,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.04763999953866005,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 430.87501525878906,
+      "epoch": 0.2602639296187683,
+      "grad_norm": 5.313270709600229,
+      "kl": 0.552734375,
+      "learning_rate": 9.317030288778698e-07,
+      "loss": 0.0269,
+      "reward": 2.7366254329681396,
+      "reward_std": 0.009935126174241304,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013374709524214268,
+      "rewards/tag_count_reward": 1.0,
       "step": 355
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 559.5625305175781,
-      "epoch": 0.178,
-      "grad_norm": 28.939767658793734,
-      "kl": 3.359375,
-      "learning_rate": 9.83423155058946e-07,
-      "loss": 0.3177,
-      "reward": 2.3154940605163574,
-      "reward_std": 0.4568801373243332,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03693648986518383,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 443.50001525878906,
+      "epoch": 0.26099706744868034,
+      "grad_norm": 8.580062044235554,
+      "kl": 0.4072265625,
+      "learning_rate": 9.31091553155206e-07,
+      "loss": -0.008,
+      "reward": 2.261789321899414,
+      "reward_std": 0.07716286275535822,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.009044124279171228,
+      "rewards/tag_count_reward": 1.0,
       "step": 356
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 534.0,
-      "epoch": 0.1785,
-      "grad_norm": 32.29729153403837,
-      "kl": 2.34375,
-      "learning_rate": 9.832112858919155e-07,
-      "loss": 0.0816,
-      "reward": 2.6441575288772583,
-      "reward_std": 0.3644861727952957,
-      "rewards/accuracy_reward": 0.6875000298023224,
+      "completion_length": 439.87501525878906,
+      "epoch": 0.26173020527859236,
+      "grad_norm": 3.3894194064813576,
+      "kl": 0.3427734375,
+      "learning_rate": 9.30477579160629e-07,
+      "loss": 0.0268,
+      "reward": 2.9032580852508545,
+      "reward_std": 0.2916463017463684,
+      "rewards/accuracy_reward": 0.9166666865348816,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.038134196773171425,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "rewards/repetition_penalty_reward": -0.013408492784947157,
+      "rewards/tag_count_reward": 1.0,
       "step": 357
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 563.75,
-      "epoch": 0.179,
-      "grad_norm": 13.6168708257534,
-      "kl": 1.30078125,
-      "learning_rate": 9.829980970881784e-07,
-      "loss": 0.0706,
-      "reward": 2.5547882318496704,
-      "reward_std": 0.30551889538764954,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03548960853368044,
+      "completion_length": 444.87501525878906,
+      "epoch": 0.2624633431085044,
+      "grad_norm": 3.2273474029147002,
+      "kl": 0.333984375,
+      "learning_rate": 9.298611109190873e-07,
+      "loss": 0.0711,
+      "reward": 2.4881826639175415,
+      "reward_std": 0.010318218730390072,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011817488819360733,
       "rewards/tag_count_reward": 1.0,
       "step": 358
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 569.4791870117188,
-      "epoch": 0.1795,
-      "grad_norm": 9.408634350051774,
-      "kl": 0.673828125,
-      "learning_rate": 9.82783589297145e-07,
-      "loss": 0.0145,
-      "reward": 2.756742000579834,
-      "reward_std": 0.25605448335409164,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.06443855538964272,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 411.5416717529297,
+      "epoch": 0.2631964809384164,
+      "grad_norm": 2.7387770155536293,
+      "kl": 0.330078125,
+      "learning_rate": 9.29242152471881e-07,
+      "loss": 0.0634,
+      "reward": 2.7406634092330933,
+      "reward_std": 0.006734333001077175,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.009336648043245077,
+      "rewards/tag_count_reward": 1.0,
       "step": 359
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 503.06251525878906,
-      "epoch": 0.18,
-      "grad_norm": 3.6640521264364514,
-      "kl": 0.25537109375,
-      "learning_rate": 9.825677631722435e-07,
-      "loss": -0.0335,
-      "reward": 2.7158700227737427,
-      "reward_std": 0.3013303726911545,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.07926897704601288,
+      "completion_length": 453.85418701171875,
+      "epoch": 0.26392961876832843,
+      "grad_norm": 2.420440222664315,
+      "kl": 0.322265625,
+      "learning_rate": 9.286207078766348e-07,
+      "loss": -0.0136,
+      "reward": 2.707916021347046,
+      "reward_std": 0.11361571587622166,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010834058281034231,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 360
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 513.1250305175781,
-      "epoch": 0.1805,
-      "grad_norm": 5.09067870684325,
-      "kl": 0.1796875,
-      "learning_rate": 9.823506193709174e-07,
-      "loss": -0.0324,
-      "reward": 2.6296072006225586,
-      "reward_std": 0.17554676160216331,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.059629036113619804,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 456.29168701171875,
+      "epoch": 0.26466275659824046,
+      "grad_norm": 2.2704308739154233,
+      "kl": 0.322265625,
+      "learning_rate": 9.279967812072717e-07,
+      "loss": 0.0326,
+      "reward": 2.7088087797164917,
+      "reward_std": 0.1134856294374913,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.009941152296960354,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 361
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 527.1875152587891,
-      "epoch": 0.181,
-      "grad_norm": 2.3488865190438,
-      "kl": 0.1416015625,
-      "learning_rate": 9.821321585546243e-07,
-      "loss": -0.0337,
-      "reward": 2.4458130598068237,
-      "reward_std": 0.36342713236808777,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.08196471631526947,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 449.54168701171875,
+      "epoch": 0.2653958944281525,
+      "grad_norm": 2.6765119623946028,
+      "kl": 0.3115234375,
+      "learning_rate": 9.273703765539856e-07,
+      "loss": 0.0532,
+      "reward": 2.6793943643569946,
+      "reward_std": 0.14904301008209586,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.008105819579213858,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 362
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 511.06251525878906,
-      "epoch": 0.1815,
-      "grad_norm": 2.429968776707808,
-      "kl": 0.13134765625,
-      "learning_rate": 9.81912381388834e-07,
-      "loss": 0.0443,
-      "reward": 2.6360349655151367,
-      "reward_std": 0.3865511268377304,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.06535414233803749,
+      "completion_length": 472.6458435058594,
+      "epoch": 0.2661290322580645,
+      "grad_norm": 2.334226266301674,
+      "kl": 0.322265625,
+      "learning_rate": 9.267414980232156e-07,
+      "loss": 0.019,
+      "reward": 2.674462676048279,
+      "reward_std": 0.17157460749149323,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013037360273301601,
       "rewards/tag_count_reward": 1.0,
       "step": 363
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 567.7708740234375,
-      "epoch": 0.182,
-      "grad_norm": 2.0606641273830903,
-      "kl": 0.13134765625,
-      "learning_rate": 9.816912885430258e-07,
-      "loss": 0.0193,
-      "reward": 2.468637228012085,
-      "reward_std": 0.42131057381629944,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07302946597337723,
+      "completion_length": 462.2916717529297,
+      "epoch": 0.2668621700879765,
+      "grad_norm": 2.3774041304092175,
+      "kl": 0.328125,
+      "learning_rate": 9.261101497376183e-07,
+      "loss": 0.045,
+      "reward": 2.487114191055298,
+      "reward_std": 0.008130959002301097,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012885776348412037,
       "rewards/tag_count_reward": 1.0,
       "step": 364
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 610.7291870117188,
-      "epoch": 0.1825,
-      "grad_norm": 2.0345217984138086,
-      "kl": 0.127197265625,
-      "learning_rate": 9.814688806906868e-07,
-      "loss": 0.0449,
-      "reward": 2.4708261489868164,
-      "reward_std": 0.3200060650706291,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.07778490334749222,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 446.4166717529297,
+      "epoch": 0.26759530791788855,
+      "grad_norm": 2.2848004947697653,
+      "kl": 0.296875,
+      "learning_rate": 9.254763358360404e-07,
+      "loss": 0.0543,
+      "reward": 2.480908155441284,
+      "reward_std": 0.039752448443323374,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.008675360586494207,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 365
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 524.7083435058594,
-      "epoch": 0.183,
-      "grad_norm": 2.1808261277456205,
-      "kl": 0.12158203125,
-      "learning_rate": 9.812451585093098e-07,
-      "loss": 0.0236,
-      "reward": 2.7193844318389893,
-      "reward_std": 0.34990330785512924,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.05839330144226551,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 429.8958435058594,
+      "epoch": 0.26832844574780057,
+      "grad_norm": 4.808091297344941,
+      "kl": 0.337890625,
+      "learning_rate": 9.248400604734929e-07,
+      "loss": 0.0747,
+      "reward": 2.193628668785095,
+      "reward_std": 0.16610116511583328,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.009496402461081743,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 366
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 483.68751525878906,
-      "epoch": 0.1835,
-      "grad_norm": 2.2192226472108367,
-      "kl": 0.12939453125,
-      "learning_rate": 9.810201226803917e-07,
-      "loss": 0.0069,
-      "reward": 2.4758822917938232,
-      "reward_std": 0.3382147550582886,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.058839818462729454,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 441.66668701171875,
+      "epoch": 0.2690615835777126,
+      "grad_norm": 2.720687783905429,
+      "kl": 0.333984375,
+      "learning_rate": 9.242013278211226e-07,
+      "loss": 0.046,
+      "reward": 2.4815183877944946,
+      "reward_std": 0.02494870498776436,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013273344840854406,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 367
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 519.3750152587891,
-      "epoch": 0.184,
-      "grad_norm": 2.367140341215985,
-      "kl": 0.128662109375,
-      "learning_rate": 9.807937738894303e-07,
-      "loss": -0.0302,
-      "reward": 2.6772682666778564,
-      "reward_std": 0.2594939023256302,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 479.6458435058594,
+      "epoch": 0.2697947214076246,
+      "grad_norm": 2.362309533450861,
+      "kl": 0.3330078125,
+      "learning_rate": 9.235601420661854e-07,
+      "loss": 0.0187,
+      "reward": 2.4759992361068726,
+      "reward_std": 0.04343183804303408,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.051898419857025146,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013584255706518888,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 368
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 513.6875,
-      "epoch": 0.1845,
-      "grad_norm": 2.3819557955341617,
-      "kl": 0.13525390625,
-      "learning_rate": 9.805661128259235e-07,
-      "loss": -0.0399,
-      "reward": 2.5830910205841064,
-      "reward_std": 0.43722137808799744,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.06968686729669571,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 416.43751525878906,
+      "epoch": 0.27052785923753664,
+      "grad_norm": 2.899002651460847,
+      "kl": 0.359375,
+      "learning_rate": 9.22916507412019e-07,
+      "loss": 0.0293,
+      "reward": 2.932681679725647,
+      "reward_std": 0.19901539757847786,
+      "rewards/accuracy_reward": 0.9583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010026867035776377,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 369
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 563.4166870117188,
-      "epoch": 0.185,
-      "grad_norm": 2.4301633780659135,
-      "kl": 0.131103515625,
-      "learning_rate": 9.80337140183366e-07,
-      "loss": 0.0573,
-      "reward": 2.719074010848999,
-      "reward_std": 0.37694530189037323,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.06564832478761673,
+      "completion_length": 445.7291717529297,
+      "epoch": 0.27126099706744866,
+      "grad_norm": 2.5066447293184693,
+      "kl": 0.4091796875,
+      "learning_rate": 9.222704280780141e-07,
+      "loss": 0.0151,
+      "reward": 2.1932421922683716,
+      "reward_std": 0.12493787333369255,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.008146827574819326,
       "rewards/tag_count_reward": 1.0,
       "step": 370
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 482.1875,
-      "epoch": 0.1855,
-      "grad_norm": 2.4697642245743032,
-      "kl": 0.134521484375,
-      "learning_rate": 9.801068566592483e-07,
-      "loss": 0.0284,
-      "reward": 2.754256248474121,
-      "reward_std": 0.2568470761179924,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.06692435592412949,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 458.97918701171875,
+      "epoch": 0.2719941348973607,
+      "grad_norm": 2.5236209781956798,
+      "kl": 0.431640625,
+      "learning_rate": 9.216219082995888e-07,
+      "loss": 0.0406,
+      "reward": 2.231236457824707,
+      "reward_std": 0.029424049891531467,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.011819119565188885,
+      "rewards/tag_count_reward": 1.0,
       "step": 371
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 509.1666717529297,
-      "epoch": 0.186,
-      "grad_norm": 2.448475553737196,
-      "kl": 0.116943359375,
-      "learning_rate": 9.798752629550546e-07,
-      "loss": 0.0663,
-      "reward": 2.611233115196228,
-      "reward_std": 0.36806730926036835,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.07800298929214478,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 463.9583435058594,
+      "epoch": 0.2727272727272727,
+      "grad_norm": 2.617827825257977,
+      "kl": 0.52734375,
+      "learning_rate": 9.209709523281587e-07,
+      "loss": 0.0485,
+      "reward": 2.238226532936096,
+      "reward_std": 0.00962640717625618,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011773544363677502,
+      "rewards/tag_count_reward": 1.0,
       "step": 372
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 533.8125305175781,
-      "epoch": 0.1865,
-      "grad_norm": 2.0486712055274343,
-      "kl": 0.118896484375,
-      "learning_rate": 9.796423597762588e-07,
-      "loss": -0.0294,
-      "reward": 2.593945264816284,
-      "reward_std": 0.43071576952934265,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.09702702611684799,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 514.4166870117188,
+      "epoch": 0.27346041055718473,
+      "grad_norm": 19.050904643830204,
+      "kl": 0.6015625,
+      "learning_rate": 9.20317564431111e-07,
+      "loss": 0.2268,
+      "reward": 2.730633020401001,
+      "reward_std": 0.025867179967463017,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014158804900944233,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 373
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 500.25001525878906,
-      "epoch": 0.187,
-      "grad_norm": 2.3264130204399525,
-      "kl": 0.120849609375,
-      "learning_rate": 9.794081478323245e-07,
-      "loss": 0.0417,
-      "reward": 2.555578351020813,
-      "reward_std": 0.32255755364894867,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.10414392501115799,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 472.00001525878906,
+      "epoch": 0.27419354838709675,
+      "grad_norm": 5.424273414099897,
+      "kl": 0.9375,
+      "learning_rate": 9.196617488917744e-07,
+      "loss": 0.1183,
+      "reward": 2.421747326850891,
+      "reward_std": 0.22977232933044434,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.008808402344584465,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 374
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 563.0625305175781,
-      "epoch": 0.1875,
-      "grad_norm": 2.1622259964161303,
-      "kl": 0.12548828125,
-      "learning_rate": 9.791726278367021e-07,
-      "loss": -0.0156,
-      "reward": 2.6402961015701294,
-      "reward_std": 0.40212856233119965,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.07671798765659332,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 433.2291717529297,
+      "epoch": 0.2749266862170088,
+      "grad_norm": 6.51976669479584,
+      "kl": 1.08203125,
+      "learning_rate": 9.190035100093934e-07,
+      "loss": 0.0622,
+      "reward": 2.4945380687713623,
+      "reward_std": 0.005227633053436875,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.005462077213451266,
+      "rewards/tag_count_reward": 1.0,
       "step": 375
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 503.00001525878906,
-      "epoch": 0.188,
-      "grad_norm": 1.9354230871668425,
-      "kl": 0.109375,
-      "learning_rate": 9.78935800506826e-07,
-      "loss": 0.0093,
-      "reward": 2.648646354675293,
-      "reward_std": 0.22648237645626068,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.10135376825928688,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 464.89585876464844,
+      "epoch": 0.2756598240469208,
+      "grad_norm": 12.551923228481087,
+      "kl": 2.0859375,
+      "learning_rate": 9.183428520990979e-07,
+      "loss": 0.2216,
+      "reward": 2.7031989097595215,
+      "reward_std": 0.13187365233898163,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010342813329771161,
+      "rewards/tag_count_reward": 0.984375,
       "step": 376
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 452.4791717529297,
-      "epoch": 0.1885,
-      "grad_norm": 2.4900006677038897,
-      "kl": 0.1298828125,
-      "learning_rate": 9.786976665641138e-07,
-      "loss": 0.0358,
-      "reward": 2.7121907472610474,
-      "reward_std": 0.29230934381484985,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.07600371912121773,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 482.9375305175781,
+      "epoch": 0.2763929618768328,
+      "grad_norm": 16.830833423074687,
+      "kl": 2.2734375,
+      "learning_rate": 9.176797794918766e-07,
+      "loss": 0.3048,
+      "reward": 2.2347198724746704,
+      "reward_std": 0.024037683382630348,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010071944678202271,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 377
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.14585876464844,
-      "epoch": 0.189,
-      "grad_norm": 2.3438629757333143,
-      "kl": 0.12646484375,
-      "learning_rate": 9.784582267339622e-07,
-      "loss": 0.0447,
-      "reward": 2.517542004585266,
-      "reward_std": 0.44227664172649384,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.07968007400631905,
+      "completion_length": 451.875,
+      "epoch": 0.27712609970674484,
+      "grad_norm": 5.46041924584287,
+      "kl": 1.14453125,
+      "learning_rate": 9.170142965345474e-07,
+      "loss": 0.072,
+      "reward": 2.2421175837516785,
+      "reward_std": 0.005587070249021053,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.00788251287303865,
       "rewards/tag_count_reward": 1.0,
       "step": 378
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 498.12501525878906,
-      "epoch": 0.1895,
-      "grad_norm": 2.352684614662993,
-      "kl": 0.1328125,
-      "learning_rate": 9.78217481745747e-07,
-      "loss": -0.0119,
-      "reward": 2.3344022035598755,
-      "reward_std": 0.4069585055112839,
-      "rewards/accuracy_reward": 0.4375000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.049278499558568,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 460.6458435058594,
+      "epoch": 0.27785923753665687,
+      "grad_norm": 7.285649773138782,
+      "kl": 1.068359375,
+      "learning_rate": 9.163464075897298e-07,
+      "loss": 0.0662,
+      "reward": 2.491139054298401,
+      "reward_std": 0.0070568344090133905,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.008861158974468708,
+      "rewards/tag_count_reward": 1.0,
       "step": 379
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.18751525878906,
-      "epoch": 0.19,
-      "grad_norm": 2.4157444132247923,
-      "kl": 0.12841796875,
-      "learning_rate": 9.779754323328192e-07,
-      "loss": 0.057,
-      "reward": 2.842611312866211,
-      "reward_std": 0.24086056649684906,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.060166530311107635,
+      "completion_length": 480.29168701171875,
+      "epoch": 0.2785923753665689,
+      "grad_norm": 3.9106992141973937,
+      "kl": 0.5595703125,
+      "learning_rate": 9.156761170358157e-07,
+      "loss": 0.0285,
+      "reward": 2.4897278547286987,
+      "reward_std": 0.007526291534304619,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010272293351590633,
       "rewards/tag_count_reward": 1.0,
       "step": 380
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 444.62501525878906,
-      "epoch": 0.1905,
-      "grad_norm": 2.419479532121062,
-      "kl": 0.14306640625,
-      "learning_rate": 9.777320792325025e-07,
-      "loss": 0.1048,
-      "reward": 2.7526127099990845,
-      "reward_std": 0.14365122094750404,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.05467919073998928,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 417.0,
+      "epoch": 0.2793255131964809,
+      "grad_norm": 3.1702715469625407,
+      "kl": 0.3798828125,
+      "learning_rate": 9.15003429266941e-07,
+      "loss": 0.0529,
+      "reward": 2.733282208442688,
+      "reward_std": 0.029079753905534744,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.009773501195013523,
+      "rewards/tag_count_reward": 1.0,
       "step": 381
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.0833435058594,
-      "epoch": 0.191,
-      "grad_norm": 2.372783987416792,
-      "kl": 0.12890625,
-      "learning_rate": 9.774874231860935e-07,
-      "loss": 0.0066,
-      "reward": 2.371148109436035,
-      "reward_std": 0.40637652575969696,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.07329631596803665,
+      "completion_length": 448.0833435058594,
+      "epoch": 0.28005865102639294,
+      "grad_norm": 4.944163236819044,
+      "kl": 0.3662109375,
+      "learning_rate": 9.143283486929567e-07,
+      "loss": 0.0531,
+      "reward": 2.7383430004119873,
+      "reward_std": 0.007190744858235121,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011657027993351221,
       "rewards/tag_count_reward": 1.0,
       "step": 382
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 471.2291717529297,
-      "epoch": 0.1915,
-      "grad_norm": 2.226194607367302,
-      "kl": 0.13232421875,
-      "learning_rate": 9.772414649388568e-07,
-      "loss": 0.044,
-      "reward": 2.6466528177261353,
-      "reward_std": 0.2924405038356781,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.08251398801803589,
+      "completion_length": 437.1458435058594,
+      "epoch": 0.28079178885630496,
+      "grad_norm": 3.016754740608089,
+      "kl": 0.38671875,
+      "learning_rate": 9.136508797393999e-07,
+      "loss": 0.0325,
+      "reward": 2.474005341529846,
+      "reward_std": 0.0372047598939389,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.012105878442525864,
       "rewards/tag_count_reward": 1.0,
       "step": 383
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 500.6041717529297,
-      "epoch": 0.192,
-      "grad_norm": 2.132124535999422,
-      "kl": 0.14892578125,
-      "learning_rate": 9.769942052400235e-07,
-      "loss": -0.031,
-      "reward": 2.7737842798233032,
-      "reward_std": 0.23282310366630554,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.07343816570937634,
+      "completion_length": 416.75001525878906,
+      "epoch": 0.28152492668621704,
+      "grad_norm": 2.902012592999401,
+      "kl": 0.314453125,
+      "learning_rate": 9.129710268474652e-07,
+      "loss": 0.0353,
+      "reward": 2.4901161789894104,
+      "reward_std": 0.007005092455074191,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.009883841034024954,
       "rewards/tag_count_reward": 1.0,
       "step": 384
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 534.7708435058594,
-      "epoch": 0.1925,
-      "grad_norm": 2.1795003146204626,
-      "kl": 0.1416015625,
-      "learning_rate": 9.767456448427896e-07,
-      "loss": 0.0287,
-      "reward": 2.5758708715438843,
-      "reward_std": 0.38380637764930725,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.07864313945174217,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 422.2291717529297,
+      "epoch": 0.28225806451612906,
+      "grad_norm": 4.99704224289973,
+      "kl": 0.40234375,
+      "learning_rate": 9.122887944739747e-07,
+      "loss": 0.0667,
+      "reward": 2.4585758447647095,
+      "reward_std": 0.11278056120499969,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01017436245456338,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 385
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 500.5625305175781,
-      "epoch": 0.193,
-      "grad_norm": 2.3063809528831736,
-      "kl": 0.14013671875,
-      "learning_rate": 9.764957845043135e-07,
-      "loss": -0.021,
-      "reward": 2.755507707595825,
-      "reward_std": 0.29851196706295013,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.0500478558242321,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 417.93751525878906,
+      "epoch": 0.2829912023460411,
+      "grad_norm": 3.207572366812953,
+      "kl": 0.3779296875,
+      "learning_rate": 9.116041870913498e-07,
+      "loss": 0.0314,
+      "reward": 2.7009975910186768,
+      "reward_std": 0.12883948348462582,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012544109020382166,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 386
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 503.33335876464844,
-      "epoch": 0.1935,
-      "grad_norm": 2.1645139159061717,
-      "kl": 0.131591796875,
-      "learning_rate": 9.76244624985713e-07,
-      "loss": 0.0266,
-      "reward": 2.502621650695801,
-      "reward_std": 0.42333585023880005,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.06335068121552467,
+      "completion_length": 411.7916717529297,
+      "epoch": 0.2837243401759531,
+      "grad_norm": 3.455020971556175,
+      "kl": 0.4365234375,
+      "learning_rate": 9.109172091875813e-07,
+      "loss": 0.0533,
+      "reward": 2.4524088501930237,
+      "reward_std": 0.11647403798997402,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.016341304872184992,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 387
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 477.0833435058594,
-      "epoch": 0.194,
-      "grad_norm": 2.2028964179218256,
-      "kl": 0.14697265625,
-      "learning_rate": 9.759921670520634e-07,
-      "loss": -0.0024,
-      "reward": 2.746849298477173,
-      "reward_std": 0.3060501739382744,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.058706341311335564,
+      "completion_length": 452.56251525878906,
+      "epoch": 0.2844574780058651,
+      "grad_norm": 5.021925533382141,
+      "kl": 0.724609375,
+      "learning_rate": 9.102278652662004e-07,
+      "loss": 0.1052,
+      "reward": 2.488985061645508,
+      "reward_std": 0.006767880171537399,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01101499842479825,
       "rewards/tag_count_reward": 1.0,
       "step": 388
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 488.56251525878906,
-      "epoch": 0.1945,
-      "grad_norm": 2.6481468308941714,
-      "kl": 0.1396484375,
-      "learning_rate": 9.757384114723953e-07,
-      "loss": -0.0251,
-      "reward": 2.859673857688904,
-      "reward_std": 0.1833506003022194,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.06220110505819321,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 444.9166717529297,
+      "epoch": 0.28519061583577715,
+      "grad_norm": 4.237467170835808,
+      "kl": 0.658203125,
+      "learning_rate": 9.095361598462483e-07,
+      "loss": 0.0624,
+      "reward": 2.239302396774292,
+      "reward_std": 0.008108881767839193,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010697626508772373,
+      "rewards/tag_count_reward": 1.0,
       "step": 389
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 490.0625,
-      "epoch": 0.195,
-      "grad_norm": 2.245242392422714,
-      "kl": 0.14990234375,
-      "learning_rate": 9.754833590196926e-07,
-      "loss": -0.0097,
-      "reward": 2.5275352001190186,
-      "reward_std": 0.3732472062110901,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.055798135697841644,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 530.1875,
+      "epoch": 0.2859237536656892,
+      "grad_norm": 28.582624592710438,
+      "kl": 1.0234375,
+      "learning_rate": 9.088420974622477e-07,
+      "loss": 0.3534,
+      "reward": 2.409157693386078,
+      "reward_std": 0.1983821764588356,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.009245133958756924,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 390
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 527.5833587646484,
-      "epoch": 0.1955,
-      "grad_norm": 2.988740973444905,
-      "kl": 0.15478515625,
-      "learning_rate": 9.752270104708888e-07,
-      "loss": 0.1089,
-      "reward": 2.5857293605804443,
-      "reward_std": 0.4840521216392517,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.06531241536140442,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 436.5,
+      "epoch": 0.2866568914956012,
+      "grad_norm": 16.488952128647092,
+      "kl": 1.00390625,
+      "learning_rate": 9.081456826641725e-07,
+      "loss": 0.2223,
+      "reward": 2.2143354415893555,
+      "reward_std": 0.09019448328763247,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.011359069496393204,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 391
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 483.75001525878906,
-      "epoch": 0.196,
-      "grad_norm": 2.355763241309473,
-      "kl": 0.146484375,
-      "learning_rate": 9.749693666068663e-07,
-      "loss": 0.024,
-      "reward": 2.677127242088318,
-      "reward_std": 0.3999278247356415,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.06072022393345833,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 658.8125305175781,
+      "epoch": 0.2873900293255132,
+      "grad_norm": 39.80719794913905,
+      "kl": 4.6328125,
+      "learning_rate": 9.074469200174174e-07,
+      "loss": 0.4892,
+      "reward": 2.1642203330993652,
+      "reward_std": 0.3343081623315811,
+      "rewards/accuracy_reward": 0.2708333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.0059186555445194244,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 392
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 443.3541717529297,
-      "epoch": 0.1965,
-      "grad_norm": 2.370253055532675,
-      "kl": 0.15625,
-      "learning_rate": 9.747104282124531e-07,
-      "loss": 0.0625,
-      "reward": 2.6037063598632812,
-      "reward_std": 0.2899606078863144,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.0490715391933918,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 592.4375,
+      "epoch": 0.28812316715542524,
+      "grad_norm": 18.491008323344726,
+      "kl": 3.28125,
+      "learning_rate": 9.067458141027694e-07,
+      "loss": 0.3781,
+      "reward": 2.3546512126922607,
+      "reward_std": 0.2867864668369293,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.008195979055017233,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 393
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 456.3333435058594,
-      "epoch": 0.197,
-      "grad_norm": 2.4610089541965694,
-      "kl": 0.15625,
-      "learning_rate": 9.744501960764203e-07,
-      "loss": 0.0754,
-      "reward": 2.8426754474639893,
-      "reward_std": 0.21852993965148926,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.07051906362175941,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 464.0625,
+      "epoch": 0.28885630498533726,
+      "grad_norm": 9.410508125378785,
+      "kl": 1.158203125,
+      "learning_rate": 9.060423695163764e-07,
+      "loss": 0.1123,
+      "reward": 2.433341920375824,
+      "reward_std": 0.14605514332652092,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014574835076928139,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 394
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 597.6875,
-      "epoch": 0.1975,
-      "grad_norm": 3.405083047196158,
-      "kl": 0.166015625,
-      "learning_rate": 9.741886709914803e-07,
-      "loss": 0.1408,
-      "reward": 2.701059341430664,
-      "reward_std": 0.3547600954771042,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.06803778372704983,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 453.18751525878906,
+      "epoch": 0.2895894428152493,
+      "grad_norm": 4.260076100230029,
+      "kl": 0.810546875,
+      "learning_rate": 9.053365908697181e-07,
+      "loss": 0.0791,
+      "reward": 2.447802424430847,
+      "reward_std": 0.13183430582284927,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010531116742640734,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 395
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.7916717529297,
-      "epoch": 0.198,
-      "grad_norm": 2.7966864501073188,
-      "kl": 0.17822265625,
-      "learning_rate": 9.739258537542835e-07,
-      "loss": -0.039,
-      "reward": 2.5628772974014282,
-      "reward_std": 0.3083910197019577,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.0725395604968071,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 511.1875,
+      "epoch": 0.2903225806451613,
+      "grad_norm": 31.980218688565657,
+      "kl": 0.724609375,
+      "learning_rate": 9.046284827895746e-07,
+      "loss": 0.3394,
+      "reward": 2.4297736287117004,
+      "reward_std": 0.2000921592116356,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012934757862240076,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 396
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 553.5833435058594,
-      "epoch": 0.1985,
-      "grad_norm": 5.916243349638,
-      "kl": 0.1669921875,
-      "learning_rate": 9.73661745165417e-07,
-      "loss": 0.1781,
-      "reward": 2.6928629875183105,
-      "reward_std": 0.3948093354701996,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.08144245855510235,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 420.37501525878906,
+      "epoch": 0.29105571847507333,
+      "grad_norm": 3.3699821366968212,
+      "kl": 0.501953125,
+      "learning_rate": 9.039180499179973e-07,
+      "loss": 0.0411,
+      "reward": 2.673474907875061,
+      "reward_std": 0.11912347562611103,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014025256969034672,
+      "rewards/tag_count_reward": 1.0,
       "step": 397
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 466.97918701171875,
-      "epoch": 0.199,
-      "grad_norm": 2.568535579007926,
-      "kl": 0.17041015625,
-      "learning_rate": 9.733963460294015e-07,
-      "loss": -0.0109,
-      "reward": 2.8347532749176025,
-      "reward_std": 0.23304447531700134,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.061080172657966614,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 571.7708435058594,
+      "epoch": 0.29178885630498536,
+      "grad_norm": 19.872465311776544,
+      "kl": 1.212890625,
+      "learning_rate": 9.032052969122781e-07,
+      "loss": 0.35,
+      "reward": 2.1702736616134644,
+      "reward_std": 0.17028960585594177,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017226402647793293,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 398
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 444.31251525878906,
-      "epoch": 0.1995,
-      "grad_norm": 2.6070633311402096,
-      "kl": 0.1962890625,
-      "learning_rate": 9.731296571546885e-07,
-      "loss": 0.0098,
-      "reward": 2.824558138847351,
-      "reward_std": 0.24229364097118378,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.07821962051093578,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 441.68751525878906,
+      "epoch": 0.2925219941348974,
+      "grad_norm": 14.8359150453612,
+      "kl": 0.9453125,
+      "learning_rate": 9.024902284449181e-07,
+      "loss": 0.2402,
+      "reward": 2.6931817531585693,
+      "reward_std": 0.14234615676105022,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.013415634166449308,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 399
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.3541717529297,
-      "epoch": 0.2,
-      "grad_norm": 3.67637754483244,
-      "kl": 0.19482421875,
-      "learning_rate": 9.728616793536587e-07,
-      "loss": 0.0453,
-      "reward": 2.5268030166625977,
-      "reward_std": 0.3516158163547516,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.06521105766296387,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 448.6666717529297,
+      "epoch": 0.2932551319648094,
+      "grad_norm": 12.406429499182185,
+      "kl": 0.853515625,
+      "learning_rate": 9.017728492035978e-07,
+      "loss": 0.0062,
+      "reward": 2.2172019481658936,
+      "reward_std": 0.04633156303316355,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.015437084715813398,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 400
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 438.5416717529297,
-      "epoch": 0.2005,
-      "grad_norm": 6.51901226376256,
-      "kl": 0.208984375,
-      "learning_rate": 9.72592413442619e-07,
-      "loss": -0.0584,
-      "reward": 2.4788198471069336,
-      "reward_std": 0.30706703662872314,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.0489580724388361,
+      "completion_length": 481.2083435058594,
+      "epoch": 0.2939882697947214,
+      "grad_norm": 13.871825287384443,
+      "kl": 1.33984375,
+      "learning_rate": 9.010531638911465e-07,
+      "loss": 0.0515,
+      "reward": 2.1981945037841797,
+      "reward_std": 0.14712171256542206,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010138920042663813,
       "rewards/tag_count_reward": 0.9791666865348816,
       "step": 401
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 488.50001525878906,
-      "epoch": 0.201,
-      "grad_norm": 2.34033624330632,
-      "kl": 0.18994140625,
-      "learning_rate": 9.723218602418e-07,
-      "loss": -0.016,
-      "reward": 2.7911014556884766,
-      "reward_std": 0.32635878026485443,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.05091256648302078,
+      "completion_length": 414.9583435058594,
+      "epoch": 0.29472140762463345,
+      "grad_norm": 3.378020607722317,
+      "kl": 0.4638671875,
+      "learning_rate": 9.003311772255106e-07,
+      "loss": 0.0614,
+      "reward": 1.9696611762046814,
+      "reward_std": 0.047247909009456635,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.018186070024967194,
       "rewards/tag_count_reward": 0.9947916865348816,
       "step": 402
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 476.56251525878906,
-      "epoch": 0.2015,
-      "grad_norm": 2.5623947724894274,
-      "kl": 0.189453125,
-      "learning_rate": 9.720500205753538e-07,
-      "loss": -0.0322,
-      "reward": 2.698399066925049,
-      "reward_std": 0.403295561671257,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.06548996269702911,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 429.54168701171875,
+      "epoch": 0.29545454545454547,
+      "grad_norm": 5.901425872850612,
+      "kl": 0.4560546875,
+      "learning_rate": 8.996068939397233e-07,
+      "loss": -0.0004,
+      "reward": 2.6546950340270996,
+      "reward_std": 0.1604913668707013,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011971795465797186,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 403
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 471.64585876464844,
-      "epoch": 0.202,
-      "grad_norm": 2.6351050859979885,
-      "kl": 0.20703125,
-      "learning_rate": 9.717768952713511e-07,
-      "loss": 0.0172,
-      "reward": 2.64251971244812,
-      "reward_std": 0.2700469493865967,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.04845273122191429,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 421.43751525878906,
+      "epoch": 0.2961876832844575,
+      "grad_norm": 3.2421459777125703,
+      "kl": 0.4638671875,
+      "learning_rate": 8.98880318781874e-07,
+      "loss": 0.0314,
+      "reward": 2.4531060457229614,
+      "reward_std": 0.07071313261985779,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.01564402598887682,
+      "rewards/tag_count_reward": 0.9895833730697632,
       "step": 404
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 490.85418701171875,
-      "epoch": 0.2025,
-      "grad_norm": 2.5295824552139585,
-      "kl": 0.18994140625,
-      "learning_rate": 9.71502485161779e-07,
-      "loss": -0.0095,
-      "reward": 2.682486653327942,
-      "reward_std": 0.47308868169784546,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.0432078093290329,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 498.1458435058594,
+      "epoch": 0.2969208211143695,
+      "grad_norm": 8.347266976997215,
+      "kl": 1.50390625,
+      "learning_rate": 8.981514565150758e-07,
+      "loss": 0.2145,
+      "reward": 2.5850037336349487,
+      "reward_std": 0.260950468480587,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01916305348277092,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 405
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 449.97918701171875,
-      "epoch": 0.203,
-      "grad_norm": 4.590231605072331,
-      "kl": 0.1875,
-      "learning_rate": 9.71226791082538e-07,
-      "loss": 0.0868,
-      "reward": 2.853319525718689,
-      "reward_std": 0.2601998746395111,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03730554319918156,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 441.37501525878906,
+      "epoch": 0.29765395894428154,
+      "grad_norm": 12.481716504683666,
+      "kl": 0.7548828125,
+      "learning_rate": 8.974203119174354e-07,
+      "loss": 0.2422,
+      "reward": 2.203757107257843,
+      "reward_std": 0.09926661476492882,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013256918638944626,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 406
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.7083435058594,
-      "epoch": 0.2035,
-      "grad_norm": 3.798867450655633,
-      "kl": 0.1826171875,
-      "learning_rate": 9.709498138734403e-07,
-      "loss": 0.0078,
-      "reward": 2.8343251943588257,
-      "reward_std": 0.3080275356769562,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03893873654305935,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 449.9583435058594,
+      "epoch": 0.29838709677419356,
+      "grad_norm": 20.555500703198362,
+      "kl": 0.615234375,
+      "learning_rate": 8.966868897820217e-07,
+      "loss": -0.0515,
+      "reward": 2.4867031574249268,
+      "reward_std": 0.007832993287593126,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013296912424266338,
+      "rewards/tag_count_reward": 1.0,
       "step": 407
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 480.1041717529297,
-      "epoch": 0.204,
-      "grad_norm": 3.339773656845583,
-      "kl": 0.2431640625,
-      "learning_rate": 9.706715543782064e-07,
-      "loss": 0.0546,
-      "reward": 2.397212266921997,
-      "reward_std": 0.38606369495391846,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04376017488539219,
+      "completion_length": 405.93751525878906,
+      "epoch": 0.2991202346041056,
+      "grad_norm": 4.055403353159463,
+      "kl": 0.3583984375,
+      "learning_rate": 8.95951194916834e-07,
+      "loss": 0.0832,
+      "reward": 2.4320058822631836,
+      "reward_std": 0.18413013964891434,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.015910861548036337,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 408
     },
     {
       "clip_ratio": 0.0,
       "completion_length": 438.5833435058594,
-      "epoch": 0.2045,
-      "grad_norm": 4.374047431584956,
-      "kl": 0.2890625,
-      "learning_rate": 9.703920134444632e-07,
-      "loss": -0.0037,
-      "reward": 2.664395570755005,
-      "reward_std": 0.20635664463043213,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.08039623126387596,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "epoch": 0.2998533724340176,
+      "grad_norm": 21.309615660717455,
+      "kl": 0.556640625,
+      "learning_rate": 8.952132321447707e-07,
+      "loss": 0.2093,
+      "reward": 2.435889959335327,
+      "reward_std": 0.1703370437026024,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.010290783829987049,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 409
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 437.2708435058594,
-      "epoch": 0.205,
-      "grad_norm": 4.577231643859023,
-      "kl": 0.33203125,
-      "learning_rate": 9.701111919237408e-07,
-      "loss": 0.0983,
-      "reward": 2.6673845052719116,
-      "reward_std": 0.28793033957481384,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03574047051370144,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 396.7916717529297,
+      "epoch": 0.30058651026392963,
+      "grad_norm": 4.617605546670348,
+      "kl": 0.3681640625,
+      "learning_rate": 8.944730063035973e-07,
+      "loss": 0.0619,
+      "reward": 2.2141241431236267,
+      "reward_std": 0.0688196187838912,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013306473847478628,
+      "rewards/tag_count_reward": 0.984375,
       "step": 410
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.68751525878906,
-      "epoch": 0.2055,
-      "grad_norm": 3.9132489725820614,
-      "kl": 0.314453125,
-      "learning_rate": 9.698290906714702e-07,
-      "loss": 0.058,
-      "reward": 2.741675853729248,
-      "reward_std": 0.25958670675754547,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.07256042212247849,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 433.31251525878906,
+      "epoch": 0.30131964809384165,
+      "grad_norm": 3.1262505616665806,
+      "kl": 0.4921875,
+      "learning_rate": 8.937305222459156e-07,
+      "loss": 0.0334,
+      "reward": 2.4272764921188354,
+      "reward_std": 0.2919757291674614,
+      "rewards/accuracy_reward": 0.45833333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010223534889519215,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 411
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 489.3125,
-      "epoch": 0.206,
-      "grad_norm": 11.654921545662503,
-      "kl": 0.4736328125,
-      "learning_rate": 9.695457105469804e-07,
-      "loss": 0.1564,
-      "reward": 2.6907659769058228,
-      "reward_std": 0.36029884219169617,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.07659525983035564,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 566.5,
+      "epoch": 0.3020527859237537,
+      "grad_norm": 14.530492359657364,
+      "kl": 3.458984375,
+      "learning_rate": 8.929857848391308e-07,
+      "loss": 0.4275,
+      "reward": 2.0301916003227234,
+      "reward_std": 0.32898490130901337,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.009738977532833815,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 412
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 472.91668701171875,
-      "epoch": 0.2065,
-      "grad_norm": 8.960365959818047,
-      "kl": 0.87109375,
-      "learning_rate": 9.69261052413497e-07,
-      "loss": 0.1558,
-      "reward": 2.5001312494277954,
-      "reward_std": 0.5244300961494446,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.05542440339922905,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 546.8125305175781,
+      "epoch": 0.3027859237536657,
+      "grad_norm": 16.103298225019277,
+      "kl": 1.69921875,
+      "learning_rate": 8.922387989654202e-07,
+      "loss": 0.5684,
+      "reward": 2.507889747619629,
+      "reward_std": 0.48949065804481506,
+      "rewards/accuracy_reward": 0.6250000298023224,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.011207538656890392,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 413
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 789.2500305175781,
-      "epoch": 0.207,
-      "grad_norm": 13.034420101645079,
-      "kl": 2.1484375,
-      "learning_rate": 9.689751171381377e-07,
-      "loss": 0.4389,
-      "reward": 2.2836403846740723,
-      "reward_std": 0.55134117603302,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.06184585019946098,
-      "rewards/tag_count_reward": 0.7135416865348816,
+      "completion_length": 497.56251525878906,
+      "epoch": 0.3035190615835777,
+      "grad_norm": 8.332687659618854,
+      "kl": 2.203125,
+      "learning_rate": 8.914895695217011e-07,
+      "loss": 0.513,
+      "reward": 2.341689109802246,
+      "reward_std": 0.316712461411953,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.014213801361620426,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 414
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 678.8750305175781,
-      "epoch": 0.2075,
-      "grad_norm": 24.87345626627445,
-      "kl": 2.734375,
-      "learning_rate": 9.68687905591911e-07,
-      "loss": 0.2528,
-      "reward": 2.3144073486328125,
-      "reward_std": 0.4746939539909363,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.031078746542334557,
-      "rewards/tag_count_reward": 0.7343750298023224,
+      "completion_length": 835.7500305175781,
+      "epoch": 0.30425219941348974,
+      "grad_norm": 39.2963962140608,
+      "kl": 5.984375,
+      "learning_rate": 8.907381014195989e-07,
+      "loss": 0.7308,
+      "reward": 2.089294672012329,
+      "reward_std": 0.4655766934156418,
+      "rewards/accuracy_reward": 0.3125000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.004455308895558119,
+      "rewards/tag_count_reward": 0.78125,
       "step": 415
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 756.8958435058594,
-      "epoch": 0.208,
-      "grad_norm": 10.29769838863137,
-      "kl": 1.921875,
-      "learning_rate": 9.683994186497132e-07,
-      "loss": 0.1948,
-      "reward": 2.4876515865325928,
-      "reward_std": 0.3638898953795433,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.05227917805314064,
-      "rewards/tag_count_reward": 0.8177083432674408,
+      "completion_length": 724.8750305175781,
+      "epoch": 0.30498533724340177,
+      "grad_norm": 14.61779528445159,
+      "kl": 4.7890625,
+      "learning_rate": 8.899843995854142e-07,
+      "loss": 1.091,
+      "reward": 2.286299228668213,
+      "reward_std": 0.3357388377189636,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0157841881737113,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 416
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 458.4583435058594,
-      "epoch": 0.2085,
-      "grad_norm": 4.792568485298934,
-      "kl": 0.650390625,
-      "learning_rate": 9.681096571903252e-07,
-      "loss": 0.0885,
-      "reward": 2.4742881059646606,
-      "reward_std": 0.4346305727958679,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.050017524510622025,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 600.0625305175781,
+      "epoch": 0.3057184750733138,
+      "grad_norm": 14.48002086498947,
+      "kl": 3.3359375,
+      "learning_rate": 8.892284689600917e-07,
+      "loss": 0.4826,
+      "reward": 2.311539053916931,
+      "reward_std": 0.3173745572566986,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.013113727793097496,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 417
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 424.3125,
-      "epoch": 0.209,
-      "grad_norm": 5.038602331803735,
-      "kl": 0.322265625,
-      "learning_rate": 9.67818622096411e-07,
-      "loss": 0.0884,
-      "reward": 2.7949297428131104,
-      "reward_std": 0.28741036355495453,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.038403624668717384,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 536.7916870117188,
+      "epoch": 0.3064516129032258,
+      "grad_norm": 12.734623287810342,
+      "kl": 3.015625,
+      "learning_rate": 8.88470314499186e-07,
+      "loss": 0.5337,
+      "reward": 2.267106056213379,
+      "reward_std": 0.41217756271362305,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.012407994829118252,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 418
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 450.9375,
-      "epoch": 0.2095,
-      "grad_norm": 5.384359454777853,
-      "kl": 0.287109375,
-      "learning_rate": 9.67526314254514e-07,
-      "loss": 0.0816,
-      "reward": 2.835049033164978,
-      "reward_std": 0.24460270255804062,
-      "rewards/accuracy_reward": 0.8958333432674408,
+      "completion_length": 568.4791870117188,
+      "epoch": 0.30718475073313783,
+      "grad_norm": 16.767038731550095,
+      "kl": 3.59375,
+      "learning_rate": 8.877099411728314e-07,
+      "loss": 0.4868,
+      "reward": 2.0982948541641235,
+      "reward_std": 0.2590210735797882,
+      "rewards/accuracy_reward": 0.1875,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.048631489276885986,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "rewards/repetition_penalty_reward": -0.009344066493213177,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 419
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 541.2083435058594,
-      "epoch": 0.21,
-      "grad_norm": 20.48316004254315,
-      "kl": 0.9375,
-      "learning_rate": 9.672327345550543e-07,
-      "loss": 0.2865,
-      "reward": 2.627635359764099,
-      "reward_std": 0.5200231969356537,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.023406220600008965,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 474.7083435058594,
+      "epoch": 0.30791788856304986,
+      "grad_norm": 6.045360274295084,
+      "kl": 1.833984375,
+      "learning_rate": 8.869473539657074e-07,
+      "loss": 0.2533,
+      "reward": 2.378178358078003,
+      "reward_std": 0.27451788214966655,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01244673365727067,
+      "rewards/tag_count_reward": 0.953125,
       "step": 420
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.5833435058594,
-      "epoch": 0.2105,
-      "grad_norm": 12.49478929221166,
-      "kl": 1.31640625,
-      "learning_rate": 9.669378838923267e-07,
-      "loss": 0.4444,
-      "reward": 2.715390205383301,
-      "reward_std": 0.4231880307197571,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.03460977412760258,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 454.0208435058594,
+      "epoch": 0.3086510263929619,
+      "grad_norm": 5.635897679272559,
+      "kl": 0.875,
+      "learning_rate": 8.861825578770069e-07,
+      "loss": 0.0649,
+      "reward": 2.3644415140151978,
+      "reward_std": 0.2842712849378586,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.012294710613787174,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 421
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 962.4583435058594,
-      "epoch": 0.211,
-      "grad_norm": 23.747666802030537,
-      "kl": 3.1328125,
-      "learning_rate": 9.666417631644976e-07,
-      "loss": 0.4393,
-      "reward": 2.1522072553634644,
-      "reward_std": 0.5904508531093597,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02487611025571823,
-      "rewards/tag_count_reward": 0.7812500298023224,
+      "completion_length": 422.37501525878906,
+      "epoch": 0.3093841642228739,
+      "grad_norm": 3.9672336398242374,
+      "kl": 0.5673828125,
+      "learning_rate": 8.854155579204036e-07,
+      "loss": 0.0106,
+      "reward": 2.935629725456238,
+      "reward_std": 0.12748303078114986,
+      "rewards/accuracy_reward": 0.9791666865348816,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.017495382577180862,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 422
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 1850.354248046875,
-      "epoch": 0.2115,
-      "grad_norm": 22.007156665570427,
-      "kl": 4.5625,
-      "learning_rate": 9.66344373273602e-07,
-      "loss": 0.3166,
-      "reward": 1.7171184420585632,
-      "reward_std": 0.5808897018432617,
-      "rewards/accuracy_reward": 0.1875,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.0033677266910672188,
-      "rewards/tag_count_reward": 0.5885416716337204,
+      "completion_length": 449.50001525878906,
+      "epoch": 0.3101173020527859,
+      "grad_norm": 4.249069913225125,
+      "kl": 0.5078125,
+      "learning_rate": 8.84646359124018e-07,
+      "loss": 0.0199,
+      "reward": 2.429058015346527,
+      "reward_std": 0.17704454949125648,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.015386473387479782,
+      "rewards/tag_count_reward": 1.0,
       "step": 423
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 1172.25,
-      "epoch": 0.212,
-      "grad_norm": 13.046087807963628,
-      "kl": 3.3359375,
-      "learning_rate": 9.66045715125541e-07,
-      "loss": 0.5982,
-      "reward": 2.00005042552948,
-      "reward_std": 0.6750081181526184,
-      "rewards/accuracy_reward": 0.375,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.0121024283580482,
-      "rewards/tag_count_reward": 0.6927083432674408,
+      "completion_length": 444.6458435058594,
+      "epoch": 0.31085043988269795,
+      "grad_norm": 11.718746465515885,
+      "kl": 0.59375,
+      "learning_rate": 8.83874966530386e-07,
+      "loss": -0.0174,
+      "reward": 2.216548442840576,
+      "reward_std": 0.11675330437719822,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017826574854552746,
+      "rewards/tag_count_reward": 0.984375,
       "step": 424
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 777.1666870117188,
-      "epoch": 0.2125,
-      "grad_norm": 8.697075914848647,
-      "kl": 1.41015625,
-      "learning_rate": 9.657457896300791e-07,
-      "loss": 0.4061,
-      "reward": 2.4428231716156006,
-      "reward_std": 0.44499611109495163,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03634357824921608,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 428.7291717529297,
+      "epoch": 0.31158357771260997,
+      "grad_norm": 3.99754517757241,
+      "kl": 0.3359375,
+      "learning_rate": 8.831013851964253e-07,
+      "loss": -0.0056,
+      "reward": 2.6643564701080322,
+      "reward_std": 0.20628847926855087,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.01967142429202795,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 425
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 629.6875152587891,
-      "epoch": 0.213,
-      "grad_norm": 12.127551785913408,
-      "kl": 1.099609375,
-      "learning_rate": 9.654445977008414e-07,
-      "loss": 0.4644,
-      "reward": 2.2689449787139893,
-      "reward_std": 0.3217324912548065,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.026193935424089432,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 407.68751525878906,
+      "epoch": 0.312316715542522,
+      "grad_norm": 3.0243285560646918,
+      "kl": 0.3134765625,
+      "learning_rate": 8.823256201934009e-07,
+      "loss": -0.0137,
+      "reward": 2.472022771835327,
+      "reward_std": 0.03336298279464245,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.021032861433923244,
+      "rewards/tag_count_reward": 1.0,
       "step": 426
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.3958435058594,
-      "epoch": 0.2135,
-      "grad_norm": 14.647819824321752,
-      "kl": 0.37890625,
-      "learning_rate": 9.651421402553108e-07,
-      "loss": 0.2392,
-      "reward": 2.611443519592285,
-      "reward_std": 0.21422222256660461,
-      "rewards/accuracy_reward": 0.7083333432674408,
+      "completion_length": 468.1666717529297,
+      "epoch": 0.313049853372434,
+      "grad_norm": 6.739707368856835,
+      "kl": 0.541015625,
+      "learning_rate": 8.81547676606894e-07,
+      "loss": 0.0628,
+      "reward": 2.461642861366272,
+      "reward_std": 0.08788503333926201,
+      "rewards/accuracy_reward": 0.5208333432674408,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.04654255323112011,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.01926009263843298,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 427
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 741.8125,
-      "epoch": 0.214,
-      "grad_norm": 6.865030392191665,
-      "kl": 1.41015625,
-      "learning_rate": 9.648384182148252e-07,
-      "loss": 0.3917,
-      "reward": 2.2415451407432556,
-      "reward_std": 0.5755177438259125,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.03970504552125931,
-      "rewards/tag_count_reward": 0.8229166865348816,
+      "completion_length": 425.2708435058594,
+      "epoch": 0.31378299120234604,
+      "grad_norm": 6.748145314971122,
+      "kl": 0.421875,
+      "learning_rate": 8.807675595367674e-07,
+      "loss": 0.1198,
+      "reward": 2.1878883838653564,
+      "reward_std": 0.13607415929436684,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025653420016169548,
+      "rewards/tag_count_reward": 0.984375,
       "step": 428
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 539.2083435058594,
-      "epoch": 0.2145,
-      "grad_norm": 4.7239397954996205,
-      "kl": 0.71875,
-      "learning_rate": 9.645334325045745e-07,
-      "loss": 0.1712,
-      "reward": 2.2595887184143066,
-      "reward_std": 0.39921020716428757,
-      "rewards/accuracy_reward": 0.4375000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.04423084668815136,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 430.31251525878906,
+      "epoch": 0.31451612903225806,
+      "grad_norm": 7.1793774023164145,
+      "kl": 0.5166015625,
+      "learning_rate": 8.799852740971323e-07,
+      "loss": 0.0118,
+      "reward": 2.4083354473114014,
+      "reward_std": 0.20769641920924187,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.027428350411355495,
+      "rewards/tag_count_reward": 0.984375,
       "step": 429
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 687.2083435058594,
-      "epoch": 0.215,
-      "grad_norm": 5.41675055528973,
-      "kl": 1.40234375,
-      "learning_rate": 9.64227184053598e-07,
-      "loss": 0.5379,
-      "reward": 2.37734055519104,
-      "reward_std": 0.4606352895498276,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.05668727494776249,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 415.6458435058594,
+      "epoch": 0.3152492668621701,
+      "grad_norm": 4.178510346631957,
+      "kl": 0.353515625,
+      "learning_rate": 8.792008254163145e-07,
+      "loss": 0.0192,
+      "reward": 2.216019093990326,
+      "reward_std": 0.05499478569254279,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02009205799549818,
+      "rewards/tag_count_reward": 1.0,
       "step": 430
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 852.3958435058594,
-      "epoch": 0.2155,
-      "grad_norm": 12.180552388615105,
-      "kl": 2.3359375,
-      "learning_rate": 9.63919673794782e-07,
-      "loss": 0.55,
-      "reward": 2.2885630130767822,
-      "reward_std": 0.5578717291355133,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03088139370083809,
-      "rewards/tag_count_reward": 0.8333333730697632,
+      "completion_length": 547.1875152587891,
+      "epoch": 0.3159824046920821,
+      "grad_norm": 12.228179652584759,
+      "kl": 1.5625,
+      "learning_rate": 8.784142186368214e-07,
+      "loss": 0.2563,
+      "reward": 2.4159883856773376,
+      "reward_std": 0.11997727863490582,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026720006950199604,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 431
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 1157.7291870117188,
-      "epoch": 0.216,
-      "grad_norm": 21.263145759520075,
-      "kl": 3.4140625,
-      "learning_rate": 9.636109026648554e-07,
-      "loss": 0.514,
-      "reward": 1.711805820465088,
-      "reward_std": 0.5387972891330719,
-      "rewards/accuracy_reward": 0.1458333358168602,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.02777751348912716,
-      "rewards/tag_count_reward": 0.6562500298023224,
+      "completion_length": 506.875,
+      "epoch": 0.31671554252199413,
+      "grad_norm": 8.456013908011222,
+      "kl": 1.7109375,
+      "learning_rate": 8.776254589153081e-07,
+      "loss": 0.2094,
+      "reward": 2.1472460627555847,
+      "reward_std": 0.1969931460916996,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.012476155068725348,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 432
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 740.2500305175781,
-      "epoch": 0.2165,
-      "grad_norm": 8.545418331851147,
-      "kl": 1.56640625,
-      "learning_rate": 9.633008716043892e-07,
-      "loss": 0.3121,
-      "reward": 2.3099186420440674,
-      "reward_std": 0.5152548253536224,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.037303626537323,
-      "rewards/tag_count_reward": 0.8333333730697632,
+      "completion_length": 560.7083587646484,
+      "epoch": 0.31744868035190615,
+      "grad_norm": 20.44702979218028,
+      "kl": 2.8828125,
+      "learning_rate": 8.768345514225431e-07,
+      "loss": 0.3417,
+      "reward": 2.5165975093841553,
+      "reward_std": 0.4180612862110138,
+      "rewards/accuracy_reward": 0.645833358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019861001521348953,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 433
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 547.2708435058594,
-      "epoch": 0.217,
-      "grad_norm": 4.67948611938176,
-      "kl": 1.0,
-      "learning_rate": 9.629895815577915e-07,
-      "loss": 0.358,
-      "reward": 2.493169069290161,
-      "reward_std": 0.6183354258537292,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.022456128150224686,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 627.4375305175781,
+      "epoch": 0.3181818181818182,
+      "grad_norm": 13.430874608120844,
+      "kl": 4.34375,
+      "learning_rate": 8.76041501343375e-07,
+      "loss": 0.7845,
+      "reward": 2.2989736795425415,
+      "reward_std": 0.6288765966892242,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.022207094356417656,
+      "rewards/tag_count_reward": 0.8072916865348816,
       "step": 434
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 468.25,
-      "epoch": 0.2175,
-      "grad_norm": 5.989166621610532,
-      "kl": 0.51123046875,
-      "learning_rate": 9.626770334733058e-07,
-      "loss": 0.108,
-      "reward": 2.392013192176819,
-      "reward_std": 0.47137293219566345,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.036806222051382065,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 590.9791870117188,
+      "epoch": 0.3189149560117302,
+      "grad_norm": 29.560773552065303,
+      "kl": 4.59375,
+      "learning_rate": 8.752463138766981e-07,
+      "loss": 0.5636,
+      "reward": 2.0621426105499268,
+      "reward_std": 0.28306297212839127,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.01771850883960724,
+      "rewards/tag_count_reward": 0.8645833432674408,
       "step": 435
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 488.8958435058594,
-      "epoch": 0.218,
-      "grad_norm": 9.738518456979653,
-      "kl": 0.54296875,
-      "learning_rate": 9.623632283030077e-07,
-      "loss": 0.1873,
-      "reward": 2.3263269662857056,
-      "reward_std": 0.3005019724369049,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.05561743676662445,
+      "completion_length": 619.7916870117188,
+      "epoch": 0.3196480938416422,
+      "grad_norm": 22.441957468784093,
+      "kl": 3.7109375,
+      "learning_rate": 8.744489942354187e-07,
+      "loss": 0.675,
+      "reward": 2.1259257793426514,
+      "reward_std": 0.3373235762119293,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019907758571207523,
       "rewards/tag_count_reward": 0.8958333432674408,
       "step": 436
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.2083435058594,
-      "epoch": 0.2185,
-      "grad_norm": 8.158385637923423,
-      "kl": 0.357421875,
-      "learning_rate": 9.620481670028026e-07,
-      "loss": 0.1567,
-      "reward": 2.596799850463867,
-      "reward_std": 0.24532540142536163,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.033408566378057,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 685.5625305175781,
+      "epoch": 0.32038123167155425,
+      "grad_norm": 12.825077973059518,
+      "kl": 4.0,
+      "learning_rate": 8.736495476464205e-07,
+      "loss": 0.68,
+      "reward": 2.335544228553772,
+      "reward_std": 0.2173374593257904,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02383077424019575,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 437
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 425.375,
-      "epoch": 0.219,
-      "grad_norm": 5.659616408154006,
-      "kl": 0.5888671875,
-      "learning_rate": 9.617318505324212e-07,
-      "loss": 0.0578,
-      "reward": 2.552333116531372,
-      "reward_std": 0.32321399450302124,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.04488925263285637,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 541.1666717529297,
+      "epoch": 0.32111436950146627,
+      "grad_norm": 20.43850556963088,
+      "kl": 2.25,
+      "learning_rate": 8.728479793505308e-07,
+      "loss": 0.4834,
+      "reward": 1.9290331602096558,
+      "reward_std": 0.1057676412165165,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024091887287795544,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 438
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.0833435058594,
-      "epoch": 0.2195,
-      "grad_norm": 8.173779954105225,
-      "kl": 0.58984375,
-      "learning_rate": 9.614142798554186e-07,
-      "loss": 0.2351,
-      "reward": 2.7584837675094604,
-      "reward_std": 0.42886343598365784,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.040127404034137726,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 578.0416870117188,
+      "epoch": 0.3218475073313783,
+      "grad_norm": 16.888244534119845,
+      "kl": 2.65625,
+      "learning_rate": 8.720442946024855e-07,
+      "loss": 0.3783,
+      "reward": 2.275824010372162,
+      "reward_std": 0.40398430824279785,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.024523337371647358,
+      "rewards/tag_count_reward": 0.9114583730697632,
       "step": 439
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 584.5208740234375,
-      "epoch": 0.22,
-      "grad_norm": 12.102598421917286,
-      "kl": 1.78515625,
-      "learning_rate": 9.610954559391704e-07,
-      "loss": 0.4177,
-      "reward": 2.3829479217529297,
-      "reward_std": 0.5593430995941162,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.06496894918382168,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 530.0416717529297,
+      "epoch": 0.3225806451612903,
+      "grad_norm": 26.375467728384585,
+      "kl": 1.7265625,
+      "learning_rate": 8.712384986708953e-07,
+      "loss": 0.4054,
+      "reward": 2.3330430388450623,
+      "reward_std": 0.3513893634080887,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.024595932103693485,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 440
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 666.3541870117188,
-      "epoch": 0.2205,
-      "grad_norm": 12.188104046012809,
-      "kl": 2.4296875,
-      "learning_rate": 9.607753797548691e-07,
-      "loss": 0.5983,
-      "reward": 2.4352097511291504,
-      "reward_std": 0.7042646259069443,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.052637550979852676,
-      "rewards/tag_count_reward": 0.8489583432674408,
+      "completion_length": 566.2083435058594,
+      "epoch": 0.32331378299120234,
+      "grad_norm": 24.099276246580605,
+      "kl": 2.86328125,
+      "learning_rate": 8.704305968382112e-07,
+      "loss": 0.7114,
+      "reward": 2.1199684143066406,
+      "reward_std": 0.2733127325773239,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020656662993133068,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 441
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 619.4166870117188,
-      "epoch": 0.221,
-      "grad_norm": 17.355391790641967,
-      "kl": 2.421875,
-      "learning_rate": 9.604540522775227e-07,
-      "loss": 0.3384,
-      "reward": 2.2807594537734985,
-      "reward_std": 0.47133713960647583,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.03521277289837599,
-      "rewards/tag_count_reward": 0.8645833730697632,
+      "completion_length": 596.9166870117188,
+      "epoch": 0.32404692082111436,
+      "grad_norm": 24.107301778659405,
+      "kl": 4.1875,
+      "learning_rate": 8.696205944006891e-07,
+      "loss": 0.7505,
+      "reward": 2.107983946800232,
+      "reward_std": 0.268925741314888,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017016036435961723,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 442
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 727.7291870117188,
-      "epoch": 0.2215,
-      "grad_norm": 19.28638169980206,
-      "kl": 2.24609375,
-      "learning_rate": 9.601314744859504e-07,
-      "loss": 0.692,
-      "reward": 2.0420679450035095,
-      "reward_std": 0.7488097846508026,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.8819444179534912,
-      "rewards/repetition_penalty_reward": -0.02737656608223915,
-      "rewards/tag_count_reward": 0.7708333730697632,
+      "completion_length": 613.2916870117188,
+      "epoch": 0.3247800586510264,
+      "grad_norm": 49.39061448190325,
+      "kl": 6.421875,
+      "learning_rate": 8.688084966683557e-07,
+      "loss": 0.5934,
+      "reward": 2.1915996074676514,
+      "reward_std": 0.4412628412246704,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.016733783297240734,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 443
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 447.93751525878906,
-      "epoch": 0.222,
-      "grad_norm": 3862503.859265399,
-      "kl": 2170.0,
-      "learning_rate": 9.598076473627796e-07,
-      "loss": 259.2312,
-      "reward": 2.4890825748443604,
-      "reward_std": 0.6550872325897217,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.03695919178426266,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 836.8750305175781,
+      "epoch": 0.3255131964809384,
+      "grad_norm": 77.73635730936726,
+      "kl": 11.03125,
+      "learning_rate": 8.679943089649737e-07,
+      "loss": 0.951,
+      "reward": 1.8464696407318115,
+      "reward_std": 0.46440982818603516,
+      "rewards/accuracy_reward": 0.12500000558793545,
+      "rewards/reasoning_steps_reward": 0.9791667461395264,
+      "rewards/repetition_penalty_reward": -0.018113664351403713,
+      "rewards/tag_count_reward": 0.7604166865348816,
       "step": 444
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.00001525878906,
-      "epoch": 0.2225,
-      "grad_norm": 20458711.67176828,
-      "kl": 37120.201171875,
-      "learning_rate": 9.594825718944444e-07,
-      "loss": 1892.2664,
-      "reward": 2.576767325401306,
-      "reward_std": 0.32869401574134827,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.8611111044883728,
-      "rewards/repetition_penalty_reward": -0.055177152156829834,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 684.8125305175781,
+      "epoch": 0.3262463343108504,
+      "grad_norm": 43.20397648755034,
+      "kl": 6.484375,
+      "learning_rate": 8.671780366280067e-07,
+      "loss": 0.9399,
+      "reward": 2.0885465145111084,
+      "reward_std": 0.508235827088356,
+      "rewards/accuracy_reward": 0.2916666865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02082844078540802,
+      "rewards/tag_count_reward": 0.8385416865348816,
       "step": 445
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 375.6666717529297,
-      "epoch": 0.223,
-      "grad_norm": 6.226734549137509,
-      "kl": 0.50830078125,
-      "learning_rate": 9.59156249071181e-07,
-      "loss": 0.01,
-      "reward": 2.7551599740982056,
-      "reward_std": 0.20863118767738342,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.04345105215907097,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 457.4583435058594,
+      "epoch": 0.32697947214076245,
+      "grad_norm": 13.78943058368852,
+      "kl": 2.203125,
+      "learning_rate": 8.66359685008584e-07,
+      "loss": 0.2261,
+      "reward": 2.1724031567573547,
+      "reward_std": 0.14021247252821922,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.01856919191777706,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 446
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.45835876464844,
-      "epoch": 0.2235,
-      "grad_norm": 5.567081842645192,
-      "kl": 0.68359375,
-      "learning_rate": 9.588286798870248e-07,
-      "loss": 0.1501,
-      "reward": 2.574015259742737,
-      "reward_std": 0.45759186148643494,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.049248674884438515,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 464.9375,
+      "epoch": 0.3277126099706745,
+      "grad_norm": 18.641202440944074,
+      "kl": 1.48046875,
+      "learning_rate": 8.655392594714661e-07,
+      "loss": 0.3041,
+      "reward": 2.3693387508392334,
+      "reward_std": 0.2319539673626423,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.016078063752502203,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 447
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 493.04168701171875,
-      "epoch": 0.224,
-      "grad_norm": 4.077704475094219,
-      "kl": 0.634765625,
-      "learning_rate": 9.58499865339809e-07,
-      "loss": 0.0452,
-      "reward": 2.5271689891815186,
-      "reward_std": 0.3818424344062805,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.05963664874434471,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 511.50001525878906,
+      "epoch": 0.3284457478005865,
+      "grad_norm": 10.100849867977697,
+      "kl": 1.19140625,
+      "learning_rate": 8.647167653950092e-07,
+      "loss": 0.2502,
+      "reward": 1.9037845134735107,
+      "reward_std": 0.1535169705748558,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.01982666738331318,
+      "rewards/tag_count_reward": 0.9375,
       "step": 448
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.5833435058594,
-      "epoch": 0.2245,
-      "grad_norm": 4.624099127542048,
-      "kl": 0.5810546875,
-      "learning_rate": 9.581698064311592e-07,
-      "loss": 0.0303,
-      "reward": 2.3410807847976685,
-      "reward_std": 0.4072131812572479,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.054752614349126816,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 415.3958435058594,
+      "epoch": 0.3291788856304985,
+      "grad_norm": 6.39755512266102,
+      "kl": 0.931640625,
+      "learning_rate": 8.638922081711295e-07,
+      "loss": 0.0919,
+      "reward": 2.8837406635284424,
+      "reward_std": 0.193980960175395,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.015564900357276201,
+      "rewards/tag_count_reward": 0.96875,
       "step": 449
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 336.81251525878906,
-      "epoch": 0.225,
-      "grad_norm": 4.480015408899521,
-      "kl": 0.248046875,
-      "learning_rate": 9.578385041664925e-07,
-      "loss": 0.03,
-      "reward": 2.6452146768569946,
-      "reward_std": 0.1535702757537365,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.04228539019823074,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 504.8958435058594,
+      "epoch": 0.32991202346041054,
+      "grad_norm": 11.85855042798546,
+      "kl": 1.451171875,
+      "learning_rate": 8.63065593205269e-07,
+      "loss": 0.366,
+      "reward": 2.794464588165283,
+      "reward_std": 0.44993289560079575,
+      "rewards/accuracy_reward": 0.8958333730697632,
+      "rewards/reasoning_steps_reward": 0.9791666567325592,
+      "rewards/repetition_penalty_reward": -0.01803573127835989,
+      "rewards/tag_count_reward": 0.9375,
       "step": 450
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 464.5833435058594,
-      "epoch": 0.2255,
-      "grad_norm": 6.047533958166858,
-      "kl": 0.5625,
-      "learning_rate": 9.575059595550127e-07,
-      "loss": 0.1545,
-      "reward": 2.5978249311447144,
-      "reward_std": 0.3733315169811249,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.041063896380364895,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 443.0833435058594,
+      "epoch": 0.33064516129032256,
+      "grad_norm": 18.349554724503466,
+      "kl": 1.203125,
+      "learning_rate": 8.622369259163588e-07,
+      "loss": 0.3583,
+      "reward": 2.379144310951233,
+      "reward_std": 0.22539783269166946,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011480757035315037,
+      "rewards/tag_count_reward": 0.953125,
       "step": 451
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 398.43751525878906,
-      "epoch": 0.226,
-      "grad_norm": 11.490949893657614,
-      "kl": 0.505859375,
-      "learning_rate": 9.571721736097088e-07,
-      "loss": 0.1815,
-      "reward": 2.7292104959487915,
-      "reward_std": 0.36046914756298065,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.05898405984044075,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 543.8125305175781,
+      "epoch": 0.3313782991202346,
+      "grad_norm": 42.831501126634414,
+      "kl": 1.2265625,
+      "learning_rate": 8.614062117367846e-07,
+      "loss": 0.6447,
+      "reward": 2.5604196786880493,
+      "reward_std": 0.5051280111074448,
+      "rewards/accuracy_reward": 0.6666666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.014233164954930544,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 452
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.81251525878906,
-      "epoch": 0.2265,
-      "grad_norm": 6.831195619894885,
-      "kl": 1.2734375,
-      "learning_rate": 9.568371473473503e-07,
-      "loss": 0.2574,
-      "reward": 2.4620362520217896,
-      "reward_std": 0.4237401932477951,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.03796376567333937,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 563.6458435058594,
+      "epoch": 0.3321114369501466,
+      "grad_norm": 8.498854597259745,
+      "kl": 1.859375,
+      "learning_rate": 8.6057345611235e-07,
+      "loss": 0.3801,
+      "reward": 2.386213481426239,
+      "reward_std": 0.2767922133207321,
+      "rewards/accuracy_reward": 0.5000000204890966,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.0096200630068779,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 453
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 518.1458435058594,
-      "epoch": 0.227,
-      "grad_norm": 17.14178008843787,
-      "kl": 2.23828125,
-      "learning_rate": 9.565008817884854e-07,
-      "loss": 0.3425,
-      "reward": 2.2992377281188965,
-      "reward_std": 0.7252504229545593,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.86111119389534,
-      "rewards/repetition_penalty_reward": -0.025415126234292984,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 467.68751525878906,
+      "epoch": 0.33284457478005863,
+      "grad_norm": 10.655046074477987,
+      "kl": 1.2392578125,
+      "learning_rate": 8.597386645022423e-07,
+      "loss": 0.2894,
+      "reward": 2.347404420375824,
+      "reward_std": 0.3219123715534806,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.01023465720936656,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 454
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.7083435058594,
-      "epoch": 0.2275,
-      "grad_norm": 11.113475621778726,
-      "kl": 1.48828125,
-      "learning_rate": 9.561633779574372e-07,
-      "loss": 0.1915,
-      "reward": 2.620706558227539,
-      "reward_std": 0.4370867908000946,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.03554350510239601,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 387.2083435058594,
+      "epoch": 0.33357771260997066,
+      "grad_norm": 13.16671124138141,
+      "kl": 1.1796875,
+      "learning_rate": 8.589018423789951e-07,
+      "loss": 0.2794,
+      "reward": 2.66903293132782,
+      "reward_std": 0.16836241632699966,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.014994919300079346,
+      "rewards/tag_count_reward": 0.96875,
       "step": 455
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 441.91668701171875,
-      "epoch": 0.228,
-      "grad_norm": 4.925397785816655,
-      "kl": 0.98046875,
-      "learning_rate": 9.55824636882301e-07,
-      "loss": 0.3033,
-      "reward": 2.390235185623169,
-      "reward_std": 0.44205035269260406,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.875,
-      "rewards/repetition_penalty_reward": -0.042056621983647346,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 594.8958435058594,
+      "epoch": 0.3343108504398827,
+      "grad_norm": 13.161941875430305,
+      "kl": 3.9375,
+      "learning_rate": 8.580629952284534e-07,
+      "loss": 1.3136,
+      "reward": 2.3228167295455933,
+      "reward_std": 0.4149315506219864,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.010516760405153036,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 456
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 543.9583435058594,
-      "epoch": 0.2285,
-      "grad_norm": 6.065645620729275,
-      "kl": 0.68359375,
-      "learning_rate": 9.554846595949413e-07,
-      "loss": 0.2455,
-      "reward": 2.332500398159027,
-      "reward_std": 0.3640214204788208,
-      "rewards/accuracy_reward": 0.5000000111758709,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.06159696541726589,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 530.5208435058594,
+      "epoch": 0.3350439882697947,
+      "grad_norm": 26.618723827545875,
+      "kl": 4.53125,
+      "learning_rate": 8.572221285497378e-07,
+      "loss": 0.8534,
+      "reward": 1.884135127067566,
+      "reward_std": 0.19925276935100555,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.01517043774947524,
+      "rewards/tag_count_reward": 0.90625,
       "step": 457
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 538.5416717529297,
-      "epoch": 0.229,
-      "grad_norm": 13.405805070703696,
-      "kl": 0.806640625,
-      "learning_rate": 9.55143447130987e-07,
-      "loss": 0.2765,
-      "reward": 2.613925814628601,
-      "reward_std": 0.4678662419319153,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.04926872253417969,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 550.4166870117188,
+      "epoch": 0.3357771260997067,
+      "grad_norm": 28.703091822389183,
+      "kl": 3.875,
+      "learning_rate": 8.563792478552071e-07,
+      "loss": 0.7495,
+      "reward": 2.278742492198944,
+      "reward_std": 0.38903089612722397,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.012924263253808022,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 458
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 684.75,
-      "epoch": 0.2295,
-      "grad_norm": 5.353993038328121,
-      "kl": 1.541015625,
-      "learning_rate": 9.54801000529831e-07,
-      "loss": 0.3747,
-      "reward": 2.072951376438141,
-      "reward_std": 0.6868791580200195,
-      "rewards/accuracy_reward": 0.458333358168602,
-      "rewards/reasoning_steps_reward": 0.8402778506278992,
-      "rewards/repetition_penalty_reward": -0.03295143134891987,
-      "rewards/tag_count_reward": 0.8072916865348816,
+      "completion_length": 611.0416870117188,
+      "epoch": 0.33651026392961875,
+      "grad_norm": 27.90049267018379,
+      "kl": 4.4296875,
+      "learning_rate": 8.555343586704242e-07,
+      "loss": 0.8235,
+      "reward": 2.1318034529685974,
+      "reward_std": 0.558455765247345,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.012293811421841383,
+      "rewards/tag_count_reward": 0.859375,
       "step": 459
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 697.5416870117188,
-      "epoch": 0.23,
-      "grad_norm": 6.2141087927742555,
-      "kl": 1.39453125,
-      "learning_rate": 9.54457320834625e-07,
-      "loss": 0.5803,
-      "reward": 2.205751061439514,
-      "reward_std": 0.5500113666057587,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.018207357730716467,
-      "rewards/tag_count_reward": 0.8489583432674408,
+      "completion_length": 533.5416717529297,
+      "epoch": 0.33724340175953077,
+      "grad_norm": 22.430193881631553,
+      "kl": 3.5234375,
+      "learning_rate": 8.546874665341181e-07,
+      "loss": 0.4792,
+      "reward": 2.256991147994995,
+      "reward_std": 0.4296814352273941,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.012106035370379686,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 460
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 374.7708435058594,
-      "epoch": 0.2305,
-      "grad_norm": 4.32996026619283,
-      "kl": 0.51171875,
-      "learning_rate": 9.54112409092277e-07,
-      "loss": 0.1318,
-      "reward": 2.5193281173706055,
-      "reward_std": 0.2269902043044567,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03969983570277691,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 562.0416870117188,
+      "epoch": 0.3379765395894428,
+      "grad_norm": 20.303533243217544,
+      "kl": 2.9609375,
+      "learning_rate": 8.538385769981488e-07,
+      "loss": 0.4452,
+      "reward": 2.025463283061981,
+      "reward_std": 0.41344672441482544,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.012731055729091167,
+      "rewards/tag_count_reward": 0.8645833730697632,
       "step": 461
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 522.4791870117188,
-      "epoch": 0.231,
-      "grad_norm": 6.138638623677164,
-      "kl": 0.767578125,
-      "learning_rate": 9.537662663534477e-07,
-      "loss": 0.2944,
-      "reward": 2.0977752208709717,
-      "reward_std": 0.47963058948516846,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.06368312053382397,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 611.2500152587891,
+      "epoch": 0.3387096774193548,
+      "grad_norm": 11.57285794591874,
+      "kl": 2.9765625,
+      "learning_rate": 8.529876956274698e-07,
+      "loss": 0.6475,
+      "reward": 2.311686098575592,
+      "reward_std": 0.29963135719299316,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.018175031058490276,
+      "rewards/tag_count_reward": 0.8645833730697632,
       "step": 462
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 549.1666870117188,
-      "epoch": 0.2315,
-      "grad_norm": 4.983489188907526,
-      "kl": 0.802734375,
-      "learning_rate": 9.534188936725483e-07,
-      "loss": 0.209,
-      "reward": 2.581421971321106,
-      "reward_std": 0.44028259813785553,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.03316138405352831,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 452.56251525878906,
+      "epoch": 0.33944281524926684,
+      "grad_norm": 6.220846068922538,
+      "kl": 1.05859375,
+      "learning_rate": 8.521348280000924e-07,
+      "loss": 0.2887,
+      "reward": 2.1803677678108215,
+      "reward_std": 0.08419075515121222,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017548908479511738,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 463
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 517.0000152587891,
-      "epoch": 0.232,
-      "grad_norm": 519611.1496287819,
-      "kl": 284.578125,
-      "learning_rate": 9.530702921077358e-07,
-      "loss": 46.5488,
-      "reward": 2.31371533870697,
-      "reward_std": 0.47075986862182617,
-      "rewards/accuracy_reward": 0.5000000111758709,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.028298573568463326,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 493.85418701171875,
+      "epoch": 0.34017595307917886,
+      "grad_norm": 24.101035227375732,
+      "kl": 1.578125,
+      "learning_rate": 8.512799797070492e-07,
+      "loss": 0.6789,
+      "reward": 2.3085252046585083,
+      "reward_std": 0.4135167822241783,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9791666567325592,
+      "rewards/repetition_penalty_reward": -0.019599976018071175,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 464
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 600.5208587646484,
-      "epoch": 0.2325,
-      "grad_norm": 17.962574871609352,
-      "kl": 1.216796875,
-      "learning_rate": 9.527204627209112e-07,
-      "loss": 0.357,
-      "reward": 2.464834451675415,
-      "reward_std": 0.5079529285430908,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.07162389159202576,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 468.1666717529297,
+      "epoch": 0.3409090909090909,
+      "grad_norm": 23.665461110852053,
+      "kl": 1.0625,
+      "learning_rate": 8.504231563523573e-07,
+      "loss": 0.5876,
+      "reward": 2.1471781730651855,
+      "reward_std": 0.3046387583017349,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.014280236326158047,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 465
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.62501525878906,
-      "epoch": 0.233,
-      "grad_norm": 14.124197845323842,
-      "kl": 0.435546875,
-      "learning_rate": 9.523694065777156e-07,
-      "loss": 0.3118,
-      "reward": 2.8386720418930054,
-      "reward_std": 0.370292603969574,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.020702947862446308,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 466.5000305175781,
+      "epoch": 0.3416422287390029,
+      "grad_norm": 8.232517144541893,
+      "kl": 1.29296875,
+      "learning_rate": 8.495643635529809e-07,
+      "loss": 0.2298,
+      "reward": 2.6147353649139404,
+      "reward_std": 0.2032028939574957,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.015473092906177044,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 466
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 639.2708740234375,
-      "epoch": 0.2335,
-      "grad_norm": 22.217309088723397,
-      "kl": 2.3359375,
-      "learning_rate": 9.520171247475268e-07,
-      "loss": 0.5155,
-      "reward": 2.592587947845459,
-      "reward_std": 0.3498579263687134,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.0410926416516304,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 348.4166717529297,
+      "epoch": 0.34237536656891493,
+      "grad_norm": 10.338324346543883,
+      "kl": 0.7734375,
+      "learning_rate": 8.487036069387953e-07,
+      "loss": 0.0658,
+      "reward": 2.450138568878174,
+      "reward_std": 0.1330912890844047,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013403074350208044,
+      "rewards/tag_count_reward": 0.984375,
       "step": 467
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.0208435058594,
-      "epoch": 0.234,
-      "grad_norm": 26.970069655903107,
-      "kl": 1.96484375,
-      "learning_rate": 9.516636183034564e-07,
-      "loss": 0.4617,
-      "reward": 2.5388882160186768,
-      "reward_std": 0.5101897567510605,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02882016822695732,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 430.16668701171875,
+      "epoch": 0.34310850439882695,
+      "grad_norm": 15.816345871806671,
+      "kl": 0.84765625,
+      "learning_rate": 8.4784089215255e-07,
+      "loss": 0.1334,
+      "reward": 2.4448307752609253,
+      "reward_std": 0.14922725409269333,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013502615503966808,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 468
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 551.1666870117188,
-      "epoch": 0.2345,
-      "grad_norm": 10.814287456638,
-      "kl": 1.375,
-      "learning_rate": 9.513088883223463e-07,
-      "loss": 0.3882,
-      "reward": 2.5434218645095825,
-      "reward_std": 0.49620410799980164,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.03817532956600189,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 399.9791717529297,
+      "epoch": 0.34384164222873903,
+      "grad_norm": 25.38232544197375,
+      "kl": 0.8203125,
+      "learning_rate": 8.469762248498307e-07,
+      "loss": 0.1797,
+      "reward": 1.9597020745277405,
+      "reward_std": 0.06006414443254471,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0194645868614316,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 469
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 476.70835876464844,
-      "epoch": 0.235,
-      "grad_norm": 15.36470721622306,
-      "kl": 1.408203125,
-      "learning_rate": 9.509529358847654e-07,
-      "loss": 0.2803,
-      "reward": 2.6564310789108276,
-      "reward_std": 0.321887843310833,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.024124516174197197,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 456.68751525878906,
+      "epoch": 0.34457478005865105,
+      "grad_norm": 11.384146881799431,
+      "kl": 1.71875,
+      "learning_rate": 8.461096106990241e-07,
+      "loss": 0.4859,
+      "reward": 2.122660994529724,
+      "reward_std": 0.3244031220674515,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.01622793171554804,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 470
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 579.4791717529297,
-      "epoch": 0.2355,
-      "grad_norm": 26.432404929557944,
-      "kl": 1.341796875,
-      "learning_rate": 9.505957620750069e-07,
-      "loss": 0.3973,
-      "reward": 2.486717700958252,
-      "reward_std": 0.4216475263237953,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.05494917556643486,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 427.5208435058594,
+      "epoch": 0.3453079178885631,
+      "grad_norm": 7.64042070760251,
+      "kl": 1.35546875,
+      "learning_rate": 8.452410553812784e-07,
+      "loss": 0.334,
+      "reward": 2.4085933566093445,
+      "reward_std": 0.2034970000386238,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.015017746016383171,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 471
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 638.1666870117188,
-      "epoch": 0.236,
-      "grad_norm": 34.94887870173885,
-      "kl": 1.388671875,
-      "learning_rate": 9.502373679810839e-07,
-      "loss": 0.5501,
-      "reward": 2.225524663925171,
-      "reward_std": 0.6959312558174133,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.05225317180156708,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 599.1666870117188,
+      "epoch": 0.3460410557184751,
+      "grad_norm": 12.197273976275588,
+      "kl": 2.9609375,
+      "learning_rate": 8.443705645904678e-07,
+      "loss": 0.7164,
+      "reward": 2.0220767855644226,
+      "reward_std": 0.40696029365062714,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.010909311473369598,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 472
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.0416717529297,
-      "epoch": 0.2365,
-      "grad_norm": 5.72045110026632,
-      "kl": 0.39453125,
-      "learning_rate": 9.49877754694727e-07,
-      "loss": -0.0209,
-      "reward": 2.2306947112083435,
-      "reward_std": 0.19987352192401886,
-      "rewards/accuracy_reward": 0.29166667722165585,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.027985903434455395,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 459.1458435058594,
+      "epoch": 0.3467741935483871,
+      "grad_norm": 26.782940873029442,
+      "kl": 2.94140625,
+      "learning_rate": 8.434981440331549e-07,
+      "loss": 0.4876,
+      "reward": 1.8921802043914795,
+      "reward_std": 0.2121252343058586,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666567325592,
+      "rewards/repetition_penalty_reward": -0.014069781638681889,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 473
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 407.0833435058594,
-      "epoch": 0.237,
-      "grad_norm": 32.792554292092795,
-      "kl": 0.365234375,
-      "learning_rate": 9.495169233113806e-07,
-      "loss": 0.1724,
-      "reward": 2.5822925567626953,
-      "reward_std": 0.33261267840862274,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.8680555820465088,
-      "rewards/repetition_penalty_reward": -0.061804771423339844,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 474
-    },
+      "completion_length": 535.5,
+      "epoch": 0.34750733137829914,
+      "grad_norm": 18.31310978578589,
+      "kl": 2.7265625,
+      "learning_rate": 8.426237994285525e-07,
+      "loss": 0.7942,
+      "reward": 2.537790536880493,
+      "reward_std": 0.4235878735780716,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014292994979768991,
+      "rewards/tag_count_reward": 0.90625,
+      "step": 474
+    },
     {
       "clip_ratio": 0.0,
-      "completion_length": 486.6458435058594,
-      "epoch": 0.2375,
-      "grad_norm": 74.12575189964451,
-      "kl": 1.287109375,
-      "learning_rate": 9.491548749301997e-07,
-      "loss": 0.4262,
-      "reward": 2.6630338430404663,
-      "reward_std": 0.4112485349178314,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.07134135626256466,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 572.1458435058594,
+      "epoch": 0.34824046920821117,
+      "grad_norm": 11.85507041751325,
+      "kl": 2.875,
+      "learning_rate": 8.417475365084871e-07,
+      "loss": 0.8618,
+      "reward": 2.508628726005554,
+      "reward_std": 0.5431976318359375,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.015676844865083694,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 475
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 404.4375,
-      "epoch": 0.238,
-      "grad_norm": 18.64237541974552,
-      "kl": 0.95751953125,
-      "learning_rate": 9.487916106540465e-07,
-      "loss": 0.2883,
-      "reward": 2.847753882408142,
-      "reward_std": 0.25422170013189316,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.05676013603806496,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 610.3125305175781,
+      "epoch": 0.3489736070381232,
+      "grad_norm": 28.639038429417123,
+      "kl": 3.234375,
+      "learning_rate": 8.408693610173603e-07,
+      "loss": 0.5474,
+      "reward": 2.3011252880096436,
+      "reward_std": 0.40642261505126953,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.011374846566468477,
+      "rewards/tag_count_reward": 0.875,
       "step": 476
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 495.93751525878906,
-      "epoch": 0.2385,
-      "grad_norm": 528.7163050198875,
-      "kl": 15.3125,
-      "learning_rate": 9.484271315894871e-07,
-      "loss": 0.9612,
-      "reward": 2.6119762659072876,
-      "reward_std": 0.4331580549478531,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.04427382908761501,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 408.4166717529297,
+      "epoch": 0.3497067448680352,
+      "grad_norm": 18.88985204699429,
+      "kl": 1.48046875,
+      "learning_rate": 8.39989278712112e-07,
+      "loss": 0.5386,
+      "reward": 2.6290500164031982,
+      "reward_std": 0.32656364142894745,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.015047314576804638,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 477
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.9375,
-      "epoch": 0.239,
-      "grad_norm": 132.3126145140169,
-      "kl": 3.9453125,
-      "learning_rate": 9.480614388467877e-07,
-      "loss": 0.2224,
-      "reward": 2.751030921936035,
-      "reward_std": 0.23816969990730286,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.047580257058143616,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 578.3333587646484,
+      "epoch": 0.35043988269794724,
+      "grad_norm": 11.451206533941894,
+      "kl": 2.65234375,
+      "learning_rate": 8.391072953621826e-07,
+      "loss": 0.5397,
+      "reward": 2.279217839241028,
+      "reward_std": 0.34354250878095627,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.014185154810547829,
+      "rewards/tag_count_reward": 0.890625,
       "step": 478
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 376.375,
-      "epoch": 0.2395,
-      "grad_norm": 44.2595079452565,
-      "kl": 0.7900390625,
-      "learning_rate": 9.47694533539912e-07,
-      "loss": 0.2293,
-      "reward": 2.831836700439453,
-      "reward_std": 0.23659071326255798,
-      "rewards/accuracy_reward": 0.8958333730697632,
+      "completion_length": 410.6458435058594,
+      "epoch": 0.35117302052785926,
+      "grad_norm": 7.27832965984057,
+      "kl": 1.1796875,
+      "learning_rate": 8.382234167494747e-07,
+      "loss": 0.3302,
+      "reward": 2.147601544857025,
+      "reward_std": 0.2115662805736065,
+      "rewards/accuracy_reward": 0.2083333432674408,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.04142730962485075,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "rewards/repetition_penalty_reward": -0.01732906699180603,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 479
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 381.4583435058594,
-      "epoch": 0.24,
-      "grad_norm": 5.3725546070452115,
-      "kl": 0.3857421875,
-      "learning_rate": 9.473264167865171e-07,
-      "loss": 0.1157,
-      "reward": 2.626276731491089,
-      "reward_std": 0.19565383344888687,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9097222089767456,
-      "rewards/repetition_penalty_reward": -0.05427892133593559,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 371.93751525878906,
+      "epoch": 0.3519061583577713,
+      "grad_norm": 10.45608432872573,
+      "kl": 1.12109375,
+      "learning_rate": 8.373376486683149e-07,
+      "loss": 0.2231,
+      "reward": 2.1965653896331787,
+      "reward_std": 0.09365869220346212,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022184578701853752,
+      "rewards/tag_count_reward": 0.96875,
       "step": 480
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 394.4166717529297,
-      "epoch": 0.2405,
-      "grad_norm": 17.822823313036796,
-      "kl": 0.291015625,
-      "learning_rate": 9.469570897079504e-07,
-      "loss": 0.1667,
-      "reward": 2.8159937858581543,
-      "reward_std": 0.23275446519255638,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.036437010392546654,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 357.7083435058594,
+      "epoch": 0.3526392961876833,
+      "grad_norm": 9.253957750096733,
+      "kl": 0.95703125,
+      "learning_rate": 8.364499969254174e-07,
+      "loss": 0.1801,
+      "reward": 2.3384850025177,
+      "reward_std": 0.3187159597873688,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.022626149468123913,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 481
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 494.6250305175781,
-      "epoch": 0.241,
-      "grad_norm": 37.12601936582567,
-      "kl": 0.4287109375,
-      "learning_rate": 9.465865534292464e-07,
-      "loss": 0.3572,
-      "reward": 2.4508873224258423,
-      "reward_std": 0.49121496081352234,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.06300175003707409,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 353.00001525878906,
+      "epoch": 0.3533724340175953,
+      "grad_norm": 7.045055176755826,
+      "kl": 1.1748046875,
+      "learning_rate": 8.35560467339844e-07,
+      "loss": 0.1558,
+      "reward": 2.6686532497406006,
+      "reward_std": 0.20646232273429632,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.017110710497945547,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 482
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 472.6875,
-      "epoch": 0.2415,
-      "grad_norm": 17.990973842263713,
-      "kl": 0.3642578125,
-      "learning_rate": 9.462148090791228e-07,
-      "loss": 0.0626,
-      "reward": 2.607269763946533,
-      "reward_std": 0.3627200424671173,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666269302368,
-      "rewards/repetition_penalty_reward": -0.08543861098587513,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 308.91668701171875,
+      "epoch": 0.35410557184750735,
+      "grad_norm": 4.762432815291462,
+      "kl": 0.3720703125,
+      "learning_rate": 8.346690657429672e-07,
+      "loss": 0.0247,
+      "reward": 2.2265055179595947,
+      "reward_std": 0.031516775488853455,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.016550065483897924,
+      "rewards/tag_count_reward": 1.0,
       "step": 483
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 348.5625,
-      "epoch": 0.242,
-      "grad_norm": 3.9182155917466623,
-      "kl": 0.2919921875,
-      "learning_rate": 9.458418577899774e-07,
-      "loss": 0.0877,
-      "reward": 2.6882437467575073,
-      "reward_std": 0.4514298141002655,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.05828405171632767,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 333.00001525878906,
+      "epoch": 0.3548387096774194,
+      "grad_norm": 8.645951391731817,
+      "kl": 0.46484375,
+      "learning_rate": 8.337757979784315e-07,
+      "loss": 0.0418,
+      "reward": 2.2375470995903015,
+      "reward_std": 0.0075986802112311125,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012452858500182629,
+      "rewards/tag_count_reward": 1.0,
       "step": 484
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 449.2916717529297,
-      "epoch": 0.2425,
-      "grad_norm": 25.86980665658515,
-      "kl": 0.513671875,
-      "learning_rate": 9.454677006978842e-07,
-      "loss": 0.2189,
-      "reward": 2.6299872398376465,
-      "reward_std": 0.3183176666498184,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07834616675972939,
+      "completion_length": 397.7083435058594,
+      "epoch": 0.3555718475073314,
+      "grad_norm": 7.441907733438074,
+      "kl": 0.646484375,
+      "learning_rate": 8.328806699021155e-07,
+      "loss": 0.203,
+      "reward": 2.6804587841033936,
+      "reward_std": 0.17669676430523396,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.020930366590619087,
       "rewards/tag_count_reward": 0.9791666865348816,
       "step": 485
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.9583435058594,
-      "epoch": 0.243,
-      "grad_norm": 5.7429495684505,
-      "kl": 1.07421875,
-      "learning_rate": 9.450923389425911e-07,
-      "loss": 0.2514,
-      "reward": 2.870607614517212,
-      "reward_std": 0.19876050017774105,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.05647587403655052,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 374.25001525878906,
+      "epoch": 0.3563049853372434,
+      "grad_norm": 6.326596783751009,
+      "kl": 0.44140625,
+      "learning_rate": 8.319836873820926e-07,
+      "loss": 0.0394,
+      "reward": 2.6759073734283447,
+      "reward_std": 0.12399306986480951,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.013328731525689363,
+      "rewards/tag_count_reward": 0.953125,
       "step": 486
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.25001525878906,
-      "epoch": 0.2435,
-      "grad_norm": 13.342575140209078,
-      "kl": 0.84912109375,
-      "learning_rate": 9.44715773667515e-07,
-      "loss": 0.2413,
-      "reward": 2.700625419616699,
-      "reward_std": 0.31798748672008514,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.06673579290509224,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 411.9166717529297,
+      "epoch": 0.35703812316715544,
+      "grad_norm": 17.88113563714185,
+      "kl": 0.6357421875,
+      "learning_rate": 8.310848562985935e-07,
+      "loss": 0.0157,
+      "reward": 2.671896457672119,
+      "reward_std": 0.22538332641124725,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013867528643459082,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 487
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.5,
-      "epoch": 0.244,
-      "grad_norm": 5.343676568554896,
-      "kl": 0.31591796875,
-      "learning_rate": 9.443380060197385e-07,
-      "loss": 0.0725,
-      "reward": 2.9111135005950928,
-      "reward_std": 0.15393263846635818,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9722221791744232,
-      "rewards/repetition_penalty_reward": -0.03506710007786751,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 419.56251525878906,
+      "epoch": 0.35777126099706746,
+      "grad_norm": 8.614526501689246,
+      "kl": 0.9169921875,
+      "learning_rate": 8.301841825439674e-07,
+      "loss": 0.328,
+      "reward": 2.169337749481201,
+      "reward_std": 0.2654203623533249,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.021634459495544434,
+      "rewards/tag_count_reward": 0.96875,
       "step": 488
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.1458435058594,
-      "epoch": 0.2445,
-      "grad_norm": 5.09132953467604,
-      "kl": 0.3408203125,
-      "learning_rate": 9.43959037150008e-07,
-      "loss": 0.0758,
-      "reward": 2.8277556896209717,
-      "reward_std": 0.2439712956547737,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.06286950036883354,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 434.7708435058594,
+      "epoch": 0.3585043988269795,
+      "grad_norm": 9.126566406167589,
+      "kl": 0.71875,
+      "learning_rate": 8.292816720226429e-07,
+      "loss": 0.3833,
+      "reward": 2.3876397609710693,
+      "reward_std": 0.2834826409816742,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013401838950812817,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 489
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.2916717529297,
-      "epoch": 0.245,
-      "grad_norm": 23.327613224213003,
-      "kl": 1.8515625,
-      "learning_rate": 9.43578868212728e-07,
-      "loss": 0.2664,
-      "reward": 2.1128222346305847,
-      "reward_std": 0.39175570011138916,
-      "rewards/accuracy_reward": 0.2916666716337204,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.03821949101984501,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 384.4583435058594,
+      "epoch": 0.3592375366568915,
+      "grad_norm": 4.9502265845193145,
+      "kl": 0.5224609375,
+      "learning_rate": 8.283773306510903e-07,
+      "loss": 0.0681,
+      "reward": 2.374760627746582,
+      "reward_std": 0.37007441371679306,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01586443232372403,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 490
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 404.3958435058594,
-      "epoch": 0.2455,
-      "grad_norm": 6.480996990735909,
-      "kl": 0.669921875,
-      "learning_rate": 9.431975003659594e-07,
-      "loss": 0.1923,
-      "reward": 2.416967749595642,
-      "reward_std": 0.4523526728153229,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.044837912544608116,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 419.9791717529297,
+      "epoch": 0.35997067448680353,
+      "grad_norm": 6.705292937977975,
+      "kl": 0.7734375,
+      "learning_rate": 8.274711643577812e-07,
+      "loss": 0.1881,
+      "reward": 2.1267879605293274,
+      "reward_std": 0.17756187077611685,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01904546469449997,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 491
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 474.22918701171875,
-      "epoch": 0.246,
-      "grad_norm": 17.872104813321265,
-      "kl": 2.296875,
-      "learning_rate": 9.428149347714143e-07,
-      "loss": 0.3238,
-      "reward": 2.4794113636016846,
-      "reward_std": 0.3524549901485443,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.05531090311706066,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 436.37501525878906,
+      "epoch": 0.36070381231671556,
+      "grad_norm": 6.170093231897857,
+      "kl": 0.794921875,
+      "learning_rate": 8.265631790831513e-07,
+      "loss": 0.2968,
+      "reward": 1.9459967613220215,
+      "reward_std": 0.09664355963468552,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0227531548589468,
+      "rewards/tag_count_reward": 0.96875,
       "step": 492
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 429.5625305175781,
-      "epoch": 0.2465,
-      "grad_norm": 25.50926751724998,
-      "kl": 2.3203125,
-      "learning_rate": 9.424311725944543e-07,
-      "loss": 0.3623,
-      "reward": 2.5525494813919067,
-      "reward_std": 0.40840910375118256,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.037728333845734596,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 454.5833435058594,
+      "epoch": 0.3614369501466276,
+      "grad_norm": 11.129735561164555,
+      "kl": 1.158203125,
+      "learning_rate": 8.256533807795607e-07,
+      "loss": 0.366,
+      "reward": 1.9230691194534302,
+      "reward_std": 0.2331734150648117,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.026583708822727203,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 493
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 353.12501525878906,
-      "epoch": 0.247,
-      "grad_norm": 5.9043836446965186,
-      "kl": 0.50390625,
-      "learning_rate": 9.420462150040852e-07,
-      "loss": 0.0674,
-      "reward": 2.6686885356903076,
-      "reward_std": 0.2424444481730461,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 491.64585876464844,
+      "epoch": 0.3621700879765396,
+      "grad_norm": 11.115235107040252,
+      "kl": 1.203125,
+      "learning_rate": 8.247417754112548e-07,
+      "loss": 0.5382,
+      "reward": 1.9273149967193604,
+      "reward_std": 0.23959805816411972,
+      "rewards/accuracy_reward": 0.02083333395421505,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.0465893279761076,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02233781013637781,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 494
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 375.7708435058594,
-      "epoch": 0.2475,
-      "grad_norm": 8.837736782220068,
-      "kl": 0.705078125,
-      "learning_rate": 9.416600631729548e-07,
-      "loss": 0.1302,
-      "reward": 2.721538782119751,
-      "reward_std": 0.13726279512047768,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.0597112700343132,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 509.43751525878906,
+      "epoch": 0.3629032258064516,
+      "grad_norm": 15.68299311864471,
+      "kl": 1.400390625,
+      "learning_rate": 8.238283689543252e-07,
+      "loss": 0.4682,
+      "reward": 1.9225846529006958,
+      "reward_std": 0.3457977622747421,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.018387647345662117,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 495
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 385.7708435058594,
-      "epoch": 0.248,
-      "grad_norm": 11.405430982188452,
-      "kl": 1.044921875,
-      "learning_rate": 9.412727182773486e-07,
-      "loss": 0.201,
-      "reward": 2.7786643505096436,
-      "reward_std": 0.3927687704563141,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.03730800375342369,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 547.4166870117188,
+      "epoch": 0.36363636363636365,
+      "grad_norm": 6.773746675176151,
+      "kl": 1.05078125,
+      "learning_rate": 8.229131673966708e-07,
+      "loss": 0.3773,
+      "reward": 1.9133232831954956,
+      "reward_std": 0.26244693249464035,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.018968377262353897,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 496
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.85418701171875,
-      "epoch": 0.2485,
-      "grad_norm": 11.676094147579299,
-      "kl": 1.74609375,
-      "learning_rate": 9.408841814971861e-07,
-      "loss": 0.3357,
-      "reward": 2.485311985015869,
-      "reward_std": 0.4508149325847626,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.045938010327517986,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 502.04168701171875,
+      "epoch": 0.36436950146627567,
+      "grad_norm": 8.290342632836095,
+      "kl": 0.978515625,
+      "learning_rate": 8.219961767379586e-07,
+      "loss": 0.4217,
+      "reward": 2.1250281929969788,
+      "reward_std": 0.25319022685289383,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.024277442134916782,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 497
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 342.25001525878906,
-      "epoch": 0.249,
-      "grad_norm": 6.336940055320027,
-      "kl": 0.8125,
-      "learning_rate": 9.404944540160177e-07,
-      "loss": 0.0604,
-      "reward": 2.6701611280441284,
-      "reward_std": 0.355712890625,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.055533334612846375,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 452.8958435058594,
+      "epoch": 0.3651026392961877,
+      "grad_norm": 10.77527531050857,
+      "kl": 0.8828125,
+      "learning_rate": 8.21077402989584e-07,
+      "loss": 0.3326,
+      "reward": 2.1549705266952515,
+      "reward_std": 0.19552180310711265,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.025585101917386055,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 498
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 369.79168701171875,
-      "epoch": 0.2495,
-      "grad_norm": 18.051875973959618,
-      "kl": 1.072265625,
-      "learning_rate": 9.401035370210212e-07,
-      "loss": 0.2629,
-      "reward": 2.47028648853302,
-      "reward_std": 0.44121938943862915,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.05401917174458504,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 551.8125152587891,
+      "epoch": 0.3658357771260997,
+      "grad_norm": 63.70158740638487,
+      "kl": 2.2021484375,
+      "learning_rate": 8.201568521746314e-07,
+      "loss": 0.6263,
+      "reward": 2.017093539237976,
+      "reward_std": 0.38255129382014275,
+      "rewards/accuracy_reward": 0.16666667722165585,
+      "rewards/reasoning_steps_reward": 0.965277761220932,
+      "rewards/repetition_penalty_reward": -0.021101072430610657,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 499
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.31251525878906,
-      "epoch": 0.25,
-      "grad_norm": 20.96572788542454,
-      "kl": 2.51171875,
-      "learning_rate": 9.397114317029974e-07,
-      "loss": 0.4272,
-      "reward": 2.3335598707199097,
-      "reward_std": 0.625691831111908,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.02581525407731533,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 413.25001525878906,
+      "epoch": 0.36656891495601174,
+      "grad_norm": 14.422611186019756,
+      "kl": 0.6953125,
+      "learning_rate": 8.192345303278351e-07,
+      "loss": 0.2335,
+      "reward": 1.9486969113349915,
+      "reward_std": 0.1088674496859312,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.021789253689348698,
+      "rewards/tag_count_reward": 0.984375,
       "step": 500
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 325.9583435058594,
-      "epoch": 0.2505,
-      "grad_norm": 4.461987602762651,
-      "kl": 0.57421875,
-      "learning_rate": 9.393181392563669e-07,
-      "loss": 0.0403,
-      "reward": 2.7603014707565308,
-      "reward_std": 0.20193683356046677,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.03136515896767378,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 446.3333435058594,
+      "epoch": 0.36730205278592376,
+      "grad_norm": 43.60045387371852,
+      "kl": 1.4921875,
+      "learning_rate": 8.183104434955395e-07,
+      "loss": 0.5019,
+      "reward": 1.9558414220809937,
+      "reward_std": 0.16421754658222198,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.026797562837600708,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 501
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 325.9583435058594,
-      "epoch": 0.251,
-      "grad_norm": 3.5280127016605,
-      "kl": 0.2861328125,
-      "learning_rate": 9.38923660879167e-07,
-      "loss": 0.0561,
-      "reward": 2.8909952640533447,
-      "reward_std": 0.14273904263973236,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03435206413269043,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 435.18751525878906,
+      "epoch": 0.3680351906158358,
+      "grad_norm": 139.1743325769162,
+      "kl": 1.78515625,
+      "learning_rate": 8.173845977356594e-07,
+      "loss": 0.468,
+      "reward": 1.9216685891151428,
+      "reward_std": 0.14234358817338943,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.027984178625047207,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 502
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 347.4583435058594,
-      "epoch": 0.2515,
-      "grad_norm": 12.53255748366457,
-      "kl": 1.65576171875,
-      "learning_rate": 9.385279977730472e-07,
-      "loss": 0.2711,
-      "reward": 2.432243227958679,
-      "reward_std": 0.06772075779736042,
-      "rewards/accuracy_reward": 0.5,
+      "completion_length": 430.7916717529297,
+      "epoch": 0.3687683284457478,
+      "grad_norm": 145.4472171807426,
+      "kl": 3.671875,
+      "learning_rate": 8.164569991176405e-07,
+      "loss": 0.7199,
+      "reward": 2.0667614936828613,
+      "reward_std": 0.3162480816245079,
+      "rewards/accuracy_reward": 0.1666666716337204,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.033034625463187695,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.023516294546425343,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 503
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.0,
-      "epoch": 0.252,
-      "grad_norm": 12.118654747376015,
-      "kl": 1.572265625,
-      "learning_rate": 9.381311511432658e-07,
-      "loss": 0.1095,
-      "reward": 2.758858323097229,
-      "reward_std": 0.3722696304321289,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.025863975286483765,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 395.4791717529297,
+      "epoch": 0.36950146627565983,
+      "grad_norm": 25.89876003065372,
+      "kl": 1.1796875,
+      "learning_rate": 8.155276537224194e-07,
+      "loss": 0.4086,
+      "reward": 1.917527198791504,
+      "reward_std": 0.22057230025529861,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.01997281052172184,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 504
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 332.56251525878906,
-      "epoch": 0.2525,
-      "grad_norm": 12.675358816220538,
-      "kl": 0.609375,
-      "learning_rate": 9.377331221986866e-07,
-      "loss": 0.1461,
-      "reward": 2.7681565284729004,
-      "reward_std": 0.3903198540210724,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.04087108187377453,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 472.83335876464844,
+      "epoch": 0.37023460410557185,
+      "grad_norm": 150.8827097979688,
+      "kl": 5.7138671875,
+      "learning_rate": 8.145965676423837e-07,
+      "loss": 0.5975,
+      "reward": 1.8190749883651733,
+      "reward_std": 0.19131757970899343,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9305555820465088,
+      "rewards/repetition_penalty_reward": -0.017730488441884518,
+      "rewards/tag_count_reward": 0.90625,
       "step": 505
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 366.9166717529297,
-      "epoch": 0.253,
-      "grad_norm": 8.279601199477703,
-      "kl": 0.5146484375,
-      "learning_rate": 9.373339121517746e-07,
-      "loss": 0.0372,
-      "reward": 2.770949602127075,
-      "reward_std": 0.34754781424999237,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.046758661046624184,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 443.9166717529297,
+      "epoch": 0.3709677419354839,
+      "grad_norm": 22.8478805496014,
+      "kl": 1.41015625,
+      "learning_rate": 8.136637469813322e-07,
+      "loss": 0.2955,
+      "reward": 1.9509990811347961,
+      "reward_std": 0.09807348623871803,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.02122316136956215,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 506
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 474.625,
-      "epoch": 0.2535,
-      "grad_norm": 12.183520807470723,
-      "kl": 1.2109375,
-      "learning_rate": 9.36933522218593e-07,
-      "loss": 0.2878,
-      "reward": 2.3224886655807495,
-      "reward_std": 0.6696373820304871,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.026469644159078598,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 468.70835876464844,
+      "epoch": 0.3717008797653959,
+      "grad_norm": 45.306018801969856,
+      "kl": 1.9794921875,
+      "learning_rate": 8.127291978544354e-07,
+      "loss": 0.4052,
+      "reward": 1.8993171453475952,
+      "reward_std": 0.19246254302561283,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.020821738056838512,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 507
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 355.1458435058594,
-      "epoch": 0.254,
-      "grad_norm": 17.57821101350406,
-      "kl": 0.7890625,
-      "learning_rate": 9.36531953618799e-07,
-      "loss": 0.2123,
-      "reward": 2.774104595184326,
-      "reward_std": 0.31567811965942383,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.026242737658321857,
-      "rewards/tag_count_reward": 0.9739583730697632,
+      "completion_length": 483.9375305175781,
+      "epoch": 0.3724340175953079,
+      "grad_norm": 40.87142241010334,
+      "kl": 1.71875,
+      "learning_rate": 8.117929263881942e-07,
+      "loss": 0.577,
+      "reward": 1.9061757326126099,
+      "reward_std": 0.18592821806669235,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.022643746808171272,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 508
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 477.3333435058594,
-      "epoch": 0.2545,
-      "grad_norm": 20.44793363137805,
-      "kl": 2.091796875,
-      "learning_rate": 9.361292075756401e-07,
-      "loss": 0.4205,
-      "reward": 2.6159251928329468,
-      "reward_std": 0.4438074082136154,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03338045813143253,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 659.2916870117188,
+      "epoch": 0.37316715542521994,
+      "grad_norm": 115.61873644021891,
+      "kl": 5.5703125,
+      "learning_rate": 8.108549387204003e-07,
+      "loss": 1.1436,
+      "reward": 1.7973338961601257,
+      "reward_std": 0.3085802122950554,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9513889253139496,
+      "rewards/repetition_penalty_reward": -0.013430023565888405,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 509
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 320.56251525878906,
-      "epoch": 0.255,
-      "grad_norm": 7.717284653235476,
-      "kl": 0.5712890625,
-      "learning_rate": 9.357252853159505e-07,
-      "loss": 0.0217,
-      "reward": 2.717986583709717,
-      "reward_std": 0.2879996597766876,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03895781189203262,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 567.9583435058594,
+      "epoch": 0.37390029325513197,
+      "grad_norm": 26.50908771676089,
+      "kl": 2.62890625,
+      "learning_rate": 8.09915241000097e-07,
+      "loss": 0.4909,
+      "reward": 1.8572303652763367,
+      "reward_std": 0.30207861959934235,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.958333432674408,
+      "rewards/repetition_penalty_reward": -0.017769566271454096,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 510
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 503.25001525878906,
-      "epoch": 0.2555,
-      "grad_norm": 23.04840840134793,
-      "kl": 2.5546875,
-      "learning_rate": 9.353201880701477e-07,
-      "loss": 0.7477,
-      "reward": 2.436654567718506,
-      "reward_std": 0.581574410200119,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.039039863273501396,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 386.5208435058594,
+      "epoch": 0.374633431085044,
+      "grad_norm": 11.75236991564634,
+      "kl": 0.5400390625,
+      "learning_rate": 8.089738393875371e-07,
+      "loss": 0.075,
+      "reward": 1.9674814939498901,
+      "reward_std": 0.0658029681071639,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.015157437417656183,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 511
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 369.75001525878906,
-      "epoch": 0.256,
-      "grad_norm": 6.140144067454673,
-      "kl": 1.4453125,
-      "learning_rate": 9.34913917072228e-07,
-      "loss": 0.1252,
-      "reward": 2.3770639896392822,
-      "reward_std": 0.4367944300174713,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.04654715396463871,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 474.83335876464844,
+      "epoch": 0.375366568914956,
+      "grad_norm": 42.108031734612005,
+      "kl": 1.453125,
+      "learning_rate": 8.080307400541438e-07,
+      "loss": 0.3499,
+      "reward": 1.920167326927185,
+      "reward_std": 0.1508631743490696,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.015596664976328611,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 512
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 412.6458435058594,
-      "epoch": 0.2565,
-      "grad_norm": 14.724218719110599,
-      "kl": 1.90625,
-      "learning_rate": 9.345064735597633e-07,
-      "loss": 0.2505,
-      "reward": 2.666745901107788,
-      "reward_std": 0.5124035775661469,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.04158730432391167,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 685.3958740234375,
+      "epoch": 0.37609970674486803,
+      "grad_norm": 34.90049805526321,
+      "kl": 2.3828125,
+      "learning_rate": 8.070859491824697e-07,
+      "loss": 0.6664,
+      "reward": 1.6676543951034546,
+      "reward_std": 0.4811856746673584,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9097222685813904,
+      "rewards/repetition_penalty_reward": -0.01810950506478548,
+      "rewards/tag_count_reward": 0.7760416865348816,
       "step": 513
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 344.0833435058594,
-      "epoch": 0.257,
-      "grad_norm": 12.147136815173782,
-      "kl": 2.13671875,
-      "learning_rate": 9.340978587738972e-07,
-      "loss": 0.2299,
-      "reward": 2.7790675163269043,
-      "reward_std": 0.28115659207105637,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.042113007977604866,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 657.5416870117188,
+      "epoch": 0.37683284457478006,
+      "grad_norm": 39.735639055218364,
+      "kl": 4.6875,
+      "learning_rate": 8.061394729661564e-07,
+      "loss": 0.6612,
+      "reward": 1.9260591268539429,
+      "reward_std": 0.5082510709762573,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9305555820465088,
+      "rewards/repetition_penalty_reward": -0.020121485460549593,
+      "rewards/tag_count_reward": 0.8281250298023224,
       "step": 514
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 465.04168701171875,
-      "epoch": 0.2575,
-      "grad_norm": 42.65752880873406,
-      "kl": 4.375,
-      "learning_rate": 9.336880739593415e-07,
-      "loss": 0.3814,
-      "reward": 2.218036413192749,
-      "reward_std": 0.5327357053756714,
-      "rewards/accuracy_reward": 0.3333333358168602,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.021547013893723488,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 730.8333435058594,
+      "epoch": 0.3775659824046921,
+      "grad_norm": 29.337370968228235,
+      "kl": 4.078125,
+      "learning_rate": 8.051913176098937e-07,
+      "loss": 0.5808,
+      "reward": 1.7654681205749512,
+      "reward_std": 0.5887759923934937,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 0.9027777910232544,
+      "rewards/repetition_penalty_reward": -0.012309623882174492,
+      "rewards/tag_count_reward": 0.7708333432674408,
       "step": 515
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 355.1458435058594,
-      "epoch": 0.258,
-      "grad_norm": 12.695454347179494,
-      "kl": 2.56640625,
-      "learning_rate": 9.332771203643714e-07,
-      "loss": 0.3547,
-      "reward": 2.7579511404037476,
-      "reward_std": 0.3366604894399643,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.023298936896026134,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 674.8541870117188,
+      "epoch": 0.3782991202346041,
+      "grad_norm": 56.98097498554146,
+      "kl": 4.3203125,
+      "learning_rate": 8.042414893293796e-07,
+      "loss": 0.7913,
+      "reward": 1.6792184114456177,
+      "reward_std": 0.48759625852108,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9097221791744232,
+      "rewards/repetition_penalty_reward": -0.011753852013498545,
+      "rewards/tag_count_reward": 0.7812500298023224,
       "step": 516
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 314.2708435058594,
-      "epoch": 0.2585,
-      "grad_norm": 8.577846989702975,
-      "kl": 0.6416015625,
-      "learning_rate": 9.328649992408231e-07,
-      "loss": 0.0241,
-      "reward": 2.9229161739349365,
-      "reward_std": 0.11198093183338642,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.042361509054899216,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 614.2708740234375,
+      "epoch": 0.3790322580645161,
+      "grad_norm": 64.88172032217534,
+      "kl": 4.671875,
+      "learning_rate": 8.032899943512785e-07,
+      "loss": 0.8505,
+      "reward": 1.762292504310608,
+      "reward_std": 0.3404271602630615,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9305556118488312,
+      "rewards/repetition_penalty_reward": -0.012013083323836327,
+      "rewards/tag_count_reward": 0.84375,
       "step": 517
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.1458435058594,
-      "epoch": 0.259,
-      "grad_norm": 17.4553779455926,
-      "kl": 2.1640625,
-      "learning_rate": 9.324517118440888e-07,
-      "loss": 0.4768,
-      "reward": 2.671400547027588,
-      "reward_std": 0.4989718794822693,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.02825235854834318,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 538.2500305175781,
+      "epoch": 0.37976539589442815,
+      "grad_norm": 57.22402136535535,
+      "kl": 5.5,
+      "learning_rate": 8.023368389131815e-07,
+      "loss": 0.7508,
+      "reward": 1.769698143005371,
+      "reward_std": 0.43798917531967163,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9305555522441864,
+      "rewards/repetition_penalty_reward": -0.015024195425212383,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 518
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 299.3333435058594,
-      "epoch": 0.2595,
-      "grad_norm": 11.830503067220192,
-      "kl": 1.0546875,
-      "learning_rate": 9.320372594331137e-07,
-      "loss": 0.0964,
-      "reward": 2.7533164024353027,
-      "reward_std": 0.3934124857187271,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03140602447092533,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 615.625,
+      "epoch": 0.38049853372434017,
+      "grad_norm": 33.77773388568201,
+      "kl": 5.6875,
+      "learning_rate": 8.013820292635645e-07,
+      "loss": 0.6833,
+      "reward": 1.5902305245399475,
+      "reward_std": 0.46116843819618225,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8611111044883728,
+      "rewards/repetition_penalty_reward": -0.0156723465770483,
+      "rewards/tag_count_reward": 0.7447916865348816,
       "step": 519
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 347.8333435058594,
-      "epoch": 0.26,
-      "grad_norm": 6.457880743365504,
-      "kl": 0.3310546875,
-      "learning_rate": 9.316216432703916e-07,
-      "loss": -0.0572,
-      "reward": 2.5639514923095703,
-      "reward_std": 0.2705356106162071,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04021530598402023,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 590.2291870117188,
+      "epoch": 0.3812316715542522,
+      "grad_norm": 39.50621531257809,
+      "kl": 4.1484375,
+      "learning_rate": 8.00425571661748e-07,
+      "loss": 0.5575,
+      "reward": 1.657406985759735,
+      "reward_std": 0.4130554646253586,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8888888955116272,
+      "rewards/repetition_penalty_reward": -0.012731941416859627,
+      "rewards/tag_count_reward": 0.7812500298023224,
       "step": 520
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.2916717529297,
-      "epoch": 0.2605,
-      "grad_norm": 6.392279281489095,
-      "kl": 0.775390625,
-      "learning_rate": 9.312048646219617e-07,
-      "loss": 0.1502,
-      "reward": 2.8109084367752075,
-      "reward_std": 0.21814071387052536,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03978624939918518,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 395.4791717529297,
+      "epoch": 0.3819648093841642,
+      "grad_norm": 12.986688921654492,
+      "kl": 0.744140625,
+      "learning_rate": 7.994674723778559e-07,
+      "loss": 0.1766,
+      "reward": 1.9165648221969604,
+      "reward_std": 0.13351602852344513,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.01572699472308159,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 521
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 343.22918701171875,
-      "epoch": 0.261,
-      "grad_norm": 6.132812824609326,
-      "kl": 0.546875,
-      "learning_rate": 9.307869247574038e-07,
-      "loss": 0.0556,
-      "reward": 2.6175711154937744,
-      "reward_std": 0.26942718029022217,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02826231624931097,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 533.0833435058594,
+      "epoch": 0.38269794721407624,
+      "grad_norm": 15.833753392603134,
+      "kl": 2.90625,
+      "learning_rate": 7.985077376927734e-07,
+      "loss": 0.3802,
+      "reward": 1.7569490671157837,
+      "reward_std": 0.6436266899108887,
+      "rewards/accuracy_reward": 0.14583333395421505,
+      "rewards/reasoning_steps_reward": 0.8750000298023224,
+      "rewards/repetition_penalty_reward": -0.01909259706735611,
+      "rewards/tag_count_reward": 0.7552083432674408,
       "step": 522
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.93751525878906,
-      "epoch": 0.2615,
-      "grad_norm": 4.409570648820208,
-      "kl": 0.3115234375,
-      "learning_rate": 9.303678249498352e-07,
-      "loss": 0.0109,
-      "reward": 2.9457967281341553,
-      "reward_std": 0.0824959184974432,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.033369969576597214,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 441.12501525878906,
+      "epoch": 0.38343108504398826,
+      "grad_norm": 28.762701865778784,
+      "kl": 1.380859375,
+      "learning_rate": 7.975463738981078e-07,
+      "loss": 0.1971,
+      "reward": 1.8199856877326965,
+      "reward_std": 0.37226808071136475,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.015083822421729565,
+      "rewards/tag_count_reward": 0.890625,
       "step": 523
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 335.1458435058594,
-      "epoch": 0.262,
-      "grad_norm": 10.6806703810238,
-      "kl": 0.740234375,
-      "learning_rate": 9.299475664759068e-07,
-      "loss": 0.1467,
-      "reward": 2.5661017894744873,
-      "reward_std": 0.3743235468864441,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03632892295718193,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 466.1041717529297,
+      "epoch": 0.3841642228739003,
+      "grad_norm": 19.52603801272797,
+      "kl": 1.326171875,
+      "learning_rate": 7.965833872961455e-07,
+      "loss": 0.2245,
+      "reward": 2.1146620512008667,
+      "reward_std": 0.39242707192897797,
+      "rewards/accuracy_reward": 0.2500000149011612,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.01901856018230319,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 524
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 346.7916717529297,
-      "epoch": 0.2625,
-      "grad_norm": 7.022946103666297,
-      "kl": 0.4912109375,
-      "learning_rate": 9.295261506157985e-07,
-      "loss": -0.0496,
-      "reward": 2.487242579460144,
-      "reward_std": 0.4531702846288681,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.028382405638694763,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 430.43751525878906,
+      "epoch": 0.3848973607038123,
+      "grad_norm": 55.45231535878981,
+      "kl": 1.9140625,
+      "learning_rate": 7.956187841998115e-07,
+      "loss": 0.1649,
+      "reward": 1.8645141124725342,
+      "reward_std": 0.23954802006483078,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.015694267582148314,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 525
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 344.6666717529297,
-      "epoch": 0.263,
-      "grad_norm": 5.783429974481017,
-      "kl": 0.4072265625,
-      "learning_rate": 9.291035786532163e-07,
-      "loss": 0.0516,
-      "reward": 2.7101194858551025,
-      "reward_std": 0.01704893447458744,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03988067805767059,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 401.93751525878906,
+      "epoch": 0.38563049853372433,
+      "grad_norm": 377.2247094447684,
+      "kl": 9.21875,
+      "learning_rate": 7.946525709326278e-07,
+      "loss": 0.8067,
+      "reward": 2.0004115104675293,
+      "reward_std": 0.5633389353752136,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9513889253139496,
+      "rewards/repetition_penalty_reward": -0.01868572738021612,
+      "rewards/tag_count_reward": 0.8385416865348816,
       "step": 526
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 356.72918701171875,
-      "epoch": 0.2635,
-      "grad_norm": 5.172841688416704,
-      "kl": 0.6357421875,
-      "learning_rate": 9.286798518753878e-07,
-      "loss": 0.0223,
-      "reward": 2.5386565923690796,
-      "reward_std": 0.35626935213804245,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.022107405588030815,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 367.72918701171875,
+      "epoch": 0.38636363636363635,
+      "grad_norm": 161.61232633219788,
+      "kl": 6.125,
+      "learning_rate": 7.936847538286718e-07,
+      "loss": 0.3533,
+      "reward": 1.9359618425369263,
+      "reward_std": 0.4424874410033226,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 0.9236111044883728,
+      "rewards/repetition_penalty_reward": -0.01889927126467228,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 527
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 335.0625,
-      "epoch": 0.264,
-      "grad_norm": 4.496157225131026,
-      "kl": 0.2734375,
-      "learning_rate": 9.282549715730579e-07,
-      "loss": 0.0545,
-      "reward": 2.803345203399658,
-      "reward_std": 0.2169586569070816,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.043877096846699715,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 423.3958435058594,
+      "epoch": 0.3870967741935484,
+      "grad_norm": 527.3727986310253,
+      "kl": 22.8125,
+      "learning_rate": 7.927153392325354e-07,
+      "loss": 1.1885,
+      "reward": 1.6565093398094177,
+      "reward_std": 0.403203621506691,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 0.8472223281860352,
+      "rewards/repetition_penalty_reward": -0.018837854266166687,
+      "rewards/tag_count_reward": 0.7864583432674408,
       "step": 528
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 417.2708435058594,
-      "epoch": 0.2645,
-      "grad_norm": 6.658335679549266,
-      "kl": 0.66796875,
-      "learning_rate": 9.278289390404859e-07,
-      "loss": 0.0364,
-      "reward": 2.3210874795913696,
-      "reward_std": 0.5226413607597351,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.05217655561864376,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 456.6458435058594,
+      "epoch": 0.3878299120234604,
+      "grad_norm": 440.63322937171586,
+      "kl": 15.8125,
+      "learning_rate": 7.917443334992828e-07,
+      "loss": 0.7378,
+      "reward": 1.6151684522628784,
+      "reward_std": 0.482510581612587,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8541666865348816,
+      "rewards/repetition_penalty_reward": -0.015039919875562191,
+      "rewards/tag_count_reward": 0.7760416865348816,
       "step": 529
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 357.1458435058594,
-      "epoch": 0.265,
-      "grad_norm": 3.9330369236217146,
-      "kl": 0.5556640625,
-      "learning_rate": 9.274017555754407e-07,
-      "loss": 0.0323,
-      "reward": 2.767940640449524,
-      "reward_std": 0.2660471647977829,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722221791744232,
-      "rewards/repetition_penalty_reward": -0.03240684233605862,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 424.0416717529297,
+      "epoch": 0.3885630498533724,
+      "grad_norm": 26.175191456831758,
+      "kl": 2.45703125,
+      "learning_rate": 7.907717429944086e-07,
+      "loss": 0.2639,
+      "reward": 1.9304482340812683,
+      "reward_std": 0.43061530590057373,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 0.951388955116272,
+      "rewards/repetition_penalty_reward": -0.01573240989819169,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 530
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.41668701171875,
-      "epoch": 0.2655,
-      "grad_norm": 9.064114909150554,
-      "kl": 0.44140625,
-      "learning_rate": 9.269734224791974e-07,
-      "loss": 0.1061,
-      "reward": 2.6510632038116455,
-      "reward_std": 0.4317702651023865,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.03643686696887016,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 392.54168701171875,
+      "epoch": 0.38929618768328444,
+      "grad_norm": 108.93805300951178,
+      "kl": 3.6484375,
+      "learning_rate": 7.897975740937971e-07,
+      "loss": 0.2442,
+      "reward": 1.883158266544342,
+      "reward_std": 0.4635079950094223,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 0.9166667461395264,
+      "rewards/repetition_penalty_reward": -0.017883423250168562,
+      "rewards/tag_count_reward": 0.8385416865348816,
       "step": 531
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 356.25001525878906,
-      "epoch": 0.266,
-      "grad_norm": 8.929164182079782,
-      "kl": 0.3369140625,
-      "learning_rate": 9.265439410565328e-07,
-      "loss": 0.0927,
-      "reward": 2.6343066692352295,
-      "reward_std": 0.19984594732522964,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.04624889977276325,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 366.8958435058594,
+      "epoch": 0.39002932551319647,
+      "grad_norm": 16.48994140669,
+      "kl": 2.4921875,
+      "learning_rate": 7.888218331836796e-07,
+      "loss": 0.1526,
+      "reward": 1.784899353981018,
+      "reward_std": 0.46506692469120026,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 0.8611111640930176,
+      "rewards/repetition_penalty_reward": -0.0137117775157094,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 532
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 351.93751525878906,
-      "epoch": 0.2665,
-      "grad_norm": 12.113702687047534,
-      "kl": 0.48828125,
-      "learning_rate": 9.261133126157217e-07,
-      "loss": 0.1091,
-      "reward": 2.534152388572693,
-      "reward_std": 0.40387988090515137,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.05438925884664059,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 400.12501525878906,
+      "epoch": 0.3907624633431085,
+      "grad_norm": 33.79509036125726,
+      "kl": 1.51171875,
+      "learning_rate": 7.878445266605926e-07,
+      "loss": 0.3311,
+      "reward": 1.8051475286483765,
+      "reward_std": 0.43154197931289673,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9305555522441864,
+      "rewards/repetition_penalty_reward": -0.021241379901766777,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 533
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.18751525878906,
-      "epoch": 0.267,
-      "grad_norm": 11.16084804643565,
-      "kl": 1.84375,
-      "learning_rate": 9.256815384685328e-07,
-      "loss": 0.3193,
-      "reward": 2.4775713682174683,
-      "reward_std": 0.46769386529922485,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03631755895912647,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 420.43751525878906,
+      "epoch": 0.3914956011730205,
+      "grad_norm": 23.678075563625335,
+      "kl": 1.59375,
+      "learning_rate": 7.868656609313362e-07,
+      "loss": 0.2481,
+      "reward": 2.0650064945220947,
+      "reward_std": 0.543351411819458,
+      "rewards/accuracy_reward": 0.3125000149011612,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.025271371938288212,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 534
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 492.7708435058594,
-      "epoch": 0.2675,
-      "grad_norm": 31.0072808202828,
-      "kl": 3.375,
-      "learning_rate": 9.252486199302256e-07,
-      "loss": 0.4648,
-      "reward": 2.288800835609436,
-      "reward_std": 0.569076657295227,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.02890750952064991,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 392.37501525878906,
+      "epoch": 0.39222873900293254,
+      "grad_norm": 22.282050616576207,
+      "kl": 2.3359375,
+      "learning_rate": 7.858852424129324e-07,
+      "loss": 0.2428,
+      "reward": 1.957649052143097,
+      "reward_std": 0.49290692806243896,
+      "rewards/accuracy_reward": 0.16666667722165585,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.016309399623423815,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 535
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 418.3541717529297,
-      "epoch": 0.268,
-      "grad_norm": 21.076285472286582,
-      "kl": 2.7109375,
-      "learning_rate": 9.248145583195447e-07,
-      "loss": 0.3675,
-      "reward": 2.3963736295700073,
-      "reward_std": 0.5206663012504578,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.05501541867852211,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 396.0208435058594,
+      "epoch": 0.39296187683284456,
+      "grad_norm": 30.90817986477352,
+      "kl": 1.71875,
+      "learning_rate": 7.849032775325824e-07,
+      "loss": 0.2754,
+      "reward": 1.8743115067481995,
+      "reward_std": 0.2350020781159401,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.014577506110072136,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 536
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.3958435058594,
-      "epoch": 0.2685,
-      "grad_norm": 21.190596871719485,
-      "kl": 3.33203125,
-      "learning_rate": 9.243793549587171e-07,
-      "loss": 0.4056,
-      "reward": 2.491150140762329,
-      "reward_std": 0.5588173568248749,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.027947167865931988,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 319.04168701171875,
+      "epoch": 0.3936950146627566,
+      "grad_norm": 78.90804951173097,
+      "kl": 1.923828125,
+      "learning_rate": 7.839197727276241e-07,
+      "loss": 0.0928,
+      "reward": 1.9332107305526733,
+      "reward_std": 0.16725022345781326,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.018178191035985947,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 537
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.68751525878906,
-      "epoch": 0.269,
-      "grad_norm": 15.39662311115678,
-      "kl": 3.171875,
-      "learning_rate": 9.239430111734476e-07,
-      "loss": 0.3442,
-      "reward": 2.3229269981384277,
-      "reward_std": 0.5908633470535278,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.0347119364887476,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 372.4583435058594,
+      "epoch": 0.3944281524926686,
+      "grad_norm": 21.225171374291154,
+      "kl": 1.98828125,
+      "learning_rate": 7.829347344454912e-07,
+      "loss": 0.2118,
+      "reward": 1.8861700892448425,
+      "reward_std": 0.2927362248301506,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.028760461136698723,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 538
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 402.1458435058594,
-      "epoch": 0.2695,
-      "grad_norm": 16.818966771875186,
-      "kl": 1.31640625,
-      "learning_rate": 9.235055282929153e-07,
-      "loss": 0.3005,
-      "reward": 2.69978666305542,
-      "reward_std": 0.5072591304779053,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.025908033829182386,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 377.5833435058594,
+      "epoch": 0.3951612903225806,
+      "grad_norm": 317.0519620942445,
+      "kl": 8.40625,
+      "learning_rate": 7.819481691436702e-07,
+      "loss": 0.7884,
+      "reward": 1.985667645931244,
+      "reward_std": 0.473098486661911,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9375000596046448,
+      "rewards/repetition_penalty_reward": -0.02995745651423931,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 539
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 387.8125,
-      "epoch": 0.27,
-      "grad_norm": 12.06656265047348,
-      "kl": 0.79296875,
-      "learning_rate": 9.230669076497687e-07,
-      "loss": 0.2646,
-      "reward": 2.6891995668411255,
-      "reward_std": 0.4540497958660126,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9722223281860352,
-      "rewards/repetition_penalty_reward": -0.038231078535318375,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 382.18751525878906,
+      "epoch": 0.39589442815249265,
+      "grad_norm": 267.21929696428475,
+      "kl": 9.0625,
+      "learning_rate": 7.809600832896575e-07,
+      "loss": 0.8933,
+      "reward": 1.7952839732170105,
+      "reward_std": 0.3674754351377487,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9305556118488312,
+      "rewards/repetition_penalty_reward": -0.025896546430885792,
+      "rewards/tag_count_reward": 0.890625,
       "step": 540
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.1458435058594,
-      "epoch": 0.2705,
-      "grad_norm": 10.66189870366724,
-      "kl": 0.7666015625,
-      "learning_rate": 9.226271505801224e-07,
-      "loss": 0.2545,
-      "reward": 2.7011055946350098,
-      "reward_std": 0.16866168193519115,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.05410290136933327,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 330.7708435058594,
+      "epoch": 0.3966275659824047,
+      "grad_norm": 76.5820325975885,
+      "kl": 3.671875,
+      "learning_rate": 7.799704833609181e-07,
+      "loss": 0.178,
+      "reward": 1.8716963529586792,
+      "reward_std": 0.5188014209270477,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.018928625620901585,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 541
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 433.5625,
-      "epoch": 0.271,
-      "grad_norm": 8.633799282198257,
-      "kl": 1.1171875,
-      "learning_rate": 9.221862584235526e-07,
-      "loss": 0.1229,
-      "reward": 2.806559443473816,
-      "reward_std": 0.2913419157266617,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.035454532131552696,
-      "rewards/tag_count_reward": 0.9739583730697632,
+      "completion_length": 353.3958435058594,
+      "epoch": 0.3973607038123167,
+      "grad_norm": 16.599400277332023,
+      "kl": 2.689453125,
+      "learning_rate": 7.789793758448425e-07,
+      "loss": 0.1534,
+      "reward": 1.7878945469856262,
+      "reward_std": 0.3570132479071617,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.02460549771785736,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 542
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 450.375,
-      "epoch": 0.2715,
-      "grad_norm": 12.521383665249783,
-      "kl": 2.5703125,
-      "learning_rate": 9.217442325230936e-07,
-      "loss": 0.3894,
-      "reward": 2.494984745979309,
-      "reward_std": 0.5038753598928452,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03626537322998047,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 345.3958435058594,
+      "epoch": 0.3980938416422287,
+      "grad_norm": 11.634824337183156,
+      "kl": 1.5234375,
+      "learning_rate": 7.779867672387041e-07,
+      "loss": 0.0672,
+      "reward": 1.8370883464813232,
+      "reward_std": 0.2631266638636589,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.029231124557554722,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 543
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 462.29168701171875,
-      "epoch": 0.272,
-      "grad_norm": 13.38780899364238,
-      "kl": 2.8515625,
-      "learning_rate": 9.213010742252327e-07,
-      "loss": 0.4016,
-      "reward": 2.420200288295746,
-      "reward_std": 0.4867652505636215,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.930555522441864,
-      "rewards/repetition_penalty_reward": -0.025980187579989433,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 357.7083435058594,
+      "epoch": 0.39882697947214074,
+      "grad_norm": 19.639453122914002,
+      "kl": 1.65234375,
+      "learning_rate": 7.769926640496172e-07,
+      "loss": 0.0726,
+      "reward": 1.8252497911453247,
+      "reward_std": 0.3410525470972061,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.023708656430244446,
+      "rewards/tag_count_reward": 0.9114583730697632,
       "step": 544
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.22918701171875,
-      "epoch": 0.2725,
-      "grad_norm": 29.596911334695022,
-      "kl": 2.2265625,
-      "learning_rate": 9.208567848799069e-07,
-      "loss": 0.4394,
-      "reward": 2.488977313041687,
-      "reward_std": 0.3840087577700615,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.040536582469940186,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 361.79168701171875,
+      "epoch": 0.39956011730205276,
+      "grad_norm": 12.084490762032976,
+      "kl": 2.21875,
+      "learning_rate": 7.759970727944935e-07,
+      "loss": 0.0599,
+      "reward": 1.9157754182815552,
+      "reward_std": 0.457296222448349,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 0.9444445371627808,
+      "rewards/repetition_penalty_reward": -0.023460770957171917,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 545
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.3541717529297,
-      "epoch": 0.273,
-      "grad_norm": 26.31735095796572,
-      "kl": 4.09375,
-      "learning_rate": 9.204113658404989e-07,
-      "loss": 0.706,
-      "reward": 2.371821641921997,
-      "reward_std": 0.6036520600318909,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.02574794925749302,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 393.00001525878906,
+      "epoch": 0.4002932551319648,
+      "grad_norm": 6.558264956898931,
+      "kl": 0.908203125,
+      "learning_rate": 7.75e-07,
+      "loss": 0.0845,
+      "reward": 2.127650022506714,
+      "reward_std": 0.2033278215676546,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03207237180322409,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 546
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 454.18751525878906,
-      "epoch": 0.2735,
-      "grad_norm": 30.066527015445274,
-      "kl": 4.25,
-      "learning_rate": 9.199648184638318e-07,
-      "loss": 0.3264,
-      "reward": 2.3577940464019775,
-      "reward_std": 0.4556938707828522,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.05019213631749153,
-      "rewards/tag_count_reward": 0.8802083432674408,
-      "step": 547
-    },
+      "completion_length": 342.4375,
+      "epoch": 0.4010263929618768,
+      "grad_norm": 19.898261789890924,
+      "kl": 1.8046875,
+      "learning_rate": 7.740014522025161e-07,
+      "loss": -0.008,
+      "reward": 1.6998693346977234,
+      "reward_std": 0.4570258557796478,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.881944477558136,
+      "rewards/repetition_penalty_reward": -0.02061682753264904,
+      "rewards/tag_count_reward": 0.8385416865348816,
+      "step": 547
+    },
     {
       "clip_ratio": 0.0,
-      "completion_length": 548.5,
-      "epoch": 0.274,
-      "grad_norm": 12.579666635260093,
-      "kl": 2.2412109375,
-      "learning_rate": 9.195171441101668e-07,
-      "loss": 0.2961,
-      "reward": 2.1001862287521362,
-      "reward_std": 0.2963993363082409,
-      "rewards/accuracy_reward": 0.2291666716337204,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.030022156424820423,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 334.4583435058594,
+      "epoch": 0.40175953079178883,
+      "grad_norm": 18.537407189384908,
+      "kl": 3.6171875,
+      "learning_rate": 7.730014359480907e-07,
+      "loss": 0.2439,
+      "reward": 1.6735277771949768,
+      "reward_std": 0.42917297780513763,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9027778506278992,
+      "rewards/repetition_penalty_reward": -0.02091677486896515,
+      "rewards/tag_count_reward": 0.7916666865348816,
       "step": 548
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 341.3333435058594,
-      "epoch": 0.2745,
-      "grad_norm": 6.4673055298014965,
-      "kl": 0.5400390625,
-      "learning_rate": 9.190683441431974e-07,
-      "loss": 0.0892,
-      "reward": 2.7759108543395996,
-      "reward_std": 0.3490236699581146,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.047005822882056236,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 352.25,
+      "epoch": 0.40249266862170086,
+      "grad_norm": 18.14928759631804,
+      "kl": 2.76171875,
+      "learning_rate": 7.719999577923992e-07,
+      "loss": 0.2292,
+      "reward": 1.7686306834220886,
+      "reward_std": 0.3580906316637993,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.028244351968169212,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 549
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 361.62501525878906,
-      "epoch": 0.275,
-      "grad_norm": 12.47875427754187,
-      "kl": 0.83984375,
-      "learning_rate": 9.186184199300463e-07,
-      "loss": 0.082,
-      "reward": 2.453283429145813,
-      "reward_std": 0.3730267733335495,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.04498073272407055,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 496.2083435058594,
+      "epoch": 0.4032258064516129,
+      "grad_norm": 78.70452703784652,
+      "kl": 4.25390625,
+      "learning_rate": 7.709970243007005e-07,
+      "loss": 0.3906,
+      "reward": 1.721606194972992,
+      "reward_std": 0.36094823479652405,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.045755001716315746,
+      "rewards/tag_count_reward": 0.8020833432674408,
       "step": 550
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 372.97918701171875,
-      "epoch": 0.2755,
-      "grad_norm": 6.003413536757677,
-      "kl": 0.533203125,
-      "learning_rate": 9.181673728412605e-07,
-      "loss": 0.0929,
-      "reward": 2.6774885654449463,
-      "reward_std": 0.32011160254478455,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.06556697562336922,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 363.7291717529297,
+      "epoch": 0.4039589442815249,
+      "grad_norm": 17.339896170616278,
+      "kl": 3.609375,
+      "learning_rate": 7.699926420477944e-07,
+      "loss": 0.0842,
+      "reward": 1.8914108872413635,
+      "reward_std": 0.4989718496799469,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.02525589056313038,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 551
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 371.2083435058594,
-      "epoch": 0.276,
-      "grad_norm": 11.901672638559532,
-      "kl": 0.51806640625,
-      "learning_rate": 9.177152042508077e-07,
-      "loss": 0.0808,
-      "reward": 2.7159184217453003,
-      "reward_std": 0.22979847341775894,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.05317908897995949,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 388.8333435058594,
+      "epoch": 0.4046920821114369,
+      "grad_norm": 92.32063302575182,
+      "kl": 9.015625,
+      "learning_rate": 7.689868176179775e-07,
+      "loss": 0.3559,
+      "reward": 1.6695754528045654,
+      "reward_std": 0.4239191710948944,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8749999701976776,
+      "rewards/repetition_penalty_reward": -0.03354958910495043,
+      "rewards/tag_count_reward": 0.828125,
       "step": 552
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 487.4791717529297,
-      "epoch": 0.2765,
-      "grad_norm": 15.136748639101315,
-      "kl": 1.328125,
-      "learning_rate": 9.17261915536072e-07,
-      "loss": 0.334,
-      "reward": 2.423860192298889,
-      "reward_std": 0.5218981206417084,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.04836214520037174,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 382.00001525878906,
+      "epoch": 0.40542521994134895,
+      "grad_norm": 23.4586762829187,
+      "kl": 2.8359375,
+      "learning_rate": 7.679795576050013e-07,
+      "loss": 0.0767,
+      "reward": 1.771458923816681,
+      "reward_std": 0.41519203782081604,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9305556118488312,
+      "rewards/repetition_penalty_reward": -0.03409669268876314,
+      "rewards/tag_count_reward": 0.875,
       "step": 553
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.7291717529297,
-      "epoch": 0.277,
-      "grad_norm": 26.981007155408008,
-      "kl": 1.1640625,
-      "learning_rate": 9.168075080778494e-07,
-      "loss": 0.5053,
-      "reward": 2.441664218902588,
-      "reward_std": 0.5236180424690247,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04791930224746466,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 417.7916717529297,
+      "epoch": 0.40615835777126097,
+      "grad_norm": 13.509457748782284,
+      "kl": 3.4453125,
+      "learning_rate": 7.669708686120282e-07,
+      "loss": 0.2013,
+      "reward": 1.7756158113479614,
+      "reward_std": 0.5011553764343262,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 0.902777761220932,
+      "rewards/repetition_penalty_reward": -0.03341205231845379,
+      "rewards/tag_count_reward": 0.8229166865348816,
       "step": 554
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 317.31251525878906,
-      "epoch": 0.2775,
-      "grad_norm": 11.002217558072193,
-      "kl": 0.91796875,
-      "learning_rate": 9.163519832603436e-07,
-      "loss": 0.147,
-      "reward": 2.499881386756897,
-      "reward_std": 0.4323354959487915,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.03831310383975506,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 417.2708435058594,
+      "epoch": 0.40689149560117305,
+      "grad_norm": 10.674269085308994,
+      "kl": 0.70703125,
+      "learning_rate": 7.659607572515884e-07,
+      "loss": 0.0192,
+      "reward": 1.9148439764976501,
+      "reward_std": 0.18313531577587128,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.022656043991446495,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 555
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.5208435058594,
-      "epoch": 0.278,
-      "grad_norm": 12.09872643997718,
-      "kl": 1.6318359375,
-      "learning_rate": 9.158953424711624e-07,
-      "loss": 0.1784,
-      "reward": 2.6038191318511963,
-      "reward_std": 0.46002739667892456,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.04027818236500025,
+      "completion_length": 368.87501525878906,
+      "epoch": 0.40762463343108507,
+      "grad_norm": 8.82430760579767,
+      "kl": 0.8994140625,
+      "learning_rate": 7.649492301455363e-07,
+      "loss": 0.0822,
+      "reward": 2.157172203063965,
+      "reward_std": 0.19496209174394608,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.028591575101017952,
       "rewards/tag_count_reward": 0.9635416865348816,
       "step": 556
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 318.625,
-      "epoch": 0.2785,
-      "grad_norm": 10.050531964018983,
-      "kl": 1.021484375,
-      "learning_rate": 9.154375871013128e-07,
-      "loss": 0.1225,
-      "reward": 2.6270726919174194,
-      "reward_std": 0.3049708902835846,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04306626692414284,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 429.2291717529297,
+      "epoch": 0.4083577712609971,
+      "grad_norm": 23.122266769477772,
+      "kl": 1.99609375,
+      "learning_rate": 7.639362939250076e-07,
+      "loss": 0.3555,
+      "reward": 1.9366953372955322,
+      "reward_std": 0.46149471402168274,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 0.9444444477558136,
+      "rewards/repetition_penalty_reward": -0.04420755058526993,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 557
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.52085876464844,
-      "epoch": 0.279,
-      "grad_norm": 39.99093411330565,
-      "kl": 5.265625,
-      "learning_rate": 9.149787185451969e-07,
-      "loss": 0.4026,
-      "reward": 2.456482768058777,
-      "reward_std": 0.5135739296674728,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03830893710255623,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 435.8333435058594,
+      "epoch": 0.4090909090909091,
+      "grad_norm": 41.38830099154527,
+      "kl": 4.744140625,
+      "learning_rate": 7.629219552303754e-07,
+      "loss": 0.5603,
+      "reward": 1.8085232377052307,
+      "reward_std": 0.2977941185235977,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.03175466135144234,
+      "rewards/tag_count_reward": 0.875,
       "step": 558
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 568.2291870117188,
-      "epoch": 0.2795,
-      "grad_norm": 28.34326913260782,
-      "kl": 4.4140625,
-      "learning_rate": 9.145187382006081e-07,
-      "loss": 0.9447,
-      "reward": 2.393509268760681,
-      "reward_std": 0.7060167789459229,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.01794920302927494,
-      "rewards/tag_count_reward": 0.8489583730697632,
+      "completion_length": 379.1666717529297,
+      "epoch": 0.40982404692082114,
+      "grad_norm": 20.29442532919148,
+      "kl": 1.107421875,
+      "learning_rate": 7.619062207112068e-07,
+      "loss": 0.212,
+      "reward": 1.9000099897384644,
+      "reward_std": 0.2104347199201584,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.028809464536607265,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 559
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 346.6666717529297,
-      "epoch": 0.28,
-      "grad_norm": 16.615012130478203,
-      "kl": 1.669921875,
-      "learning_rate": 9.140576474687263e-07,
-      "loss": 0.3664,
-      "reward": 2.7198301553726196,
-      "reward_std": 0.38381946086883545,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.030169978737831116,
+      "completion_length": 366.54168701171875,
+      "epoch": 0.41055718475073316,
+      "grad_norm": 8.727738513089783,
+      "kl": 1.0615234375,
+      "learning_rate": 7.608890970262194e-07,
+      "loss": 0.0707,
+      "reward": 1.9224351644515991,
+      "reward_std": 0.123790193349123,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.028953732922673225,
       "rewards/tag_count_reward": 0.9791666865348816,
       "step": 560
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 556.7916870117188,
-      "epoch": 0.2805,
-      "grad_norm": 17.593736355103562,
-      "kl": 2.7265625,
-      "learning_rate": 9.135954477541137e-07,
-      "loss": 0.8128,
-      "reward": 2.2776578664779663,
-      "reward_std": 0.6524731516838074,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.024425473995506763,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 379.12501525878906,
+      "epoch": 0.4112903225806452,
+      "grad_norm": 14.723980230907916,
+      "kl": 1.166015625,
+      "learning_rate": 7.598705908432375e-07,
+      "loss": 0.2379,
+      "reward": 2.101100206375122,
+      "reward_std": 0.3793186992406845,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.04299703519791365,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 561
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 403.9583435058594,
-      "epoch": 0.281,
-      "grad_norm": 9.443969242253909,
-      "kl": 0.826171875,
-      "learning_rate": 9.131321404647109e-07,
-      "loss": 0.3193,
-      "reward": 2.3959869742393494,
-      "reward_std": 0.171494722366333,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.034568555653095245,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 416.3125,
+      "epoch": 0.4120234604105572,
+      "grad_norm": 9.505002145135581,
+      "kl": 1.28515625,
+      "learning_rate": 7.588507088391487e-07,
+      "loss": 0.2369,
+      "reward": 1.803601086139679,
+      "reward_std": 0.3192812353372574,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.05924614891409874,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 562
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 376.12501525878906,
-      "epoch": 0.2815,
-      "grad_norm": 235.68207779933957,
-      "kl": 1.48046875,
-      "learning_rate": 9.126677270118322e-07,
-      "loss": 0.3893,
-      "reward": 2.7154510021209717,
-      "reward_std": 0.47927525639533997,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.031076885759830475,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 477.29168701171875,
+      "epoch": 0.41275659824046923,
+      "grad_norm": 14.43161494631361,
+      "kl": 1.603515625,
+      "learning_rate": 7.578294576998594e-07,
+      "loss": 0.2643,
+      "reward": 2.1314350366592407,
+      "reward_std": 0.541794627904892,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.07689837738871574,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 563
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 512.9375305175781,
-      "epoch": 0.282,
-      "grad_norm": 14.828955399249537,
-      "kl": 1.9921875,
-      "learning_rate": 9.122022088101613e-07,
-      "loss": 0.6226,
-      "reward": 2.4416096210479736,
-      "reward_std": 0.424076110124588,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.03408493287861347,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 491.0208435058594,
+      "epoch": 0.41348973607038125,
+      "grad_norm": 14.848679504928713,
+      "kl": 1.63671875,
+      "learning_rate": 7.568068441202519e-07,
+      "loss": 0.544,
+      "reward": 1.7557438015937805,
+      "reward_std": 0.41191862523555756,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9444444179534912,
+      "rewards/repetition_penalty_reward": -0.10536744445562363,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 564
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 453.0208435058594,
-      "epoch": 0.2825,
-      "grad_norm": 71.8537331742799,
-      "kl": 3.9765625,
-      "learning_rate": 9.117355872777477e-07,
-      "loss": 0.6687,
-      "reward": 2.5574655532836914,
-      "reward_std": 0.44046418368816376,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.046701231971383095,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 559.1250152587891,
+      "epoch": 0.4142228739002933,
+      "grad_norm": 49.12981105771819,
+      "kl": 5.0625,
+      "learning_rate": 7.557828748041399e-07,
+      "loss": 0.7422,
+      "reward": 1.5565171241760254,
+      "reward_std": 0.9230948686599731,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 0.8125,
+      "rewards/repetition_penalty_reward": -0.1674412302672863,
+      "rewards/tag_count_reward": 0.7864583432674408,
       "step": 565
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 585.7708435058594,
-      "epoch": 0.283,
-      "grad_norm": 133.27147379184413,
-      "kl": 6.51171875,
-      "learning_rate": 9.112678638360015e-07,
-      "loss": 0.8637,
-      "reward": 2.124269187450409,
-      "reward_std": 0.5485763549804688,
-      "rewards/accuracy_reward": 0.3333333358168602,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.025036394596099854,
-      "rewards/tag_count_reward": 0.8229166865348816,
+      "completion_length": 439.00001525878906,
+      "epoch": 0.4149560117302053,
+      "grad_norm": 29.421892340472176,
+      "kl": 3.5234375,
+      "learning_rate": 7.547575564642248e-07,
+      "loss": 0.4018,
+      "reward": 1.9395569562911987,
+      "reward_std": 0.5897162556648254,
+      "rewards/accuracy_reward": 0.18750000558793545,
+      "rewards/reasoning_steps_reward": 0.951388955116272,
+      "rewards/repetition_penalty_reward": -0.0795401930809021,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 566
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 390.8333435058594,
-      "epoch": 0.2835,
-      "grad_norm": 68.07666811218944,
-      "kl": 2.1826171875,
-      "learning_rate": 9.107990399096893e-07,
-      "loss": 0.3028,
-      "reward": 2.555752396583557,
-      "reward_std": 0.39118392765522003,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03452543169260025,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 649.0833435058594,
+      "epoch": 0.4156891495601173,
+      "grad_norm": 16.04782963498486,
+      "kl": 2.515625,
+      "learning_rate": 7.537308958220516e-07,
+      "loss": 0.5091,
+      "reward": 1.5547910928726196,
+      "reward_std": 0.8353258967399597,
+      "rewards/accuracy_reward": 0.1875000111758709,
+      "rewards/reasoning_steps_reward": 0.8263889253139496,
+      "rewards/repetition_penalty_reward": -0.22472276538610458,
+      "rewards/tag_count_reward": 0.7656250298023224,
       "step": 567
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.5416717529297,
-      "epoch": 0.284,
-      "grad_norm": 15.00691010233856,
-      "kl": 1.05078125,
-      "learning_rate": 9.103291169269299e-07,
-      "loss": 0.3439,
-      "reward": 2.596803307533264,
-      "reward_std": 0.5693235397338867,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.031668941490352154,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 625.6666870117188,
+      "epoch": 0.41642228739002934,
+      "grad_norm": 17.758582322238592,
+      "kl": 2.8671875,
+      "learning_rate": 7.527028996079647e-07,
+      "loss": 0.451,
+      "reward": 1.5067104697227478,
+      "reward_std": 0.675364226102829,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8958333432674408,
+      "rewards/repetition_penalty_reward": -0.17558125406503677,
+      "rewards/tag_count_reward": 0.7864583730697632,
       "step": 568
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 466.6666717529297,
-      "epoch": 0.2845,
-      "grad_norm": 444.847404957193,
-      "kl": 3.9453125,
-      "learning_rate": 9.098580963191907e-07,
-      "loss": 0.8048,
-      "reward": 2.4301793575286865,
-      "reward_std": 0.7720136642456055,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.021209627389907837,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 558.6250152587891,
+      "epoch": 0.41715542521994137,
+      "grad_norm": 15.295317041112742,
+      "kl": 1.40234375,
+      "learning_rate": 7.516735745610641e-07,
+      "loss": 0.5649,
+      "reward": 1.7219347953796387,
+      "reward_std": 0.4677434712648392,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.951388955116272,
+      "rewards/repetition_penalty_reward": -0.12007906287908554,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 569
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.87501525878906,
-      "epoch": 0.285,
-      "grad_norm": 32.33608353360448,
-      "kl": 1.00390625,
-      "learning_rate": 9.093859795212817e-07,
-      "loss": 0.2574,
-      "reward": 2.688089966773987,
-      "reward_std": 0.47320832312107086,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.039340706542134285,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 585.5625305175781,
+      "epoch": 0.4178885630498534,
+      "grad_norm": 56.80424556977392,
+      "kl": 0.93359375,
+      "learning_rate": 7.50642927429161e-07,
+      "loss": 0.5743,
+      "reward": 1.7323921918869019,
+      "reward_std": 0.47409604489803314,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.10788561776280403,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 570
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 374.75001525878906,
-      "epoch": 0.2855,
-      "grad_norm": 17.560098791576593,
-      "kl": 0.44921875,
-      "learning_rate": 9.089127679713529e-07,
-      "loss": 0.1948,
-      "reward": 2.7453384399414062,
-      "reward_std": 0.3349706828594208,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.048064423725008965,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 460.7708435058594,
+      "epoch": 0.4186217008797654,
+      "grad_norm": 143.1280548384441,
+      "kl": 8.46875,
+      "learning_rate": 7.496109649687336e-07,
+      "loss": 0.5721,
+      "reward": 1.6834684610366821,
+      "reward_std": 0.6084943413734436,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.916666716337204,
+      "rewards/repetition_penalty_reward": -0.10298987478017807,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 571
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.18751525878906,
-      "epoch": 0.286,
-      "grad_norm": 18.129855941015013,
-      "kl": 0.556640625,
-      "learning_rate": 9.084384631108882e-07,
-      "loss": 0.1961,
-      "reward": 2.65604305267334,
-      "reward_std": 0.520334392786026,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.027984846383333206,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 471.1666717529297,
+      "epoch": 0.41935483870967744,
+      "grad_norm": 129677.80062291445,
+      "kl": 768.5,
+      "learning_rate": 7.485776939448831e-07,
+      "loss": 64.3934,
+      "reward": 1.7917594909667969,
+      "reward_std": 0.3990024924278259,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9444444179534912,
+      "rewards/repetition_penalty_reward": -0.06935160979628563,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 572
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.5208435058594,
-      "epoch": 0.2865,
-      "grad_norm": 18.09227325152774,
-      "kl": 2.9375,
-      "learning_rate": 9.079630663847031e-07,
-      "loss": 0.5215,
-      "reward": 2.2212284803390503,
-      "reward_std": 0.5788050144910812,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.027035493403673172,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 489.29168701171875,
+      "epoch": 0.42008797653958946,
+      "grad_norm": 3810326.3768206835,
+      "kl": 14339.5,
+      "learning_rate": 7.475431211312886e-07,
+      "loss": 1697.3242,
+      "reward": 1.9151965379714966,
+      "reward_std": 0.544783428311348,
+      "rewards/accuracy_reward": 0.16666667722165585,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.09174791350960732,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 573
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 358.81251525878906,
-      "epoch": 0.287,
-      "grad_norm": 29.6582060019414,
-      "kl": 2.4140625,
-      "learning_rate": 9.074865792409381e-07,
-      "loss": 0.4198,
-      "reward": 2.4573017358779907,
-      "reward_std": 0.4562261551618576,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.027073362842202187,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 506.3750305175781,
+      "epoch": 0.4208211143695015,
+      "grad_norm": 37994.57020687281,
+      "kl": 282.0,
+      "learning_rate": 7.465072533101633e-07,
+      "loss": 20.5828,
+      "reward": 2.073698043823242,
+      "reward_std": 0.3669005036354065,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.07039912790060043,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 574
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 335.18751525878906,
-      "epoch": 0.2875,
-      "grad_norm": 59.93954067426397,
-      "kl": 2.78857421875,
-      "learning_rate": 9.070090031310558e-07,
-      "loss": 0.3862,
-      "reward": 2.782563328742981,
-      "reward_std": 0.31483452301472425,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.04382561706006527,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 465.125,
+      "epoch": 0.4215542521994135,
+      "grad_norm": 1231.8851669305193,
+      "kl": 9.5,
+      "learning_rate": 7.454700972722102e-07,
+      "loss": 1.2964,
+      "reward": 1.826287567615509,
+      "reward_std": 0.4451441168785095,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 0.951388955116272,
+      "rewards/repetition_penalty_reward": -0.046976424753665924,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 575
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 397.4166717529297,
-      "epoch": 0.288,
-      "grad_norm": 23.817675077634586,
-      "kl": 3.94921875,
-      "learning_rate": 9.065303395098358e-07,
-      "loss": 0.48,
-      "reward": 2.5549936294555664,
-      "reward_std": 0.3741450160741806,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.017923136241734028,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 440.2916717529297,
+      "epoch": 0.4222873900293255,
+      "grad_norm": 13.78789946205212,
+      "kl": 1.40625,
+      "learning_rate": 7.444316598165771e-07,
+      "loss": 0.1817,
+      "reward": 1.935817837715149,
+      "reward_std": 0.4649259001016617,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.05550179071724415,
+      "rewards/tag_count_reward": 0.8177083730697632,
       "step": 576
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 289.75,
-      "epoch": 0.2885,
-      "grad_norm": 9.736727012422476,
-      "kl": 0.5712890625,
-      "learning_rate": 9.060505898353705e-07,
-      "loss": 0.1109,
-      "reward": 2.759944438934326,
-      "reward_std": 0.2943428307771683,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9791667461395264,
-      "rewards/repetition_penalty_reward": -0.02130552940070629,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "completion_length": 469.10418701171875,
+      "epoch": 0.42302052785923755,
+      "grad_norm": 12.69432344405188,
+      "kl": 0.638671875,
+      "learning_rate": 7.433919477508122e-07,
+      "loss": 0.2687,
+      "reward": 1.9238691926002502,
+      "reward_std": 0.20775415003299713,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03446421958506107,
+      "rewards/tag_count_reward": 0.9375,
       "step": 577
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 458.87501525878906,
-      "epoch": 0.289,
-      "grad_norm": 32.414744280583555,
-      "kl": 5.390625,
-      "learning_rate": 9.055697555690607e-07,
-      "loss": 0.549,
-      "reward": 2.2597694396972656,
-      "reward_std": 0.8498954474925995,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.888888955116272,
-      "rewards/repetition_penalty_reward": -0.01974454615265131,
-      "rewards/tag_count_reward": 0.8281250298023224,
+      "completion_length": 434.25001525878906,
+      "epoch": 0.4237536656891496,
+      "grad_norm": 12.156642111389008,
+      "kl": 0.55859375,
+      "learning_rate": 7.423509678908197e-07,
+      "loss": 0.2053,
+      "reward": 1.9572932720184326,
+      "reward_std": 0.23687171936035156,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027081767097115517,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 578
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 442.91668701171875,
-      "epoch": 0.2895,
-      "grad_norm": 18.23142677889983,
-      "kl": 3.25390625,
-      "learning_rate": 9.050878381756107e-07,
-      "loss": 0.4236,
-      "reward": 2.289909839630127,
-      "reward_std": 0.6958013772964478,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.02432657964527607,
-      "rewards/tag_count_reward": 0.8072916865348816,
+      "completion_length": 491.9166717529297,
+      "epoch": 0.4244868035190616,
+      "grad_norm": 12.901366210323863,
+      "kl": 1.06640625,
+      "learning_rate": 7.413087270608142e-07,
+      "loss": 0.3456,
+      "reward": 1.9319626688957214,
+      "reward_std": 0.44203020632267,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 0.9583334028720856,
+      "rewards/repetition_penalty_reward": -0.031579023227095604,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 579
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 504.58335876464844,
-      "epoch": 0.29,
-      "grad_norm": 29.70121123782455,
-      "kl": 2.6796875,
-      "learning_rate": 9.046048391230247e-07,
-      "loss": 0.4642,
-      "reward": 2.1951472759246826,
-      "reward_std": 0.8341259658336639,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.02013048715889454,
-      "rewards/tag_count_reward": 0.7916666865348816,
+      "completion_length": 425.0,
+      "epoch": 0.4252199413489736,
+      "grad_norm": 5.351454860184803,
+      "kl": 0.92578125,
+      "learning_rate": 7.402652320932778e-07,
+      "loss": 0.0296,
+      "reward": 1.9846732020378113,
+      "reward_std": 0.47941556572914124,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9305555820465088,
+      "rewards/repetition_penalty_reward": -0.02400730736553669,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 580
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.6458435058594,
-      "epoch": 0.2905,
-      "grad_norm": 19.307347308311925,
-      "kl": 2.3359375,
-      "learning_rate": 9.041207598826017e-07,
-      "loss": 0.3662,
-      "reward": 2.1872280836105347,
-      "reward_std": 0.5830141305923462,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.02804980892688036,
-      "rewards/tag_count_reward": 0.8333333730697632,
+      "completion_length": 531.4375305175781,
+      "epoch": 0.42595307917888564,
+      "grad_norm": 7.963531966396582,
+      "kl": 0.79296875,
+      "learning_rate": 7.392204898289134e-07,
+      "loss": 0.4304,
+      "reward": 1.854543387889862,
+      "reward_std": 0.24265119433403015,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.029137184843420982,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 581
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 397.6666717529297,
-      "epoch": 0.291,
-      "grad_norm": 15.271088740961835,
-      "kl": 1.3125,
-      "learning_rate": 9.036356019289309e-07,
-      "loss": 0.3569,
-      "reward": 2.5574233531951904,
-      "reward_std": 0.5160808861255646,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.04847951419651508,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 436.7083435058594,
+      "epoch": 0.42668621700879766,
+      "grad_norm": 5.484500184954792,
+      "kl": 1.0458984375,
+      "learning_rate": 7.381745071166008e-07,
+      "loss": 0.2121,
+      "reward": 1.8330828547477722,
+      "reward_std": 0.2432198002934456,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.03670879080891609,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 582
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 376.75,
-      "epoch": 0.2915,
-      "grad_norm": 17.403821452003328,
-      "kl": 1.63671875,
-      "learning_rate": 9.031493667398872e-07,
-      "loss": 0.2783,
-      "reward": 2.41110360622406,
-      "reward_std": 0.37185367196798325,
-      "rewards/accuracy_reward": 0.5625000223517418,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.0524381659924984,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 689.2291717529297,
+      "epoch": 0.4274193548387097,
+      "grad_norm": 4.163101070137608,
+      "kl": 1.4345703125,
+      "learning_rate": 7.371272908133517e-07,
+      "loss": 0.2019,
+      "reward": 1.8426572680473328,
+      "reward_std": 0.3393200449645519,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.840277761220932,
+      "rewards/repetition_penalty_reward": -0.0288705974817276,
+      "rewards/tag_count_reward": 0.78125,
       "step": 583
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 439.8333435058594,
-      "epoch": 0.292,
-      "grad_norm": 63.805319864699065,
-      "kl": 7.046875,
-      "learning_rate": 9.026620557966279e-07,
-      "loss": 0.713,
-      "reward": 2.4353259801864624,
-      "reward_std": 0.5490872263908386,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.01432684762403369,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 523.0000305175781,
+      "epoch": 0.4281524926686217,
+      "grad_norm": 5.91565183853525,
+      "kl": 0.826171875,
+      "learning_rate": 7.360788477842648e-07,
+      "loss": 0.4024,
+      "reward": 2.025831699371338,
+      "reward_std": 0.3373628966510296,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.033196162432432175,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 584
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 344.2708435058594,
-      "epoch": 0.2925,
-      "grad_norm": 42.56798762474608,
-      "kl": 3.458984375,
-      "learning_rate": 9.021736705835862e-07,
-      "loss": 0.2748,
-      "reward": 2.646929144859314,
-      "reward_std": 0.3856794238090515,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02841815911233425,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 658.75,
+      "epoch": 0.42888563049853373,
+      "grad_norm": 7.01606828210777,
+      "kl": 0.93359375,
+      "learning_rate": 7.350291849024802e-07,
+      "loss": 0.6511,
+      "reward": 2.2463026642799377,
+      "reward_std": 0.3866378962993622,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.958333283662796,
+      "rewards/repetition_penalty_reward": -0.040155697613954544,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 585
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.3958435058594,
-      "epoch": 0.293,
-      "grad_norm": 19.403283253518403,
-      "kl": 2.52734375,
-      "learning_rate": 9.016842125884684e-07,
-      "loss": 0.3443,
-      "reward": 2.468275308609009,
-      "reward_std": 0.40393635630607605,
-      "rewards/accuracy_reward": 0.5833333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03346090763807297,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 631.1041870117188,
+      "epoch": 0.42961876832844575,
+      "grad_norm": 5.140346553565747,
+      "kl": 1.259765625,
+      "learning_rate": 7.339783090491357e-07,
+      "loss": 0.4162,
+      "reward": 1.7601860761642456,
+      "reward_std": 0.364535853266716,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9236111640930176,
+      "rewards/repetition_penalty_reward": -0.02280005533248186,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 586
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.7291717529297,
-      "epoch": 0.2935,
-      "grad_norm": 73.87564910344872,
-      "kl": 6.8203125,
-      "learning_rate": 9.011936833022484e-07,
-      "loss": 0.8008,
-      "reward": 2.222065567970276,
-      "reward_std": 0.6714163422584534,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.019253874197602272,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 842.2083740234375,
+      "epoch": 0.4303519061583578,
+      "grad_norm": 8.722800979257899,
+      "kl": 2.41796875,
+      "learning_rate": 7.329262271133198e-07,
+      "loss": 0.5189,
+      "reward": 1.3562277555465698,
+      "reward_std": 0.685504287481308,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.7430556118488312,
+      "rewards/repetition_penalty_reward": -0.027452876791357994,
+      "rewards/tag_count_reward": 0.6406250298023224,
       "step": 587
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.56251525878906,
-      "epoch": 0.294,
-      "grad_norm": 93.860844445193,
-      "kl": 4.3984375,
-      "learning_rate": 9.007020842191634e-07,
-      "loss": 0.7156,
-      "reward": 2.255267858505249,
-      "reward_std": 0.670578122138977,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.03466268070042133,
-      "rewards/tag_count_reward": 0.859375,
+      "completion_length": 617.9583587646484,
+      "epoch": 0.4310850439882698,
+      "grad_norm": 5.737199758652915,
+      "kl": 1.12890625,
+      "learning_rate": 7.318729459920285e-07,
+      "loss": 0.3464,
+      "reward": 1.767576813697815,
+      "reward_std": 0.36326418817043304,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.025825947523117065,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 588
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.9583740234375,
-      "epoch": 0.2945,
-      "grad_norm": 12.13076498842532,
-      "kl": 3.4375,
-      "learning_rate": 9.002094168367095e-07,
-      "loss": 0.602,
-      "reward": 2.0464794039726257,
-      "reward_std": 0.7266620993614197,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.019492903724312782,
-      "rewards/tag_count_reward": 0.7604166865348816,
+      "completion_length": 667.5416870117188,
+      "epoch": 0.4318181818181818,
+      "grad_norm": 9.981678337385196,
+      "kl": 1.375,
+      "learning_rate": 7.308184725901184e-07,
+      "loss": 0.4301,
+      "reward": 1.7179012894630432,
+      "reward_std": 0.4680147022008896,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8819444477558136,
+      "rewards/repetition_penalty_reward": -0.018209854140877724,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 589
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 320.5,
-      "epoch": 0.295,
-      "grad_norm": 24.895394841833685,
-      "kl": 1.365234375,
-      "learning_rate": 8.997156826556369e-07,
-      "loss": 0.4022,
-      "reward": 2.6690471172332764,
-      "reward_std": 0.5990716367959976,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.037550284527242184,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 527.3958435058594,
+      "epoch": 0.43255131964809385,
+      "grad_norm": 5.970499864844468,
+      "kl": 0.75390625,
+      "learning_rate": 7.297628138202627e-07,
+      "loss": 0.6867,
+      "reward": 1.855049967765808,
+      "reward_std": 0.2735976576805115,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.026894627138972282,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 590
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 374.56251525878906,
-      "epoch": 0.2955,
-      "grad_norm": 22.56888130354956,
-      "kl": 1.072265625,
-      "learning_rate": 8.992208831799456e-07,
-      "loss": 0.451,
-      "reward": 2.7043356895446777,
-      "reward_std": 0.4858996868133545,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.03698389232158661,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 423.5625,
+      "epoch": 0.43328445747800587,
+      "grad_norm": 6.423946368381474,
+      "kl": 0.734375,
+      "learning_rate": 7.287059766029048e-07,
+      "loss": 0.3071,
+      "reward": 2.242375373840332,
+      "reward_std": 0.3972780704498291,
+      "rewards/accuracy_reward": 0.3750000149011612,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.023249639198184013,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 591
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.0833435058594,
-      "epoch": 0.296,
-      "grad_norm": 15.07305486993295,
-      "kl": 1.38671875,
-      "learning_rate": 8.987250199168808e-07,
-      "loss": 0.3822,
-      "reward": 2.2811846137046814,
-      "reward_std": 0.35361041128635406,
-      "rewards/accuracy_reward": 0.5000000204890966,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.03825983218848705,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 595.7291870117188,
+      "epoch": 0.4340175953079179,
+      "grad_norm": 4.887451300319632,
+      "kl": 0.9296875,
+      "learning_rate": 7.276479678662142e-07,
+      "loss": 0.694,
+      "reward": 2.0136942863464355,
+      "reward_std": 0.4511658251285553,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9305555522441864,
+      "rewards/repetition_penalty_reward": -0.021027985960245132,
+      "rewards/tag_count_reward": 0.8958333730697632,
       "step": 592
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 682.1458435058594,
-      "epoch": 0.2965,
-      "grad_norm": 15.040586253928733,
-      "kl": 3.90625,
-      "learning_rate": 8.982280943769278e-07,
-      "loss": 0.8728,
-      "reward": 2.138270854949951,
-      "reward_std": 0.7431787848472595,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.8611111342906952,
-      "rewards/repetition_penalty_reward": -0.030132046900689602,
-      "rewards/tag_count_reward": 0.8072916865348816,
+      "completion_length": 523.5416870117188,
+      "epoch": 0.4347507331378299,
+      "grad_norm": 7.661491807669517,
+      "kl": 0.939453125,
+      "learning_rate": 7.265887945460399e-07,
+      "loss": 0.4451,
+      "reward": 1.8619901537895203,
+      "reward_std": 0.2486792877316475,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.025162680074572563,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 593
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.4583435058594,
-      "epoch": 0.297,
-      "grad_norm": 22.6147129609363,
-      "kl": 5.03125,
-      "learning_rate": 8.977301080738079e-07,
-      "loss": 0.6899,
-      "reward": 2.386793375015259,
-      "reward_std": 0.6881283521652222,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.03681784123182297,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 451.5833435058594,
+      "epoch": 0.43548387096774194,
+      "grad_norm": 9.321412543739491,
+      "kl": 0.796875,
+      "learning_rate": 7.255284635858654e-07,
+      "loss": 0.4428,
+      "reward": 1.8684191703796387,
+      "reward_std": 0.2588324770331383,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03609476983547211,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 594
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 401.4583435058594,
-      "epoch": 0.2975,
-      "grad_norm": 3434.828082451659,
-      "kl": 46.5859375,
-      "learning_rate": 8.97231062524474e-07,
-      "loss": 3.8228,
-      "reward": 2.6234763860702515,
-      "reward_std": 0.7114923894405365,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.02582914289087057,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 606.2708435058594,
+      "epoch": 0.43621700879765396,
+      "grad_norm": 5.574219705760587,
+      "kl": 1.2734375,
+      "learning_rate": 7.244669819367635e-07,
+      "loss": 0.8792,
+      "reward": 1.7151203751564026,
+      "reward_std": 0.5295811295509338,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.8888889253139496,
+      "rewards/repetition_penalty_reward": -0.022726922295987606,
+      "rewards/tag_count_reward": 0.8489583432674408,
       "step": 595
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 522.4791870117188,
-      "epoch": 0.298,
-      "grad_norm": 81.28452749558095,
-      "kl": 4.79296875,
-      "learning_rate": 8.967309592491052e-07,
-      "loss": 0.9035,
-      "reward": 2.28587806224823,
-      "reward_std": 0.5564829260110855,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.0613443311303854,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 483.6041717529297,
+      "epoch": 0.436950146627566,
+      "grad_norm": 7.654459613602763,
+      "kl": 0.75390625,
+      "learning_rate": 7.2340435655735e-07,
+      "loss": 0.7024,
+      "reward": 1.8384817838668823,
+      "reward_std": 0.36958810687065125,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9374999701976776,
+      "rewards/repetition_penalty_reward": -0.020893272012472153,
+      "rewards/tag_count_reward": 0.921875,
       "step": 596
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 384.18751525878906,
-      "epoch": 0.2985,
-      "grad_norm": 27.314706299556043,
-      "kl": 2.41015625,
-      "learning_rate": 8.962297997711027e-07,
-      "loss": 0.6414,
-      "reward": 2.3818459510803223,
-      "reward_std": 0.5823481678962708,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.04697362706065178,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 465.8958435058594,
+      "epoch": 0.437683284457478,
+      "grad_norm": 7.854088448222693,
+      "kl": 0.619140625,
+      "learning_rate": 7.223405944137391e-07,
+      "loss": 0.6323,
+      "reward": 1.9075292348861694,
+      "reward_std": 0.23356913030147552,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.024762499146163464,
+      "rewards/tag_count_reward": 0.953125,
       "step": 597
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 362.56251525878906,
-      "epoch": 0.299,
-      "grad_norm": 24.978178060621413,
-      "kl": 3.5078125,
-      "learning_rate": 8.957275856170855e-07,
-      "loss": 0.6036,
-      "reward": 2.4027575254440308,
-      "reward_std": 0.4491366446018219,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.017381365410983562,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 538.9375152587891,
+      "epoch": 0.43841642228739003,
+      "grad_norm": 10.82627900467281,
+      "kl": 1.205078125,
+      "learning_rate": 7.212757024794963e-07,
+      "loss": 0.6552,
+      "reward": 1.823222577571869,
+      "reward_std": 0.34460779651999474,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.025735745206475258,
+      "rewards/tag_count_reward": 0.9114583730697632,
       "step": 598
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 610.6041870117188,
-      "epoch": 0.2995,
-      "grad_norm": 56.7569904139385,
-      "kl": 5.6875,
-      "learning_rate": 8.952243183168848e-07,
-      "loss": 0.4682,
-      "reward": 2.0318877696990967,
-      "reward_std": 0.40879975259304047,
-      "rewards/accuracy_reward": 0.3125,
-      "rewards/reasoning_steps_reward": 0.9375000894069672,
-      "rewards/repetition_penalty_reward": -0.0358206108212471,
-      "rewards/tag_count_reward": 0.8177083730697632,
+      "completion_length": 434.50001525878906,
+      "epoch": 0.43914956011730205,
+      "grad_norm": 17.304697371168608,
+      "kl": 0.70703125,
+      "learning_rate": 7.202096877355943e-07,
+      "loss": 0.4098,
+      "reward": 1.9486218690872192,
+      "reward_std": 0.09528243541717529,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02533646486699581,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 599
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 329.6041717529297,
-      "epoch": 0.3,
-      "grad_norm": 12.091825230727677,
-      "kl": 1.107421875,
-      "learning_rate": 8.9471999940354e-07,
-      "loss": 0.28,
-      "reward": 2.2527668476104736,
-      "reward_std": 0.4062964767217636,
-      "rewards/accuracy_reward": 0.354166679084301,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.026747104711830616,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 521.3750152587891,
+      "epoch": 0.4398826979472141,
+      "grad_norm": 10.712298357559916,
+      "kl": 0.5244140625,
+      "learning_rate": 7.191425571703661e-07,
+      "loss": 0.3627,
+      "reward": 1.8139049410820007,
+      "reward_std": 0.31058455258607864,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9097222685813904,
+      "rewards/repetition_penalty_reward": -0.017692371271550655,
+      "rewards/tag_count_reward": 0.921875,
       "step": 600
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 358.3541717529297,
-      "epoch": 0.3005,
-      "grad_norm": 18.582827147329553,
-      "kl": 1.2119140625,
-      "learning_rate": 8.942146304132943e-07,
-      "loss": 0.3149,
-      "reward": 2.3439489603042603,
-      "reward_std": 0.46688786149024963,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.03799547627568245,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 430.1041717529297,
+      "epoch": 0.4406158357771261,
+      "grad_norm": 7.6757110936792765,
+      "kl": 0.626953125,
+      "learning_rate": 7.180743177794596e-07,
+      "loss": 0.2585,
+      "reward": 1.9423617124557495,
+      "reward_std": 0.10574298352003098,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021179988980293274,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 601
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 347.68751525878906,
-      "epoch": 0.301,
-      "grad_norm": 25.38946154820617,
-      "kl": 0.908203125,
-      "learning_rate": 8.937082128855891e-07,
-      "loss": 0.3989,
-      "reward": 2.2832257747650146,
-      "reward_std": 0.44448164105415344,
-      "rewards/accuracy_reward": 0.3958333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03795480914413929,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 387.9583435058594,
+      "epoch": 0.4413489736070381,
+      "grad_norm": 4.489868769575807,
+      "kl": 0.4794921875,
+      "learning_rate": 7.170049765657915e-07,
+      "loss": 0.1947,
+      "reward": 1.9460084438323975,
+      "reward_std": 0.1343548847362399,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.017533178441226482,
+      "rewards/tag_count_reward": 0.984375,
       "step": 602
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.10418701171875,
-      "epoch": 0.3015,
-      "grad_norm": 37.47070105859472,
-      "kl": 2.890625,
-      "learning_rate": 8.932007483630596e-07,
-      "loss": 0.673,
-      "reward": 2.4643146991729736,
-      "reward_std": 0.42459146678447723,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.025268660858273506,
+      "completion_length": 469.5625305175781,
+      "epoch": 0.44208211143695014,
+      "grad_norm": 7.150423783435916,
+      "kl": 1.00390625,
+      "learning_rate": 7.159345405395021e-07,
+      "loss": 0.4532,
+      "reward": 2.0186060070991516,
+      "reward_std": 0.43175019323825836,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9097222089767456,
+      "rewards/repetition_penalty_reward": -0.026532936841249466,
       "rewards/tag_count_reward": 0.9270833432674408,
       "step": 603
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 499.81251525878906,
-      "epoch": 0.302,
-      "grad_norm": 27.80855047913277,
-      "kl": 3.8515625,
-      "learning_rate": 8.926922383915315e-07,
-      "loss": 0.6036,
-      "reward": 2.298141598701477,
-      "reward_std": 0.6866291165351868,
-      "rewards/accuracy_reward": 0.5000000149011612,
+      "completion_length": 484.0833435058594,
+      "epoch": 0.44281524926686217,
+      "grad_norm": 14.289522543503129,
+      "kl": 0.783203125,
+      "learning_rate": 7.148630167179082e-07,
+      "loss": 0.7236,
+      "reward": 1.852538287639618,
+      "reward_std": 0.35337747633457184,
+      "rewards/accuracy_reward": 0.0,
       "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03171971254050732,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "rewards/repetition_penalty_reward": -0.024197802878916264,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 604
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 437.6041717529297,
-      "epoch": 0.3025,
-      "grad_norm": 14.735625956308642,
-      "kl": 2.66015625,
-      "learning_rate": 8.921826845200138e-07,
-      "loss": 0.4696,
-      "reward": 2.3992427587509155,
-      "reward_std": 0.566670224070549,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.029576689936220646,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 601.2291717529297,
+      "epoch": 0.4435483870967742,
+      "grad_norm": 11.952594597793968,
+      "kl": 0.5205078125,
+      "learning_rate": 7.137904121254578e-07,
+      "loss": 0.1753,
+      "reward": 1.763185977935791,
+      "reward_std": 0.2357357507571578,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9097222685813904,
+      "rewards/repetition_penalty_reward": -0.026744673028588295,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 605
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 311.0,
-      "epoch": 0.303,
-      "grad_norm": 12.206231699378542,
-      "kl": 1.1015625,
-      "learning_rate": 8.916720883006963e-07,
-      "loss": 0.1574,
-      "reward": 2.774844169616699,
-      "reward_std": 0.4380817115306854,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.034183867275714874,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 375.25001525878906,
+      "epoch": 0.4442815249266862,
+      "grad_norm": 3.703107528625227,
+      "kl": 0.408203125,
+      "learning_rate": 7.127167337936845e-07,
+      "loss": 0.0196,
+      "reward": 1.982218861579895,
+      "reward_std": 0.011761181056499481,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017781143076717854,
+      "rewards/tag_count_reward": 1.0,
       "step": 606
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.18751525878906,
-      "epoch": 0.3035,
-      "grad_norm": 31.971619676180616,
-      "kl": 2.32421875,
-      "learning_rate": 8.911604512889434e-07,
-      "loss": 0.3176,
-      "reward": 2.726539731025696,
-      "reward_std": 0.508837565779686,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.028668691404163837,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 429.3958435058594,
+      "epoch": 0.44501466275659823,
+      "grad_norm": 20.03177568564077,
+      "kl": 0.65625,
+      "learning_rate": 7.116419887611605e-07,
+      "loss": 0.4329,
+      "reward": 2.1548226475715637,
+      "reward_std": 0.25495945662260056,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.022260690107941628,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 607
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 377.7708435058594,
-      "epoch": 0.304,
-      "grad_norm": 47.81529047217983,
-      "kl": 5.484375,
-      "learning_rate": 8.906477750432903e-07,
-      "loss": 0.7836,
-      "reward": 2.3868411779403687,
-      "reward_std": 0.6196691393852234,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.02114514308050275,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 320.6666717529297,
+      "epoch": 0.44574780058651026,
+      "grad_norm": 3.804969767713346,
+      "kl": 0.4248046875,
+      "learning_rate": 7.105661840734506e-07,
+      "loss": 0.017,
+      "reward": 2.4734570384025574,
+      "reward_std": 0.01555747864767909,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02654305938631296,
+      "rewards/tag_count_reward": 1.0,
       "step": 608
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 377.00001525878906,
-      "epoch": 0.3045,
-      "grad_norm": 64.95300495357336,
-      "kl": 3.546875,
-      "learning_rate": 8.901340611254378e-07,
-      "loss": 0.7444,
-      "reward": 2.6928662061691284,
-      "reward_std": 0.6587081551551819,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03630049154162407,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 360.8333435058594,
+      "epoch": 0.4464809384164223,
+      "grad_norm": 3.580449205687791,
+      "kl": 0.390625,
+      "learning_rate": 7.094893267830666e-07,
+      "loss": 0.0074,
+      "reward": 2.1633920669555664,
+      "reward_std": 0.1211917675100267,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024107900448143482,
+      "rewards/tag_count_reward": 1.0,
       "step": 609
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 409.3958435058594,
-      "epoch": 0.305,
-      "grad_norm": 40.39290779152927,
-      "kl": 5.671875,
-      "learning_rate": 8.896193111002475e-07,
-      "loss": 0.4324,
-      "reward": 2.182259440422058,
-      "reward_std": 0.708200603723526,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.8541666865348816,
-      "rewards/repetition_penalty_reward": -0.0364905521273613,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 338.8541717529297,
+      "epoch": 0.4472140762463343,
+      "grad_norm": 3.775779917602866,
+      "kl": 0.42578125,
+      "learning_rate": 7.084114239494209e-07,
+      "loss": 0.0204,
+      "reward": 1.9812775254249573,
+      "reward_std": 0.01065837498754263,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018722583539783955,
+      "rewards/tag_count_reward": 1.0,
       "step": 610
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 382.5416717529297,
-      "epoch": 0.3055,
-      "grad_norm": 18.330556875068268,
-      "kl": 2.4296875,
-      "learning_rate": 8.891035265357371e-07,
-      "loss": 0.5719,
-      "reward": 2.4720453023910522,
-      "reward_std": 0.5455569326877594,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.024482558481395245,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 323.62501525878906,
+      "epoch": 0.4479472140762463,
+      "grad_norm": 3.4928929408017324,
+      "kl": 0.39453125,
+      "learning_rate": 7.073324826387792e-07,
+      "loss": 0.0202,
+      "reward": 2.223867654800415,
+      "reward_std": 0.014575928449630737,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026132473722100258,
+      "rewards/tag_count_reward": 1.0,
       "step": 611
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 463.68751525878906,
-      "epoch": 0.306,
-      "grad_norm": 20.965812940157566,
-      "kl": 3.12109375,
-      "learning_rate": 8.88586709003076e-07,
-      "loss": 0.5898,
-      "reward": 2.5473427772521973,
-      "reward_std": 0.7215102910995483,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.02904626540839672,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 417.50001525878906,
+      "epoch": 0.44868035190615835,
+      "grad_norm": 40.78856978225071,
+      "kl": 0.494140625,
+      "learning_rate": 7.062525099242161e-07,
+      "loss": 0.2242,
+      "reward": 2.185540795326233,
+      "reward_std": 0.16539057483896613,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.019320469349622726,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 277.93751525878906,
-      "epoch": 0.3065,
-      "grad_norm": 21.659936470606215,
-      "kl": 1.1328125,
-      "learning_rate": 8.8806886007658e-07,
-      "loss": 0.1303,
-      "reward": 2.7708282470703125,
-      "reward_std": 0.48425713181495667,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.026046608574688435,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 374.31251525878906,
+      "epoch": 0.44941348973607037,
+      "grad_norm": 3.2067514129166974,
+      "kl": 0.34375,
+      "learning_rate": 7.051715128855665e-07,
+      "loss": 0.037,
+      "reward": 1.9826087951660156,
+      "reward_std": 0.010490587446838617,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017391293309628963,
+      "rewards/tag_count_reward": 1.0,
       "step": 613
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 278.68751525878906,
-      "epoch": 0.307,
-      "grad_norm": 22.568162104962866,
-      "kl": 0.58203125,
-      "learning_rate": 8.875499813337067e-07,
-      "loss": 0.2044,
-      "reward": 2.8232574462890625,
-      "reward_std": 0.385304257273674,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.022228870075196028,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 389.8958435058594,
+      "epoch": 0.4501466275659824,
+      "grad_norm": 85.78107516846322,
+      "kl": 1.4580078125,
+      "learning_rate": 7.040894986093814e-07,
+      "loss": 0.2902,
+      "reward": 1.982279896736145,
+      "reward_std": 0.09320326708257198,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028136792592704296,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 614
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.8333435058594,
-      "epoch": 0.3075,
-      "grad_norm": 13.0831888313229,
-      "kl": 0.63818359375,
-      "learning_rate": 8.87030074355051e-07,
-      "loss": 0.2361,
-      "reward": 2.7106308937072754,
-      "reward_std": 0.3397009428590536,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9652777314186096,
-      "rewards/repetition_penalty_reward": -0.030688603408634663,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 385.7708435058594,
+      "epoch": 0.4508797653958944,
+      "grad_norm": 2.815951559024344,
+      "kl": 0.330078125,
+      "learning_rate": 7.030064741888798e-07,
+      "loss": 0.0066,
+      "reward": 1.9806150794029236,
+      "reward_std": 0.012543195858597755,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019384922459721565,
+      "rewards/tag_count_reward": 1.0,
       "step": 615
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 297.50001525878906,
-      "epoch": 0.308,
-      "grad_norm": 9.770757617195565,
-      "kl": 0.42138671875,
-      "learning_rate": 8.865091407243394e-07,
-      "loss": 0.0876,
-      "reward": 2.564429521560669,
-      "reward_std": 0.381553053855896,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.041473302990198135,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 401.87501525878906,
+      "epoch": 0.45161290322580644,
+      "grad_norm": 52.55065929758277,
+      "kl": 1.103515625,
+      "learning_rate": 7.019224467239025e-07,
+      "loss": 0.2908,
+      "reward": 2.6719231605529785,
+      "reward_std": 0.2000698889605701,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.022521505132317543,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 616
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 433.37501525878906,
-      "epoch": 0.3085,
-      "grad_norm": 15.238026778188452,
-      "kl": 2.79296875,
-      "learning_rate": 8.859871820284261e-07,
-      "loss": 0.6701,
-      "reward": 2.4649064540863037,
-      "reward_std": 0.5701871514320374,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.029885290190577507,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 392.2083435058594,
+      "epoch": 0.45234604105571846,
+      "grad_norm": 63.52951187805423,
+      "kl": 1.818359375,
+      "learning_rate": 7.008374233208667e-07,
+      "loss": 0.4064,
+      "reward": 1.9457017183303833,
+      "reward_std": 0.10482199117541313,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.0265205055475235,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 617
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.4166717529297,
-      "epoch": 0.309,
-      "grad_norm": 22.09258325323561,
-      "kl": 2.6484375,
-      "learning_rate": 8.85464199857288e-07,
-      "loss": 0.3808,
-      "reward": 2.376816987991333,
-      "reward_std": 0.6643776893615723,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.04158583842217922,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 386.1666717529297,
+      "epoch": 0.4530791788856305,
+      "grad_norm": 2.7120803027810174,
+      "kl": 0.306640625,
+      "learning_rate": 6.997514110927176e-07,
+      "loss": 0.0391,
+      "reward": 1.9820279479026794,
+      "reward_std": 0.009422503411769867,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017972068395465612,
+      "rewards/tag_count_reward": 1.0,
       "step": 618
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 418.75001525878906,
-      "epoch": 0.3095,
-      "grad_norm": 18.162555409765705,
-      "kl": 2.8828125,
-      "learning_rate": 8.849401958040192e-07,
-      "loss": 0.5727,
-      "reward": 2.6696484088897705,
-      "reward_std": 0.5072681605815887,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.019587615504860878,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 386.0833435058594,
+      "epoch": 0.4538123167155425,
+      "grad_norm": 2.632747872063834,
+      "kl": 0.3076171875,
+      "learning_rate": 6.986644171588833e-07,
+      "loss": 0.026,
+      "reward": 2.224295914173126,
+      "reward_std": 0.013977315742522478,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02570413239300251,
+      "rewards/tag_count_reward": 1.0,
       "step": 619
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 368.75,
-      "epoch": 0.31,
-      "grad_norm": 26.7814555750565,
-      "kl": 2.5703125,
-      "learning_rate": 8.844151714648274e-07,
-      "loss": 0.5849,
-      "reward": 2.5200384855270386,
-      "reward_std": 0.5991145968437195,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.025100392289459705,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 385.6041717529297,
+      "epoch": 0.45454545454545453,
+      "grad_norm": 2.8309147137871613,
+      "kl": 0.3193359375,
+      "learning_rate": 6.975764486452274e-07,
+      "loss": 0.0364,
+      "reward": 2.4791120290756226,
+      "reward_std": 0.010151438880711794,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020888016559183598,
+      "rewards/tag_count_reward": 1.0,
       "step": 620
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.2083435058594,
-      "epoch": 0.3105,
-      "grad_norm": 14.7849673987086,
-      "kl": 2.59765625,
-      "learning_rate": 8.838891284390273e-07,
-      "loss": 0.5688,
-      "reward": 2.561677932739258,
-      "reward_std": 0.5532724261283875,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.033808158710598946,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 517.3333435058594,
+      "epoch": 0.45527859237536655,
+      "grad_norm": 35.189103192855995,
+      "kl": 1.181640625,
+      "learning_rate": 6.964875126840023e-07,
+      "loss": 0.332,
+      "reward": 1.9061416387557983,
+      "reward_std": 0.1184447268024087,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.019205675926059484,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 621
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 471.14585876464844,
-      "epoch": 0.311,
-      "grad_norm": 20.53699662396806,
-      "kl": 3.734375,
-      "learning_rate": 8.833620683290375e-07,
-      "loss": 0.8009,
-      "reward": 2.2843284606933594,
-      "reward_std": 0.7857449054718018,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.8819444179534912,
-      "rewards/repetition_penalty_reward": -0.029907681047916412,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 483.41668701171875,
+      "epoch": 0.4560117302052786,
+      "grad_norm": 66.83089282659809,
+      "kl": 0.80859375,
+      "learning_rate": 6.953976164138027e-07,
+      "loss": 0.3831,
+      "reward": 1.9612208604812622,
+      "reward_std": 0.18723435327410698,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017945820465683937,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 622
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 650.0000152587891,
-      "epoch": 0.3115,
-      "grad_norm": 69.27168548723343,
-      "kl": 9.65625,
-      "learning_rate": 8.828339927403745e-07,
-      "loss": 1.1394,
-      "reward": 1.8982658386230469,
-      "reward_std": 0.9247550368309021,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.7361111044883728,
-      "rewards/repetition_penalty_reward": -0.020136947743594646,
-      "rewards/tag_count_reward": 0.7447916865348816,
-      "step": 623
-    },
+      "completion_length": 405.3125,
+      "epoch": 0.4567448680351906,
+      "grad_norm": 24.93646819069722,
+      "kl": 0.423828125,
+      "learning_rate": 6.943067669795185e-07,
+      "loss": 0.2185,
+      "reward": 2.20524525642395,
+      "reward_std": 0.06307589076459408,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02912973240017891,
+      "rewards/tag_count_reward": 0.984375,
+      "step": 623
+    },
     {
       "clip_ratio": 0.0,
-      "completion_length": 845.4792175292969,
-      "epoch": 0.312,
-      "grad_norm": 31.60208939904907,
-      "kl": 7.09375,
-      "learning_rate": 8.823049032816478e-07,
-      "loss": 0.8724,
-      "reward": 1.8869645595550537,
-      "reward_std": 0.8868106305599213,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.7152778208255768,
-      "rewards/repetition_penalty_reward": -0.021021696738898754,
-      "rewards/tag_count_reward": 0.7343750298023224,
+      "completion_length": 475.3333435058594,
+      "epoch": 0.4574780058651026,
+      "grad_norm": 43.16415673427742,
+      "kl": 1.5078125,
+      "learning_rate": 6.932149715322886e-07,
+      "loss": 0.4779,
+      "reward": 2.1597553491592407,
+      "reward_std": 0.28502483665943146,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.024272335693240166,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 624
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 501.29168701171875,
-      "epoch": 0.3125,
-      "grad_norm": 37.663529836109795,
-      "kl": 3.2734375,
-      "learning_rate": 8.817748015645558e-07,
-      "loss": 0.8728,
-      "reward": 2.3407769203186035,
-      "reward_std": 0.8801598846912384,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.86111119389534,
-      "rewards/repetition_penalty_reward": -0.025542644783854485,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 385.5208435058594,
+      "epoch": 0.45821114369501464,
+      "grad_norm": 2.6099512459968337,
+      "kl": 0.3330078125,
+      "learning_rate": 6.921222372294529e-07,
+      "loss": 0.0136,
+      "reward": 1.9811992049217224,
+      "reward_std": 0.011327789165079594,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018800782039761543,
+      "rewards/tag_count_reward": 1.0,
       "step": 625
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 470.6041717529297,
-      "epoch": 0.313,
-      "grad_norm": 29.75409371364291,
-      "kl": 2.640625,
-      "learning_rate": 8.812436892038805e-07,
-      "loss": 0.7078,
-      "reward": 2.3025213479995728,
-      "reward_std": 0.6479816734790802,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.023867566138505936,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 458.8958435058594,
+      "epoch": 0.45894428152492667,
+      "grad_norm": 11.277984902992305,
+      "kl": 0.5712890625,
+      "learning_rate": 6.910285712345065e-07,
+      "loss": 0.2365,
+      "reward": 2.384067118167877,
+      "reward_std": 0.24414547625929117,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022182924207299948,
+      "rewards/tag_count_reward": 0.96875,
       "step": 626
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.4375,
-      "epoch": 0.3135,
-      "grad_norm": 20.212825860910232,
-      "kl": 2.25390625,
-      "learning_rate": 8.807115678174819e-07,
-      "loss": 0.5701,
-      "reward": 2.5997543334960938,
-      "reward_std": 0.5478241741657257,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.03045404888689518,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 410.06251525878906,
+      "epoch": 0.4596774193548387,
+      "grad_norm": 5718.023712216834,
+      "kl": 57.65234375,
+      "learning_rate": 6.899339807170521e-07,
+      "loss": 8.7021,
+      "reward": 1.962087333202362,
+      "reward_std": 0.06420454941689968,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02228778973221779,
+      "rewards/tag_count_reward": 0.984375,
       "step": 627
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 447.72918701171875,
-      "epoch": 0.314,
-      "grad_norm": 29.197351580965048,
-      "kl": 4.796875,
-      "learning_rate": 8.801784390262943e-07,
-      "loss": 0.8627,
-      "reward": 2.3921085596084595,
-      "reward_std": 0.6133331656455994,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.8819444477558136,
-      "rewards/repetition_penalty_reward": -0.02108590304851532,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 488.43751525878906,
+      "epoch": 0.4604105571847507,
+      "grad_norm": 7150.668791263632,
+      "kl": 115.890625,
+      "learning_rate": 6.888384728527532e-07,
+      "loss": 12.9975,
+      "reward": 2.137051224708557,
+      "reward_std": 0.3158814609050751,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.020934815518558025,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 628
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 463.91668701171875,
-      "epoch": 0.3145,
-      "grad_norm": 44.79167908730396,
-      "kl": 4.546875,
-      "learning_rate": 8.796443044543203e-07,
-      "loss": 0.8839,
-      "reward": 2.317416787147522,
-      "reward_std": 0.7653204798698425,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.026333278976380825,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 516.4583587646484,
+      "epoch": 0.46114369501466274,
+      "grad_norm": 8244.611512935808,
+      "kl": 215.15234375,
+      "learning_rate": 6.877420548232871e-07,
+      "loss": 22.5839,
+      "reward": 2.3565913438796997,
+      "reward_std": 0.23759527131915092,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.020144745707511902,
+      "rewards/tag_count_reward": 0.953125,
       "step": 629
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 412.25001525878906,
-      "epoch": 0.315,
-      "grad_norm": 44.27467343188964,
-      "kl": 3.2734375,
-      "learning_rate": 8.791091657286267e-07,
-      "loss": 0.8308,
-      "reward": 2.6593304872512817,
-      "reward_std": 0.5533206462860107,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.024697369895875454,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 412.50001525878906,
+      "epoch": 0.46187683284457476,
+      "grad_norm": 10.67765423637928,
+      "kl": 0.3955078125,
+      "learning_rate": 6.866447338162975e-07,
+      "loss": 0.2181,
+      "reward": 1.9459137916564941,
+      "reward_std": 0.10560346394777298,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.02110019139945507,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 630
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 368.5833435058594,
-      "epoch": 0.3155,
-      "grad_norm": 30.80486315018559,
-      "kl": 2.9765625,
-      "learning_rate": 8.785730244793386e-07,
-      "loss": 0.8518,
-      "reward": 2.6147913932800293,
-      "reward_std": 0.5551804751157761,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.03451400436460972,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 437.9583435058594,
+      "epoch": 0.4626099706744868,
+      "grad_norm": 11.397428720346749,
+      "kl": 0.3564453125,
+      "learning_rate": 6.855465170253479e-07,
+      "loss": 0.2139,
+      "reward": 2.1977256536483765,
+      "reward_std": 0.11736413929611444,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021024403162300587,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 631
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.91668701171875,
-      "epoch": 0.316,
-      "grad_norm": 20.520000609846605,
-      "kl": 3.0859375,
-      "learning_rate": 8.780358823396352e-07,
-      "loss": 0.5721,
-      "reward": 2.6789560317993164,
-      "reward_std": 0.5304727852344513,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.039794113487005234,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 566.6250152587891,
+      "epoch": 0.4633431085043988,
+      "grad_norm": 594219.6460833271,
+      "kl": 8192.1513671875,
+      "learning_rate": 6.844474116498742e-07,
+      "loss": 662.2282,
+      "reward": 1.8581966161727905,
+      "reward_std": 0.1760244253091514,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.965277761220932,
+      "rewards/repetition_penalty_reward": -0.018539583310484886,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 632
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 363.5,
-      "epoch": 0.3165,
-      "grad_norm": 63.575635135783344,
-      "kl": 2.2265625,
-      "learning_rate": 8.774977409457447e-07,
-      "loss": 0.5012,
-      "reward": 2.500579595565796,
-      "reward_std": 0.2963787615299225,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.03935109078884125,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 495.41668701171875,
+      "epoch": 0.4640762463343108,
+      "grad_norm": 36.19090425617034,
+      "kl": 0.5078125,
+      "learning_rate": 6.833474248951372e-07,
+      "loss": 0.5879,
+      "reward": 1.9268569946289062,
+      "reward_std": 0.15591158717870712,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02105969563126564,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 633
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.9791717529297,
-      "epoch": 0.317,
-      "grad_norm": 12.662953099547957,
-      "kl": 1.4296875,
-      "learning_rate": 8.769586019369391e-07,
-      "loss": 0.3589,
-      "reward": 2.5281978845596313,
-      "reward_std": 0.6068725287914276,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.04645505174994469,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 500.2708435058594,
+      "epoch": 0.46480938416422285,
+      "grad_norm": 35.71072908814854,
+      "kl": 0.626953125,
+      "learning_rate": 6.822465639721759e-07,
+      "loss": 0.6124,
+      "reward": 1.8967062830924988,
+      "reward_std": 0.24515408277511597,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.018224384635686874,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 634
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.27085876464844,
-      "epoch": 0.3175,
-      "grad_norm": 12.945423045438853,
-      "kl": 1.072265625,
-      "learning_rate": 8.764184669555293e-07,
-      "loss": 0.7605,
-      "reward": 2.4953324794769287,
-      "reward_std": 0.6080846786499023,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.039389871060848236,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 552.2916870117188,
+      "epoch": 0.4655425219941349,
+      "grad_norm": 95.19295300214017,
+      "kl": 2.70703125,
+      "learning_rate": 6.811448360977596e-07,
+      "loss": 0.6447,
+      "reward": 2.1306493878364563,
+      "reward_std": 0.2458694726228714,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025600734166800976,
+      "rewards/tag_count_reward": 0.9270833730697632,
       "step": 635
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 443.5208435058594,
-      "epoch": 0.318,
-      "grad_norm": 7.650991561257087,
-      "kl": 1.1640625,
-      "learning_rate": 8.758773376468604e-07,
-      "loss": 0.3799,
-      "reward": 2.4011194705963135,
-      "reward_std": 0.4720783084630966,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9166666567325592,
-      "rewards/repetition_penalty_reward": -0.025964029133319855,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 497.875,
+      "epoch": 0.4662756598240469,
+      "grad_norm": 44.15333708156457,
+      "kl": 3.00390625,
+      "learning_rate": 6.800422484943417e-07,
+      "loss": 0.6232,
+      "reward": 2.059449315071106,
+      "reward_std": 0.43308182805776596,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.009995209518820047,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 636
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 408.93751525878906,
-      "epoch": 0.3185,
-      "grad_norm": 15.77947801589448,
-      "kl": 0.68359375,
-      "learning_rate": 8.753352156593055e-07,
-      "loss": 0.5988,
-      "reward": 2.430037498474121,
-      "reward_std": 0.7513845264911652,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.03697636350989342,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 537.4583435058594,
+      "epoch": 0.4670087976539589,
+      "grad_norm": 18.55847948178239,
+      "kl": 1.6640625,
+      "learning_rate": 6.789388083900107e-07,
+      "loss": 0.6202,
+      "reward": 1.8917770385742188,
+      "reward_std": 0.2116881087422371,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.017945221159607172,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 637
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 375.37501525878906,
-      "epoch": 0.319,
-      "grad_norm": 13.718169867441816,
-      "kl": 0.548828125,
-      "learning_rate": 8.747921026442629e-07,
-      "loss": 0.424,
-      "reward": 2.6864466667175293,
-      "reward_std": 0.45896846055984497,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.027095147408545017,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 520.1041870117188,
+      "epoch": 0.46774193548387094,
+      "grad_norm": 89.39468645925008,
+      "kl": 3.1953125,
+      "learning_rate": 6.778345230184444e-07,
+      "loss": 0.7171,
+      "reward": 2.0839056372642517,
+      "reward_std": 0.33054201304912567,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.018525044433772564,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 638
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 341.875,
-      "epoch": 0.3195,
-      "grad_norm": 17.467108774461327,
-      "kl": 0.828125,
-      "learning_rate": 8.742480002561487e-07,
-      "loss": 0.3762,
-      "reward": 2.4510825872421265,
-      "reward_std": 0.5428140312433243,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02808418497443199,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 549.2708587646484,
+      "epoch": 0.46847507331378296,
+      "grad_norm": 174.26079161224064,
+      "kl": 4.8349609375,
+      "learning_rate": 6.767293996188617e-07,
+      "loss": 0.8189,
+      "reward": 1.8636788129806519,
+      "reward_std": 0.21642551571130753,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.016529573127627373,
+      "rewards/tag_count_reward": 0.921875,
       "step": 639
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.0208435058594,
-      "epoch": 0.32,
-      "grad_norm": 9.631118470397297,
-      "kl": 1.0517578125,
-      "learning_rate": 8.737029101523929e-07,
-      "loss": 0.2993,
-      "reward": 2.2707436084747314,
-      "reward_std": 0.6229533404111862,
-      "rewards/accuracy_reward": 0.458333358168602,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.02439526654779911,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 534.9166870117188,
+      "epoch": 0.46920821114369504,
+      "grad_norm": 8.999925285401675,
+      "kl": 0.55078125,
+      "learning_rate": 6.756234454359747e-07,
+      "loss": 0.6351,
+      "reward": 2.163374960422516,
+      "reward_std": 0.22264650464057922,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013708437792956829,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 640
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 456.97918701171875,
-      "epoch": 0.3205,
-      "grad_norm": 18.87763752323685,
-      "kl": 1.7734375,
-      "learning_rate": 8.731568339934348e-07,
-      "loss": 0.5908,
-      "reward": 1.9133847951889038,
-      "reward_std": 0.4975127577781677,
-      "rewards/accuracy_reward": 0.18750000558793545,
-      "rewards/reasoning_steps_reward": 0.8611111640930176,
-      "rewards/repetition_penalty_reward": -0.036268092691898346,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 432.8958435058594,
+      "epoch": 0.46994134897360706,
+      "grad_norm": 32.04944493041125,
+      "kl": 1.7216796875,
+      "learning_rate": 6.745166677199426e-07,
+      "loss": 0.4936,
+      "reward": 1.9193060994148254,
+      "reward_std": 0.12536632781848311,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.01993004372343421,
+      "rewards/tag_count_reward": 0.953125,
       "step": 641
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 352.35418701171875,
-      "epoch": 0.321,
-      "grad_norm": 9.424502666967252,
-      "kl": 1.328125,
-      "learning_rate": 8.726097734427172e-07,
-      "loss": 0.1237,
-      "reward": 2.5691460371017456,
-      "reward_std": 0.49686890840530396,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.05759007856249809,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 530.9166870117188,
+      "epoch": 0.4706744868035191,
+      "grad_norm": 4.858789332267112,
+      "kl": 0.7841796875,
+      "learning_rate": 6.734090737263228e-07,
+      "loss": 0.4012,
+      "reward": 2.09183669090271,
+      "reward_std": 0.37891362607479095,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.015802277252078056,
+      "rewards/tag_count_reward": 0.90625,
       "step": 642
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 334.6666717529297,
-      "epoch": 0.3215,
-      "grad_norm": 8.243342051209725,
-      "kl": 1.203125,
-      "learning_rate": 8.72061730166681e-07,
-      "loss": 0.2726,
-      "reward": 2.5343031883239746,
-      "reward_std": 0.46366532891988754,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.024724683724343777,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 495.20835876464844,
+      "epoch": 0.4714076246334311,
+      "grad_norm": 9.696078299064906,
+      "kl": 1.1181640625,
+      "learning_rate": 6.72300670716024e-07,
+      "loss": 0.4131,
+      "reward": 2.2706050872802734,
+      "reward_std": 0.4469531998038292,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.02106165699660778,
+      "rewards/tag_count_reward": 0.9375,
       "step": 643
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 359.8333435058594,
-      "epoch": 0.322,
-      "grad_norm": 13.81419209256365,
-      "kl": 1.3359375,
-      "learning_rate": 8.715127058347614e-07,
-      "loss": 0.4082,
-      "reward": 2.7587969303131104,
-      "reward_std": 0.44490741193294525,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04849480465054512,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 437.0416717529297,
+      "epoch": 0.47214076246334313,
+      "grad_norm": 56.129441337094114,
+      "kl": 0.8037109375,
+      "learning_rate": 6.711914659552582e-07,
+      "loss": 0.2667,
+      "reward": 1.9539560675621033,
+      "reward_std": 0.11034089652821422,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.016530086286365986,
+      "rewards/tag_count_reward": 0.984375,
       "step": 644
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 306.0208435058594,
-      "epoch": 0.3225,
-      "grad_norm": 7.722256504528858,
-      "kl": 1.244140625,
-      "learning_rate": 8.709627021193816e-07,
-      "loss": 0.259,
-      "reward": 2.2697885036468506,
-      "reward_std": 0.5568395256996155,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.04097543843090534,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 479.0625,
+      "epoch": 0.47287390029325516,
+      "grad_norm": 6.554459896651348,
+      "kl": 1.6884765625,
+      "learning_rate": 6.70081466715494e-07,
+      "loss": 0.7371,
+      "reward": 2.142140805721283,
+      "reward_std": 0.2443421185016632,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.02278986293822527,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 645
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 317.5833435058594,
-      "epoch": 0.323,
-      "grad_norm": 20.616365592900145,
-      "kl": 3.88671875,
-      "learning_rate": 8.704117206959484e-07,
-      "loss": 0.4825,
-      "reward": 2.6422855854034424,
-      "reward_std": 0.6127668023109436,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.027853261679410934,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 387.9375,
+      "epoch": 0.4736070381231672,
+      "grad_norm": 3.081702889935719,
+      "kl": 0.328125,
+      "learning_rate": 6.689706802734074e-07,
+      "loss": 0.0562,
+      "reward": 1.9774357676506042,
+      "reward_std": 0.011296110693365335,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0225642342120409,
+      "rewards/tag_count_reward": 1.0,
       "step": 646
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.8958435058594,
-      "epoch": 0.3235,
-      "grad_norm": 8.074414625169473,
-      "kl": 1.1787109375,
-      "learning_rate": 8.698597632428466e-07,
-      "loss": 0.1034,
-      "reward": 2.6797112226486206,
-      "reward_std": 0.35129064321517944,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.03383052162826061,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 390.5416717529297,
+      "epoch": 0.4743401759530792,
+      "grad_norm": 2.3819237237230233,
+      "kl": 0.3095703125,
+      "learning_rate": 6.678591139108357e-07,
+      "loss": 0.0264,
+      "reward": 1.98467218875885,
+      "reward_std": 0.00978016760200262,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.015327838715165854,
+      "rewards/tag_count_reward": 1.0,
       "step": 647
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 305.7708435058594,
-      "epoch": 0.324,
-      "grad_norm": 16.085041721886572,
-      "kl": 1.09375,
-      "learning_rate": 8.693068314414344e-07,
-      "loss": 0.2719,
-      "reward": 2.777750849723816,
-      "reward_std": 0.49438077211380005,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.041693685576319695,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 398.7291717529297,
+      "epoch": 0.4750733137829912,
+      "grad_norm": 189.14687079985282,
+      "kl": 5.7578125,
+      "learning_rate": 6.667467749147286e-07,
+      "loss": 0.9668,
+      "reward": 2.2045015692710876,
+      "reward_std": 0.23807373270392418,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01945687923580408,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 648
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 385.125,
-      "epoch": 0.3245,
-      "grad_norm": 16.9777467202549,
-      "kl": 1.3984375,
-      "learning_rate": 8.687529269760379e-07,
-      "loss": 0.4593,
-      "reward": 2.6736103296279907,
-      "reward_std": 0.5818447470664978,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.022570334374904633,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 388.8958435058594,
+      "epoch": 0.47580645161290325,
+      "grad_norm": 2.57434822582919,
+      "kl": 0.33203125,
+      "learning_rate": 6.656336705771011e-07,
+      "loss": 0.0186,
+      "reward": 2.2355542182922363,
+      "reward_std": 0.008534513413906097,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014445837587118149,
+      "rewards/tag_count_reward": 1.0,
       "step": 649
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 391.6875,
-      "epoch": 0.325,
-      "grad_norm": 16.236705823940458,
-      "kl": 0.869140625,
-      "learning_rate": 8.681980515339463e-07,
-      "loss": 0.5449,
-      "reward": 2.599353790283203,
-      "reward_std": 0.6066733002662659,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03953541815280914,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 393.37501525878906,
+      "epoch": 0.47653958944281527,
+      "grad_norm": 3.0952793766641205,
+      "kl": 0.396484375,
+      "learning_rate": 6.64519808194985e-07,
+      "loss": 0.2247,
+      "reward": 1.9666798114776611,
+      "reward_std": 0.060795275028795004,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01769520714879036,
+      "rewards/tag_count_reward": 0.984375,
       "step": 650
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 360.8333435058594,
-      "epoch": 0.3255,
-      "grad_norm": 8.416276221716757,
-      "kl": 0.7939453125,
-      "learning_rate": 8.676422068054064e-07,
-      "loss": 0.163,
-      "reward": 2.606260299682617,
-      "reward_std": 0.40933507680892944,
-      "rewards/accuracy_reward": 0.6875000149011612,
+      "completion_length": 417.4583435058594,
+      "epoch": 0.4772727272727273,
+      "grad_norm": 3.0392356131499154,
+      "kl": 0.3896484375,
+      "learning_rate": 6.634051950703822e-07,
+      "loss": 0.1672,
+      "reward": 1.970879852771759,
+      "reward_std": 0.06113596260547638,
+      "rewards/accuracy_reward": 0.0,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03957311250269413,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.013495232909917831,
+      "rewards/tag_count_reward": 0.984375,
       "step": 651
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 283.0625,
-      "epoch": 0.326,
-      "grad_norm": 15.69003304653512,
-      "kl": 0.537109375,
-      "learning_rate": 8.670853944836176e-07,
-      "loss": 0.0603,
-      "reward": 2.657088875770569,
-      "reward_std": 0.4240477532148361,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.026939059607684612,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 502.5208435058594,
+      "epoch": 0.4780058651026393,
+      "grad_norm": 5.45870950409704,
+      "kl": 0.52734375,
+      "learning_rate": 6.622898385102155e-07,
+      "loss": 0.6202,
+      "reward": 2.131287693977356,
+      "reward_std": 0.2859160155057907,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.018017924390733242,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 652
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.4166717529297,
-      "epoch": 0.3265,
-      "grad_norm": 14.606960299212915,
-      "kl": 1.259765625,
-      "learning_rate": 8.665276162647267e-07,
-      "loss": 0.1115,
-      "reward": 2.3430339097976685,
-      "reward_std": 0.4984329789876938,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.0232857009395957,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 441.2291717529297,
+      "epoch": 0.47873900293255134,
+      "grad_norm": 5.882125844096172,
+      "kl": 0.4833984375,
+      "learning_rate": 6.611737458262817e-07,
+      "loss": 0.3992,
+      "reward": 1.9523559212684631,
+      "reward_std": 0.12868256820365787,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.011185822542756796,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 653
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 359.8333435058594,
-      "epoch": 0.327,
-      "grad_norm": 17.83111188587982,
-      "kl": 1.36328125,
-      "learning_rate": 8.659688738478231e-07,
-      "loss": 0.336,
-      "reward": 2.423835873603821,
-      "reward_std": 0.32535358518362045,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02408089768141508,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 362.87501525878906,
+      "epoch": 0.47947214076246336,
+      "grad_norm": 2.5561243606757795,
+      "kl": 0.3603515625,
+      "learning_rate": 6.600569243352032e-07,
+      "loss": 0.0136,
+      "reward": 2.214748799800873,
+      "reward_std": 0.08119441103190184,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01441799383610487,
+      "rewards/tag_count_reward": 1.0,
       "step": 654
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 341.375,
-      "epoch": 0.3275,
-      "grad_norm": 11.748552434251017,
-      "kl": 1.251953125,
-      "learning_rate": 8.654091689349329e-07,
-      "loss": 0.2916,
-      "reward": 2.4952768087387085,
-      "reward_std": 0.5520404577255249,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03770934417843819,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 430.93751525878906,
+      "epoch": 0.4802052785923754,
+      "grad_norm": 3.516134461894916,
+      "kl": 0.40234375,
+      "learning_rate": 6.589393813583804e-07,
+      "loss": 0.2105,
+      "reward": 1.9548333883285522,
+      "reward_std": 0.11708549410104752,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.012180462013930082,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 655
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 436.0,
-      "epoch": 0.328,
-      "grad_norm": 12.053678746654692,
-      "kl": 1.6171875,
-      "learning_rate": 8.648485032310144e-07,
-      "loss": 0.687,
-      "reward": 2.4294373989105225,
-      "reward_std": 0.5722118020057678,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.023687631357461214,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 499.43751525878906,
+      "epoch": 0.4809384164222874,
+      "grad_norm": 7.738154644635577,
+      "kl": 0.7421875,
+      "learning_rate": 6.578211242219429e-07,
+      "loss": 0.5974,
+      "reward": 2.122410535812378,
+      "reward_std": 0.37096796184778214,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.019950571469962597,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 656
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 437.93751525878906,
-      "epoch": 0.3285,
-      "grad_norm": 6.092908560579486,
-      "kl": 1.51171875,
-      "learning_rate": 8.642868784439527e-07,
-      "loss": 0.4096,
-      "reward": 2.373212218284607,
-      "reward_std": 0.5252508372068405,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.02435732912272215,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 456.91668701171875,
+      "epoch": 0.48167155425219943,
+      "grad_norm": 3.665848451385049,
+      "kl": 0.505859375,
+      "learning_rate": 6.567021602567025e-07,
+      "loss": 0.3077,
+      "reward": 1.9053021669387817,
+      "reward_std": 0.22535160183906555,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.01657282141968608,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 657
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.1458435058594,
-      "epoch": 0.329,
-      "grad_norm": 7.258415740610364,
-      "kl": 1.6015625,
-      "learning_rate": 8.63724296284554e-07,
-      "loss": 0.6144,
-      "reward": 2.5958104133605957,
-      "reward_std": 0.7455363571643829,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.030925797298550606,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 481.6875305175781,
+      "epoch": 0.48240469208211145,
+      "grad_norm": 93.57278211870775,
+      "kl": 1.8466796875,
+      "learning_rate": 6.555824967981047e-07,
+      "loss": 0.3318,
+      "reward": 1.928690791130066,
+      "reward_std": 0.13919126242399216,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.014017567038536072,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 658
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 470.0208435058594,
-      "epoch": 0.3295,
-      "grad_norm": 12.390886242134757,
-      "kl": 1.51953125,
-      "learning_rate": 8.631607584665413e-07,
-      "loss": 0.4942,
-      "reward": 2.3429232835769653,
-      "reward_std": 0.5768862962722778,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04249337501823902,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 645.0833587646484,
+      "epoch": 0.4831378299120235,
+      "grad_norm": 64.99941439648312,
+      "kl": 3.0859375,
+      "learning_rate": 6.5446214118618e-07,
+      "loss": 0.7544,
+      "reward": 1.7792481184005737,
+      "reward_std": 0.43339620530605316,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.909722238779068,
+      "rewards/repetition_penalty_reward": -0.010682477615773678,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 659
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 527.1458435058594,
-      "epoch": 0.33,
-      "grad_norm": 9.725057262385192,
-      "kl": 1.94140625,
-      "learning_rate": 8.625962667065487e-07,
-      "loss": 0.4938,
-      "reward": 2.334376096725464,
-      "reward_std": 0.6681367456912994,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.05277678743004799,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 526.9166717529297,
+      "epoch": 0.4838709677419355,
+      "grad_norm": 10.62723614596486,
+      "kl": 0.767578125,
+      "learning_rate": 6.533411007654971e-07,
+      "loss": 0.5132,
+      "reward": 2.2929834127426147,
+      "reward_std": 0.40529730916023254,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.022988826036453247,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 660
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 334.9791717529297,
-      "epoch": 0.3305,
-      "grad_norm": 7.932623599953271,
-      "kl": 1.439453125,
-      "learning_rate": 8.620308227241157e-07,
-      "loss": 0.3623,
-      "reward": 2.632012963294983,
-      "reward_std": 0.5029560029506683,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9166667461395264,
-      "rewards/repetition_penalty_reward": -0.03465373069047928,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 482.50001525878906,
+      "epoch": 0.4846041055718475,
+      "grad_norm": 4.804017350233964,
+      "kl": 0.4326171875,
+      "learning_rate": 6.522193828851133e-07,
+      "loss": 0.3632,
+      "reward": 1.9454867243766785,
+      "reward_std": 0.12859196960926056,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018054993357509375,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 661
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.8958435058594,
-      "epoch": 0.331,
-      "grad_norm": 7.989726237635147,
-      "kl": 1.38671875,
-      "learning_rate": 8.614644282416831e-07,
-      "loss": 0.5033,
-      "reward": 2.527227759361267,
-      "reward_std": 0.6098933517932892,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04048066772520542,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 468.5833435058594,
+      "epoch": 0.48533724340175954,
+      "grad_norm": 3.08066934948154,
+      "kl": 0.419921875,
+      "learning_rate": 6.510969948985278e-07,
+      "loss": 0.1574,
+      "reward": 1.9654483199119568,
+      "reward_std": 0.0782310045324266,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013718396425247192,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 662
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.3333435058594,
-      "epoch": 0.3315,
-      "grad_norm": 10.307046200594176,
-      "kl": 0.96875,
-      "learning_rate": 8.608970849845862e-07,
-      "loss": 0.7632,
-      "reward": 2.6601351499557495,
-      "reward_std": 0.5646943897008896,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556416511536,
-      "rewards/repetition_penalty_reward": -0.025628680363297462,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 539.7291717529297,
+      "epoch": 0.48607038123167157,
+      "grad_norm": 37.92285966334552,
+      "kl": 0.845703125,
+      "learning_rate": 6.49973944163632e-07,
+      "loss": 0.2618,
+      "reward": 1.9112797379493713,
+      "reward_std": 0.23218698799610138,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.01927582174539566,
+      "rewards/tag_count_reward": 0.9375,
       "step": 663
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 404.5416717529297,
-      "epoch": 0.332,
-      "grad_norm": 16.627402867924832,
-      "kl": 2.0234375,
-      "learning_rate": 8.603287946810513e-07,
-      "loss": 0.5452,
-      "reward": 2.565666437149048,
-      "reward_std": 0.7432173788547516,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.03155587986111641,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 501.62501525878906,
+      "epoch": 0.4868035190615836,
+      "grad_norm": 3.1051785069904727,
+      "kl": 0.525390625,
+      "learning_rate": 6.488502380426625e-07,
+      "loss": 0.305,
+      "reward": 1.9035282135009766,
+      "reward_std": 0.2898576706647873,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.023555109277367592,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 664
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.9166717529297,
-      "epoch": 0.3325,
-      "grad_norm": 10.078394182499805,
-      "kl": 1.65234375,
-      "learning_rate": 8.597595590621892e-07,
-      "loss": 0.4888,
-      "reward": 2.448451519012451,
-      "reward_std": 0.7055695652961731,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.03765958361327648,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 525.4791870117188,
+      "epoch": 0.4875366568914956,
+      "grad_norm": 4.4288209453427205,
+      "kl": 0.55859375,
+      "learning_rate": 6.477258839021519e-07,
+      "loss": 0.4062,
+      "reward": 2.354710102081299,
+      "reward_std": 0.31429797410964966,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.013345747254788876,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 665
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 480.7916717529297,
-      "epoch": 0.333,
-      "grad_norm": 11.542957521544354,
-      "kl": 1.796875,
-      "learning_rate": 8.591893798619903e-07,
-      "loss": 0.3699,
-      "reward": 2.4829243421554565,
-      "reward_std": 0.61925408244133,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222983837128,
-      "rewards/repetition_penalty_reward": -0.04138128738850355,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 642.9375,
+      "epoch": 0.48826979472140764,
+      "grad_norm": 19.16682548072327,
+      "kl": 1.3427734375,
+      "learning_rate": 6.466008891128814e-07,
+      "loss": 0.6273,
+      "reward": 1.7963217496871948,
+      "reward_std": 0.35257695615291595,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9444444179534912,
+      "rewards/repetition_penalty_reward": -0.012706090230494738,
+      "rewards/tag_count_reward": 0.8645833432674408,
       "step": 666
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 306.1666717529297,
-      "epoch": 0.3335,
-      "grad_norm": 12.408852597847376,
-      "kl": 0.822265625,
-      "learning_rate": 8.586182588173194e-07,
-      "loss": 0.2134,
-      "reward": 2.452653646469116,
-      "reward_std": 0.415747806429863,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03172139264643192,
-      "rewards/tag_count_reward": 0.9843750298023224,
+      "completion_length": 858.1041870117188,
+      "epoch": 0.48900293255131966,
+      "grad_norm": 7.789096598920068,
+      "kl": 1.79296875,
+      "learning_rate": 6.454752610498317e-07,
+      "loss": 0.9041,
+      "reward": 1.8778371810913086,
+      "reward_std": 0.5289941728115082,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.012787907849997282,
+      "rewards/tag_count_reward": 0.7656250298023224,
       "step": 667
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 321.1666717529297,
-      "epoch": 0.334,
-      "grad_norm": 5.871197681642463,
-      "kl": 0.3994140625,
-      "learning_rate": 8.580461976679099e-07,
-      "loss": 0.2745,
-      "reward": 2.681954860687256,
-      "reward_std": 0.4819119870662689,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.0472117830067873,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 671.4583740234375,
+      "epoch": 0.4897360703812317,
+      "grad_norm": 14.917358872470148,
+      "kl": 1.033203125,
+      "learning_rate": 6.44349007092135e-07,
+      "loss": 0.7233,
+      "reward": 1.8810378909111023,
+      "reward_std": 0.295869916677475,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02000374812632799,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 668
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 290.1458435058594,
-      "epoch": 0.3345,
-      "grad_norm": 20.400573211519653,
-      "kl": 1.712890625,
-      "learning_rate": 8.574731981563597e-07,
-      "loss": -0.0559,
-      "reward": 2.527996778488159,
-      "reward_std": 0.21311798691749573,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.037975482642650604,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 681.5208435058594,
+      "epoch": 0.4904692082111437,
+      "grad_norm": 6.570905634332384,
+      "kl": 1.029296875,
+      "learning_rate": 6.432221346230269e-07,
+      "loss": 0.6374,
+      "reward": 1.8366022109985352,
+      "reward_std": 0.24832479655742645,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.014092199504375458,
+      "rewards/tag_count_reward": 0.8645833432674408,
       "step": 669
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.2083435058594,
-      "epoch": 0.335,
-      "grad_norm": 16.428046693280866,
-      "kl": 0.92578125,
-      "learning_rate": 8.568992620281243e-07,
-      "loss": 0.1399,
-      "reward": 2.6338796615600586,
-      "reward_std": 0.30435943603515625,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.05014814343303442,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 813.3333435058594,
+      "epoch": 0.4912023460410557,
+      "grad_norm": 7.4287126906422305,
+      "kl": 1.06640625,
+      "learning_rate": 6.420946510297972e-07,
+      "loss": 0.6177,
+      "reward": 1.6895498037338257,
+      "reward_std": 0.4474469721317291,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9375000596046448,
+      "rewards/repetition_penalty_reward": -0.013575221411883831,
+      "rewards/tag_count_reward": 0.765625,
       "step": 670
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 283.06251525878906,
-      "epoch": 0.3355,
-      "grad_norm": 9.998010496236825,
-      "kl": 0.4912109375,
-      "learning_rate": 8.56324391031513e-07,
-      "loss": 0.1636,
-      "reward": 2.781676411628723,
-      "reward_std": 0.2892776355147362,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.04124024324119091,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 547.0208587646484,
+      "epoch": 0.49193548387096775,
+      "grad_norm": 8.927590711913593,
+      "kl": 0.697265625,
+      "learning_rate": 6.409665637037424e-07,
+      "loss": 0.57,
+      "reward": 1.8452393412590027,
+      "reward_std": 0.31727316975593567,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.014135753270238638,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 671
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.75001525878906,
-      "epoch": 0.336,
-      "grad_norm": 15.737714162396987,
-      "kl": 0.54296875,
-      "learning_rate": 8.557485869176825e-07,
-      "loss": 0.3096,
-      "reward": 2.5456645488739014,
-      "reward_std": 0.3961578607559204,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04114115610718727,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 705.3958740234375,
+      "epoch": 0.49266862170087977,
+      "grad_norm": 163.2675376427096,
+      "kl": 2.66796875,
+      "learning_rate": 6.398378800401165e-07,
+      "loss": 0.6324,
+      "reward": 2.011242628097534,
+      "reward_std": 0.4974839687347412,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 0.9513889253139496,
+      "rewards/repetition_penalty_reward": -0.0182713121175766,
+      "rewards/tag_count_reward": 0.8281250298023224,
       "step": 672
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 274.3333435058594,
-      "epoch": 0.3365,
-      "grad_norm": 18.76746009667458,
-      "kl": 0.302734375,
-      "learning_rate": 8.551718514406318e-07,
-      "loss": 0.0533,
-      "reward": 2.44698166847229,
-      "reward_std": 0.15537243708968163,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03912944719195366,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 488.85418701171875,
+      "epoch": 0.4934017595307918,
+      "grad_norm": 6.11656633433207,
+      "kl": 0.65234375,
+      "learning_rate": 6.38708607438083e-07,
+      "loss": 0.3118,
+      "reward": 2.2023180723190308,
+      "reward_std": 0.18355269357562065,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.014695859514176846,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 673
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.5208435058594,
-      "epoch": 0.337,
-      "grad_norm": 6.288258024651295,
-      "kl": 1.1064453125,
-      "learning_rate": 8.545941863571973e-07,
-      "loss": 0.0915,
-      "reward": 2.7296632528305054,
-      "reward_std": 0.41032251715660095,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.029017308726906776,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 770.5,
+      "epoch": 0.4941348973607038,
+      "grad_norm": 15.273687304662792,
+      "kl": 0.986328125,
+      "learning_rate": 6.375787533006663e-07,
+      "loss": 0.7539,
+      "reward": 1.7749381065368652,
+      "reward_std": 0.43552330136299133,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.018464769702404737,
+      "rewards/tag_count_reward": 0.8281250298023224,
       "step": 674
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 288.62501525878906,
-      "epoch": 0.3375,
-      "grad_norm": 5.025259032815617,
-      "kl": 0.3076171875,
-      "learning_rate": 8.540155934270471e-07,
-      "loss": 0.0915,
-      "reward": 2.7451287508010864,
-      "reward_std": 0.32976970821619034,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04653800651431084,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 678.0208435058594,
+      "epoch": 0.49486803519061584,
+      "grad_norm": 33.6137719864803,
+      "kl": 0.86328125,
+      "learning_rate": 6.364483250347026e-07,
+      "loss": 0.7555,
+      "reward": 1.79839426279068,
+      "reward_std": 0.37121328711509705,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.014105740003287792,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 675
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 325.7083435058594,
-      "epoch": 0.338,
-      "grad_norm": 9.159439405693467,
-      "kl": 1.34375,
-      "learning_rate": 8.534360744126753e-07,
-      "loss": 0.4539,
-      "reward": 2.591364622116089,
-      "reward_std": 0.5737589597702026,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.047524161636829376,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 457.7083435058594,
+      "epoch": 0.49560117302052786,
+      "grad_norm": 35.389228624701744,
+      "kl": 0.537109375,
+      "learning_rate": 6.353173300507927e-07,
+      "loss": 0.2845,
+      "reward": 1.9582674503326416,
+      "reward_std": 0.06902057770639658,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.015690917149186134,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 676
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 329.0833435058594,
-      "epoch": 0.3385,
-      "grad_norm": 8.458585993366595,
-      "kl": 1.11328125,
-      "learning_rate": 8.528556310793979e-07,
-      "loss": 0.4093,
-      "reward": 2.7048439979553223,
-      "reward_std": 0.45828860998153687,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.034739382565021515,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 567.4166870117188,
+      "epoch": 0.4963343108504399,
+      "grad_norm": 134.9821081723637,
+      "kl": 0.685546875,
+      "learning_rate": 6.341857757632519e-07,
+      "loss": 0.4546,
+      "reward": 2.1232765913009644,
+      "reward_std": 0.26673005893826485,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.010404008906334639,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 677
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 332.0208435058594,
-      "epoch": 0.339,
-      "grad_norm": 8.46266477495005,
-      "kl": 0.63671875,
-      "learning_rate": 8.522742651953456e-07,
-      "loss": 0.444,
-      "reward": 2.682199239730835,
-      "reward_std": 0.5500051826238632,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02960638701915741,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 516.5,
+      "epoch": 0.4970674486803519,
+      "grad_norm": 2037.170056297148,
+      "kl": 13.15625,
+      "learning_rate": 6.330536695900622e-07,
+      "loss": 2.2526,
+      "reward": 1.8933287858963013,
+      "reward_std": 0.2740514874458313,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018129662610590458,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 678
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 417.56251525878906,
-      "epoch": 0.3395,
-      "grad_norm": 10.566916898300722,
-      "kl": 1.509765625,
-      "learning_rate": 8.516919785314595e-07,
-      "loss": 0.3333,
-      "reward": 2.5015060901641846,
-      "reward_std": 0.57795649766922,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.03495226427912712,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 445.2708435058594,
+      "epoch": 0.49780058651026393,
+      "grad_norm": 76.54198788837205,
+      "kl": 0.474609375,
+      "learning_rate": 6.319210189528236e-07,
+      "loss": 0.2031,
+      "reward": 2.4265220165252686,
+      "reward_std": 0.14526664419099689,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01618638401851058,
+      "rewards/tag_count_reward": 0.984375,
       "step": 679
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 333.6666717529297,
-      "epoch": 0.34,
-      "grad_norm": 11.247764389759753,
-      "kl": 0.75390625,
-      "learning_rate": 8.511087728614862e-07,
-      "loss": 0.5781,
-      "reward": 2.7087562084198,
-      "reward_std": 0.4665229171514511,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.04471610300242901,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 387.66668701171875,
+      "epoch": 0.49853372434017595,
+      "grad_norm": 5.588199951956003,
+      "kl": 0.4443359375,
+      "learning_rate": 6.307878312767053e-07,
+      "loss": 0.0165,
+      "reward": 1.9998939037322998,
+      "reward_std": 0.08089298009872437,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020939476788043976,
+      "rewards/tag_count_reward": 1.0,
       "step": 680
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 308.6458435058594,
-      "epoch": 0.3405,
-      "grad_norm": 6.290960445037793,
-      "kl": 0.47705078125,
-      "learning_rate": 8.50524649961971e-07,
-      "loss": 0.3798,
-      "reward": 2.7960026264190674,
-      "reward_std": 0.2514218669384718,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03385855816304684,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 397.68751525878906,
+      "epoch": 0.499266862170088,
+      "grad_norm": 3.4731976371563276,
+      "kl": 0.3974609375,
+      "learning_rate": 6.296541139903971e-07,
+      "loss": 0.0327,
+      "reward": 1.9804431796073914,
+      "reward_std": 0.011249262373894453,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019556839019060135,
+      "rewards/tag_count_reward": 1.0,
       "step": 681
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.375,
-      "epoch": 0.341,
-      "grad_norm": 3.8670578486681526,
-      "kl": 0.21484375,
-      "learning_rate": 8.499396116122535e-07,
-      "loss": -0.0315,
-      "reward": 2.5164601802825928,
-      "reward_std": 0.1599935106933117,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.03215097542852163,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 456.2916717529297,
+      "epoch": 0.5,
+      "grad_norm": 59.927063692740646,
+      "kl": 1.0146484375,
+      "learning_rate": 6.285198745260607e-07,
+      "loss": 0.2747,
+      "reward": 2.4471405744552612,
+      "reward_std": 0.13266543252393603,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.016401106491684914,
+      "rewards/tag_count_reward": 0.984375,
       "step": 682
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 307.4791717529297,
-      "epoch": 0.3415,
-      "grad_norm": 5.1795240406789285,
-      "kl": 0.51318359375,
-      "learning_rate": 8.493536595944622e-07,
-      "loss": 0.2556,
-      "reward": 2.6397162675857544,
-      "reward_std": 0.3590812534093857,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.04778374172747135,
+      "completion_length": 439.85418701171875,
+      "epoch": 0.500733137829912,
+      "grad_norm": 21.88560764955481,
+      "kl": 0.4296875,
+      "learning_rate": 6.273851203192812e-07,
+      "loss": 0.1805,
+      "reward": 2.208536744117737,
+      "reward_std": 0.07908271765336394,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020630055107176304,
       "rewards/tag_count_reward": 0.9791666865348816,
       "step": 683
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 347.79168701171875,
-      "epoch": 0.342,
-      "grad_norm": 22.46580378549878,
-      "kl": 1.2060546875,
-      "learning_rate": 8.487667956935087e-07,
-      "loss": 0.5061,
-      "reward": 2.5328707695007324,
-      "reward_std": 0.5347878038883209,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.05740702152252197,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 485.58335876464844,
+      "epoch": 0.501466275659824,
+      "grad_norm": 42.20078371159907,
+      "kl": 0.9228515625,
+      "learning_rate": 6.262498588090177e-07,
+      "loss": 0.3676,
+      "reward": 1.9697940945625305,
+      "reward_std": 0.1708728987723589,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014581031166017056,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 684
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.66668701171875,
-      "epoch": 0.3425,
-      "grad_norm": 25.14822551370442,
-      "kl": 1.689453125,
-      "learning_rate": 8.481790216970819e-07,
-      "loss": 0.386,
-      "reward": 2.6461331844329834,
-      "reward_std": 0.41380666196346283,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03442266769707203,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 389.31251525878906,
+      "epoch": 0.5021994134897361,
+      "grad_norm": 31.580308454709506,
+      "kl": 1.0966796875,
+      "learning_rate": 6.251140974375553e-07,
+      "loss": 0.0433,
+      "reward": 1.9906669855117798,
+      "reward_std": 0.08381603378802538,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02495804987847805,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 685
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.5208435058594,
-      "epoch": 0.343,
-      "grad_norm": 78.13941184528808,
-      "kl": 3.5234375,
-      "learning_rate": 8.475903393956433e-07,
-      "loss": 0.7695,
-      "reward": 2.565727114677429,
-      "reward_std": 0.7066747546195984,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.03496745601296425,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 396.5208435058594,
+      "epoch": 0.5029325513196481,
+      "grad_norm": 2.872906331597035,
+      "kl": 0.376953125,
+      "learning_rate": 6.239778436504557e-07,
+      "loss": 0.0133,
+      "reward": 2.2325448989868164,
+      "reward_std": 0.009967302437871695,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01745530776679516,
+      "rewards/tag_count_reward": 1.0,
       "step": 686
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 333.4375,
-      "epoch": 0.3435,
-      "grad_norm": 10.49194552043806,
-      "kl": 0.970703125,
-      "learning_rate": 8.470007505824215e-07,
-      "loss": 0.3382,
-      "reward": 2.6929080486297607,
-      "reward_std": 0.45839959383010864,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03973084129393101,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 433.93751525878906,
+      "epoch": 0.5036656891495601,
+      "grad_norm": 4.24523828143186,
+      "kl": 0.3828125,
+      "learning_rate": 6.228411048965091e-07,
+      "loss": 0.0373,
+      "reward": 2.255759596824646,
+      "reward_std": 0.07914062775671482,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.015073771122843027,
+      "rewards/tag_count_reward": 1.0,
       "step": 687
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 340.00001525878906,
-      "epoch": 0.344,
-      "grad_norm": 24.890945025863278,
-      "kl": 1.193359375,
-      "learning_rate": 8.464102570534061e-07,
-      "loss": 0.5374,
-      "reward": 2.5198949575424194,
-      "reward_std": 0.4044055640697479,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02698008343577385,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 449.7916717529297,
+      "epoch": 0.5043988269794721,
+      "grad_norm": 1346.6192060577287,
+      "kl": 11.50390625,
+      "learning_rate": 6.217038886276845e-07,
+      "loss": 1.8327,
+      "reward": 2.191466748714447,
+      "reward_std": 0.08447868470102549,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02728334814310074,
+      "rewards/tag_count_reward": 0.96875,
       "step": 688
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.6666717529297,
-      "epoch": 0.3445,
-      "grad_norm": 18.61334570722872,
-      "kl": 0.78125,
-      "learning_rate": 8.458188606073431e-07,
-      "loss": 0.4962,
-      "reward": 2.715654969215393,
-      "reward_std": 0.4276605248451233,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.030872873961925507,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 400.3333435058594,
+      "epoch": 0.5051319648093842,
+      "grad_norm": 3.0240299756883062,
+      "kl": 0.3564453125,
+      "learning_rate": 6.205662022990814e-07,
+      "loss": 0.0086,
+      "reward": 2.2511375546455383,
+      "reward_std": 0.1696284885983914,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01969574484974146,
+      "rewards/tag_count_reward": 1.0,
       "step": 689
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 270.2083435058594,
-      "epoch": 0.345,
-      "grad_norm": 95.37811997865627,
-      "kl": 2.6484375,
-      "learning_rate": 8.452265630457282e-07,
-      "loss": 0.161,
-      "reward": 2.8763829469680786,
-      "reward_std": 0.2372975405305624,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.026394893415272236,
+      "completion_length": 385.9166717529297,
+      "epoch": 0.5058651026392962,
+      "grad_norm": 3.2645934417801348,
+      "kl": 0.3955078125,
+      "learning_rate": 6.194280533688809e-07,
+      "loss": -0.0101,
+      "reward": 2.0662108659744263,
+      "reward_std": 0.24287840723991394,
+      "rewards/accuracy_reward": 0.08333333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017122572287917137,
       "rewards/tag_count_reward": 1.0,
       "step": 690
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 285.7708435058594,
-      "epoch": 0.3455,
-      "grad_norm": 4.725098859206571,
-      "kl": 0.3291015625,
-      "learning_rate": 8.446333661728028e-07,
-      "loss": 0.0645,
-      "reward": 2.569468140602112,
-      "reward_std": 0.23410103470087051,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.027754205279052258,
+      "completion_length": 424.81251525878906,
+      "epoch": 0.5065982404692082,
+      "grad_norm": 3.119032374376464,
+      "kl": 0.3515625,
+      "learning_rate": 6.182894492982969e-07,
+      "loss": 0.0356,
+      "reward": 2.2503284215927124,
+      "reward_std": 0.07950186124071479,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020504925400018692,
       "rewards/tag_count_reward": 1.0,
       "step": 691
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 287.62501525878906,
-      "epoch": 0.346,
-      "grad_norm": 12.97522462997103,
-      "kl": 1.1708984375,
-      "learning_rate": 8.440392717955475e-07,
-      "loss": 0.121,
-      "reward": 2.6713898181915283,
-      "reward_std": 0.5372248291969299,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.04909628629684448,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 506.97918701171875,
+      "epoch": 0.5073313782991202,
+      "grad_norm": 24.267710233732213,
+      "kl": 1.06640625,
+      "learning_rate": 6.171503975515265e-07,
+      "loss": 0.2784,
+      "reward": 1.993408441543579,
+      "reward_std": 0.2670893892645836,
+      "rewards/accuracy_reward": 0.06250000186264515,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027424994856119156,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 692
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 288.9583435058594,
-      "epoch": 0.3465,
-      "grad_norm": 77.5201396944965,
-      "kl": 4.1875,
-      "learning_rate": 8.434442817236765e-07,
-      "loss": 0.6809,
-      "reward": 2.826512098312378,
-      "reward_std": 0.32751043140888214,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03112685587257147,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 492.1458435058594,
+      "epoch": 0.5080645161290323,
+      "grad_norm": 70.97774177635779,
+      "kl": 1.5078125,
+      "learning_rate": 6.160109055957018e-07,
+      "loss": 0.4593,
+      "reward": 2.029819965362549,
+      "reward_std": 0.3379950374364853,
+      "rewards/accuracy_reward": 0.1041666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027471921406686306,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 693
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 396.9166717529297,
-      "epoch": 0.347,
-      "grad_norm": 65.84497722604661,
-      "kl": 4.5859375,
-      "learning_rate": 8.428483977696328e-07,
-      "loss": 0.9671,
-      "reward": 2.560770630836487,
-      "reward_std": 0.5635119080543518,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.03645172622054815,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 541.4166717529297,
+      "epoch": 0.5087976539589443,
+      "grad_norm": 24.216422460189005,
+      "kl": 1.705078125,
+      "learning_rate": 6.148709809008409e-07,
+      "loss": 0.468,
+      "reward": 1.959551990032196,
+      "reward_std": 0.3680807575583458,
+      "rewards/accuracy_reward": 0.08333333395421505,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.024823017418384552,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 694
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 381.16668701171875,
-      "epoch": 0.3475,
-      "grad_norm": 18.561448766988402,
-      "kl": 2.12109375,
-      "learning_rate": 8.422516217485825e-07,
-      "loss": 0.6426,
-      "reward": 2.567765712738037,
-      "reward_std": 0.5413838922977448,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.025984477251768112,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 643.4166870117188,
+      "epoch": 0.5095307917888563,
+      "grad_norm": 36.347168163912684,
+      "kl": 3.21875,
+      "learning_rate": 6.137306309397986e-07,
+      "loss": 0.8839,
+      "reward": 2.162288546562195,
+      "reward_std": 0.46551817655563354,
+      "rewards/accuracy_reward": 0.3125000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03042002022266388,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 695
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.6666717529297,
-      "epoch": 0.348,
-      "grad_norm": 12.793725754335805,
-      "kl": 0.51318359375,
-      "learning_rate": 8.416539554784089e-07,
-      "loss": 0.1811,
-      "reward": 2.8265974521636963,
-      "reward_std": 0.3042995482683182,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03451373428106308,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 757.7916870117188,
+      "epoch": 0.5102639296187683,
+      "grad_norm": 51.19725173793361,
+      "kl": 4.4453125,
+      "learning_rate": 6.125898631882174e-07,
+      "loss": 0.8215,
+      "reward": 2.0202183723449707,
+      "reward_std": 0.491269052028656,
+      "rewards/accuracy_reward": 0.1875000074505806,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021448221988976002,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 696
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 312.1458435058594,
-      "epoch": 0.3485,
-      "grad_norm": 12.387839093466074,
-      "kl": 1.2890625,
-      "learning_rate": 8.410554007797068e-07,
-      "loss": 0.2936,
-      "reward": 2.6493937969207764,
-      "reward_std": 0.44927215576171875,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.022481410764157772,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 723.6666870117188,
+      "epoch": 0.5109970674486803,
+      "grad_norm": 32.11893685151525,
+      "kl": 3.703125,
+      "learning_rate": 6.114486851244793e-07,
+      "loss": 0.8158,
+      "reward": 2.060223937034607,
+      "reward_std": 0.4704440087080002,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028317784890532494,
+      "rewards/tag_count_reward": 0.8802083730697632,
       "step": 697
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 364.125,
-      "epoch": 0.349,
-      "grad_norm": 21.88721713904914,
-      "kl": 1.349609375,
-      "learning_rate": 8.404559594757777e-07,
-      "loss": 0.2126,
-      "reward": 2.453208088874817,
-      "reward_std": 0.3716874122619629,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03463919833302498,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 857.7916870117188,
+      "epoch": 0.5117302052785924,
+      "grad_norm": 18.784707199764576,
+      "kl": 3.7109375,
+      "learning_rate": 6.103071042296551e-07,
+      "loss": 0.7494,
+      "reward": 1.9297525882720947,
+      "reward_std": 0.38079968094825745,
+      "rewards/accuracy_reward": 0.12500000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023372489027678967,
+      "rewards/tag_count_reward": 0.828125,
       "step": 698
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 319.54168701171875,
-      "epoch": 0.3495,
-      "grad_norm": 23.304107901739318,
-      "kl": 3.1298828125,
-      "learning_rate": 8.398556333926239e-07,
-      "loss": 0.396,
-      "reward": 2.7863314151763916,
-      "reward_std": 0.40553222596645355,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.040057627484202385,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 870.1875305175781,
+      "epoch": 0.5124633431085044,
+      "grad_norm": 14.677437827096641,
+      "kl": 2.234375,
+      "learning_rate": 6.091651279874574e-07,
+      "loss": 0.5725,
+      "reward": 2.004097819328308,
+      "reward_std": 0.5094822645187378,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02888854220509529,
+      "rewards/tag_count_reward": 0.7760416865348816,
       "step": 699
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 347.87501525878906,
-      "epoch": 0.35,
-      "grad_norm": 38.63296720283707,
-      "kl": 3.421875,
-      "learning_rate": 8.392544243589427e-07,
-      "loss": 0.9736,
-      "reward": 2.3871514797210693,
-      "reward_std": 0.5459754467010498,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.027779086492955685,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 828.7708740234375,
+      "epoch": 0.5131964809384164,
+      "grad_norm": 11.821380844349749,
+      "kl": 1.96484375,
+      "learning_rate": 6.0802276388419e-07,
+      "loss": 0.459,
+      "reward": 2.201478123664856,
+      "reward_std": 0.5592115372419357,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027688627131283283,
+      "rewards/tag_count_reward": 0.8125000298023224,
       "step": 700
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.5416717529297,
-      "epoch": 0.3505,
-      "grad_norm": 16.95817212965768,
-      "kl": 1.1083984375,
-      "learning_rate": 8.38652334206121e-07,
-      "loss": 0.4275,
-      "reward": 2.909200429916382,
-      "reward_std": 0.14170600473880768,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.04566095769405365,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 871.2500305175781,
+      "epoch": 0.5139296187683284,
+      "grad_norm": 22.568142496900485,
+      "kl": 2.109375,
+      "learning_rate": 6.068800194086989e-07,
+      "loss": 0.7207,
+      "reward": 1.8745365738868713,
+      "reward_std": 0.4898378700017929,
+      "rewards/accuracy_reward": 0.1458333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0265052430331707,
+      "rewards/tag_count_reward": 0.7552083432674408,
       "step": 701
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.2708435058594,
-      "epoch": 0.351,
-      "grad_norm": 254.15785403417703,
-      "kl": 8.96875,
-      "learning_rate": 8.3804936476823e-07,
-      "loss": 1.3585,
-      "reward": 2.471347212791443,
-      "reward_std": 0.4235590100288391,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.03038894012570381,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 1003.5416870117188,
+      "epoch": 0.5146627565982405,
+      "grad_norm": 28.302531166420113,
+      "kl": 3.484375,
+      "learning_rate": 6.057369020523249e-07,
+      "loss": 0.5456,
+      "reward": 1.9380370378494263,
+      "reward_std": 0.4967404901981354,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.028976941481232643,
+      "rewards/tag_count_reward": 0.6614583432674408,
       "step": 702
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.0208435058594,
-      "epoch": 0.3515,
-      "grad_norm": 19.759137725479157,
-      "kl": 1.263671875,
-      "learning_rate": 8.374455178820189e-07,
-      "loss": 0.4074,
-      "reward": 2.781951069831848,
-      "reward_std": 0.3059141989797354,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.032285166904330254,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 816.2291870117188,
+      "epoch": 0.5153958944281525,
+      "grad_norm": 10.672850559175945,
+      "kl": 2.453125,
+      "learning_rate": 6.045934193088521e-07,
+      "loss": 0.5804,
+      "reward": 2.036511540412903,
+      "reward_std": 0.5523365437984467,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025988491252064705,
+      "rewards/tag_count_reward": 0.7708333432674408,
       "step": 703
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.4583435058594,
-      "epoch": 0.352,
-      "grad_norm": 87.69689094374543,
-      "kl": 7.359375,
-      "learning_rate": 8.368407953869103e-07,
-      "loss": 0.4764,
-      "reward": 2.40726637840271,
-      "reward_std": 0.5606774091720581,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.031969884410500526,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 764.3125,
+      "epoch": 0.5161290322580645,
+      "grad_norm": 39.735651963128014,
+      "kl": 2.3515625,
+      "learning_rate": 6.034495786744605e-07,
+      "loss": 0.7015,
+      "reward": 1.9637788534164429,
+      "reward_std": 0.5475030541419983,
+      "rewards/accuracy_reward": 0.2500000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02580451127141714,
+      "rewards/tag_count_reward": 0.7395833432674408,
       "step": 704
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.6041717529297,
-      "epoch": 0.3525,
-      "grad_norm": 55.10624289780696,
-      "kl": 2.1630859375,
-      "learning_rate": 8.362351991249937e-07,
-      "loss": 0.3022,
-      "reward": 2.5830687284469604,
-      "reward_std": 0.543460875749588,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.04193143546581268,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 895.4166870117188,
+      "epoch": 0.5168621700879765,
+      "grad_norm": 27.423399312980752,
+      "kl": 1.82421875,
+      "learning_rate": 6.023053876476761e-07,
+      "loss": 0.7014,
+      "reward": 1.7406333684921265,
+      "reward_std": 0.5075753778219223,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.026727747172117233,
+      "rewards/tag_count_reward": 0.6979166865348816,
       "step": 705
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 370.1458435058594,
-      "epoch": 0.353,
-      "grad_norm": 38.93542768766942,
-      "kl": 1.20703125,
-      "learning_rate": 8.356287309410204e-07,
-      "loss": 0.4547,
-      "reward": 2.704145312309265,
-      "reward_std": 0.5362651348114014,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.037174249067902565,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 887.8125,
+      "epoch": 0.5175953079178885,
+      "grad_norm": 21.410467041793627,
+      "kl": 2.12109375,
+      "learning_rate": 6.01160853729322e-07,
+      "loss": 0.6424,
+      "reward": 2.2163281440734863,
+      "reward_std": 0.7610662877559662,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02325525600463152,
+      "rewards/tag_count_reward": 0.6979166865348816,
       "step": 706
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 443.0208435058594,
-      "epoch": 0.3535,
-      "grad_norm": 32.744332762719786,
-      "kl": 0.75,
-      "learning_rate": 8.350213926823974e-07,
-      "loss": 0.44,
-      "reward": 2.5751278400421143,
-      "reward_std": 0.5337015986442566,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04987236298620701,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 783.6041870117188,
+      "epoch": 0.5183284457478006,
+      "grad_norm": 27.22995745005586,
+      "kl": 1.9765625,
+      "learning_rate": 6.000159844224693e-07,
+      "loss": 0.6752,
+      "reward": 1.9180487990379333,
+      "reward_std": 0.5266700834035873,
+      "rewards/accuracy_reward": 0.229166679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029867863282561302,
+      "rewards/tag_count_reward": 0.7187500298023224,
       "step": 707
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 372.5625,
-      "epoch": 0.354,
-      "grad_norm": 42.03312426418706,
-      "kl": 0.68359375,
-      "learning_rate": 8.344131861991828e-07,
-      "loss": 0.4816,
-      "reward": 2.814732551574707,
-      "reward_std": 0.4671812057495117,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.04117002338171005,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 804.5000305175781,
+      "epoch": 0.5190615835777126,
+      "grad_norm": 35.4164868878839,
+      "kl": 2.60546875,
+      "learning_rate": 5.988707872323869e-07,
+      "loss": 0.6535,
+      "reward": 2.0066672563552856,
+      "reward_std": 0.5585867166519165,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.031527137383818626,
+      "rewards/tag_count_reward": 0.6979166865348816,
       "step": 708
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 402.8333435058594,
-      "epoch": 0.3545,
-      "grad_norm": 14.798336180101453,
-      "kl": 2.26171875,
-      "learning_rate": 8.338041133440788e-07,
-      "loss": 0.6263,
-      "reward": 2.585590362548828,
-      "reward_std": 0.5589672327041626,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.03593753091990948,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 681.2500305175781,
+      "epoch": 0.5197947214076246,
+      "grad_norm": 42.58931418473554,
+      "kl": 2.08203125,
+      "learning_rate": 5.977252696664944e-07,
+      "loss": 0.4843,
+      "reward": 2.1872243881225586,
+      "reward_std": 0.6637312173843384,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03152578230947256,
+      "rewards/tag_count_reward": 0.7812500298023224,
       "step": 709
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 484.1666717529297,
-      "epoch": 0.355,
-      "grad_norm": 329.43975783332286,
-      "kl": 9.34375,
-      "learning_rate": 8.331941759724268e-07,
-      "loss": 1.4746,
-      "reward": 2.464582681655884,
-      "reward_std": 0.6360695958137512,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.03541737608611584,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 786.3541870117188,
+      "epoch": 0.5205278592375366,
+      "grad_norm": 935.9645040339218,
+      "kl": 6.93359375,
+      "learning_rate": 5.965794392343109e-07,
+      "loss": 0.8653,
+      "reward": 1.8304345607757568,
+      "reward_std": 0.45126180350780487,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023732122033834457,
+      "rewards/tag_count_reward": 0.7291666865348816,
       "step": 710
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 458.4791717529297,
-      "epoch": 0.3555,
-      "grad_norm": 367.74155787665666,
-      "kl": 11.8759765625,
-      "learning_rate": 8.325833759422021e-07,
-      "loss": 1.0719,
-      "reward": 2.316919684410095,
-      "reward_std": 0.4943684861063957,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.875,
-      "rewards/repetition_penalty_reward": -0.032038720324635506,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 814.2083740234375,
+      "epoch": 0.5212609970674487,
+      "grad_norm": 175.06802015741212,
+      "kl": 5.234375,
+      "learning_rate": 5.954333034474068e-07,
+      "loss": 0.9546,
+      "reward": 1.9417012929916382,
+      "reward_std": 0.5177436172962189,
+      "rewards/accuracy_reward": 0.229166679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02704876847565174,
+      "rewards/tag_count_reward": 0.7395833730697632,
       "step": 711
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 483.7916717529297,
-      "epoch": 0.356,
-      "grad_norm": 47.212787106240015,
-      "kl": 4.234375,
-      "learning_rate": 8.319717151140072e-07,
-      "loss": 1.1337,
-      "reward": 2.351717948913574,
-      "reward_std": 0.6439139246940613,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.04758777469396591,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 907.2708740234375,
+      "epoch": 0.5219941348973607,
+      "grad_norm": 48.81417891282692,
+      "kl": 3.7734375,
+      "learning_rate": 5.942868698193538e-07,
+      "loss": 0.7592,
+      "reward": 1.8927278518676758,
+      "reward_std": 0.5524491965770721,
+      "rewards/accuracy_reward": 0.2500000074505806,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029147211462259293,
+      "rewards/tag_count_reward": 0.671875,
       "step": 712
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 324.25,
-      "epoch": 0.3565,
-      "grad_norm": 3.183005147595655,
-      "kl": 0.24560546875,
-      "learning_rate": 8.313591953510673e-07,
-      "loss": -0.005,
-      "reward": 2.9382745027542114,
-      "reward_std": 0.0876419385895133,
-      "rewards/accuracy_reward": 0.9791666865348816,
+      "completion_length": 995.7292175292969,
+      "epoch": 0.5227272727272727,
+      "grad_norm": 139.6123070474988,
+      "kl": 6.234375,
+      "learning_rate": 5.931401458656767e-07,
+      "loss": 0.8624,
+      "reward": 1.710960566997528,
+      "reward_std": 0.45395517349243164,
+      "rewards/accuracy_reward": 0.0833333358168602,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04089214652776718,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028622757643461227,
+      "rewards/tag_count_reward": 0.65625,
       "step": 713
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.5208435058594,
-      "epoch": 0.357,
-      "grad_norm": 21.014869886703735,
-      "kl": 0.328125,
-      "learning_rate": 8.307458185192238e-07,
-      "loss": 0.259,
-      "reward": 2.6625412702560425,
-      "reward_std": 0.37747399508953094,
-      "rewards/accuracy_reward": 0.7083333432674408,
+      "completion_length": 937.7291870117188,
+      "epoch": 0.5234604105571847,
+      "grad_norm": 71.2076844274725,
+      "kl": 3.390625,
+      "learning_rate": 5.919931391038036e-07,
+      "loss": 0.6294,
+      "reward": 1.9709495306015015,
+      "reward_std": 0.7317883968353271,
+      "rewards/accuracy_reward": 0.3125000149011612,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.035375405102968216,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.023842180147767067,
+      "rewards/tag_count_reward": 0.6822916865348816,
       "step": 714
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 349.4375,
-      "epoch": 0.3575,
-      "grad_norm": 20.703256092729664,
-      "kl": 0.3984375,
-      "learning_rate": 8.301315864869289e-07,
-      "loss": 0.2191,
-      "reward": 2.67917537689209,
-      "reward_std": 0.3260675296187401,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.06908857077360153,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 904.5208435058594,
+      "epoch": 0.5241935483870968,
+      "grad_norm": 41.114481536946386,
+      "kl": 3.4375,
+      "learning_rate": 5.908458570530159e-07,
+      "loss": 0.7369,
+      "reward": 2.023408830165863,
+      "reward_std": 0.7161271274089813,
+      "rewards/accuracy_reward": 0.3750000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0338828694075346,
+      "rewards/tag_count_reward": 0.6822916865348816,
       "step": 715
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 356.5208435058594,
-      "epoch": 0.358,
-      "grad_norm": 9.846153349140325,
-      "kl": 0.90625,
-      "learning_rate": 8.295165011252396e-07,
-      "loss": 0.1475,
-      "reward": 2.4251718521118164,
-      "reward_std": 0.41564081609249115,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.04878660198301077,
-      "rewards/tag_count_reward": 0.9739583730697632,
+      "completion_length": 909.625,
+      "epoch": 0.5249266862170088,
+      "grad_norm": 84.79032997074457,
+      "kl": 4.078125,
+      "learning_rate": 5.896983072344002e-07,
+      "loss": 0.8869,
+      "reward": 1.843784511089325,
+      "reward_std": 0.5026722997426987,
+      "rewards/accuracy_reward": 0.2083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026007202453911304,
+      "rewards/tag_count_reward": 0.6614583432674408,
       "step": 716
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 426.5625,
-      "epoch": 0.3585,
-      "grad_norm": 22.268351473633047,
-      "kl": 2.8046875,
-      "learning_rate": 8.289005643078131e-07,
-      "loss": 1.0537,
-      "reward": 2.636265277862549,
-      "reward_std": 0.5826082229614258,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.04602637514472008,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 1022.0416870117188,
+      "epoch": 0.5256598240469208,
+      "grad_norm": 192.89777198011595,
+      "kl": 4.53125,
+      "learning_rate": 5.885504971707984e-07,
+      "loss": 0.892,
+      "reward": 1.8601387739181519,
+      "reward_std": 0.5931964814662933,
+      "rewards/accuracy_reward": 0.2916666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030486296862363815,
+      "rewards/tag_count_reward": 0.5989583432674408,
       "step": 717
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.04168701171875,
-      "epoch": 0.359,
-      "grad_norm": 49.628296082541894,
-      "kl": 2.771484375,
-      "learning_rate": 8.282837779108993e-07,
-      "loss": 0.5828,
-      "reward": 2.618976354598999,
-      "reward_std": 0.40643376111984253,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.044218238443136215,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 1011.5625305175781,
+      "epoch": 0.5263929618768328,
+      "grad_norm": 84.5201492882185,
+      "kl": 3.578125,
+      "learning_rate": 5.874024343867583e-07,
+      "loss": 0.8796,
+      "reward": 1.7078853249549866,
+      "reward_std": 0.5262158215045929,
+      "rewards/accuracy_reward": 0.1041666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021281354129314423,
+      "rewards/tag_count_reward": 0.625,
       "step": 718
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 376.6041717529297,
-      "epoch": 0.3595,
-      "grad_norm": 17.745954704948424,
-      "kl": 1.49609375,
-      "learning_rate": 8.276661438133368e-07,
-      "loss": 0.4342,
-      "reward": 2.6793724298477173,
-      "reward_std": 0.35265351831912994,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 866.7291870117188,
+      "epoch": 0.5271260997067448,
+      "grad_norm": 43.25500266243787,
+      "kl": 2.0234375,
+      "learning_rate": 5.862541264084846e-07,
+      "loss": 0.7905,
+      "reward": 1.9441114664077759,
+      "reward_std": 0.5518654584884644,
+      "rewards/accuracy_reward": 0.25,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03937762975692749,
-      "rewards/tag_count_reward": 0.9895833730697632,
+      "rewards/repetition_penalty_reward": -0.029846942983567715,
+      "rewards/tag_count_reward": 0.7239583730697632,
       "step": 719
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 353.66668701171875,
-      "epoch": 0.36,
-      "grad_norm": 27.380512621837557,
-      "kl": 0.939453125,
-      "learning_rate": 8.270476638965461e-07,
-      "loss": 0.5235,
-      "reward": 2.807437300682068,
-      "reward_std": 0.43915510177612305,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03978483937680721,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 1271.8333740234375,
+      "epoch": 0.5278592375366569,
+      "grad_norm": 70.03986882968586,
+      "kl": 4.6640625,
+      "learning_rate": 5.851055807637892e-07,
+      "loss": 0.7332,
+      "reward": 1.7508472800254822,
+      "reward_std": 0.6809434294700623,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030402755364775658,
+      "rewards/tag_count_reward": 0.4895833432674408,
       "step": 720
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.6875,
-      "epoch": 0.3605,
-      "grad_norm": 24.933099331429055,
-      "kl": 0.765625,
-      "learning_rate": 8.264283400445243e-07,
-      "loss": 0.4441,
-      "reward": 2.6986876726150513,
-      "reward_std": 0.5908840298652649,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.06346515193581581,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 887.2708740234375,
+      "epoch": 0.5285923753665689,
+      "grad_norm": 58.680154588359265,
+      "kl": 1.609375,
+      "learning_rate": 5.839568049820423e-07,
+      "loss": 0.5473,
+      "reward": 2.2397154569625854,
+      "reward_std": 0.7437396347522736,
+      "rewards/accuracy_reward": 0.5833333730697632,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025909623131155968,
+      "rewards/tag_count_reward": 0.6822916865348816,
       "step": 721
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 427.4583435058594,
-      "epoch": 0.361,
-      "grad_norm": 21.155555874267726,
-      "kl": 1.40625,
-      "learning_rate": 8.258081741438394e-07,
-      "loss": 0.6891,
-      "reward": 2.5299737453460693,
-      "reward_std": 0.5110133141279221,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.06377626396715641,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 953.0417175292969,
+      "epoch": 0.5293255131964809,
+      "grad_norm": 36.23136798556369,
+      "kl": 2.73046875,
+      "learning_rate": 5.828078065941225e-07,
+      "loss": 0.7843,
+      "reward": 1.9861117005348206,
+      "reward_std": 0.7317814528942108,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02777726948261261,
+      "rewards/tag_count_reward": 0.6666666865348816,
       "step": 722
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 358.2708435058594,
-      "epoch": 0.3615,
-      "grad_norm": 22.1107293389388,
-      "kl": 1.6025390625,
-      "learning_rate": 8.25187168083624e-07,
-      "loss": 0.3977,
-      "reward": 2.5182286500930786,
-      "reward_std": 0.3348126895725727,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.047743676230311394,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 1127.5208435058594,
+      "epoch": 0.5300586510263929,
+      "grad_norm": 152.22428686952142,
+      "kl": 8.75,
+      "learning_rate": 5.816585931323679e-07,
+      "loss": 1.1706,
+      "reward": 1.7878764867782593,
+      "reward_std": 0.623430460691452,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02462371066212654,
+      "rewards/tag_count_reward": 0.5416666716337204,
       "step": 723
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 336.125,
-      "epoch": 0.362,
-      "grad_norm": 7.252900143586577,
-      "kl": 0.908203125,
-      "learning_rate": 8.245653237555705e-07,
-      "loss": 0.2413,
-      "reward": 2.539818525314331,
-      "reward_std": 0.4269237220287323,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.04698727838695049,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 1075.0416870117188,
+      "epoch": 0.530791788856305,
+      "grad_norm": 199.94524867359831,
+      "kl": 6.140625,
+      "learning_rate": 5.805091721305264e-07,
+      "loss": 0.941,
+      "reward": 1.703671395778656,
+      "reward_std": 0.5384046882390976,
+      "rewards/accuracy_reward": 0.1458333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03070361725986004,
+      "rewards/tag_count_reward": 0.5885416865348816,
       "step": 724
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.52085876464844,
-      "epoch": 0.3625,
-      "grad_norm": 35.246874774684656,
-      "kl": 3.2578125,
-      "learning_rate": 8.239426430539243e-07,
-      "loss": 0.9074,
-      "reward": 2.555440068244934,
-      "reward_std": 0.6377770006656647,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.05914325639605522,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 1210.6250610351562,
+      "epoch": 0.531524926686217,
+      "grad_norm": 31.78135460130777,
+      "kl": 3.453125,
+      "learning_rate": 5.793595511237067e-07,
+      "loss": 0.7312,
+      "reward": 1.6445240378379822,
+      "reward_std": 0.531583845615387,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022142627276480198,
+      "rewards/tag_count_reward": 0.5208333432674408,
       "step": 725
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 350.3125,
-      "epoch": 0.363,
-      "grad_norm": 9.204556850773619,
-      "kl": 1.97265625,
-      "learning_rate": 8.23319127875479e-07,
-      "loss": 0.4855,
-      "reward": 2.772892713546753,
-      "reward_std": 0.43467026948928833,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.055232321843504906,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 985.4166870117188,
+      "epoch": 0.532258064516129,
+      "grad_norm": 28.979448973880633,
+      "kl": 2.671875,
+      "learning_rate": 5.782097376483281e-07,
+      "loss": 0.6303,
+      "reward": 2.1739208698272705,
+      "reward_std": 0.731708288192749,
+      "rewards/accuracy_reward": 0.5625000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02920421026647091,
+      "rewards/tag_count_reward": 0.6406250298023224,
       "step": 726
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 363.9166717529297,
-      "epoch": 0.3635,
-      "grad_norm": 6.6860563949651475,
-      "kl": 1.0283203125,
-      "learning_rate": 8.226947801195699e-07,
-      "loss": 0.1283,
-      "reward": 2.6459619998931885,
-      "reward_std": 0.2583989417180419,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.057163089513778687,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 873.7083435058594,
+      "epoch": 0.532991202346041,
+      "grad_norm": 17.02643874548067,
+      "kl": 2.875,
+      "learning_rate": 5.770597392420724e-07,
+      "loss": 0.7263,
+      "reward": 1.9745637774467468,
+      "reward_std": 0.5388579368591309,
+      "rewards/accuracy_reward": 0.2916666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030644604936242104,
+      "rewards/tag_count_reward": 0.7135416865348816,
       "step": 727
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 261.0416717529297,
-      "epoch": 0.364,
-      "grad_norm": 3.671168469586843,
-      "kl": 0.251953125,
-      "learning_rate": 8.220696016880687e-07,
-      "loss": 0.0623,
-      "reward": 2.95377254486084,
-      "reward_std": 0.04473966360092163,
-      "rewards/accuracy_reward": 1.0,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03233869280666113,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 1042.1458740234375,
+      "epoch": 0.533724340175953,
+      "grad_norm": 69.68061124599399,
+      "kl": 5.828125,
+      "learning_rate": 5.759095634438331e-07,
+      "loss": 0.7917,
+      "reward": 1.869464635848999,
+      "reward_std": 0.6467162668704987,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026368800550699234,
+      "rewards/tag_count_reward": 0.5625000298023224,
       "step": 728
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 476.3333435058594,
-      "epoch": 0.3645,
-      "grad_norm": 33.63088386822394,
-      "kl": 0.951171875,
-      "learning_rate": 8.21443594485377e-07,
-      "loss": 0.5476,
-      "reward": 2.48537540435791,
-      "reward_std": 0.7262991070747375,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9722221791744232,
-      "rewards/repetition_penalty_reward": -0.08580523729324341,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 1039.625,
+      "epoch": 0.5344574780058651,
+      "grad_norm": 28.905645179972318,
+      "kl": 4.609375,
+      "learning_rate": 5.747592177936669e-07,
+      "loss": 0.7375,
+      "reward": 1.7492436170578003,
+      "reward_std": 0.6043170094490051,
+      "rewards/accuracy_reward": 0.1875000074505806,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026798022910952568,
+      "rewards/tag_count_reward": 0.5885416716337204,
       "step": 729
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 392.16668701171875,
-      "epoch": 0.365,
-      "grad_norm": 30.396775140349977,
-      "kl": 0.5615234375,
-      "learning_rate": 8.208167604184217e-07,
-      "loss": 0.3701,
-      "reward": 2.5822075605392456,
-      "reward_std": 0.48322977125644684,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.07404248043894768,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 927.3958435058594,
+      "epoch": 0.5351906158357771,
+      "grad_norm": 35.675576206435075,
+      "kl": 1.775390625,
+      "learning_rate": 5.736087098327438e-07,
+      "loss": 0.5483,
+      "reward": 2.0073986649513245,
+      "reward_std": 0.4903212785720825,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023851441219449043,
+      "rewards/tag_count_reward": 0.6562500149011612,
       "step": 730
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.97918701171875,
-      "epoch": 0.3655,
-      "grad_norm": 39.11126689033728,
-      "kl": 1.0234375,
-      "learning_rate": 8.201891013966478e-07,
-      "loss": 0.5577,
-      "reward": 2.379446864128113,
-      "reward_std": 0.5678260624408722,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.08062271773815155,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 972.8958435058594,
+      "epoch": 0.5359237536656891,
+      "grad_norm": 44.292846595818396,
+      "kl": 1.5859375,
+      "learning_rate": 5.72458047103298e-07,
+      "loss": 0.5784,
+      "reward": 1.8557514548301697,
+      "reward_std": 0.5746296048164368,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.026192973367869854,
+      "rewards/tag_count_reward": 0.6250000298023224,
       "step": 731
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 537.5416870117188,
-      "epoch": 0.366,
-      "grad_norm": 15.068758274769461,
-      "kl": 1.6875,
-      "learning_rate": 8.195606193320136e-07,
-      "loss": 0.6393,
-      "reward": 2.3407026529312134,
-      "reward_std": 0.7115332186222076,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.07075561210513115,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 1216.7291870117188,
+      "epoch": 0.5366568914956011,
+      "grad_norm": 31.19157029985504,
+      "kl": 2.7265625,
+      "learning_rate": 5.713072371485783e-07,
+      "loss": 0.6276,
+      "reward": 1.7138049602508545,
+      "reward_std": 0.5935538113117218,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02577844075858593,
+      "rewards/tag_count_reward": 0.4895833432674408,
       "step": 732
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 421.2708435058594,
-      "epoch": 0.3665,
-      "grad_norm": 9.730085638274787,
-      "kl": 1.34375,
-      "learning_rate": 8.189313161389844e-07,
-      "loss": 0.4843,
-      "reward": 2.605613946914673,
-      "reward_std": 0.44479694962501526,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.035011230036616325,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 1203.354248046875,
+      "epoch": 0.5373900293255132,
+      "grad_norm": 23.572066288373804,
+      "kl": 4.59375,
+      "learning_rate": 5.701562875127986e-07,
+      "loss": 0.7303,
+      "reward": 1.4909549355506897,
+      "reward_std": 0.4130130261182785,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0246700718998909,
+      "rewards/tag_count_reward": 0.4947916865348816,
       "step": 733
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 562.0000305175781,
-      "epoch": 0.367,
-      "grad_norm": 36.417464044540424,
-      "kl": 4.1171875,
-      "learning_rate": 8.183011937345271e-07,
-      "loss": 1.1908,
-      "reward": 2.5398595333099365,
-      "reward_std": 0.769398033618927,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.06430716440081596,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 1072.75,
+      "epoch": 0.5381231671554252,
+      "grad_norm": 58.6203440113047,
+      "kl": 5.65625,
+      "learning_rate": 5.690052057410885e-07,
+      "loss": 0.8741,
+      "reward": 2.004941701889038,
+      "reward_std": 0.7281341552734375,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03151674382388592,
+      "rewards/tag_count_reward": 0.5781250298023224,
       "step": 734
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 439.6875,
-      "epoch": 0.3675,
-      "grad_norm": 30.83756444127917,
-      "kl": 2.984375,
-      "learning_rate": 8.176702540381036e-07,
-      "loss": 0.9181,
-      "reward": 2.7064634561538696,
-      "reward_std": 0.5320930778980255,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.03832832910120487,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 960.6458740234375,
+      "epoch": 0.5388563049853372,
+      "grad_norm": 15.332845312739705,
+      "kl": 3.2421875,
+      "learning_rate": 5.678539993794435e-07,
+      "loss": 0.6949,
+      "reward": 1.7642380595207214,
+      "reward_std": 0.5163361728191376,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03263694699853659,
+      "rewards/tag_count_reward": 0.6302083432674408,
       "step": 735
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 330.7916717529297,
-      "epoch": 0.368,
-      "grad_norm": 13.454778716975406,
-      "kl": 1.0029296875,
-      "learning_rate": 8.170384989716657e-07,
-      "loss": 0.3605,
-      "reward": 2.8519721031188965,
-      "reward_std": 0.31362488865852356,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03691680170595646,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 861.8958435058594,
+      "epoch": 0.5395894428152492,
+      "grad_norm": 44.73059916771767,
+      "kl": 2.1171875,
+      "learning_rate": 5.667026759746766e-07,
+      "loss": 0.7097,
+      "reward": 2.103455603122711,
+      "reward_std": 0.6455656886100769,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.031961165368556976,
+      "rewards/tag_count_reward": 0.65625,
       "step": 736
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.7708435058594,
-      "epoch": 0.3685,
-      "grad_norm": 13.197505616793235,
-      "kl": 2.11328125,
-      "learning_rate": 8.164059304596488e-07,
-      "loss": 0.25,
-      "reward": 2.556104898452759,
-      "reward_std": 0.37108321487903595,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.04632566310465336,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 839.375,
+      "epoch": 0.5403225806451613,
+      "grad_norm": 41.77144504367488,
+      "kl": 2.1171875,
+      "learning_rate": 5.655512430743674e-07,
+      "loss": 0.6587,
+      "reward": 2.0384910702705383,
+      "reward_std": 0.6447021067142487,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029217291623353958,
+      "rewards/tag_count_reward": 0.6718750298023224,
       "step": 737
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.2708435058594,
-      "epoch": 0.369,
-      "grad_norm": 9.749024221023307,
-      "kl": 2.08203125,
-      "learning_rate": 8.157725504289664e-07,
-      "loss": 0.3044,
-      "reward": 2.4535757303237915,
-      "reward_std": 0.558014452457428,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.018646665383130312,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 837.0833435058594,
+      "epoch": 0.5410557184750733,
+      "grad_norm": 127.98277053064835,
+      "kl": 5.734375,
+      "learning_rate": 5.643997082268135e-07,
+      "loss": 0.8749,
+      "reward": 1.7961390018463135,
+      "reward_std": 0.5022356361150742,
+      "rewards/accuracy_reward": 0.18750000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0319860465824604,
+      "rewards/tag_count_reward": 0.6406250298023224,
       "step": 738
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 479.2083435058594,
-      "epoch": 0.3695,
-      "grad_norm": 11.39083083892124,
-      "kl": 2.03125,
-      "learning_rate": 8.151383608090039e-07,
-      "loss": 0.635,
-      "reward": 2.229800820350647,
-      "reward_std": 0.5332637131214142,
-      "rewards/accuracy_reward": 0.4375000223517418,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.03929641842842102,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 792.3958740234375,
+      "epoch": 0.5417888563049853,
+      "grad_norm": 662.9580863707783,
+      "kl": 9.25,
+      "learning_rate": 5.63248078980981e-07,
+      "loss": 1.3764,
+      "reward": 1.779019296169281,
+      "reward_std": 0.45541003346443176,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028272357769310474,
+      "rewards/tag_count_reward": 0.6822916865348816,
       "step": 739
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 464.5625305175781,
-      "epoch": 0.37,
-      "grad_norm": 16.878206896706008,
-      "kl": 2.859375,
-      "learning_rate": 8.145033635316128e-07,
-      "loss": 0.6706,
-      "reward": 2.367822289466858,
-      "reward_std": 0.7059852480888367,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.031483279541134834,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 865.1250305175781,
+      "epoch": 0.5425219941348973,
+      "grad_norm": 53.129583456399715,
+      "kl": 5.125,
+      "learning_rate": 5.620963628864547e-07,
+      "loss": 0.8805,
+      "reward": 2.087476968765259,
+      "reward_std": 0.6577587723731995,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02710629813373089,
+      "rewards/tag_count_reward": 0.6770833432674408,
       "step": 740
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 343.375,
-      "epoch": 0.3705,
-      "grad_norm": 4.401882005610615,
-      "kl": 0.7861328125,
-      "learning_rate": 8.138675605311051e-07,
-      "loss": 0.1554,
-      "reward": 2.771618604660034,
-      "reward_std": 0.2334722802042961,
-      "rewards/accuracy_reward": 0.8333333730697632,
+      "completion_length": 799.125,
+      "epoch": 0.5432551319648093,
+      "grad_norm": 47.00311282870559,
+      "kl": 2.5234375,
+      "learning_rate": 5.609445674933886e-07,
+      "loss": 0.7153,
+      "reward": 1.8923691511154175,
+      "reward_std": 0.5534811615943909,
+      "rewards/accuracy_reward": 0.2500000149011612,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.0460897758603096,
-      "rewards/tag_count_reward": 0.984375,
+      "rewards/repetition_penalty_reward": -0.029505793005228043,
+      "rewards/tag_count_reward": 0.671875,
       "step": 741
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 359.4166717529297,
-      "epoch": 0.371,
-      "grad_norm": 4.239738905969326,
-      "kl": 1.05078125,
-      "learning_rate": 8.13230953744247e-07,
-      "loss": 0.1471,
-      "reward": 2.5801262855529785,
-      "reward_std": 0.2986167371273041,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03619310073554516,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 1089.6458740234375,
+      "epoch": 0.5439882697947214,
+      "grad_norm": 25.779958061997704,
+      "kl": 3.6015625,
+      "learning_rate": 5.59792700352457e-07,
+      "loss": 0.747,
+      "reward": 1.580857276916504,
+      "reward_std": 0.4260368049144745,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028517894446849823,
+      "rewards/tag_count_reward": 0.567708358168602,
       "step": 742
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.3333435058594,
-      "epoch": 0.3715,
-      "grad_norm": 7.057211069031311,
-      "kl": 0.87109375,
-      "learning_rate": 8.125935451102528e-07,
-      "loss": 0.4242,
-      "reward": 2.3998607397079468,
-      "reward_std": 0.4749663770198822,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03763941116631031,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 885.6666870117188,
+      "epoch": 0.5447214076246334,
+      "grad_norm": 26.450864433872862,
+      "kl": 4.078125,
+      "learning_rate": 5.586407690148037e-07,
+      "loss": 0.6532,
+      "reward": 1.9195644855499268,
+      "reward_std": 0.5701983422040939,
+      "rewards/accuracy_reward": 0.3125000111758709,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028352378867566586,
+      "rewards/tag_count_reward": 0.6354166865348816,
       "step": 743
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 317.6458435058594,
-      "epoch": 0.372,
-      "grad_norm": 5.779641128334165,
-      "kl": 0.638671875,
-      "learning_rate": 8.119553365707802e-07,
-      "loss": 0.2267,
-      "reward": 2.8257747888565063,
-      "reward_std": 0.4051903337240219,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.026655779220163822,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 776.0833740234375,
+      "epoch": 0.5454545454545454,
+      "grad_norm": 24.009947817737903,
+      "kl": 3.109375,
+      "learning_rate": 5.574887810319946e-07,
+      "loss": 0.6748,
+      "reward": 1.9898723363876343,
+      "reward_std": 0.6006492376327515,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03096117079257965,
+      "rewards/tag_count_reward": 0.6666666865348816,
       "step": 744
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 410.9166717529297,
-      "epoch": 0.3725,
-      "grad_norm": 3.66973899046251,
-      "kl": 0.517578125,
-      "learning_rate": 8.113163300699228e-07,
-      "loss": 0.1316,
-      "reward": 2.464886784553528,
-      "reward_std": 0.3369094356894493,
-      "rewards/accuracy_reward": 0.5625000223517418,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.038585495203733444,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 960.0208740234375,
+      "epoch": 0.5461876832844574,
+      "grad_norm": 33.79328160042349,
+      "kl": 5.625,
+      "learning_rate": 5.563367439559657e-07,
+      "loss": 0.9255,
+      "reward": 1.6592678427696228,
+      "reward_std": 0.4428327679634094,
+      "rewards/accuracy_reward": 0.0833333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028232182376086712,
+      "rewards/tag_count_reward": 0.6041666865348816,
       "step": 745
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 314.81251525878906,
-      "epoch": 0.373,
-      "grad_norm": 4.867508354023929,
-      "kl": 0.4296875,
-      "learning_rate": 8.106765275542053e-07,
-      "loss": 0.1155,
-      "reward": 2.6931064128875732,
-      "reward_std": 0.40478771924972534,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0412687249481678,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 610.1875305175781,
+      "epoch": 0.5469208211143695,
+      "grad_norm": 25.32495424125435,
+      "kl": 2.6484375,
+      "learning_rate": 5.551846653389754e-07,
+      "loss": 0.6263,
+      "reward": 2.261523962020874,
+      "reward_std": 0.5468275845050812,
+      "rewards/accuracy_reward": 0.5416666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03014293871819973,
+      "rewards/tag_count_reward": 0.75,
       "step": 746
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 318.7291717529297,
-      "epoch": 0.3735,
-      "grad_norm": 4.225560833503795,
-      "kl": 0.349609375,
-      "learning_rate": 8.100359309725774e-07,
-      "loss": 0.0563,
-      "reward": 2.715116500854492,
-      "reward_std": 0.3557048738002777,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03835564851760864,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 681.7708740234375,
+      "epoch": 0.5476539589442815,
+      "grad_norm": 73.78278585282082,
+      "kl": 5.328125,
+      "learning_rate": 5.540325527335547e-07,
+      "loss": 0.9039,
+      "reward": 1.9347513914108276,
+      "reward_std": 0.47221839427948,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.033998677507042885,
+      "rewards/tag_count_reward": 0.7395833730697632,
       "step": 747
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 364.68751525878906,
-      "epoch": 0.374,
-      "grad_norm": 5.832499305507599,
-      "kl": 0.7421875,
-      "learning_rate": 8.093945422764069e-07,
-      "loss": 0.2438,
-      "reward": 2.5478862524032593,
-      "reward_std": 0.48231200873851776,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03891943581402302,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 791.4791870117188,
+      "epoch": 0.5483870967741935,
+      "grad_norm": 90.42777038947605,
+      "kl": 6.1640625,
+      "learning_rate": 5.528804136924571e-07,
+      "loss": 0.9191,
+      "reward": 1.9225658774375916,
+      "reward_std": 0.4990091919898987,
+      "rewards/accuracy_reward": 0.2083333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025350838899612427,
+      "rewards/tag_count_reward": 0.7395833730697632,
       "step": 748
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 513.2916717529297,
-      "epoch": 0.3745,
-      "grad_norm": 18.59065925947558,
-      "kl": 1.67578125,
-      "learning_rate": 8.087523634194754e-07,
-      "loss": 0.7216,
-      "reward": 2.548434257507324,
-      "reward_std": 0.6094189584255219,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.04010744206607342,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 874.2291870117188,
+      "epoch": 0.5491202346041055,
+      "grad_norm": 18.450252877965003,
+      "kl": 4.484375,
+      "learning_rate": 5.517282557686091e-07,
+      "loss": 0.696,
+      "reward": 1.7531982064247131,
+      "reward_std": 0.5390603840351105,
+      "rewards/accuracy_reward": 0.1875000111758709,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028051897883415222,
+      "rewards/tag_count_reward": 0.5937500298023224,
       "step": 749
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.60418701171875,
-      "epoch": 0.375,
-      "grad_norm": 7.99311552783378,
-      "kl": 1.29296875,
-      "learning_rate": 8.081093963579707e-07,
-      "loss": 0.2852,
-      "reward": 2.577797532081604,
-      "reward_std": 0.4589303731918335,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.05241105332970619,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 653.0208435058594,
+      "epoch": 0.5498533724340176,
+      "grad_norm": 52.140637292566204,
+      "kl": 1.453125,
+      "learning_rate": 5.505760865150613e-07,
+      "loss": 0.4664,
+      "reward": 2.0003074407577515,
+      "reward_std": 0.5500705242156982,
+      "rewards/accuracy_reward": 0.2916666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03094259649515152,
+      "rewards/tag_count_reward": 0.7395833432674408,
       "step": 750
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 367.8333435058594,
-      "epoch": 0.3755,
-      "grad_norm": 7.024161119025017,
-      "kl": 0.73779296875,
-      "learning_rate": 8.074656430504823e-07,
-      "loss": 0.1466,
-      "reward": 2.575978994369507,
-      "reward_std": 0.32069287449121475,
-      "rewards/accuracy_reward": 0.6250000298023224,
+      "completion_length": 571.9791870117188,
+      "epoch": 0.5505865102639296,
+      "grad_norm": 38.39356021633937,
+      "kl": 0.94921875,
+      "learning_rate": 5.494239134849388e-07,
+      "loss": 0.3249,
+      "reward": 2.200824737548828,
+      "reward_std": 0.644676610827446,
+      "rewards/accuracy_reward": 0.458333358168602,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03339605592191219,
-      "rewards/tag_count_reward": 0.984375,
+      "rewards/repetition_penalty_reward": -0.03355027176439762,
+      "rewards/tag_count_reward": 0.7760416865348816,
       "step": 751
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 360.93751525878906,
-      "epoch": 0.376,
-      "grad_norm": 13.063738129746366,
-      "kl": 0.5400390625,
-      "learning_rate": 8.068211054579943e-07,
-      "loss": 0.322,
-      "reward": 2.6451334953308105,
-      "reward_std": 0.4438292682170868,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.026741638779640198,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 780.4375305175781,
+      "epoch": 0.5513196480938416,
+      "grad_norm": 57.63946506829144,
+      "kl": 1.86328125,
+      "learning_rate": 5.48271744231391e-07,
+      "loss": 0.6424,
+      "reward": 1.7193049192428589,
+      "reward_std": 0.3903712034225464,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030695032328367233,
+      "rewards/tag_count_reward": 0.7083333730697632,
       "step": 752
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.2083435058594,
-      "epoch": 0.3765,
-      "grad_norm": 23.053449901319926,
-      "kl": 1.609375,
-      "learning_rate": 8.061757855438799e-07,
-      "loss": 0.4878,
-      "reward": 2.5872808694839478,
-      "reward_std": 0.6218395531177521,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.04292759019881487,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 773.2708435058594,
+      "epoch": 0.5520527859237536,
+      "grad_norm": 46.738838518138174,
+      "kl": 3.81640625,
+      "learning_rate": 5.471195863075431e-07,
+      "loss": 0.7577,
+      "reward": 1.955974280834198,
+      "reward_std": 0.6104044318199158,
+      "rewards/accuracy_reward": 0.3125000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028400634415447712,
+      "rewards/tag_count_reward": 0.671875,
       "step": 753
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.9583435058594,
-      "epoch": 0.377,
-      "grad_norm": 18.602852015242384,
-      "kl": 1.9296875,
-      "learning_rate": 8.055296852738956e-07,
-      "loss": 0.4041,
-      "reward": 2.7404640913009644,
-      "reward_std": 0.3876974582672119,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.05120253935456276,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 757.1458435058594,
+      "epoch": 0.5527859237536656,
+      "grad_norm": 70.68302962276599,
+      "kl": 5.609375,
+      "learning_rate": 5.459674472664451e-07,
+      "loss": 0.7409,
+      "reward": 1.9917755722999573,
+      "reward_std": 0.5736424177885056,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02905783336609602,
+      "rewards/tag_count_reward": 0.6875,
       "step": 754
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 279.62501525878906,
-      "epoch": 0.3775,
-      "grad_norm": 3.7238210341731244,
-      "kl": 0.24462890625,
-      "learning_rate": 8.048828066161747e-07,
-      "loss": 0.0714,
-      "reward": 2.776410698890686,
-      "reward_std": 0.1331208571791649,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.02914472296833992,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 824.3333740234375,
+      "epoch": 0.5535190615835777,
+      "grad_norm": 57.39574382552266,
+      "kl": 5.40625,
+      "learning_rate": 5.448153346610246e-07,
+      "loss": 0.8608,
+      "reward": 1.7963295578956604,
+      "reward_std": 0.5229825377464294,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0265871724113822,
+      "rewards/tag_count_reward": 0.6354166865348816,
       "step": 755
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 321.1666717529297,
-      "epoch": 0.378,
-      "grad_norm": 67.36108059538589,
-      "kl": 3.19140625,
-      "learning_rate": 8.04235151541222e-07,
-      "loss": 0.2793,
-      "reward": 2.7950555086135864,
-      "reward_std": 0.21008452773094177,
-      "rewards/accuracy_reward": 0.8333333730697632,
+      "completion_length": 594.6250305175781,
+      "epoch": 0.5542521994134897,
+      "grad_norm": 16.480205960183262,
+      "kl": 2.0546875,
+      "learning_rate": 5.436632560440343e-07,
+      "loss": 0.2668,
+      "reward": 1.8957591652870178,
+      "reward_std": 0.5015785098075867,
+      "rewards/accuracy_reward": 0.2083333358168602,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03827812150120735,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03132414259016514,
+      "rewards/tag_count_reward": 0.7187500298023224,
       "step": 756
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.7291717529297,
-      "epoch": 0.3785,
-      "grad_norm": 84.54444780952632,
-      "kl": 2.7587890625,
-      "learning_rate": 8.035867220219071e-07,
-      "loss": 0.3899,
-      "reward": 2.434798002243042,
-      "reward_std": 0.4415217489004135,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.04263266548514366,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 718.8333435058594,
+      "epoch": 0.5549853372434017,
+      "grad_norm": 35.6619139947997,
+      "kl": 2.5,
+      "learning_rate": 5.425112189680056e-07,
+      "loss": 0.6965,
+      "reward": 1.8117918968200684,
+      "reward_std": 0.4706086814403534,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026749805547297,
+      "rewards/tag_count_reward": 0.6927083730697632,
       "step": 757
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 342.3541717529297,
-      "epoch": 0.379,
-      "grad_norm": 119.06865323156653,
-      "kl": 5.875,
-      "learning_rate": 8.029375200334587e-07,
-      "loss": 0.4683,
-      "reward": 2.722063660621643,
-      "reward_std": 0.38934317231178284,
-      "rewards/accuracy_reward": 0.7916666865348816,
+      "completion_length": 725.7500305175781,
+      "epoch": 0.5557184750733137,
+      "grad_norm": 23.569771815446728,
+      "kl": 3.6953125,
+      "learning_rate": 5.413592309851963e-07,
+      "loss": 0.6908,
+      "reward": 1.898435115814209,
+      "reward_std": 0.5756514668464661,
+      "rewards/accuracy_reward": 0.2708333395421505,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04356146976351738,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.03906491957604885,
+      "rewards/tag_count_reward": 0.6666666865348816,
       "step": 758
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 342.2916717529297,
-      "epoch": 0.3795,
-      "grad_norm": 27.51386663996604,
-      "kl": 2.546875,
-      "learning_rate": 8.022875475534588e-07,
-      "loss": 0.4781,
-      "reward": 2.81855309009552,
-      "reward_std": 0.3882335126399994,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.028669222258031368,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 788.1875,
+      "epoch": 0.5564516129032258,
+      "grad_norm": 10.635869330106727,
+      "kl": 3.6171875,
+      "learning_rate": 5.402072996475432e-07,
+      "loss": 0.687,
+      "reward": 2.104902744293213,
+      "reward_std": 0.6718497276306152,
+      "rewards/accuracy_reward": 0.4375000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03051395993679762,
+      "rewards/tag_count_reward": 0.6979166865348816,
       "step": 759
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.0208435058594,
-      "epoch": 0.38,
-      "grad_norm": 75.44970102943357,
-      "kl": 3.5390625,
-      "learning_rate": 8.01636806561836e-07,
-      "loss": 0.5887,
-      "reward": 2.4815808534622192,
-      "reward_std": 0.4953022599220276,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.0427247304469347,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 599.7916870117188,
+      "epoch": 0.5571847507331378,
+      "grad_norm": 7.951630673232543,
+      "kl": 1.93359375,
+      "learning_rate": 5.390554325066114e-07,
+      "loss": 0.3941,
+      "reward": 1.937668800354004,
+      "reward_std": 0.4101848602294922,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.031081256456673145,
+      "rewards/tag_count_reward": 0.8020833432674408,
       "step": 760
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.3958435058594,
-      "epoch": 0.3805,
-      "grad_norm": 5.1567729258708015,
-      "kl": 0.36328125,
-      "learning_rate": 8.009852990408606e-07,
-      "loss": -0.0068,
-      "reward": 2.7873027324676514,
-      "reward_std": 0.34609653055667877,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.02346120961010456,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 652.4791870117188,
+      "epoch": 0.5579178885630498,
+      "grad_norm": 18.25749794578066,
+      "kl": 3.859375,
+      "learning_rate": 5.379036371135453e-07,
+      "loss": 0.6928,
+      "reward": 1.7474979162216187,
+      "reward_std": 0.34113722294569016,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02854372374713421,
+      "rewards/tag_count_reward": 0.7760416865348816,
       "step": 761
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 298.2083435058594,
-      "epoch": 0.381,
-      "grad_norm": 5.782753089670167,
-      "kl": 0.2744140625,
-      "learning_rate": 8.003330269751372e-07,
-      "loss": 0.0454,
-      "reward": 2.6413458585739136,
-      "reward_std": 0.27150559425354004,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.05483482964336872,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 562.3750305175781,
+      "epoch": 0.5586510263929618,
+      "grad_norm": 11.93049781932339,
+      "kl": 2.515625,
+      "learning_rate": 5.367519210190191e-07,
+      "loss": 0.5786,
+      "reward": 2.156864047050476,
+      "reward_std": 0.6391881704330444,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030635923147201538,
+      "rewards/tag_count_reward": 0.7708333730697632,
       "step": 762
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 323.43751525878906,
-      "epoch": 0.3815,
-      "grad_norm": 8.790559038103488,
-      "kl": 0.712890625,
-      "learning_rate": 7.996799923515997e-07,
-      "loss": 0.1095,
-      "reward": 2.427235722541809,
-      "reward_std": 0.40729573369026184,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666269302368,
-      "rewards/repetition_penalty_reward": -0.036305982619524,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 582.7708435058594,
+      "epoch": 0.5593841642228738,
+      "grad_norm": 24.399553709161914,
+      "kl": 2.58203125,
+      "learning_rate": 5.356002917731864e-07,
+      "loss": 0.5849,
+      "reward": 1.8041017055511475,
+      "reward_std": 0.3177919387817383,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.034439937211573124,
+      "rewards/tag_count_reward": 0.7968750298023224,
       "step": 763
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 339.37501525878906,
-      "epoch": 0.382,
-      "grad_norm": 12.201161237432581,
-      "kl": 0.9375,
-      "learning_rate": 7.990261971595048e-07,
-      "loss": 0.2632,
-      "reward": 2.6326658725738525,
-      "reward_std": 0.4427875429391861,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02879253402352333,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 643.2083435058594,
+      "epoch": 0.5601173020527859,
+      "grad_norm": 9.855696397433391,
+      "kl": 2.3203125,
+      "learning_rate": 5.344487569256327e-07,
+      "loss": 0.4902,
+      "reward": 2.1870139837265015,
+      "reward_std": 0.6778040528297424,
+      "rewards/accuracy_reward": 0.4375000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03694435581564903,
+      "rewards/tag_count_reward": 0.7864583432674408,
       "step": 764
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 353.75,
-      "epoch": 0.3825,
-      "grad_norm": 22.3451597944635,
-      "kl": 1.24609375,
-      "learning_rate": 7.983716433904262e-07,
-      "loss": 0.3512,
-      "reward": 2.682904601097107,
-      "reward_std": 0.46456609666347504,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03758169710636139,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 735.0833740234375,
+      "epoch": 0.5608504398826979,
+      "grad_norm": 9.493175966711302,
+      "kl": 3.28125,
+      "learning_rate": 5.332973240253234e-07,
+      "loss": 0.617,
+      "reward": 2.359973430633545,
+      "reward_std": 0.752300500869751,
+      "rewards/accuracy_reward": 0.6458333730697632,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025443391874432564,
+      "rewards/tag_count_reward": 0.7395833432674408,
       "step": 765
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.4583435058594,
-      "epoch": 0.383,
-      "grad_norm": 20.403277618055263,
-      "kl": 2.078125,
-      "learning_rate": 7.977163330382479e-07,
-      "loss": 0.2761,
-      "reward": 2.799572229385376,
-      "reward_std": 0.3507230281829834,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.026816830039024353,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 662.4791870117188,
+      "epoch": 0.5615835777126099,
+      "grad_norm": 9.25052938293034,
+      "kl": 3.3359375,
+      "learning_rate": 5.321460006205565e-07,
+      "loss": 0.6242,
+      "reward": 1.9359582662582397,
+      "reward_std": 0.5609914809465408,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03800009563565254,
+      "rewards/tag_count_reward": 0.7239583432674408,
       "step": 766
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.2291717529297,
-      "epoch": 0.3835,
-      "grad_norm": 83.31159486387506,
-      "kl": 6.796875,
-      "learning_rate": 7.970602680991592e-07,
-      "loss": 0.7361,
-      "reward": 2.5988014936447144,
-      "reward_std": 0.6159058213233948,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.026198641397058964,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 582.6250305175781,
+      "epoch": 0.5623167155425219,
+      "grad_norm": 19.547089040558244,
+      "kl": 1.88671875,
+      "learning_rate": 5.309947942589114e-07,
+      "loss": 0.5295,
+      "reward": 2.224452018737793,
+      "reward_std": 0.6053149402141571,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0359647162258625,
+      "rewards/tag_count_reward": 0.8229166865348816,
       "step": 767
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 366.5625,
-      "epoch": 0.384,
-      "grad_norm": 363.6216773317555,
-      "kl": 13.65625,
-      "learning_rate": 7.964034505716476e-07,
-      "loss": 1.19,
-      "reward": 2.539207100868225,
-      "reward_std": 0.5661123096942902,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.03891796059906483,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 707.3125305175781,
+      "epoch": 0.5630498533724341,
+      "grad_norm": 49.41788880303197,
+      "kl": 5.1953125,
+      "learning_rate": 5.298437124872013e-07,
+      "loss": 0.8048,
+      "reward": 1.7083222270011902,
+      "reward_std": 0.3275119215250015,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04167785868048668,
+      "rewards/tag_count_reward": 0.75,
       "step": 768
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 472.4791717529297,
-      "epoch": 0.3845,
-      "grad_norm": 187.4365397141768,
-      "kl": 16.546875,
-      "learning_rate": 7.957458824564931e-07,
-      "loss": 1.2768,
-      "reward": 2.338832139968872,
-      "reward_std": 0.5791323632001877,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.011862346436828375,
-      "rewards/tag_count_reward": 0.84375,
+      "completion_length": 491.16668701171875,
+      "epoch": 0.5637829912023461,
+      "grad_norm": 10.00552596434989,
+      "kl": 1.140625,
+      "learning_rate": 5.286927628514217e-07,
+      "loss": 0.178,
+      "reward": 2.171727418899536,
+      "reward_std": 0.43328505754470825,
+      "rewards/accuracy_reward": 0.2916666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03139766305685043,
+      "rewards/tag_count_reward": 0.9114583730697632,
       "step": 769
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 546.7916717529297,
-      "epoch": 0.385,
-      "grad_norm": 35.1440590310128,
-      "kl": 5.8671875,
-      "learning_rate": 7.950875657567621e-07,
-      "loss": 0.861,
-      "reward": 2.5058937072753906,
-      "reward_std": 0.5305248498916626,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.0201479597017169,
-      "rewards/tag_count_reward": 0.859375,
+      "completion_length": 474.1458435058594,
+      "epoch": 0.5645161290322581,
+      "grad_norm": 15.644106947033833,
+      "kl": 1.78515625,
+      "learning_rate": 5.27541952896702e-07,
+      "loss": 0.3509,
+      "reward": 2.035298228263855,
+      "reward_std": 0.40297262370586395,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0324101448059082,
+      "rewards/tag_count_reward": 0.8802083730697632,
       "step": 770
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 511.39585876464844,
-      "epoch": 0.3855,
-      "grad_norm": 78.06611028598661,
-      "kl": 6.6328125,
-      "learning_rate": 7.944285024778017e-07,
-      "loss": 0.8001,
-      "reward": 2.510785937309265,
-      "reward_std": 0.6201603412628174,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.027408569119870663,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 612.3125,
+      "epoch": 0.5652492668621701,
+      "grad_norm": 74.13652540498771,
+      "kl": 4.0859375,
+      "learning_rate": 5.263912901672561e-07,
+      "loss": 0.7203,
+      "reward": 2.2360010147094727,
+      "reward_std": 0.5515131950378418,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.034832315519452095,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 771
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.1458435058594,
-      "epoch": 0.386,
-      "grad_norm": 18.27424052638579,
-      "kl": 2.765625,
-      "learning_rate": 7.93768694627233e-07,
-      "loss": 0.5689,
-      "reward": 2.3896729946136475,
-      "reward_std": 0.5375154912471771,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.028729761950671673,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 493.5833435058594,
+      "epoch": 0.5659824046920822,
+      "grad_norm": 8.6360252044363,
+      "kl": 1.291015625,
+      "learning_rate": 5.252407822063332e-07,
+      "loss": 0.199,
+      "reward": 1.9898422360420227,
+      "reward_std": 0.3721628934144974,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025782877579331398,
+      "rewards/tag_count_reward": 0.8281250298023224,
       "step": 772
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 495.625,
-      "epoch": 0.3865,
-      "grad_norm": 14.881333576700378,
-      "kl": 2.375,
-      "learning_rate": 7.931081442149448e-07,
-      "loss": 0.4987,
-      "reward": 2.577857255935669,
-      "reward_std": 0.5150826573371887,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02457323018461466,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 510.79168701171875,
+      "epoch": 0.5667155425219942,
+      "grad_norm": 22.245313397026667,
+      "kl": 0.763671875,
+      "learning_rate": 5.240904365561669e-07,
+      "loss": 0.1329,
+      "reward": 2.130028009414673,
+      "reward_std": 0.4469859153032303,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03143035527318716,
+      "rewards/tag_count_reward": 0.8489583730697632,
       "step": 773
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 427.9375,
-      "epoch": 0.387,
-      "grad_norm": 11.469486615908298,
-      "kl": 1.912109375,
-      "learning_rate": 7.924468532530883e-07,
-      "loss": 0.2236,
-      "reward": 2.6311352252960205,
-      "reward_std": 0.37547628581523895,
-      "rewards/accuracy_reward": 0.7708333730697632,
+      "completion_length": 542.0833435058594,
+      "epoch": 0.5674486803519062,
+      "grad_norm": 16.58377376399728,
+      "kl": 0.9140625,
+      "learning_rate": 5.229402607579277e-07,
+      "loss": 0.1466,
+      "reward": 1.8467799425125122,
+      "reward_std": 0.4250985085964203,
+      "rewards/accuracy_reward": 0.1041666716337204,
       "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0615730844438076,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "rewards/repetition_penalty_reward": -0.03863669000566006,
+      "rewards/tag_count_reward": 0.8020833730697632,
       "step": 774
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 642.3125305175781,
-      "epoch": 0.3875,
-      "grad_norm": 47.419569435384595,
-      "kl": 5.8515625,
-      "learning_rate": 7.917848237560708e-07,
-      "loss": 0.7953,
-      "reward": 2.1859389543533325,
-      "reward_std": 0.7739139497280121,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.02933894842863083,
-      "rewards/tag_count_reward": 0.7708333432674408,
+      "completion_length": 500.2708435058594,
+      "epoch": 0.5681818181818182,
+      "grad_norm": 6.383368310310399,
+      "kl": 0.599609375,
+      "learning_rate": 5.217902623516717e-07,
+      "loss": 0.0636,
+      "reward": 2.2422069311141968,
+      "reward_std": 0.6459289789199829,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03383495286107063,
+      "rewards/tag_count_reward": 0.8385416865348816,
       "step": 775
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 433.8958435058594,
-      "epoch": 0.388,
-      "grad_norm": 16.151319546185952,
-      "kl": 2.9453125,
-      "learning_rate": 7.911220577405484e-07,
-      "loss": 0.5875,
-      "reward": 2.4124279022216797,
-      "reward_std": 0.5835599303245544,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.023336103186011314,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 436.93751525878906,
+      "epoch": 0.5689149560117303,
+      "grad_norm": 6.21109163951882,
+      "kl": 0.765625,
+      "learning_rate": 5.206404488762933e-07,
+      "loss": 0.1408,
+      "reward": 2.2062381505966187,
+      "reward_std": 0.4520144984126091,
+      "rewards/accuracy_reward": 0.35416667722165585,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04376194626092911,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 776
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 493.87501525878906,
-      "epoch": 0.3885,
-      "grad_norm": 19.784079907225436,
-      "kl": 3.0546875,
-      "learning_rate": 7.904585572254218e-07,
-      "loss": 0.5988,
-      "reward": 2.564281463623047,
-      "reward_std": 0.6512129902839661,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02773252595216036,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 470.5,
+      "epoch": 0.5696480938416423,
+      "grad_norm": 11.089411677156567,
+      "kl": 0.81640625,
+      "learning_rate": 5.194908278694736e-07,
+      "loss": 0.0762,
+      "reward": 2.4853463172912598,
+      "reward_std": 0.4210961163043976,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.035487134009599686,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 777
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 527.8750152587891,
-      "epoch": 0.389,
-      "grad_norm": 14.102553925882571,
-      "kl": 3.291015625,
-      "learning_rate": 7.897943242318285e-07,
-      "loss": 0.6637,
-      "reward": 2.508991241455078,
-      "reward_std": 0.49256084859371185,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.03962016478180885,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 489.50001525878906,
+      "epoch": 0.5703812316715543,
+      "grad_norm": 5.649480356582214,
+      "kl": 1.078125,
+      "learning_rate": 5.183414068676321e-07,
+      "loss": 0.1901,
+      "reward": 2.011263608932495,
+      "reward_std": 0.28793443739414215,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03561144880950451,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 778
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 553.7708587646484,
-      "epoch": 0.3895,
-      "grad_norm": 21.449440079929175,
-      "kl": 4.6875,
-      "learning_rate": 7.891293607831373e-07,
-      "loss": 0.6951,
-      "reward": 2.2457956075668335,
-      "reward_std": 0.3153197094798088,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03719065245240927,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 584.0833435058594,
+      "epoch": 0.5711143695014663,
+      "grad_norm": 45.52300400424727,
+      "kl": 3.40625,
+      "learning_rate": 5.171921934058775e-07,
+      "loss": 0.2789,
+      "reward": 2.1760915517807007,
+      "reward_std": 0.6365633606910706,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.05307510495185852,
+      "rewards/tag_count_reward": 0.8333333432674408,
       "step": 779
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 681.0833435058594,
-      "epoch": 0.39,
-      "grad_norm": 50.20111893584829,
-      "kl": 5.640625,
-      "learning_rate": 7.884636689049422e-07,
-      "loss": 0.9104,
-      "reward": 2.192242741584778,
-      "reward_std": 0.5565801113843918,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.04213242046535015,
-      "rewards/tag_count_reward": 0.7968750298023224,
+      "completion_length": 585.8750305175781,
+      "epoch": 0.5718475073313783,
+      "grad_norm": 18.610581583071962,
+      "kl": 2.71875,
+      "learning_rate": 5.160431950179577e-07,
+      "loss": 0.5859,
+      "reward": 2.0504915714263916,
+      "reward_std": 0.4479319751262665,
+      "rewards/accuracy_reward": 0.2291666679084301,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.055411264300346375,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 780
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 493.3125305175781,
-      "epoch": 0.3905,
-      "grad_norm": 31.66716632745188,
-      "kl": 2.26953125,
-      "learning_rate": 7.877972506250562e-07,
-      "loss": 0.727,
-      "reward": 2.6193435192108154,
-      "reward_std": 0.655490517616272,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.03517040517181158,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 434.5833435058594,
+      "epoch": 0.5725806451612904,
+      "grad_norm": 11.952290754347626,
+      "kl": 1.0283203125,
+      "learning_rate": 5.148944192362108e-07,
+      "loss": 0.1858,
+      "reward": 2.307385563850403,
+      "reward_std": 0.5844225138425827,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03636452369391918,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 781
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 546.0833435058594,
-      "epoch": 0.391,
-      "grad_norm": 20.081813742060923,
-      "kl": 2.97265625,
-      "learning_rate": 7.871301079735049e-07,
-      "loss": 0.6893,
-      "reward": 2.3784666061401367,
-      "reward_std": 0.4472994953393936,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.02604720927774906,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 552.1041870117188,
+      "epoch": 0.5733137829912024,
+      "grad_norm": 35.347459858014,
+      "kl": 0.90234375,
+      "learning_rate": 5.137458735915154e-07,
+      "loss": 0.3501,
+      "reward": 2.0038501024246216,
+      "reward_std": 0.3343339115381241,
+      "rewards/accuracy_reward": 0.1458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.05864992365241051,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 782
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 530.6458435058594,
-      "epoch": 0.3915,
-      "grad_norm": 18.755713225081045,
-      "kl": 3.94140625,
-      "learning_rate": 7.864622429825204e-07,
-      "loss": 0.5134,
-      "reward": 2.5227210521698,
-      "reward_std": 0.6135649532079697,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.04672360047698021,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 568.875,
+      "epoch": 0.5740469208211144,
+      "grad_norm": 12.297175402440889,
+      "kl": 1.1396484375,
+      "learning_rate": 5.125975656132417e-07,
+      "loss": 0.2126,
+      "reward": 2.012514591217041,
+      "reward_std": 0.3432723581790924,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04998534545302391,
+      "rewards/tag_count_reward": 0.8958333730697632,
       "step": 783
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.2083435058594,
-      "epoch": 0.392,
-      "grad_norm": 44.37092698629651,
-      "kl": 3.7265625,
-      "learning_rate": 7.857936576865356e-07,
-      "loss": 0.5662,
-      "reward": 2.404683828353882,
-      "reward_std": 0.31213444471359253,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02413582894951105,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 481.79168701171875,
+      "epoch": 0.5747800586510264,
+      "grad_norm": 10.558960266569809,
+      "kl": 0.802734375,
+      "learning_rate": 5.114495028292016e-07,
+      "loss": 0.2242,
+      "reward": 2.0655742287635803,
+      "reward_std": 0.28712810575962067,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03859252668917179,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 784
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 403.0208435058594,
-      "epoch": 0.3925,
-      "grad_norm": 26.04848472624046,
-      "kl": 1.279296875,
-      "learning_rate": 7.851243541221769e-07,
-      "loss": 0.4965,
-      "reward": 2.568751573562622,
-      "reward_std": 0.3721753219142556,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.023262279108166695,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 488.2708435058594,
+      "epoch": 0.5755131964809385,
+      "grad_norm": 2.6200652288087567,
+      "kl": 0.3642578125,
+      "learning_rate": 5.103016927655997e-07,
+      "loss": 0.0087,
+      "reward": 1.981192708015442,
+      "reward_std": 0.18765612691640854,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024015757255256176,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 785
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 430.6458435058594,
-      "epoch": 0.393,
-      "grad_norm": 13.25665865367494,
-      "kl": 2.01953125,
-      "learning_rate": 7.844543343282595e-07,
-      "loss": 0.4602,
-      "reward": 2.5878489017486572,
-      "reward_std": 0.3847273141145706,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9722221791744232,
-      "rewards/repetition_penalty_reward": -0.03541503753513098,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 499.41668701171875,
+      "epoch": 0.5762463343108505,
+      "grad_norm": 3.1631841093704973,
+      "kl": 0.3896484375,
+      "learning_rate": 5.09154142946984e-07,
+      "loss": 0.0069,
+      "reward": 2.364975333213806,
+      "reward_std": 0.23586179316043854,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025649672374129295,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 786
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 444.87501525878906,
-      "epoch": 0.3935,
-      "grad_norm": 22.772832737303286,
-      "kl": 4.8125,
-      "learning_rate": 7.837836003457793e-07,
-      "loss": 0.6349,
-      "reward": 2.510228753089905,
-      "reward_std": 0.5596920847892761,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04532698355615139,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 505.2083435058594,
+      "epoch": 0.5769794721407625,
+      "grad_norm": 143.08815161211146,
+      "kl": 3.056640625,
+      "learning_rate": 5.080068608961965e-07,
+      "loss": 0.3752,
+      "reward": 2.5566176176071167,
+      "reward_std": 0.5731297731399536,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.047549253329634666,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 787
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 472.9583435058594,
-      "epoch": 0.394,
-      "grad_norm": 15.953872553666358,
-      "kl": 2.59375,
-      "learning_rate": 7.831121542179086e-07,
-      "loss": 0.7152,
-      "reward": 2.431522011756897,
-      "reward_std": 0.46617111563682556,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04590862803161144,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 460.0416717529297,
+      "epoch": 0.5777126099706745,
+      "grad_norm": 4.206661576025536,
+      "kl": 0.4052734375,
+      "learning_rate": 5.068598541343234e-07,
+      "loss": 0.0059,
+      "reward": 2.296063780784607,
+      "reward_std": 0.33597442507743835,
+      "rewards/accuracy_reward": 0.3750000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.032061291858553886,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 788
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 631.1041870117188,
-      "epoch": 0.3945,
-      "grad_norm": 21.209792192046844,
-      "kl": 3.51953125,
-      "learning_rate": 7.824399979899889e-07,
-      "loss": 0.4762,
-      "reward": 2.2550671100616455,
-      "reward_std": 0.3108735680580139,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06437743455171585,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 546.4791870117188,
+      "epoch": 0.5784457478005866,
+      "grad_norm": 120.55140185532244,
+      "kl": 3.2978515625,
+      "learning_rate": 5.057131301806463e-07,
+      "loss": 0.4419,
+      "reward": 2.227821409702301,
+      "reward_std": 0.4409473240375519,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.037803635001182556,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 789
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 340.8333435058594,
-      "epoch": 0.395,
-      "grad_norm": 33.37412557405853,
-      "kl": 1.37890625,
-      "learning_rate": 7.817671337095244e-07,
-      "loss": 0.4575,
-      "reward": 2.5797940492630005,
-      "reward_std": 0.6914741396903992,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.041733767837285995,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 483.54168701171875,
+      "epoch": 0.5791788856304986,
+      "grad_norm": 104.00715130995349,
+      "kl": 3.8349609375,
+      "learning_rate": 5.045666965525934e-07,
+      "loss": 0.4773,
+      "reward": 1.9311189651489258,
+      "reward_std": 0.2578328549861908,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.053256092593073845,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 790
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 437.12501525878906,
-      "epoch": 0.3955,
-      "grad_norm": 16.65766077241616,
-      "kl": 1.3662109375,
-      "learning_rate": 7.810935634261764e-07,
-      "loss": 0.3751,
-      "reward": 2.6942687034606934,
-      "reward_std": 0.47277119755744934,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.04705093614757061,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 516.5416870117188,
+      "epoch": 0.5799120234604106,
+      "grad_norm": 63.31064118479974,
+      "kl": 2.330078125,
+      "learning_rate": 5.034205607656892e-07,
+      "loss": 0.4197,
+      "reward": 2.354369640350342,
+      "reward_std": 0.4720756560564041,
+      "rewards/accuracy_reward": 0.458333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04667205922305584,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 791
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 486.60418701171875,
-      "epoch": 0.396,
-      "grad_norm": 9.722828730186746,
-      "kl": 2.5546875,
-      "learning_rate": 7.804192891917571e-07,
-      "loss": 0.4686,
-      "reward": 2.0610522031784058,
-      "reward_std": 0.35085567831993103,
-      "rewards/accuracy_reward": 0.2916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.04658674821257591,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 460.7291717529297,
+      "epoch": 0.5806451612903226,
+      "grad_norm": 2.3908286014334084,
+      "kl": 0.3271484375,
+      "learning_rate": 5.022747303335056e-07,
+      "loss": -0.0011,
+      "reward": 2.4147515296936035,
+      "reward_std": 0.2904389202594757,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04358202964067459,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 792
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 768.0,
-      "epoch": 0.3965,
-      "grad_norm": 32.12608283927452,
-      "kl": 5.296875,
-      "learning_rate": 7.797443130602226e-07,
-      "loss": 0.9858,
-      "reward": 1.9784066081047058,
-      "reward_std": 0.8380246162414551,
-      "rewards/accuracy_reward": 0.3333333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.10145452991127968,
-      "rewards/tag_count_reward": 0.7812500298023224,
+      "completion_length": 441.93751525878906,
+      "epoch": 0.5813782991202346,
+      "grad_norm": 3.227299361726288,
+      "kl": 0.3525390625,
+      "learning_rate": 5.01129212767613e-07,
+      "loss": 0.0012,
+      "reward": 2.1776065826416016,
+      "reward_std": 0.25459666550159454,
+      "rewards/accuracy_reward": 0.2291666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03593523986637592,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 793
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 600.875,
-      "epoch": 0.397,
-      "grad_norm": 18.410765045440638,
-      "kl": 2.9765625,
-      "learning_rate": 7.79068637087667e-07,
-      "loss": 0.643,
-      "reward": 2.441210389137268,
-      "reward_std": 0.3568989485502243,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9791667461395264,
-      "rewards/repetition_penalty_reward": -0.08483139425516129,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 483.5208435058594,
+      "epoch": 0.5821114369501467,
+      "grad_norm": 14.106380781519254,
+      "kl": 0.423828125,
+      "learning_rate": 4.999840155775309e-07,
+      "loss": 0.1497,
+      "reward": 2.129902422428131,
+      "reward_std": 0.27987994998693466,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03676432091742754,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 794
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 436.79168701171875,
-      "epoch": 0.3975,
-      "grad_norm": 10.317344532371504,
-      "kl": 1.23046875,
-      "learning_rate": 7.783922633323169e-07,
-      "loss": 0.2964,
-      "reward": 2.6988085508346558,
-      "reward_std": 0.543820321559906,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.07896940223872662,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 462.1875,
+      "epoch": 0.5828445747800587,
+      "grad_norm": 2.6873106735549945,
+      "kl": 0.333984375,
+      "learning_rate": 4.988391462706778e-07,
+      "loss": -0.0256,
+      "reward": 2.383494257926941,
+      "reward_std": 0.4004615694284439,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04358913190662861,
+      "rewards/tag_count_reward": 0.96875,
       "step": 795
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 542.0416870117188,
-      "epoch": 0.398,
-      "grad_norm": 20.086888963335625,
-      "kl": 3.09375,
-      "learning_rate": 7.777151938545235e-07,
-      "loss": 0.6306,
-      "reward": 2.3561642169952393,
-      "reward_std": 0.7507622838020325,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.10737751796841621,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 512.0833587646484,
+      "epoch": 0.5835777126099707,
+      "grad_norm": 61.545096621591924,
+      "kl": 0.833984375,
+      "learning_rate": 4.976946123523238e-07,
+      "loss": 0.3688,
+      "reward": 1.9309577345848083,
+      "reward_std": 0.21935289353132248,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03779237158596516,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 796
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 419.9375,
-      "epoch": 0.3985,
-      "grad_norm": 13.37138079802378,
-      "kl": 0.71484375,
-      "learning_rate": 7.770374307167585e-07,
-      "loss": 0.378,
-      "reward": 2.7522013187408447,
-      "reward_std": 0.4279877096414566,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.05335431918501854,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 525.0833587646484,
+      "epoch": 0.5843108504398827,
+      "grad_norm": 22.68360336288523,
+      "kl": 0.583984375,
+      "learning_rate": 4.965504213255394e-07,
+      "loss": 0.1888,
+      "reward": 2.5947617292404175,
+      "reward_std": 0.2748841196298599,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0302383815869689,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 797
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.2500305175781,
-      "epoch": 0.399,
-      "grad_norm": 27.70225468914978,
-      "kl": 2.796875,
-      "learning_rate": 7.763589759836058e-07,
-      "loss": 0.6997,
-      "reward": 2.363113760948181,
-      "reward_std": 0.67525914311409,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.13341398537158966,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 513.7916717529297,
+      "epoch": 0.5850439882697948,
+      "grad_norm": 10.564895085544316,
+      "kl": 0.615234375,
+      "learning_rate": 4.954065806911479e-07,
+      "loss": 0.1524,
+      "reward": 2.284646213054657,
+      "reward_std": 0.31503356993198395,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04347882606089115,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 798
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 870.6666870117188,
-      "epoch": 0.3995,
-      "grad_norm": 15.870305020089033,
-      "kl": 3.0859375,
-      "learning_rate": 7.756798317217558e-07,
-      "loss": 0.8678,
-      "reward": 1.9343020915985107,
-      "reward_std": 0.7617403268814087,
-      "rewards/accuracy_reward": 0.3750000149011612,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.20458681881427765,
-      "rewards/tag_count_reward": 0.8125,
+      "completion_length": 531.8333435058594,
+      "epoch": 0.5857771260997068,
+      "grad_norm": 2.2790864512290345,
+      "kl": 0.2880859375,
+      "learning_rate": 4.942630979476751e-07,
+      "loss": -0.002,
+      "reward": 2.2442930936813354,
+      "reward_std": 0.29676416516304016,
+      "rewards/accuracy_reward": 0.2916666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03695691470056772,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 799
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 647.75,
-      "epoch": 0.4,
-      "grad_norm": 12.665956910806365,
-      "kl": 1.33203125,
-      "learning_rate": 7.75e-07,
-      "loss": 0.6692,
-      "reward": 2.246774673461914,
-      "reward_std": 0.6763182580471039,
-      "rewards/accuracy_reward": 0.5208333358168602,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.15079493820667267,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 511.06251525878906,
+      "epoch": 0.5865102639296188,
+      "grad_norm": 6.579082854864219,
+      "kl": 0.8193359375,
+      "learning_rate": 4.931199805913011e-07,
+      "loss": 0.1724,
+      "reward": 2.698206305503845,
+      "reward_std": 0.3876982778310776,
+      "rewards/accuracy_reward": 0.7500000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.036168841645121574,
+      "rewards/tag_count_reward": 0.984375,
       "step": 800
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 515.3750305175781,
-      "epoch": 0.4005,
-      "grad_norm": 11.953588265183154,
-      "kl": 0.8115234375,
-      "learning_rate": 7.743194828892235e-07,
-      "loss": 0.4331,
-      "reward": 2.6169031858444214,
-      "reward_std": 0.5906797051429749,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.10011079534888268,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 472.1458435058594,
+      "epoch": 0.5872434017595308,
+      "grad_norm": 2.41829385323641,
+      "kl": 0.3115234375,
+      "learning_rate": 4.919772361158101e-07,
+      "loss": 0.0349,
+      "reward": 2.018336534500122,
+      "reward_std": 0.15515825897455215,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03374684602022171,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 801
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 601.0625152587891,
-      "epoch": 0.401,
-      "grad_norm": 11.261392190054263,
-      "kl": 1.77734375,
-      "learning_rate": 7.736382824623999e-07,
-      "loss": 0.8205,
-      "reward": 2.2957258224487305,
-      "reward_std": 0.8579961359500885,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.909722238779068,
-      "rewards/repetition_penalty_reward": -0.15045488253235817,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 553.0625305175781,
+      "epoch": 0.5879765395894428,
+      "grad_norm": 19.929897025421052,
+      "kl": 0.794921875,
+      "learning_rate": 4.908348720125425e-07,
+      "loss": 0.387,
+      "reward": 2.131339430809021,
+      "reward_std": 0.3124546855688095,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.05963288061320782,
+      "rewards/tag_count_reward": 0.96875,
       "step": 802
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 513.75,
-      "epoch": 0.4015,
-      "grad_norm": 7.271737188658035,
-      "kl": 1.1640625,
-      "learning_rate": 7.729564007945834e-07,
-      "loss": 0.5417,
-      "reward": 2.590050458908081,
-      "reward_std": 0.43862822093069553,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.13390799798071384,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 510.9166717529297,
+      "epoch": 0.5887096774193549,
+      "grad_norm": 2.518606038282831,
+      "kl": 0.3056640625,
+      "learning_rate": 4.896928957703449e-07,
+      "loss": -0.0062,
+      "reward": 2.529616117477417,
+      "reward_std": 0.34028075635433197,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027675677090883255,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 803
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 619.6666870117188,
-      "epoch": 0.402,
-      "grad_norm": 12.068916347239274,
-      "kl": 1.515625,
-      "learning_rate": 7.72273839962904e-07,
-      "loss": 0.6556,
-      "reward": 2.3289283514022827,
-      "reward_std": 0.6953560709953308,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.14503009244799614,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 542.8125152587891,
+      "epoch": 0.5894428152492669,
+      "grad_norm": 2.3826860767082434,
+      "kl": 0.296875,
+      "learning_rate": 4.885513148755207e-07,
+      "loss": 0.0078,
+      "reward": 2.4222702980041504,
+      "reward_std": 0.10937895812094212,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0360631225630641,
+      "rewards/tag_count_reward": 1.0,
       "step": 804
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.06251525878906,
-      "epoch": 0.4025,
-      "grad_norm": 7.004105215955508,
-      "kl": 1.224609375,
-      "learning_rate": 7.715906020465602e-07,
-      "loss": 0.51,
-      "reward": 2.6324926614761353,
-      "reward_std": 0.42844393849372864,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.10535471886396408,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 461.9583435058594,
+      "epoch": 0.5901759530791789,
+      "grad_norm": 2.994895720204756,
+      "kl": 0.3349609375,
+      "learning_rate": 4.874101368117825e-07,
+      "loss": 0.0334,
+      "reward": 2.157669723033905,
+      "reward_std": 0.14807479828596115,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03851080499589443,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 805
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 571.7916717529297,
-      "epoch": 0.403,
-      "grad_norm": 15.381900062308238,
-      "kl": 1.984375,
-      "learning_rate": 7.709066891268133e-07,
-      "loss": 0.5004,
-      "reward": 2.460014581680298,
-      "reward_std": 0.6100521683692932,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.14241605252027512,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 705.8125,
+      "epoch": 0.5909090909090909,
+      "grad_norm": 6.6598445557207775,
+      "kl": 1.083984375,
+      "learning_rate": 4.862693690602015e-07,
+      "loss": 0.2519,
+      "reward": 1.9881237149238586,
+      "reward_std": 0.6753402352333069,
+      "rewards/accuracy_reward": 0.3125000149011612,
+      "rewards/reasoning_steps_reward": 0.9305556416511536,
+      "rewards/repetition_penalty_reward": -0.1455569975078106,
+      "rewards/tag_count_reward": 0.890625,
       "step": 806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 360.31251525878906,
-      "epoch": 0.4035,
-      "grad_norm": 5.503594150237046,
-      "kl": 0.3388671875,
-      "learning_rate": 7.702221032869808e-07,
-      "loss": 0.1863,
-      "reward": 2.5507017374038696,
-      "reward_std": 0.32198452949523926,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.06388161890208721,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 462.1875305175781,
+      "epoch": 0.591642228739003,
+      "grad_norm": 2.535021258369295,
+      "kl": 0.3037109375,
+      "learning_rate": 4.851290190991592e-07,
+      "loss": 0.0369,
+      "reward": 2.1697142124176025,
+      "reward_std": 0.22860877960920334,
+      "rewards/accuracy_reward": 0.2083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03861923888325691,
+      "rewards/tag_count_reward": 1.0,
       "step": 807
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 360.25,
-      "epoch": 0.404,
-      "grad_norm": 11.719601907986142,
-      "kl": 0.39794921875,
-      "learning_rate": 7.695368466124296e-07,
-      "loss": 0.0649,
-      "reward": 2.8640111684799194,
-      "reward_std": 0.24921771883964539,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.052655573934316635,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 528.8541717529297,
+      "epoch": 0.592375366568915,
+      "grad_norm": 8.442938463472068,
+      "kl": 0.548828125,
+      "learning_rate": 4.839890944042982e-07,
+      "loss": 0.4029,
+      "reward": 2.536786675453186,
+      "reward_std": 0.5133970677852631,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.07085224241018295,
+      "rewards/tag_count_reward": 0.96875,
       "step": 808
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 489.6666717529297,
-      "epoch": 0.4045,
-      "grad_norm": 16.98625822145741,
-      "kl": 0.5205078125,
-      "learning_rate": 7.688509211905707e-07,
-      "loss": 0.6203,
-      "reward": 2.476475715637207,
-      "reward_std": 0.7080457210540771,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.08949651196599007,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 602.8750305175781,
+      "epoch": 0.593108504398827,
+      "grad_norm": 9.598470869048404,
+      "kl": 0.681640625,
+      "learning_rate": 4.828496024484737e-07,
+      "loss": 0.563,
+      "reward": 2.4663429260253906,
+      "reward_std": 0.6941099762916565,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.11351823806762695,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 809
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 439.5208435058594,
-      "epoch": 0.405,
-      "grad_norm": 12.748082551046092,
-      "kl": 0.71875,
-      "learning_rate": 7.681643291108517e-07,
-      "loss": 0.3463,
-      "reward": 2.565284848213196,
-      "reward_std": 0.4373869299888611,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.07186824828386307,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 578.7916870117188,
+      "epoch": 0.593841642228739,
+      "grad_norm": 6.7043292538402355,
+      "kl": 0.5751953125,
+      "learning_rate": 4.817105507017031e-07,
+      "loss": 0.3073,
+      "reward": 2.1016518473625183,
+      "reward_std": 0.38975587766617537,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.06848715990781784,
+      "rewards/tag_count_reward": 0.96875,
       "step": 810
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 732.1875305175781,
-      "epoch": 0.4055,
-      "grad_norm": 48.03197567653632,
-      "kl": 1.46875,
-      "learning_rate": 7.67477072464751e-07,
-      "loss": 0.6842,
-      "reward": 1.9572343230247498,
-      "reward_std": 0.734717458486557,
-      "rewards/accuracy_reward": 0.4375000223517418,
-      "rewards/reasoning_steps_reward": 0.881944477558136,
-      "rewards/repetition_penalty_reward": -0.20596013963222504,
-      "rewards/tag_count_reward": 0.8437500298023224,
+      "completion_length": 561.8541870117188,
+      "epoch": 0.594574780058651,
+      "grad_norm": 5.364924944020763,
+      "kl": 0.5087890625,
+      "learning_rate": 4.80571946631119e-07,
+      "loss": 0.2888,
+      "reward": 2.335654377937317,
+      "reward_std": 0.3818696141242981,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.07754014804959297,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 811
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 474.5,
-      "epoch": 0.406,
-      "grad_norm": 36.55159806207502,
-      "kl": 2.560546875,
-      "learning_rate": 7.667891533457718e-07,
-      "loss": 0.3356,
-      "reward": 2.531466484069824,
-      "reward_std": 0.40393590182065964,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.09179743006825447,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 629.6041870117188,
+      "epoch": 0.5953079178885631,
+      "grad_norm": 17.22316737485544,
+      "kl": 0.83203125,
+      "learning_rate": 4.794337977009185e-07,
+      "loss": 0.4649,
+      "reward": 2.1872715950012207,
+      "reward_std": 0.6461509764194489,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9513889253139496,
+      "rewards/repetition_penalty_reward": -0.11307556927204132,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 812
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 486.1875,
-      "epoch": 0.4065,
-      "grad_norm": 501.2023762121776,
-      "kl": 10.4375,
-      "learning_rate": 7.661005738494349e-07,
-      "loss": 1.8999,
-      "reward": 2.5981922149658203,
-      "reward_std": 0.7066002190113068,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.09451625496149063,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 497.0833435058594,
+      "epoch": 0.5960410557184751,
+      "grad_norm": 4.506049614552083,
+      "kl": 0.392578125,
+      "learning_rate": 4.782961113723155e-07,
+      "loss": 0.0013,
+      "reward": 2.4307708740234375,
+      "reward_std": 0.21797269582748413,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03277082648128271,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 813
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 753.5000305175781,
-      "epoch": 0.407,
-      "grad_norm": 356.97977721564547,
-      "kl": 15.0,
-      "learning_rate": 7.654113360732732e-07,
-      "loss": 1.628,
-      "reward": 2.165995717048645,
-      "reward_std": 0.8618307709693909,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.19858761131763458,
-      "rewards/tag_count_reward": 0.8437500298023224,
+      "completion_length": 501.04168701171875,
+      "epoch": 0.5967741935483871,
+      "grad_norm": 5.653050177842232,
+      "kl": 0.359375,
+      "learning_rate": 4.771588951034908e-07,
+      "loss": 0.0841,
+      "reward": 2.136378526687622,
+      "reward_std": 0.18476275354623795,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04070477373898029,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 814
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 499.125,
-      "epoch": 0.4075,
-      "grad_norm": 123.33805411679445,
-      "kl": 4.54296875,
-      "learning_rate": 7.647214421168238e-07,
-      "loss": 1.0472,
-      "reward": 2.6111273765563965,
-      "reward_std": 0.6222415566444397,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.11283096671104431,
+      "completion_length": 592.3958435058594,
+      "epoch": 0.5975073313782991,
+      "grad_norm": 8.107659270152181,
+      "kl": 0.677734375,
+      "learning_rate": 4.760221563495442e-07,
+      "loss": 0.4121,
+      "reward": 1.859411895275116,
+      "reward_std": 0.30691710114479065,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.0728798434138298,
       "rewards/tag_count_reward": 0.953125,
       "step": 815
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 623.5625305175781,
-      "epoch": 0.408,
-      "grad_norm": 111.86522019096887,
-      "kl": 1.94921875,
-      "learning_rate": 7.640308940816239e-07,
-      "loss": 1.0335,
-      "reward": 2.26309335231781,
-      "reward_std": 0.8162707686424255,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.15010132268071175,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 603.2083587646484,
+      "epoch": 0.5982404692082112,
+      "grad_norm": 8.61441795310822,
+      "kl": 0.8076171875,
+      "learning_rate": 4.7488590256244464e-07,
+      "loss": 0.27,
+      "reward": 2.0655227303504944,
+      "reward_std": 0.2962368158623576,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.06815778650343418,
+      "rewards/tag_count_reward": 0.953125,
       "step": 816
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 818.4166870117188,
-      "epoch": 0.4085,
-      "grad_norm": 53.005862638537856,
-      "kl": 2.6171875,
-      "learning_rate": 7.633396940712023e-07,
-      "loss": 0.7982,
-      "reward": 2.1612285375595093,
-      "reward_std": 1.055372416973114,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.21550768613815308,
-      "rewards/tag_count_reward": 0.8072916865348816,
+      "completion_length": 573.8750305175781,
+      "epoch": 0.5989736070381232,
+      "grad_norm": 5.521496682273347,
+      "kl": 0.4189453125,
+      "learning_rate": 4.737501411909823e-07,
+      "loss": 0.1851,
+      "reward": 1.9504121541976929,
+      "reward_std": 0.07043480267748237,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04437953233718872,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 817
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 524.6041717529297,
-      "epoch": 0.409,
-      "grad_norm": 35.60976729675571,
-      "kl": 2.546875,
-      "learning_rate": 7.626478441910744e-07,
-      "loss": 0.826,
-      "reward": 2.595088481903076,
-      "reward_std": 0.6593966484069824,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9374999701976776,
-      "rewards/repetition_penalty_reward": -0.1132449209690094,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 634.0208435058594,
+      "epoch": 0.5997067448680352,
+      "grad_norm": 48.31708229348907,
+      "kl": 0.8837890625,
+      "learning_rate": 4.726148796807189e-07,
+      "loss": 0.4391,
+      "reward": 2.511850595474243,
+      "reward_std": 0.4401156660169363,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.09752444550395012,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 818
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 432.0833435058594,
-      "epoch": 0.4095,
-      "grad_norm": 15.736710234210651,
-      "kl": 1.71875,
-      "learning_rate": 7.619553465487344e-07,
-      "loss": 0.5061,
-      "reward": 2.743853211402893,
-      "reward_std": 0.557222306728363,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.08774404600262642,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 600.6041870117188,
+      "epoch": 0.6004398826979472,
+      "grad_norm": 18.48522146272581,
+      "kl": 0.591796875,
+      "learning_rate": 4.7148012547393925e-07,
+      "loss": 0.3583,
+      "reward": 2.0937827825546265,
+      "reward_std": 0.4004402905702591,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.07462002336978912,
+      "rewards/tag_count_reward": 0.953125,
       "step": 819
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 654.4583435058594,
-      "epoch": 0.41,
-      "grad_norm": 55.05386297781122,
-      "kl": 2.859375,
-      "learning_rate": 7.612622032536507e-07,
-      "loss": 0.8643,
-      "reward": 2.1351473927497864,
-      "reward_std": 0.6679968535900116,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.161727674305439,
-      "rewards/tag_count_reward": 0.859375,
+      "completion_length": 534.0625,
+      "epoch": 0.6011730205278593,
+      "grad_norm": 25.1154484599897,
+      "kl": 0.5087890625,
+      "learning_rate": 4.703458860096029e-07,
+      "loss": 0.3437,
+      "reward": 2.3650914430618286,
+      "reward_std": 0.36587995290756226,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.056783514097332954,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 820
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 502.00001525878906,
-      "epoch": 0.4105,
-      "grad_norm": 13.566998114200823,
-      "kl": 0.576171875,
-      "learning_rate": 7.60568416417258e-07,
-      "loss": 0.2932,
-      "reward": 2.584618330001831,
-      "reward_std": 0.4659956693649292,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.13586794957518578,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 601.9583435058594,
+      "epoch": 0.6019061583577713,
+      "grad_norm": 56.1391698496597,
+      "kl": 0.55859375,
+      "learning_rate": 4.692121687232947e-07,
+      "loss": 0.4509,
+      "reward": 2.358267903327942,
+      "reward_std": 0.37750261276960373,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.07228780351579189,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 821
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 629.7500305175781,
-      "epoch": 0.411,
-      "grad_norm": 30.139911446994017,
-      "kl": 1.54296875,
-      "learning_rate": 7.59873988152951e-07,
-      "loss": 0.6395,
-      "reward": 2.022117495536804,
-      "reward_std": 0.9050773084163666,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.8750000894069672,
-      "rewards/repetition_penalty_reward": -0.1445491872727871,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 690.8541870117188,
+      "epoch": 0.6026392961876833,
+      "grad_norm": 77.0977681349766,
+      "kl": 0.80078125,
+      "learning_rate": 4.6807898104717646e-07,
+      "loss": 0.4843,
+      "reward": 2.49636173248291,
+      "reward_std": 0.5223219692707062,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.09912440925836563,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 822
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 747.7500305175781,
-      "epoch": 0.4115,
-      "grad_norm": 33.95615169187785,
-      "kl": 1.16796875,
-      "learning_rate": 7.591789205760789e-07,
-      "loss": 0.7839,
-      "reward": 1.9424059987068176,
-      "reward_std": 0.8640447556972504,
-      "rewards/accuracy_reward": 0.33333333395421505,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.19474690407514572,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 659.8333740234375,
+      "epoch": 0.6033724340175953,
+      "grad_norm": 90.83371935104837,
+      "kl": 0.78125,
+      "learning_rate": 4.669463304099378e-07,
+      "loss": 0.4246,
+      "reward": 2.3206570148468018,
+      "reward_std": 0.3920210897922516,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.06475986167788506,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 823
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 561.3541717529297,
-      "epoch": 0.412,
-      "grad_norm": 8.156901607192008,
-      "kl": 0.73828125,
-      "learning_rate": 7.584832158039378e-07,
-      "loss": 0.1677,
-      "reward": 2.5275344848632812,
-      "reward_std": 0.3939831107854843,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.12871567159891129,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 557.8958435058594,
+      "epoch": 0.6041055718475073,
+      "grad_norm": 83.46788794993483,
+      "kl": 0.486328125,
+      "learning_rate": 4.658142242367481e-07,
+      "loss": 0.2377,
+      "reward": 1.9662054181098938,
+      "reward_std": 0.24156315624713898,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03900298476219177,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 824
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 607.4166870117188,
-      "epoch": 0.4125,
-      "grad_norm": 17.24978480660208,
-      "kl": 1.37109375,
-      "learning_rate": 7.577868759557653e-07,
-      "loss": 0.6142,
-      "reward": 2.3871285915374756,
-      "reward_std": 0.7968339771032333,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.17189929634332657,
-      "rewards/tag_count_reward": 0.8645833730697632,
+      "completion_length": 594.4166870117188,
+      "epoch": 0.6048387096774194,
+      "grad_norm": 99.53659085190704,
+      "kl": 0.501953125,
+      "learning_rate": 4.6468266994920725e-07,
+      "loss": 0.3287,
+      "reward": 2.660859227180481,
+      "reward_std": 0.20507730171084404,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04052967391908169,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 825
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 839.1250305175781,
-      "epoch": 0.413,
-      "grad_norm": 20.131860885223457,
-      "kl": 1.71875,
-      "learning_rate": 7.570899031527332e-07,
-      "loss": 0.5612,
-      "reward": 2.0470434427261353,
-      "reward_std": 0.7597078531980515,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.24635940790176392,
-      "rewards/tag_count_reward": 0.7864583432674408,
+      "completion_length": 628.0625,
+      "epoch": 0.6055718475073314,
+      "grad_norm": 107.50085509256628,
+      "kl": 1.2265625,
+      "learning_rate": 4.6355167496529736e-07,
+      "loss": 0.4649,
+      "reward": 2.8116308450698853,
+      "reward_std": 0.42871353030204773,
+      "rewards/accuracy_reward": 0.8958333730697632,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.037327712401747704,
+      "rewards/tag_count_reward": 0.953125,
       "step": 826
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 628.4375305175781,
-      "epoch": 0.4135,
-      "grad_norm": 21.15993434326557,
-      "kl": 0.99609375,
-      "learning_rate": 7.563922995179418e-07,
-      "loss": 0.5685,
-      "reward": 2.4131293296813965,
-      "reward_std": 0.7387427687644958,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.14416248351335526,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 563.1041870117188,
+      "epoch": 0.6063049853372434,
+      "grad_norm": 2.173496981310859,
+      "kl": 0.2783203125,
+      "learning_rate": 4.624212466993338e-07,
+      "loss": 0.0277,
+      "reward": 2.7007949352264404,
+      "reward_std": 0.0959350299090147,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023163380101323128,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 827
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 370.8333435058594,
-      "epoch": 0.414,
-      "grad_norm": 12.527599564815661,
-      "kl": 0.3623046875,
-      "learning_rate": 7.556940671764124e-07,
-      "loss": 0.1614,
-      "reward": 2.8723835945129395,
-      "reward_std": 0.15300642838701606,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.061644500121474266,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 584.0833435058594,
+      "epoch": 0.6070381231671554,
+      "grad_norm": 103.29060562834302,
+      "kl": 0.4951171875,
+      "learning_rate": 4.6129139256191694e-07,
+      "loss": 0.221,
+      "reward": 2.6394749879837036,
+      "reward_std": 0.2795245796442032,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03240011818706989,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 828
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 981.0625305175781,
-      "epoch": 0.4145,
-      "grad_norm": 29.125329174569146,
-      "kl": 1.6484375,
-      "learning_rate": 7.54995208255082e-07,
-      "loss": 0.6239,
-      "reward": 1.5005772113800049,
-      "reward_std": 0.6931151449680328,
-      "rewards/accuracy_reward": 0.10416666977107525,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.11227016523480415,
-      "rewards/tag_count_reward": 0.6197916865348816,
+      "completion_length": 502.91668701171875,
+      "epoch": 0.6077712609970675,
+      "grad_norm": 39.15109601141074,
+      "kl": 0.3662109375,
+      "learning_rate": 4.6016211995988354e-07,
+      "loss": 0.1692,
+      "reward": 2.188190758228302,
+      "reward_std": 0.11946690082550049,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030559342354536057,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 829
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 652.4375,
-      "epoch": 0.415,
-      "grad_norm": 29.203264211648943,
-      "kl": 0.794921875,
-      "learning_rate": 7.54295724882796e-07,
-      "loss": 0.6498,
-      "reward": 2.3145864009857178,
-      "reward_std": 0.7329890131950378,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.8819445073604584,
-      "rewards/repetition_penalty_reward": -0.04652494750916958,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 564.4791870117188,
+      "epoch": 0.6085043988269795,
+      "grad_norm": 38.62440550306976,
+      "kl": 0.5986328125,
+      "learning_rate": 4.590334362962576e-07,
+      "loss": 0.1895,
+      "reward": 2.1769083738327026,
+      "reward_std": 0.1629810556769371,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.027952796779572964,
+      "rewards/tag_count_reward": 0.96875,
       "step": 830
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 405.5625,
-      "epoch": 0.4155,
-      "grad_norm": 9.688376442723252,
-      "kl": 0.556640625,
-      "learning_rate": 7.535956191903021e-07,
-      "loss": 0.1869,
-      "reward": 2.5234345197677612,
-      "reward_std": 0.46155112981796265,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.04080154746770859,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 565.9791870117188,
+      "epoch": 0.6092375366568915,
+      "grad_norm": 58.04515466935745,
+      "kl": 0.92578125,
+      "learning_rate": 4.579053489702027e-07,
+      "loss": 0.3217,
+      "reward": 1.8493124842643738,
+      "reward_std": 0.23448748886585236,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.04304862767457962,
+      "rewards/tag_count_reward": 0.90625,
       "step": 831
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 313.81251525878906,
-      "epoch": 0.416,
-      "grad_norm": 15.677158884669252,
-      "kl": 0.33837890625,
-      "learning_rate": 7.528948933102438e-07,
-      "loss": 0.2505,
-      "reward": 2.81933856010437,
-      "reward_std": 0.3189728558063507,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.958333432674408,
-      "rewards/repetition_penalty_reward": -0.02441159961745143,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 531.1041870117188,
+      "epoch": 0.6099706744868035,
+      "grad_norm": 38.13203675394943,
+      "kl": 0.623046875,
+      "learning_rate": 4.5677786537697305e-07,
+      "loss": 0.1495,
+      "reward": 2.393915832042694,
+      "reward_std": 0.2697073072195053,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.029695474542677402,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 832
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 471.9791717529297,
-      "epoch": 0.4165,
-      "grad_norm": 24.249907996018568,
-      "kl": 0.767578125,
-      "learning_rate": 7.521935493771534e-07,
-      "loss": 0.418,
-      "reward": 2.4950411319732666,
-      "reward_std": 0.7277962416410446,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.03620896954089403,
-      "rewards/tag_count_reward": 0.8645833730697632,
+      "completion_length": 600.7916870117188,
+      "epoch": 0.6107038123167156,
+      "grad_norm": 49.182375386745534,
+      "kl": 0.73828125,
+      "learning_rate": 4.5565099290786503e-07,
+      "loss": 0.2963,
+      "reward": 2.4932984113693237,
+      "reward_std": 0.4969503581523895,
+      "rewards/accuracy_reward": 0.6250000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.032743205316364765,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 833
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 396.56251525878906,
-      "epoch": 0.417,
-      "grad_norm": 9.707239836993917,
-      "kl": 0.5439453125,
-      "learning_rate": 7.514915895274463e-07,
-      "loss": 0.2468,
-      "reward": 2.515194535255432,
-      "reward_std": 0.30929915606975555,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.03862500563263893,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 580.0416870117188,
+      "epoch": 0.6114369501466276,
+      "grad_norm": 41.51590481283137,
+      "kl": 1.5390625,
+      "learning_rate": 4.545247389501683e-07,
+      "loss": 0.2424,
+      "reward": 2.3008153438568115,
+      "reward_std": 0.44770413637161255,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02904599905014038,
+      "rewards/tag_count_reward": 0.90625,
       "step": 834
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 620.3333435058594,
-      "epoch": 0.4175,
-      "grad_norm": 17.508594529679065,
-      "kl": 1.17578125,
-      "learning_rate": 7.507890158994139e-07,
-      "loss": 0.5817,
-      "reward": 2.4108619689941406,
-      "reward_std": 0.8157097101211548,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.028374179266393185,
-      "rewards/tag_count_reward": 0.7864583432674408,
+      "completion_length": 542.4791870117188,
+      "epoch": 0.6121700879765396,
+      "grad_norm": 8.246011895143058,
+      "kl": 0.498046875,
+      "learning_rate": 4.533991108871187e-07,
+      "loss": 0.0343,
+      "reward": 2.6834018230438232,
+      "reward_std": 0.13353276997804642,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030139826238155365,
+      "rewards/tag_count_reward": 0.984375,
       "step": 835
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 676.0416870117188,
-      "epoch": 0.418,
-      "grad_norm": 10.440509283265795,
-      "kl": 1.5859375,
-      "learning_rate": 7.500858306332172e-07,
-      "loss": 0.7901,
-      "reward": 2.2338361740112305,
-      "reward_std": 0.7627847492694855,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.024844415485858917,
-      "rewards/tag_count_reward": 0.7447916865348816,
+      "completion_length": 482.0,
+      "epoch": 0.6129032258064516,
+      "grad_norm": 6.039794360121051,
+      "kl": 0.6142578125,
+      "learning_rate": 4.5227411609784815e-07,
+      "loss": -0.0113,
+      "reward": 1.8693063855171204,
+      "reward_std": 0.24499638378620148,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.958333432674408,
+      "rewards/repetition_penalty_reward": -0.031735366210341454,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 836
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 726.2083435058594,
-      "epoch": 0.4185,
-      "grad_norm": 15.62225883232442,
-      "kl": 2.19921875,
-      "learning_rate": 7.493820358708809e-07,
-      "loss": 0.7195,
-      "reward": 2.36660635471344,
-      "reward_std": 0.7908368110656738,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.018810252659022808,
-      "rewards/tag_count_reward": 0.7812500298023224,
+      "completion_length": 510.4375305175781,
+      "epoch": 0.6136363636363636,
+      "grad_norm": 8.66036724884791,
+      "kl": 0.568359375,
+      "learning_rate": 4.5114976195733765e-07,
+      "loss": 0.0996,
+      "reward": 2.1761062145233154,
+      "reward_std": 0.3079090416431427,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03743559028953314,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 837
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 925.7291870117188,
-      "epoch": 0.419,
-      "grad_norm": 17.894574750635286,
-      "kl": 3.9296875,
-      "learning_rate": 7.486776337562853e-07,
-      "loss": 0.7237,
-      "reward": 1.4900822043418884,
-      "reward_std": 0.6835044920444489,
-      "rewards/accuracy_reward": 0.0833333358168602,
-      "rewards/reasoning_steps_reward": 0.847222238779068,
-      "rewards/repetition_penalty_reward": -0.023806744255125523,
-      "rewards/tag_count_reward": 0.5833333432674408,
+      "completion_length": 580.7083435058594,
+      "epoch": 0.6143695014662757,
+      "grad_norm": 18.181326014032848,
+      "kl": 1.322265625,
+      "learning_rate": 4.50026055836368e-07,
+      "loss": 0.2942,
+      "reward": 2.2245534658432007,
+      "reward_std": 0.4769989103078842,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.025446675717830658,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 838
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 497.8125305175781,
-      "epoch": 0.4195,
-      "grad_norm": 6.541740244547362,
-      "kl": 1.78515625,
-      "learning_rate": 7.479726264351618e-07,
-      "loss": 0.6408,
-      "reward": 2.4577986001968384,
-      "reward_std": 0.5397596657276154,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9513888657093048,
-      "rewards/repetition_penalty_reward": -0.030048648826777935,
+      "completion_length": 559.7916870117188,
+      "epoch": 0.6151026392961877,
+      "grad_norm": 19.95718172965576,
+      "kl": 2.0390625,
+      "learning_rate": 4.4890300510147227e-07,
+      "loss": 0.346,
+      "reward": 2.209823966026306,
+      "reward_std": 0.5654549300670624,
+      "rewards/accuracy_reward": 0.41666667722165585,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.034967634826898575,
       "rewards/tag_count_reward": 0.8489583432674408,
       "step": 839
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 691.0416870117188,
-      "epoch": 0.42,
-      "grad_norm": 12.527206541745974,
-      "kl": 2.6484375,
-      "learning_rate": 7.472670160550848e-07,
-      "loss": 0.694,
-      "reward": 1.9736045598983765,
-      "reward_std": 0.6236002445220947,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.04722887650132179,
-      "rewards/tag_count_reward": 0.75,
+      "completion_length": 536.8750305175781,
+      "epoch": 0.6158357771260997,
+      "grad_norm": 17.575865868504714,
+      "kl": 2.046875,
+      "learning_rate": 4.477806171148866e-07,
+      "loss": 0.2612,
+      "reward": 2.2379040718078613,
+      "reward_std": 0.5341173410415649,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.027721069753170013,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 840
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 454.9375,
-      "epoch": 0.4205,
-      "grad_norm": 6.487598751220338,
-      "kl": 1.51953125,
-      "learning_rate": 7.46560804765466e-07,
-      "loss": 0.4798,
-      "reward": 2.6140646934509277,
-      "reward_std": 0.6524476110935211,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.03350475896149874,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 578.4791870117188,
+      "epoch": 0.6165689149560117,
+      "grad_norm": 17.666580487382166,
+      "kl": 1.64453125,
+      "learning_rate": 4.4665889923450296e-07,
+      "loss": 0.3535,
+      "reward": 2.071997821331024,
+      "reward_std": 0.34587332606315613,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.0252243559807539,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 841
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 515.2708587646484,
-      "epoch": 0.421,
-      "grad_norm": 10.317644373992936,
-      "kl": 1.349609375,
-      "learning_rate": 7.458539947175473e-07,
-      "loss": 0.6031,
-      "reward": 2.220026969909668,
-      "reward_std": 0.5868920385837555,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.014348076190799475,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 644.1875305175781,
+      "epoch": 0.6173020527859238,
+      "grad_norm": 20.63550526329548,
+      "kl": 1.85546875,
+      "learning_rate": 4.455378588138199e-07,
+      "loss": 0.3912,
+      "reward": 2.285509705543518,
+      "reward_std": 0.3511117547750473,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.023518214002251625,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 842
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.35418701171875,
-      "epoch": 0.4215,
-      "grad_norm": 7.886525307085669,
-      "kl": 1.072265625,
-      "learning_rate": 7.45146588064395e-07,
-      "loss": 0.3578,
-      "reward": 2.5978939533233643,
-      "reward_std": 0.6561948955059052,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.04273105226457119,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 666.2916870117188,
+      "epoch": 0.6180351906158358,
+      "grad_norm": 36.605797933132436,
+      "kl": 2.40234375,
+      "learning_rate": 4.444175032018953e-07,
+      "loss": 0.4583,
+      "reward": 2.0598318576812744,
+      "reward_std": 0.4984627813100815,
+      "rewards/accuracy_reward": 0.2500000111758709,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.026973859407007694,
+      "rewards/tag_count_reward": 0.8645833730697632,
       "step": 843
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 324.1666717529297,
-      "epoch": 0.422,
-      "grad_norm": 4.37947548836921,
-      "kl": 0.30078125,
-      "learning_rate": 7.444385869608921e-07,
-      "loss": 0.0354,
-      "reward": 2.6675782203674316,
-      "reward_std": 0.17353395372629166,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03381069749593735,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 513.4791870117188,
+      "epoch": 0.6187683284457478,
+      "grad_norm": 24.959025179156438,
+      "kl": 1.7265625,
+      "learning_rate": 4.4329783974329725e-07,
+      "loss": 0.2129,
+      "reward": 2.3399888277053833,
+      "reward_std": 0.34585636854171753,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.024594685062766075,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 844
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 372.7083435058594,
-      "epoch": 0.4225,
-      "grad_norm": 18.876751039530795,
-      "kl": 1.12890625,
-      "learning_rate": 7.437299935637328e-07,
-      "loss": 0.45,
-      "reward": 2.5024070739746094,
-      "reward_std": 0.5223306268453598,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03231525328010321,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 592.8333740234375,
+      "epoch": 0.6195014662756598,
+      "grad_norm": 69.5951941998575,
+      "kl": 4.34375,
+      "learning_rate": 4.4217887577805715e-07,
+      "loss": 0.2437,
+      "reward": 2.0339152812957764,
+      "reward_std": 0.4007200002670288,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.025112648494541645,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 845
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 368.4583435058594,
-      "epoch": 0.423,
-      "grad_norm": 7.735517734052216,
-      "kl": 0.373046875,
-      "learning_rate": 7.430208100314156e-07,
-      "loss": 0.2957,
-      "reward": 2.737704277038574,
-      "reward_std": 0.41725849360227585,
-      "rewards/accuracy_reward": 0.8125,
+      "completion_length": 515.6041870117188,
+      "epoch": 0.6202346041055719,
+      "grad_norm": 5.858765632804924,
+      "kl": 0.4033203125,
+      "learning_rate": 4.410606186416196e-07,
+      "loss": 0.0125,
+      "reward": 2.3807249665260315,
+      "reward_std": 0.3000316321849823,
+      "rewards/accuracy_reward": 0.4375,
       "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.04701795056462288,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.018580769188702106,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 846
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.68751525878906,
-      "epoch": 0.4235,
-      "grad_norm": 4.3638722065625855,
-      "kl": 0.3779296875,
-      "learning_rate": 7.423110385242366e-07,
-      "loss": 0.0939,
-      "reward": 2.3006144762039185,
-      "reward_std": 0.29770078510046005,
-      "rewards/accuracy_reward": 0.3750000149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.032718876376748085,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 521.2291717529297,
+      "epoch": 0.6209677419354839,
+      "grad_norm": 4.655844732233269,
+      "kl": 0.619140625,
+      "learning_rate": 4.399430756647967e-07,
+      "loss": -0.0073,
+      "reward": 2.2223470211029053,
+      "reward_std": 0.12450448423624039,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.024180795066058636,
+      "rewards/tag_count_reward": 0.9895833730697632,
       "step": 847
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 337.2083435058594,
-      "epoch": 0.424,
-      "grad_norm": 9.281897298394469,
-      "kl": 0.65625,
-      "learning_rate": 7.416006812042827e-07,
-      "loss": 0.2155,
-      "reward": 2.708508014678955,
-      "reward_std": 0.40016093850135803,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06406151317059994,
-      "rewards/tag_count_reward": 0.9739583730697632,
+      "completion_length": 549.2083740234375,
+      "epoch": 0.6217008797653959,
+      "grad_norm": 52.630109847835854,
+      "kl": 1.5185546875,
+      "learning_rate": 4.3882625417371845e-07,
+      "loss": 0.2387,
+      "reward": 2.3624809980392456,
+      "reward_std": 0.3020096570253372,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03335241973400116,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 848
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 348.37501525878906,
-      "epoch": 0.4245,
-      "grad_norm": 9.904867829218396,
-      "kl": 0.6005859375,
-      "learning_rate": 7.408897402354255e-07,
-      "loss": 0.1548,
-      "reward": 2.447229743003845,
-      "reward_std": 0.3772226721048355,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.026728657074272633,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 605.5833435058594,
+      "epoch": 0.6224340175953079,
+      "grad_norm": 28.526409416857014,
+      "kl": 2.85546875,
+      "learning_rate": 4.377101614897846e-07,
+      "loss": 0.352,
+      "reward": 2.195107579231262,
+      "reward_std": 0.5218371152877808,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9652778506278992,
+      "rewards/repetition_penalty_reward": -0.03579512611031532,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 849
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 424.04168701171875,
-      "epoch": 0.425,
-      "grad_norm": 5.890746892326936,
-      "kl": 0.86328125,
-      "learning_rate": 7.401782177833147e-07,
-      "loss": 0.4768,
-      "reward": 2.3541191816329956,
-      "reward_std": 0.5978062450885773,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.05039471574127674,
+      "completion_length": 577.4166870117188,
+      "epoch": 0.6231671554252199,
+      "grad_norm": 37.260587944631546,
+      "kl": 0.650390625,
+      "learning_rate": 4.36594804929618e-07,
+      "loss": 0.2685,
+      "reward": 2.1056848764419556,
+      "reward_std": 0.3163499981164932,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.034940145909786224,
       "rewards/tag_count_reward": 0.9322916865348816,
       "step": 850
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 361.3958435058594,
-      "epoch": 0.4255,
-      "grad_norm": 19.104666432985564,
-      "kl": 0.65234375,
-      "learning_rate": 7.394661160153709e-07,
-      "loss": 0.4226,
-      "reward": 2.7522761821746826,
-      "reward_std": 0.5294878482818604,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.020293288864195347,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 567.8125305175781,
+      "epoch": 0.623900293255132,
+      "grad_norm": 33.15755307793014,
+      "kl": 0.625,
+      "learning_rate": 4.3548019180501507e-07,
+      "loss": 0.2817,
+      "reward": 2.364286184310913,
+      "reward_std": 0.4741703271865845,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.033283334225416183,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 851
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 398.9583435058594,
-      "epoch": 0.426,
-      "grad_norm": 7.305881246017198,
-      "kl": 0.7138671875,
-      "learning_rate": 7.387534371007797e-07,
-      "loss": 0.2967,
-      "reward": 2.524535655975342,
-      "reward_std": 0.29497088491916656,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.05706173926591873,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 598.2708435058594,
+      "epoch": 0.624633431085044,
+      "grad_norm": 36.042445713246025,
+      "kl": 1.0625,
+      "learning_rate": 4.3436632942289906e-07,
+      "loss": 0.3447,
+      "reward": 2.3856871128082275,
+      "reward_std": 0.2271340936422348,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02577120065689087,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 852
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.7291717529297,
-      "epoch": 0.4265,
-      "grad_norm": 4.07471559844156,
-      "kl": 0.3271484375,
-      "learning_rate": 7.380401832104845e-07,
-      "loss": 0.0466,
-      "reward": 2.9143292903900146,
-      "reward_std": 0.11590113118290901,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.044004119001328945,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 653.6250305175781,
+      "epoch": 0.625366568914956,
+      "grad_norm": 23.030611745917525,
+      "kl": 1.63671875,
+      "learning_rate": 4.332532250852714e-07,
+      "loss": 0.2798,
+      "reward": 2.5467569828033447,
+      "reward_std": 0.2622019178234041,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.029631933197379112,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 853
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.12501525878906,
-      "epoch": 0.427,
-      "grad_norm": 14.708604251307426,
-      "kl": 1.111328125,
-      "learning_rate": 7.373263565171805e-07,
-      "loss": 0.5831,
-      "reward": 2.3425523042678833,
-      "reward_std": 0.6779049038887024,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.020295153371989727,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 552.1250152587891,
+      "epoch": 0.626099706744868,
+      "grad_norm": 45.62070307646606,
+      "kl": 1.939453125,
+      "learning_rate": 4.3214088608916434e-07,
+      "loss": 0.3685,
+      "reward": 2.087291955947876,
+      "reward_std": 0.2783538084477186,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.029027479700744152,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 854
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 337.7916717529297,
-      "epoch": 0.4275,
-      "grad_norm": 11.608809720420162,
-      "kl": 0.7373046875,
-      "learning_rate": 7.366119591953075e-07,
-      "loss": 0.1999,
-      "reward": 2.80188250541687,
-      "reward_std": 0.3770581018179655,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.03492319490760565,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 482.3541717529297,
+      "epoch": 0.6268328445747801,
+      "grad_norm": 2.7971623845184217,
+      "kl": 0.3408203125,
+      "learning_rate": 4.310293197265925e-07,
+      "loss": 0.028,
+      "reward": 2.187386155128479,
+      "reward_std": 0.08395049534738064,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04178059101104736,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 855
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 514.4375,
-      "epoch": 0.428,
-      "grad_norm": 15.274727479273395,
-      "kl": 2.109375,
-      "learning_rate": 7.358969934210438e-07,
-      "loss": 0.4943,
-      "reward": 2.3344244956970215,
-      "reward_std": 0.38865962624549866,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.028422830160707235,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 597.6875305175781,
+      "epoch": 0.6275659824046921,
+      "grad_norm": 27.38210025221624,
+      "kl": 1.9375,
+      "learning_rate": 4.2991853328450614e-07,
+      "loss": 0.4026,
+      "reward": 2.115206718444824,
+      "reward_std": 0.2261986956000328,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03409888409078121,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 856
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 539.9166870117188,
-      "epoch": 0.4285,
-      "grad_norm": 21.14206646504488,
-      "kl": 2.140625,
-      "learning_rate": 7.35181461372299e-07,
-      "loss": 1.0918,
-      "reward": 2.400139808654785,
-      "reward_std": 0.6591689586639404,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9444443881511688,
-      "rewards/repetition_penalty_reward": -0.044304635375738144,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 473.4791717529297,
+      "epoch": 0.6282991202346041,
+      "grad_norm": 2.6566176387216998,
+      "kl": 0.322265625,
+      "learning_rate": 4.288085340447416e-07,
+      "loss": 0.0651,
+      "reward": 2.2131537199020386,
+      "reward_std": 0.01848464645445347,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0368463434278965,
+      "rewards/tag_count_reward": 1.0,
       "step": 857
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 492.62501525878906,
-      "epoch": 0.429,
-      "grad_norm": 17.16519433385956,
-      "kl": 1.72265625,
-      "learning_rate": 7.344653652287077e-07,
-      "loss": 0.7656,
-      "reward": 2.677896022796631,
-      "reward_std": 0.6244023740291595,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.03217345476150513,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 565.0833435058594,
+      "epoch": 0.6290322580645161,
+      "grad_norm": 79.93200932269248,
+      "kl": 4.1328125,
+      "learning_rate": 4.276993292839761e-07,
+      "loss": 0.468,
+      "reward": 2.1203547716140747,
+      "reward_std": 0.47893695533275604,
+      "rewards/accuracy_reward": 0.3541666716337204,
+      "rewards/reasoning_steps_reward": 0.9305555522441864,
+      "rewards/repetition_penalty_reward": -0.02374246809631586,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 858
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 538.0416717529297,
-      "epoch": 0.4295,
-      "grad_norm": 13.397818376841236,
-      "kl": 2.8046875,
-      "learning_rate": 7.337487071716232e-07,
-      "loss": 0.5746,
-      "reward": 2.45145046710968,
-      "reward_std": 0.6907146573066711,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.034660689532756805,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 481.58335876464844,
+      "epoch": 0.6297653958944281,
+      "grad_norm": 26.589906300736143,
+      "kl": 1.98046875,
+      "learning_rate": 4.265909262736771e-07,
+      "loss": 0.1595,
+      "reward": 2.593329668045044,
+      "reward_std": 0.3750048503279686,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03514259681105614,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 859
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.41668701171875,
-      "epoch": 0.43,
-      "grad_norm": 10.960948707755849,
-      "kl": 1.181640625,
-      "learning_rate": 7.330314893841101e-07,
-      "loss": 0.2798,
-      "reward": 2.515633225440979,
-      "reward_std": 0.4169411063194275,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02603358030319214,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 503.62501525878906,
+      "epoch": 0.6304985337243402,
+      "grad_norm": 37.42836620968271,
+      "kl": 3.140625,
+      "learning_rate": 4.254833322800574e-07,
+      "loss": 0.308,
+      "reward": 2.2453845143318176,
+      "reward_std": 0.41341114044189453,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.030657252296805382,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 860
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 288.7708435058594,
-      "epoch": 0.4305,
-      "grad_norm": 3.4791756020959634,
-      "kl": 0.291015625,
-      "learning_rate": 7.323137140509381e-07,
-      "loss": 0.0551,
-      "reward": 2.6766408681869507,
-      "reward_std": 0.10699502378702164,
-      "rewards/accuracy_reward": 0.7083333432674408,
+      "completion_length": 572.6666870117188,
+      "epoch": 0.6312316715542522,
+      "grad_norm": 28.722487794274045,
+      "kl": 2.09375,
+      "learning_rate": 4.243765545640251e-07,
+      "loss": 0.383,
+      "reward": 2.0623372197151184,
+      "reward_std": 0.3823268860578537,
+      "rewards/accuracy_reward": 0.2083333432674408,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03169257752597332,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.031412893906235695,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 861
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 492.5416717529297,
-      "epoch": 0.431,
-      "grad_norm": 184.11729136527305,
-      "kl": 8.76171875,
-      "learning_rate": 7.315953833585755e-07,
-      "loss": 0.8431,
-      "reward": 2.497468113899231,
-      "reward_std": 0.5085512399673462,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444179534912,
-      "rewards/repetition_penalty_reward": -0.025101464241743088,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 557.7708740234375,
+      "epoch": 0.6319648093841642,
+      "grad_norm": 111.3986361153325,
+      "kl": 2.76953125,
+      "learning_rate": 4.2327060038113837e-07,
+      "loss": 0.5271,
+      "reward": 2.1418474912643433,
+      "reward_std": 0.25660426169633865,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.033499814569950104,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 862
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 547.9166870117188,
-      "epoch": 0.4315,
-      "grad_norm": 634.497752315967,
-      "kl": 19.375,
-      "learning_rate": 7.308764994951821e-07,
-      "loss": 2.7713,
-      "reward": 2.3461129665374756,
-      "reward_std": 0.7580728530883789,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.014998285099864006,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 563.25,
+      "epoch": 0.6326979472140762,
+      "grad_norm": 10.055558041580015,
+      "kl": 1.318359375,
+      "learning_rate": 4.221654769815557e-07,
+      "loss": 0.1609,
+      "reward": 2.0751833319664,
+      "reward_std": 0.3235623463988304,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.030719462782144547,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 863
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 405.0208435058594,
-      "epoch": 0.432,
-      "grad_norm": 51.28196086116214,
-      "kl": 3.462890625,
-      "learning_rate": 7.301570646506027e-07,
-      "loss": 0.6456,
-      "reward": 2.7293022871017456,
-      "reward_std": 0.44555216282606125,
+      "completion_length": 676.1666870117188,
+      "epoch": 0.6334310850439883,
+      "grad_norm": 19.25924102043533,
+      "kl": 2.25,
+      "learning_rate": 4.210611916099893e-07,
+      "loss": 0.5061,
+      "reward": 2.6473987102508545,
+      "reward_std": 0.6665554046630859,
       "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.013753433711826801,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024476418271660805,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 864
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.3541717529297,
-      "epoch": 0.4325,
-      "grad_norm": 24.09046766028715,
-      "kl": 1.6337890625,
-      "learning_rate": 7.294370810163607e-07,
-      "loss": 0.192,
-      "reward": 2.6840856075286865,
-      "reward_std": 0.17013289034366608,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.013831105083227158,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 508.43751525878906,
+      "epoch": 0.6341642228739003,
+      "grad_norm": 28.250092775048678,
+      "kl": 1.51953125,
+      "learning_rate": 4.199577515056585e-07,
+      "loss": 0.3389,
+      "reward": 2.5335538387298584,
+      "reward_std": 0.5366398096084595,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028946143575012684,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 865
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 589.7500152587891,
-      "epoch": 0.433,
-      "grad_norm": 405.26278466771953,
-      "kl": 12.75,
-      "learning_rate": 7.287165507856512e-07,
-      "loss": 1.1717,
-      "reward": 2.1014411449432373,
-      "reward_std": 0.6244297027587891,
-      "rewards/accuracy_reward": 0.3333333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.021822815760970116,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 594.7708435058594,
+      "epoch": 0.6348973607038123,
+      "grad_norm": 26.750223462361088,
+      "kl": 3.7421875,
+      "learning_rate": 4.188551639022403e-07,
+      "loss": 0.6715,
+      "reward": 2.3956226110458374,
+      "reward_std": 0.6546805948019028,
+      "rewards/accuracy_reward": 0.6250000149011612,
+      "rewards/reasoning_steps_reward": 0.9652778506278992,
+      "rewards/repetition_penalty_reward": -0.02278023213148117,
+      "rewards/tag_count_reward": 0.8281250298023224,
       "step": 866
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 429.8333435058594,
-      "epoch": 0.4335,
-      "grad_norm": 64.46281032488784,
-      "kl": 4.21484375,
-      "learning_rate": 7.279954761533342e-07,
-      "loss": 0.5701,
-      "reward": 2.4746246337890625,
-      "reward_std": 0.7078258693218231,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.0323198651894927,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 469.95835876464844,
+      "epoch": 0.6356304985337243,
+      "grad_norm": 29.408610351733603,
+      "kl": 2.384765625,
+      "learning_rate": 4.177534360278243e-07,
+      "loss": 0.1665,
+      "reward": 2.386035919189453,
+      "reward_std": 0.1823833561502397,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.965277761220932,
+      "rewards/repetition_penalty_reward": -0.021950202994048595,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 867
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 502.9583435058594,
-      "epoch": 0.434,
-      "grad_norm": 21.766406267926293,
-      "kl": 2.9140625,
-      "learning_rate": 7.27273859315928e-07,
-      "loss": 0.8102,
-      "reward": 2.275583267211914,
-      "reward_std": 0.7442755401134491,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.023027977906167507,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 521.2083435058594,
+      "epoch": 0.6363636363636364,
+      "grad_norm": 110.36280472120994,
+      "kl": 3.8681640625,
+      "learning_rate": 4.166525751048627e-07,
+      "loss": 0.2498,
+      "reward": 2.2553958892822266,
+      "reward_std": 0.3366401940584183,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.025854194536805153,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 868
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.0833435058594,
-      "epoch": 0.4345,
-      "grad_norm": 35.27655318443123,
-      "kl": 0.978515625,
-      "learning_rate": 7.265517024716026e-07,
-      "loss": 0.5909,
-      "reward": 2.544116973876953,
-      "reward_std": 0.6133610606193542,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.03574422746896744,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 476.18751525878906,
+      "epoch": 0.6370967741935484,
+      "grad_norm": 13.18550031145197,
+      "kl": 1.59375,
+      "learning_rate": 4.1555258835012584e-07,
+      "loss": 0.1452,
+      "reward": 2.1661083102226257,
+      "reward_std": 0.2015923522412777,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02486394625157118,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 869
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 370.5416717529297,
-      "epoch": 0.435,
-      "grad_norm": 12.299061579151882,
-      "kl": 0.912109375,
-      "learning_rate": 7.258290078201731e-07,
-      "loss": 0.2876,
-      "reward": 2.400050640106201,
-      "reward_std": 0.3678786903619766,
-      "rewards/accuracy_reward": 0.5,
+      "completion_length": 517.2500305175781,
+      "epoch": 0.6378299120234604,
+      "grad_norm": 40.70040525572899,
+      "kl": 2.9375,
+      "learning_rate": 4.14453482974652e-07,
+      "loss": 0.6383,
+      "reward": 2.278277277946472,
+      "reward_std": 0.4681243896484375,
+      "rewards/accuracy_reward": 0.4166666865348816,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.025296634063124657,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "rewards/repetition_penalty_reward": -0.032486576586961746,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 870
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 263.6041793823242,
-      "epoch": 0.4355,
-      "grad_norm": 3.4077521243834212,
-      "kl": 0.22705078125,
-      "learning_rate": 7.251057775630927e-07,
-      "loss": 0.0145,
-      "reward": 2.8228542804718018,
-      "reward_std": 0.17518935352563858,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.017423711717128754,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 467.29168701171875,
+      "epoch": 0.6385630498533724,
+      "grad_norm": 17.795600069868737,
+      "kl": 3.828125,
+      "learning_rate": 4.133552661837025e-07,
+      "loss": 0.2062,
+      "reward": 2.1841301918029785,
+      "reward_std": 0.5829594433307648,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9444444179534912,
+      "rewards/repetition_penalty_reward": -0.020731104537844658,
+      "rewards/tag_count_reward": 0.8645833432674408,
       "step": 871
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 358.2083435058594,
-      "epoch": 0.436,
-      "grad_norm": 30.74690332937046,
-      "kl": 0.7333984375,
-      "learning_rate": 7.243820139034464e-07,
-      "loss": 0.3554,
-      "reward": 2.778803586959839,
-      "reward_std": 0.4877840280532837,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.018071786500513554,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 542.3125152587891,
+      "epoch": 0.6392961876832844,
+      "grad_norm": 43.26945725564012,
+      "kl": 4.08984375,
+      "learning_rate": 4.1225794517671285e-07,
+      "loss": 0.197,
+      "reward": 2.4382702112197876,
+      "reward_std": 0.2991560027003288,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.027007670141756535,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 872
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 382.04168701171875,
-      "epoch": 0.4365,
-      "grad_norm": 39.70789630630236,
-      "kl": 0.978515625,
-      "learning_rate": 7.236577190459433e-07,
-      "loss": 0.5793,
-      "reward": 2.512961983680725,
-      "reward_std": 0.49974559247493744,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.02349638007581234,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 483.6875,
+      "epoch": 0.6400293255131965,
+      "grad_norm": 17.639295704811964,
+      "kl": 2.29296875,
+      "learning_rate": 4.1116152714724674e-07,
+      "loss": 0.1169,
+      "reward": 2.432923674583435,
+      "reward_std": 0.628165602684021,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.028881912119686604,
+      "rewards/tag_count_reward": 0.8645833432674408,
       "step": 873
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 390.8958435058594,
-      "epoch": 0.437,
-      "grad_norm": 38.28149680062182,
-      "kl": 1.4296875,
-      "learning_rate": 7.229328951969115e-07,
-      "loss": 0.6429,
-      "reward": 2.5388529300689697,
-      "reward_std": 0.7759108543395996,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.03406373132020235,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 463.2083435058594,
+      "epoch": 0.6407624633431085,
+      "grad_norm": 29.68998907263042,
+      "kl": 1.32421875,
+      "learning_rate": 4.1006601928294784e-07,
+      "loss": 0.2301,
+      "reward": 2.397642493247986,
+      "reward_std": 0.24895144253969193,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02944089937955141,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 874
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 387.2708435058594,
-      "epoch": 0.4375,
-      "grad_norm": 29.933419477194974,
-      "kl": 1.177734375,
-      "learning_rate": 7.222075445642904e-07,
-      "loss": 0.4695,
-      "reward": 2.6218247413635254,
-      "reward_std": 0.47380533814430237,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.024008896201848984,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 566.6250305175781,
+      "epoch": 0.6414956011730205,
+      "grad_norm": 27.368778550673742,
+      "kl": 1.6611328125,
+      "learning_rate": 4.089714287654935e-07,
+      "loss": 0.4332,
+      "reward": 1.908960998058319,
+      "reward_std": 0.1527821570634842,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028539063408970833,
+      "rewards/tag_count_reward": 0.9375,
       "step": 875
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 323.4791717529297,
-      "epoch": 0.438,
-      "grad_norm": 17.340458090206823,
-      "kl": 1.15283203125,
-      "learning_rate": 7.214816693576234e-07,
-      "loss": 0.3436,
-      "reward": 2.513605237007141,
-      "reward_std": 0.3129299432039261,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.024589229375123978,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 501.54168701171875,
+      "epoch": 0.6422287390029325,
+      "grad_norm": 39.697759908513824,
+      "kl": 4.875,
+      "learning_rate": 4.078777627705471e-07,
+      "loss": 0.238,
+      "reward": 2.047454297542572,
+      "reward_std": 0.3919724375009537,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.023726369254291058,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 876
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.0208435058594,
-      "epoch": 0.4385,
-      "grad_norm": 3.2301186364234344,
-      "kl": 0.24853515625,
-      "learning_rate": 7.207552717880522e-07,
-      "loss": 0.04,
-      "reward": 2.6579480171203613,
-      "reward_std": 0.24716416746377945,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02955202106386423,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 688.1875,
+      "epoch": 0.6429618768328446,
+      "grad_norm": 169.83376657930464,
+      "kl": 7.9609375,
+      "learning_rate": 4.0678502846771144e-07,
+      "loss": 0.8107,
+      "reward": 2.132183790206909,
+      "reward_std": 0.7917422652244568,
+      "rewards/accuracy_reward": 0.479166679084301,
+      "rewards/reasoning_steps_reward": 0.9444445073604584,
+      "rewards/repetition_penalty_reward": -0.02059413492679596,
+      "rewards/tag_count_reward": 0.7291666865348816,
       "step": 877
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.2291717529297,
-      "epoch": 0.439,
-      "grad_norm": 20.50363538611729,
-      "kl": 1.21435546875,
-      "learning_rate": 7.200283540683102e-07,
-      "loss": 0.1637,
-      "reward": 2.731342077255249,
-      "reward_std": 0.4017653465270996,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03254689462482929,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 425.31251525878906,
+      "epoch": 0.6436950146627566,
+      "grad_norm": 12.794387813445342,
+      "kl": 2.21875,
+      "learning_rate": 4.056932330204814e-07,
+      "loss": -0.0479,
+      "reward": 2.2172069549560547,
+      "reward_std": 0.5325516164302826,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9305555820465088,
+      "rewards/repetition_penalty_reward": -0.031056921929121017,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 878
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 319.0833435058594,
-      "epoch": 0.4395,
-      "grad_norm": 123.17102900336207,
-      "kl": 5.9921875,
-      "learning_rate": 7.193009184127145e-07,
-      "loss": 0.8709,
-      "reward": 2.4152499437332153,
-      "reward_std": 0.3710479885339737,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.0222501028329134,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 455.5208435058594,
+      "epoch": 0.6444281524926686,
+      "grad_norm": 14.235078049102897,
+      "kl": 2.2890625,
+      "learning_rate": 4.046023835861974e-07,
+      "loss": -0.0001,
+      "reward": 2.0200721621513367,
+      "reward_std": 0.48293229937553406,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9444445371627808,
+      "rewards/repetition_penalty_reward": -0.023330658674240112,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 879
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.12501525878906,
-      "epoch": 0.44,
-      "grad_norm": 363.0002951670322,
-      "kl": 14.9375,
-      "learning_rate": 7.185729670371604e-07,
-      "loss": 2.2049,
-      "reward": 2.466444969177246,
-      "reward_std": 0.6788784861564636,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.01966631133109331,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 432.5208435058594,
+      "epoch": 0.6451612903225806,
+      "grad_norm": 11.144196187589753,
+      "kl": 2.453125,
+      "learning_rate": 4.0351248731599783e-07,
+      "loss": 0.0756,
+      "reward": 2.54099702835083,
+      "reward_std": 0.31450748443603516,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.9652778506278992,
+      "rewards/repetition_penalty_reward": -0.02844744734466076,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 880
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 355.625,
-      "epoch": 0.4405,
-      "grad_norm": 377.3905680062747,
-      "kl": 13.265625,
-      "learning_rate": 7.17844502159114e-07,
-      "loss": 1.9299,
-      "reward": 2.5884649753570557,
-      "reward_std": 0.302852138876915,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.017437931150197983,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 449.7083435058594,
+      "epoch": 0.6458944281524927,
+      "grad_norm": 131.37077538412728,
+      "kl": 6.78125,
+      "learning_rate": 4.024235513547727e-07,
+      "loss": 0.2691,
+      "reward": 2.0147141218185425,
+      "reward_std": 0.3997432589530945,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9583333134651184,
+      "rewards/repetition_penalty_reward": -0.026952626183629036,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 881
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 299.10418701171875,
-      "epoch": 0.441,
-      "grad_norm": 81.195858576975,
-      "kl": 3.01171875,
-      "learning_rate": 7.171155259976057e-07,
-      "loss": 0.8336,
-      "reward": 2.445673108100891,
-      "reward_std": 0.44037002325057983,
-      "rewards/accuracy_reward": 0.5625000223517418,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.026549202390015125,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 495.33335876464844,
+      "epoch": 0.6466275659824047,
+      "grad_norm": 18.476069092789036,
+      "kl": 1.51953125,
+      "learning_rate": 4.0133558284111667e-07,
+      "loss": 0.3195,
+      "reward": 2.448356866836548,
+      "reward_std": 0.07861550897359848,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030809794552624226,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 882
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 420.3541717529297,
-      "epoch": 0.4415,
-      "grad_norm": 51.10985682493742,
-      "kl": 4.3125,
-      "learning_rate": 7.163860407732231e-07,
-      "loss": 0.9492,
-      "reward": 2.43084716796875,
-      "reward_std": 0.4608851373195648,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02575009036809206,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 489.1875,
+      "epoch": 0.6473607038123167,
+      "grad_norm": 69.41799580183432,
+      "kl": 5.953125,
+      "learning_rate": 4.002485889072824e-07,
+      "loss": 0.4949,
+      "reward": 2.1838159561157227,
+      "reward_std": 0.4903464764356613,
+      "rewards/accuracy_reward": 0.3750000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02972586080431938,
+      "rewards/tag_count_reward": 0.8385416865348816,
       "step": 883
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 366.79168701171875,
-      "epoch": 0.442,
-      "grad_norm": 145.68633226852327,
-      "kl": 7.15625,
-      "learning_rate": 7.156560487081051e-07,
-      "loss": 0.8389,
-      "reward": 2.534042716026306,
-      "reward_std": 0.6869227886199951,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.019776692148298025,
-      "rewards/tag_count_reward": 0.8802083730697632,
+      "completion_length": 465.5833435058594,
+      "epoch": 0.6480938416422287,
+      "grad_norm": 29.130292646666057,
+      "kl": 4.484375,
+      "learning_rate": 3.9916257667913334e-07,
+      "loss": 0.3188,
+      "reward": 2.184706151485443,
+      "reward_std": 0.5841209590435028,
+      "rewards/accuracy_reward": 0.41666667722165585,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.03057180345058441,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 884
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 351.125,
-      "epoch": 0.4425,
-      "grad_norm": 31.81128878392762,
-      "kl": 1.453125,
-      "learning_rate": 7.149255520259338e-07,
-      "loss": 0.4362,
-      "reward": 2.469942808151245,
-      "reward_std": 0.6845696568489075,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556416511536,
-      "rewards/repetition_penalty_reward": -0.017904633656144142,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 456.8958435058594,
+      "epoch": 0.6488269794721407,
+      "grad_norm": 17.0524891536949,
+      "kl": 2.40234375,
+      "learning_rate": 3.9807755327609726e-07,
+      "loss": 0.045,
+      "reward": 2.5808953046798706,
+      "reward_std": 0.4498814642429352,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.02153550460934639,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 885
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.3541717529297,
-      "epoch": 0.443,
-      "grad_norm": 4.828439869270836,
-      "kl": 0.30419921875,
-      "learning_rate": 7.141945529519288e-07,
-      "loss": 0.049,
-      "reward": 2.859205484390259,
-      "reward_std": 0.2999560683965683,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.026211323216557503,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 457.62501525878906,
+      "epoch": 0.6495601173020528,
+      "grad_norm": 8.964102948355622,
+      "kl": 0.87890625,
+      "learning_rate": 3.969935258111202e-07,
+      "loss": 0.0768,
+      "reward": 2.437723398208618,
+      "reward_std": 0.12438751524314284,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.029290529899299145,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 886
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.25001525878906,
-      "epoch": 0.4435,
-      "grad_norm": 18.69245813013392,
-      "kl": 1.875,
-      "learning_rate": 7.134630537128403e-07,
-      "loss": 0.4583,
-      "reward": 2.5157185792922974,
-      "reward_std": 0.4226338863372803,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.958333432674408,
-      "rewards/repetition_penalty_reward": -0.02073993068188429,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 451.10418701171875,
+      "epoch": 0.6502932551319648,
+      "grad_norm": 10.937132516667535,
+      "kl": 2.02734375,
+      "learning_rate": 3.959105013906184e-07,
+      "loss": -0.0086,
+      "reward": 2.470559239387512,
+      "reward_std": 0.5151764750480652,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.02944083884358406,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 887
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.54168701171875,
-      "epoch": 0.444,
-      "grad_norm": 8.211191313929003,
-      "kl": 0.3388671875,
-      "learning_rate": 7.127310565369415e-07,
-      "loss": 0.0778,
-      "reward": 2.9123250246047974,
-      "reward_std": 0.16250279545783997,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03559182398021221,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 449.37501525878906,
+      "epoch": 0.6510263929618768,
+      "grad_norm": 367.04646478880846,
+      "kl": 13.46875,
+      "learning_rate": 3.9482848711443337e-07,
+      "loss": 0.5179,
+      "reward": 2.417901396751404,
+      "reward_std": 0.6228555738925934,
+      "rewards/accuracy_reward": 0.6250000298023224,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.03175152279436588,
+      "rewards/tag_count_reward": 0.8802083730697632,
       "step": 888
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 381.1666717529297,
-      "epoch": 0.4445,
-      "grad_norm": 39.63561659258511,
-      "kl": 1.671875,
-      "learning_rate": 7.11998563654023e-07,
-      "loss": 0.4953,
-      "reward": 2.48183274269104,
-      "reward_std": 0.5570933073759079,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.03379237279295921,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 485.8125,
+      "epoch": 0.6517595307917888,
+      "grad_norm": 10.951809989922257,
+      "kl": 2.0263671875,
+      "learning_rate": 3.9374749007578387e-07,
+      "loss": 0.1927,
+      "reward": 2.1799603700637817,
+      "reward_std": 0.10181637620553374,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02837303653359413,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 889
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 408.1875228881836,
-      "epoch": 0.445,
-      "grad_norm": 19.45400997832264,
-      "kl": 2.63671875,
-      "learning_rate": 7.11265577295385e-07,
-      "loss": 0.5174,
-      "reward": 2.653844475746155,
-      "reward_std": 0.4112878441810608,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.012822255957871675,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 482.97918701171875,
+      "epoch": 0.6524926686217009,
+      "grad_norm": 20.50596982482667,
+      "kl": 1.58203125,
+      "learning_rate": 3.926675173612207e-07,
+      "loss": 0.3129,
+      "reward": 2.075802803039551,
+      "reward_std": 0.3111816346645355,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.028363876976072788,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 890
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 298.5208435058594,
-      "epoch": 0.4455,
-      "grad_norm": 40.00263159392063,
-      "kl": 1.97265625,
-      "learning_rate": 7.105320996938314e-07,
-      "loss": 0.5189,
-      "reward": 2.7283371686935425,
-      "reward_std": 0.4932422488927841,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.030343500431627035,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 501.0,
+      "epoch": 0.6532258064516129,
+      "grad_norm": 15.292377341650585,
+      "kl": 1.27734375,
+      "learning_rate": 3.9158857605057925e-07,
+      "loss": 0.2264,
+      "reward": 2.1522390842437744,
+      "reward_std": 0.22247625887393951,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.03526082541793585,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 891
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 394.2083435058594,
-      "epoch": 0.446,
-      "grad_norm": 41.93561167127058,
-      "kl": 4.359375,
-      "learning_rate": 7.097981330836616e-07,
-      "loss": 1.3479,
-      "reward": 2.7040258646011353,
-      "reward_std": 0.5273069739341736,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.040765900164842606,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 433.9583435058594,
+      "epoch": 0.6539589442815249,
+      "grad_norm": 9.261789926032487,
+      "kl": 1.4775390625,
+      "learning_rate": 3.905106732169333e-07,
+      "loss": 0.1089,
+      "reward": 1.9519801139831543,
+      "reward_std": 0.06554302759468555,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.032394807785749435,
+      "rewards/tag_count_reward": 0.984375,
       "step": 892
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 346.25001525878906,
-      "epoch": 0.4465,
-      "grad_norm": 48.76214538177417,
-      "kl": 5.28125,
-      "learning_rate": 7.090636797006657e-07,
-      "loss": 0.5066,
-      "reward": 2.608002543449402,
-      "reward_std": 0.7648839950561523,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.025678012520074844,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 441.1041717529297,
+      "epoch": 0.6546920821114369,
+      "grad_norm": 30.881304534061154,
+      "kl": 3.4609375,
+      "learning_rate": 3.894338159265496e-07,
+      "loss": -0.0058,
+      "reward": 2.3012085556983948,
+      "reward_std": 0.3849090188741684,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.033860914409160614,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 893
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 369.04168701171875,
-      "epoch": 0.447,
-      "grad_norm": 92.64315624811375,
-      "kl": 5.3515625,
-      "learning_rate": 7.083287417821157e-07,
-      "loss": 0.6629,
-      "reward": 2.784505248069763,
-      "reward_std": 0.33816368877887726,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.01063354080542922,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 494.2083435058594,
+      "epoch": 0.655425219941349,
+      "grad_norm": 42.785081016691045,
+      "kl": 3.8515625,
+      "learning_rate": 3.883580112388396e-07,
+      "loss": 0.2296,
+      "reward": 2.1021071076393127,
+      "reward_std": 0.2982870936393738,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.02810133434832096,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 894
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 643.3958587646484,
-      "epoch": 0.4475,
-      "grad_norm": 223.85239628295713,
-      "kl": 16.421875,
-      "learning_rate": 7.075933215667604e-07,
-      "loss": 1.5531,
-      "reward": 2.1586782932281494,
-      "reward_std": 0.6240611672401428,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.02014122251421213,
-      "rewards/tag_count_reward": 0.7760416865348816,
+      "completion_length": 478.1458435058594,
+      "epoch": 0.656158357771261,
+      "grad_norm": 21.129811313268846,
+      "kl": 2.3798828125,
+      "learning_rate": 3.872832662063156e-07,
+      "loss": 0.1403,
+      "reward": 2.5664910078048706,
+      "reward_std": 0.23936194740235806,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02725913841277361,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 895
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 381.2916717529297,
-      "epoch": 0.448,
-      "grad_norm": 32.38556348235585,
-      "kl": 2.5,
-      "learning_rate": 7.068574212948169e-07,
-      "loss": 0.954,
-      "reward": 2.5282145738601685,
-      "reward_std": 0.39006973803043365,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.023868918418884277,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 468.7083435058594,
+      "epoch": 0.656891495601173,
+      "grad_norm": 12.376034144224413,
+      "kl": 1.5751953125,
+      "learning_rate": 3.8620958787454214e-07,
+      "loss": 0.0745,
+      "reward": 2.406980276107788,
+      "reward_std": 0.23445120081305504,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025311593897640705,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 896
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 445.62501525878906,
-      "epoch": 0.4485,
-      "grad_norm": 29.350505167918783,
-      "kl": 5.484375,
-      "learning_rate": 7.06121043207965e-07,
-      "loss": 1.1386,
-      "reward": 2.497186064720154,
-      "reward_std": 0.7929587364196777,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.027119554579257965,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 531.3541870117188,
+      "epoch": 0.657624633431085,
+      "grad_norm": 480.63424417984,
+      "kl": 2.890625,
+      "learning_rate": 3.8513698328209197e-07,
+      "loss": 0.1273,
+      "reward": 1.9812852144241333,
+      "reward_std": 0.01012721424922347,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018714841455221176,
+      "rewards/tag_count_reward": 1.0,
       "step": 897
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 615.4166870117188,
-      "epoch": 0.449,
-      "grad_norm": 36.911352628939454,
-      "kl": 6.421875,
-      "learning_rate": 7.053841895493406e-07,
-      "loss": 1.61,
-      "reward": 2.3755075931549072,
-      "reward_std": 0.9200084507465363,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.016853561159223318,
-      "rewards/tag_count_reward": 0.8020833730697632,
+      "completion_length": 435.2291717529297,
+      "epoch": 0.658357771260997,
+      "grad_norm": 11.679079028241473,
+      "kl": 1.40625,
+      "learning_rate": 3.8406545946049795e-07,
+      "loss": 0.059,
+      "reward": 2.402749180793762,
+      "reward_std": 0.22888202592730522,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03301479481160641,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 898
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 442.1250305175781,
-      "epoch": 0.4495,
-      "grad_norm": 22.680192929837112,
-      "kl": 4.47265625,
-      "learning_rate": 7.046468625635274e-07,
-      "loss": 0.7625,
-      "reward": 2.4903249740600586,
-      "reward_std": 0.8195319175720215,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.01661947136744857,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 439.6875,
+      "epoch": 0.6590909090909091,
+      "grad_norm": 8.277870464945842,
+      "kl": 0.8046875,
+      "learning_rate": 3.8299502343420844e-07,
+      "loss": -0.0369,
+      "reward": 2.406039595603943,
+      "reward_std": 0.24393422901630402,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.024516088888049126,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 899
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 463.6041717529297,
-      "epoch": 0.45,
-      "grad_norm": 27.272842353579144,
-      "kl": 4.59375,
-      "learning_rate": 7.039090644965509e-07,
-      "loss": 0.6818,
-      "reward": 2.319231152534485,
-      "reward_std": 0.888009250164032,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.0227828249335289,
-      "rewards/tag_count_reward": 0.8072916865348816,
+      "completion_length": 491.6875,
+      "epoch": 0.6598240469208211,
+      "grad_norm": 9.435685885433191,
+      "kl": 0.4560546875,
+      "learning_rate": 3.819256822205403e-07,
+      "loss": 0.0238,
+      "reward": 2.6473140716552734,
+      "reward_std": 0.1842022268101573,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.033241670578718185,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 900
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 449.0833435058594,
-      "epoch": 0.4505,
-      "grad_norm": 34.13999464127485,
-      "kl": 2.9140625,
-      "learning_rate": 7.031707975958726e-07,
-      "loss": 0.7008,
-      "reward": 2.466166138648987,
-      "reward_std": 0.6233952641487122,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.01994516607373953,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 484.7708435058594,
+      "epoch": 0.6605571847507331,
+      "grad_norm": 19.098315989449652,
+      "kl": 0.65625,
+      "learning_rate": 3.8085744282963385e-07,
+      "loss": 0.234,
+      "reward": 2.652103304862976,
+      "reward_std": 0.23995533771812916,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03018837235867977,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 901
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 477.9166717529297,
-      "epoch": 0.451,
-      "grad_norm": 44.299788634003804,
-      "kl": 3.7109375,
-      "learning_rate": 7.024320641103811e-07,
-      "loss": 0.9245,
-      "reward": 2.344895601272583,
-      "reward_std": 0.6696476340293884,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.01621554931625724,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 440.0833435058594,
+      "epoch": 0.6612903225806451,
+      "grad_norm": 6.5723034415157455,
+      "kl": 0.8974609375,
+      "learning_rate": 3.7979031226440563e-07,
+      "loss": -0.0024,
+      "reward": 2.4431477785110474,
+      "reward_std": 0.09110517054796219,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.032546691596508026,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 902
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 702.1458435058594,
-      "epoch": 0.4515,
-      "grad_norm": 140.07908899869074,
-      "kl": 14.5,
-      "learning_rate": 7.01692866290387e-07,
-      "loss": 1.4671,
-      "reward": 1.8353345394134521,
-      "reward_std": 0.8967846035957336,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.8750000298023224,
-      "rewards/repetition_penalty_reward": -0.013623815728351474,
-      "rewards/tag_count_reward": 0.6197916865348816,
+      "completion_length": 531.875,
+      "epoch": 0.6620234604105572,
+      "grad_norm": 23.22294687828924,
+      "kl": 1.6357421875,
+      "learning_rate": 3.787242975205037e-07,
+      "loss": 0.3049,
+      "reward": 2.138901650905609,
+      "reward_std": 0.24177566915750504,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022556803189218044,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 903
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 422.50001525878906,
-      "epoch": 0.452,
-      "grad_norm": 52.20368268795704,
-      "kl": 5.78125,
-      "learning_rate": 7.009532063876148e-07,
-      "loss": 0.6616,
-      "reward": 2.408238172531128,
-      "reward_std": 0.5504840314388275,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.024053473956882954,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 506.8958435058594,
+      "epoch": 0.6627565982404692,
+      "grad_norm": 11.32486166375894,
+      "kl": 0.791015625,
+      "learning_rate": 3.7765940558626096e-07,
+      "loss": 0.1872,
+      "reward": 2.700243353843689,
+      "reward_std": 0.08089052699506283,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0237151263281703,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 904
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 445.0416717529297,
-      "epoch": 0.4525,
-      "grad_norm": 33.39372260946179,
-      "kl": 4.5234375,
-      "learning_rate": 7.002130866551968e-07,
-      "loss": 0.5914,
-      "reward": 2.167671024799347,
-      "reward_std": 0.30702342092990875,
-      "rewards/accuracy_reward": 0.3333333544433117,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03198174387216568,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 454.8541717529297,
+      "epoch": 0.6634897360703812,
+      "grad_norm": 27.191439861059074,
+      "kl": 2.7958984375,
+      "learning_rate": 3.7659564344264994e-07,
+      "loss": 0.1591,
+      "reward": 2.1992244124412537,
+      "reward_std": 0.08250689785927534,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029942267574369907,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 905
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 484.9791717529297,
-      "epoch": 0.453,
-      "grad_norm": 25.372165474058104,
-      "kl": 3.1796875,
-      "learning_rate": 6.994725093476664e-07,
-      "loss": 0.5834,
-      "reward": 2.468542218208313,
-      "reward_std": 0.6370213180780411,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.01930511137470603,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 469.35418701171875,
+      "epoch": 0.6642228739002932,
+      "grad_norm": 15.490785850217982,
+      "kl": 1.1484375,
+      "learning_rate": 3.755330180632367e-07,
+      "loss": 0.2352,
+      "reward": 2.706392288208008,
+      "reward_std": 0.18476082384586334,
+      "rewards/accuracy_reward": 0.7500000298023224,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.021038434468209743,
+      "rewards/tag_count_reward": 0.984375,
       "step": 906
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 408.97918701171875,
-      "epoch": 0.4535,
-      "grad_norm": 9.77141277310684,
-      "kl": 2.5703125,
-      "learning_rate": 6.987314767209503e-07,
-      "loss": 0.3112,
-      "reward": 2.3773725032806396,
-      "reward_std": 0.49295616149902344,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.021933134645223618,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 428.6458435058594,
+      "epoch": 0.6649560117302052,
+      "grad_norm": 3.090235873839556,
+      "kl": 0.423828125,
+      "learning_rate": 3.7447153641413463e-07,
+      "loss": 0.0419,
+      "reward": 2.4653698205947876,
+      "reward_std": 0.0442873565480113,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024213584139943123,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 907
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 462.1041793823242,
-      "epoch": 0.454,
-      "grad_norm": 24.983838013132367,
-      "kl": 2.546875,
-      "learning_rate": 6.979899910323624e-07,
-      "loss": 0.4343,
-      "reward": 2.223532557487488,
-      "reward_std": 0.6077858209609985,
-      "rewards/accuracy_reward": 0.45833333395421505,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.019523008493706584,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 439.75001525878906,
+      "epoch": 0.6656891495601173,
+      "grad_norm": 3.7331624609730536,
+      "kl": 0.46875,
+      "learning_rate": 3.734112054539602e-07,
+      "loss": 0.0311,
+      "reward": 2.458762228488922,
+      "reward_std": 0.049120476469397545,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03082120604813099,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 908
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.0416717529297,
-      "epoch": 0.4545,
-      "grad_norm": 28.981123137793116,
-      "kl": 1.62109375,
-      "learning_rate": 6.972480545405968e-07,
-      "loss": 0.3188,
-      "reward": 2.5748839378356934,
-      "reward_std": 0.47933661937713623,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.013657951261848211,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 510.3958435058594,
+      "epoch": 0.6664222873900293,
+      "grad_norm": 63.54354843221626,
+      "kl": 5.3203125,
+      "learning_rate": 3.7235203213378577e-07,
+      "loss": 0.7462,
+      "reward": 2.206181049346924,
+      "reward_std": 0.49717573821544647,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03861072286963463,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 909
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.97918701171875,
-      "epoch": 0.455,
-      "grad_norm": 25.272268744236346,
-      "kl": 5.78125,
-      "learning_rate": 6.965056695057204e-07,
-      "loss": 1.0701,
-      "reward": 2.4917463064193726,
-      "reward_std": 0.769326239824295,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9513888657093048,
-      "rewards/repetition_penalty_reward": -0.04297593608498573,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 486.4583435058594,
+      "epoch": 0.6671554252199413,
+      "grad_norm": 5.683418641201284,
+      "kl": 1.1435546875,
+      "learning_rate": 3.7129402339709526e-07,
+      "loss": 0.1774,
+      "reward": 2.4271193742752075,
+      "reward_std": 0.11568078305572271,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02600565180182457,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 910
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 287.12501525878906,
-      "epoch": 0.4555,
-      "grad_norm": 30.011200731000926,
-      "kl": 2.720703125,
-      "learning_rate": 6.957628381891673e-07,
-      "loss": 0.3289,
-      "reward": 2.6884909868240356,
-      "reward_std": 0.36660417914390564,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.014634124469012022,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 468.6458435058594,
+      "epoch": 0.6678885630498533,
+      "grad_norm": 7.617088538664095,
+      "kl": 0.6669921875,
+      "learning_rate": 3.7023718617973745e-07,
+      "loss": 0.2202,
+      "reward": 2.146929442882538,
+      "reward_std": 0.25023030769079924,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.019737189635634422,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 911
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.75,
-      "epoch": 0.456,
-      "grad_norm": 26.395423136562222,
-      "kl": 3.484375,
-      "learning_rate": 6.950195628537299e-07,
-      "loss": 0.7263,
-      "reward": 2.7875736951828003,
-      "reward_std": 0.4841386526823044,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.02319031674414873,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 497.1458435058594,
+      "epoch": 0.6686217008797654,
+      "grad_norm": 14.494392463460322,
+      "kl": 1.21484375,
+      "learning_rate": 3.6918152740988163e-07,
+      "loss": 0.2576,
+      "reward": 2.3849753737449646,
+      "reward_std": 0.29698850959539413,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02821914665400982,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 912
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.5625,
-      "epoch": 0.4565,
-      "grad_norm": 81.85144356177,
-      "kl": 6.125,
-      "learning_rate": 6.942758457635543e-07,
-      "loss": 0.9552,
-      "reward": 2.5703320503234863,
-      "reward_std": 0.3624073415994644,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222983837128,
-      "rewards/repetition_penalty_reward": -0.03209859039634466,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 463.06251525878906,
+      "epoch": 0.6693548387096774,
+      "grad_norm": 7.684407419722121,
+      "kl": 1.83984375,
+      "learning_rate": 3.681270540079715e-07,
+      "loss": 0.0467,
+      "reward": 2.5368086099624634,
+      "reward_std": 0.45409172028303146,
+      "rewards/accuracy_reward": 0.645833358168602,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02742769941687584,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 913
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 364.25001525878906,
-      "epoch": 0.457,
-      "grad_norm": 45.15015133012363,
-      "kl": 5.046875,
-      "learning_rate": 6.935316891841315e-07,
-      "loss": 0.4927,
-      "reward": 2.6616228818893433,
-      "reward_std": 0.5104624330997467,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.018932746723294258,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 417.5416717529297,
+      "epoch": 0.6700879765395894,
+      "grad_norm": 5.5507149790575365,
+      "kl": 1.115234375,
+      "learning_rate": 3.6707377288668017e-07,
+      "loss": 0.0354,
+      "reward": 2.65383780002594,
+      "reward_std": 0.1826682216487825,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.026717686094343662,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 914
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 392.0416717529297,
-      "epoch": 0.4575,
-      "grad_norm": 37.202986072549116,
-      "kl": 2.38671875,
-      "learning_rate": 6.927870953822915e-07,
-      "loss": 0.5714,
-      "reward": 2.446205258369446,
-      "reward_std": 0.593352735042572,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.027753093279898167,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 434.04168701171875,
+      "epoch": 0.6708211143695014,
+      "grad_norm": 4.575828310673458,
+      "kl": 0.4970703125,
+      "learning_rate": 3.6602169095086434e-07,
+      "loss": -0.0017,
+      "reward": 2.404066324234009,
+      "reward_std": 0.25298498570919037,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023017059080302715,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 915
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.35418701171875,
-      "epoch": 0.458,
-      "grad_norm": 24.96453853888965,
-      "kl": 0.90234375,
-      "learning_rate": 6.920420666261961e-07,
-      "loss": 0.2755,
-      "reward": 2.790469765663147,
-      "reward_std": 0.28246453404426575,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.027238698676228523,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 521.0625,
+      "epoch": 0.6715542521994134,
+      "grad_norm": 35.23107554083441,
+      "kl": 1.98046875,
+      "learning_rate": 3.649708150975197e-07,
+      "loss": 0.4676,
+      "reward": 1.9426430463790894,
+      "reward_std": 0.26459813117980957,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02610696479678154,
+      "rewards/tag_count_reward": 0.9270833730697632,
       "step": 916
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.3958435058594,
-      "epoch": 0.4585,
-      "grad_norm": 49.466728379593775,
-      "kl": 0.9541015625,
-      "learning_rate": 6.912966051853322e-07,
-      "loss": 0.5167,
-      "reward": 2.606629729270935,
-      "reward_std": 0.5284582823514938,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.025314772501587868,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 460.37501525878906,
+      "epoch": 0.6722873900293255,
+      "grad_norm": 34.980059238686245,
+      "kl": 1.9990234375,
+      "learning_rate": 3.6392115221573515e-07,
+      "loss": 0.1372,
+      "reward": 2.4030675888061523,
+      "reward_std": 0.1829522354528308,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024015815928578377,
+      "rewards/tag_count_reward": 0.96875,
       "step": 917
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 385.18751525878906,
-      "epoch": 0.459,
-      "grad_norm": 8.401580563295221,
-      "kl": 2.28662109375,
-      "learning_rate": 6.905507133305047e-07,
-      "loss": 0.3083,
-      "reward": 2.5714030265808105,
-      "reward_std": 0.39095499366521835,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.017138768918812275,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 463.87501525878906,
+      "epoch": 0.6730205278592375,
+      "grad_norm": 3.538742597821187,
+      "kl": 0.796875,
+      "learning_rate": 3.6287270918664837e-07,
+      "loss": 0.0092,
+      "reward": 2.6298184394836426,
+      "reward_std": 0.27230154722929,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021223259158432484,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 918
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 364.4791717529297,
-      "epoch": 0.4595,
-      "grad_norm": 30.373353543333543,
-      "kl": 1.8203125,
-      "learning_rate": 6.898043933338293e-07,
-      "loss": 0.648,
-      "reward": 2.423296332359314,
-      "reward_std": 0.4785070866346359,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.04892597161233425,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 471.8958435058594,
+      "epoch": 0.6737536656891495,
+      "grad_norm": 12.629477020085433,
+      "kl": 0.779296875,
+      "learning_rate": 3.6182549288339905e-07,
+      "loss": 0.1492,
+      "reward": 2.2270041704177856,
+      "reward_std": 0.23701730370521545,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02820419240742922,
+      "rewards/tag_count_reward": 0.984375,
       "step": 919
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 337.2708435058594,
-      "epoch": 0.46,
-      "grad_norm": 16.49521792000666,
-      "kl": 1.76171875,
-      "learning_rate": 6.890576474687263e-07,
-      "loss": 0.2062,
-      "reward": 2.577837347984314,
-      "reward_std": 0.36855159886181355,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.03153769485652447,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 426.18751525878906,
+      "epoch": 0.6744868035190615,
+      "grad_norm": 3.4352358495668835,
+      "kl": 0.392578125,
+      "learning_rate": 3.607795101710865e-07,
+      "loss": 0.0245,
+      "reward": 2.4957412481307983,
+      "reward_std": 0.07916717370972037,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025092164054512978,
+      "rewards/tag_count_reward": 1.0,
       "step": 920
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.62501525878906,
-      "epoch": 0.4605,
-      "grad_norm": 15.297924858007171,
-      "kl": 1.8203125,
-      "learning_rate": 6.883104780099133e-07,
-      "loss": 0.4431,
-      "reward": 2.5769479274749756,
-      "reward_std": 0.4878064692020416,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.046316033229231834,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 457.2916717529297,
+      "epoch": 0.6752199413489736,
+      "grad_norm": 3.1335327742824615,
+      "kl": 0.37109375,
+      "learning_rate": 3.597347679067222e-07,
+      "loss": 0.0056,
+      "reward": 2.2258177399635315,
+      "reward_std": 0.011170658748596907,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024182401597499847,
+      "rewards/tag_count_reward": 1.0,
       "step": 921
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 318.3958435058594,
-      "epoch": 0.461,
-      "grad_norm": 17.663934976152945,
-      "kl": 1.71484375,
-      "learning_rate": 6.875628872333975e-07,
-      "loss": 0.4003,
-      "reward": 2.721220016479492,
-      "reward_std": 0.3829363286495209,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02878008782863617,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 541.1458435058594,
+      "epoch": 0.6759530791788856,
+      "grad_norm": 26.459636599607972,
+      "kl": 3.4921875,
+      "learning_rate": 3.586912729391857e-07,
+      "loss": 0.3193,
+      "reward": 2.3519192934036255,
+      "reward_std": 0.32803425192832947,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02308077458292246,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 922
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.12501525878906,
-      "epoch": 0.4615,
-      "grad_norm": 24.847963074766394,
-      "kl": 2.52880859375,
-      "learning_rate": 6.868148774164706e-07,
-      "loss": 0.8003,
-      "reward": 2.7672914266586304,
-      "reward_std": 0.40449826419353485,
-      "rewards/accuracy_reward": 0.8333333730697632,
+      "completion_length": 500.9583435058594,
+      "epoch": 0.6766862170087976,
+      "grad_norm": 3.626780250846866,
+      "kl": 0.3642578125,
+      "learning_rate": 3.576490321091805e-07,
+      "loss": 0.0544,
+      "reward": 2.2058114409446716,
+      "reward_std": 0.08280891180038452,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02958354353904724,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.023355277255177498,
+      "rewards/tag_count_reward": 1.0,
       "step": 923
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 332.5208435058594,
-      "epoch": 0.462,
-      "grad_norm": 50.169714777079136,
-      "kl": 2.1552734375,
-      "learning_rate": 6.860664508377001e-07,
-      "loss": 0.368,
-      "reward": 2.5989573001861572,
-      "reward_std": 0.36564599722623825,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.026042713783681393,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 450.0833435058594,
+      "epoch": 0.6774193548387096,
+      "grad_norm": 6.7576974288115785,
+      "kl": 0.7353515625,
+      "learning_rate": 3.5660805224918766e-07,
+      "loss": 0.0833,
+      "reward": 2.2170188426971436,
+      "reward_std": 0.060911763459444046,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01735620480030775,
+      "rewards/tag_count_reward": 0.984375,
       "step": 924
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 390.3333435058594,
-      "epoch": 0.4625,
-      "grad_norm": 128.99931158793126,
-      "kl": 6.46875,
-      "learning_rate": 6.853176097769228e-07,
-      "loss": 1.1684,
-      "reward": 2.682253360748291,
-      "reward_std": 0.5880621820688248,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.03302454110234976,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 468.7291717529297,
+      "epoch": 0.6781524926686217,
+      "grad_norm": 54.06107893396688,
+      "kl": 0.638671875,
+      "learning_rate": 3.555683401834229e-07,
+      "loss": 0.1777,
+      "reward": 2.3949154019355774,
+      "reward_std": 0.20315419882535934,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.030431894585490227,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 925
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 421.3958435058594,
-      "epoch": 0.463,
-      "grad_norm": 43.308678626367616,
-      "kl": 3.63671875,
-      "learning_rate": 6.84568356515239e-07,
-      "loss": 1.3087,
-      "reward": 2.6976706981658936,
-      "reward_std": 0.5417228192090988,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9305556416511536,
-      "rewards/repetition_penalty_reward": -0.02455159369856119,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 459.0,
+      "epoch": 0.6788856304985337,
+      "grad_norm": 3.7304310474391342,
+      "kl": 0.3349609375,
+      "learning_rate": 3.545299027277897e-07,
+      "loss": 0.0282,
+      "reward": 2.420232832431793,
+      "reward_std": 0.18446220457553864,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027683909982442856,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 926
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 364.6875,
-      "epoch": 0.4635,
-      "grad_norm": 19.355624028175274,
-      "kl": 1.4140625,
-      "learning_rate": 6.838186933350036e-07,
-      "loss": 0.5342,
-      "reward": 2.708867311477661,
-      "reward_std": 0.4020465463399887,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.03245212323963642,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 491.0625305175781,
+      "epoch": 0.6796187683284457,
+      "grad_norm": 2.8505337887237907,
+      "kl": 0.3388671875,
+      "learning_rate": 3.5349274668983674e-07,
+      "loss": 0.0159,
+      "reward": 2.2121185064315796,
+      "reward_std": 0.07882623188197613,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01704825460910797,
+      "rewards/tag_count_reward": 1.0,
       "step": 927
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.81251525878906,
-      "epoch": 0.464,
-      "grad_norm": 26.038208175574418,
-      "kl": 1.3828125,
-      "learning_rate": 6.83068622519821e-07,
-      "loss": 0.4745,
-      "reward": 2.8109928369522095,
-      "reward_std": 0.32376736029982567,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.017132141161710024,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 459.81251525878906,
+      "epoch": 0.6803519061583577,
+      "grad_norm": 5.799691271582148,
+      "kl": 0.447265625,
+      "learning_rate": 3.5245687886871146e-07,
+      "loss": -0.0252,
+      "reward": 2.419118046760559,
+      "reward_std": 0.1844143122434616,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02879861183464527,
+      "rewards/tag_count_reward": 0.96875,
       "step": 928
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 433.81251525878906,
-      "epoch": 0.4645,
-      "grad_norm": 31.19447558981725,
-      "kl": 4.1796875,
-      "learning_rate": 6.823181463545366e-07,
-      "loss": 0.8102,
-      "reward": 2.39223575592041,
-      "reward_std": 0.6007313132286072,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9374999701976776,
-      "rewards/repetition_penalty_reward": -0.04526432417333126,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 466.0,
+      "epoch": 0.6810850439882697,
+      "grad_norm": 3.071210500109716,
+      "kl": 0.3623046875,
+      "learning_rate": 3.514223060551169e-07,
+      "loss": 0.0314,
+      "reward": 2.18208384513855,
+      "reward_std": 0.1516893282532692,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026249597780406475,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 929
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 354.54168701171875,
-      "epoch": 0.465,
-      "grad_norm": 16.112655951237382,
-      "kl": 1.796875,
-      "learning_rate": 6.815672671252315e-07,
-      "loss": 0.5261,
-      "reward": 2.3884493112564087,
-      "reward_std": 0.416194885969162,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.026481250301003456,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 459.81251525878906,
+      "epoch": 0.6818181818181818,
+      "grad_norm": 20.45901417722426,
+      "kl": 1.2587890625,
+      "learning_rate": 3.5038903503126615e-07,
+      "loss": 0.2261,
+      "reward": 2.42332124710083,
+      "reward_std": 0.12113591935485601,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.028067844919860363,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 930
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 308.68751525878906,
-      "epoch": 0.4655,
-      "grad_norm": 39.327147074285115,
-      "kl": 1.4365234375,
-      "learning_rate": 6.808159871192136e-07,
-      "loss": 0.3897,
-      "reward": 2.633025646209717,
-      "reward_std": 0.1877675480209291,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.04579382762312889,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 484.31251525878906,
+      "epoch": 0.6825513196480938,
+      "grad_norm": 3204.5978551725684,
+      "kl": 18.5478515625,
+      "learning_rate": 3.493570725708389e-07,
+      "loss": 2.0223,
+      "reward": 2.3534035682678223,
+      "reward_std": 0.24623488262295723,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026804929599165916,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 931
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.9583435058594,
-      "epoch": 0.466,
-      "grad_norm": 22.43891344147886,
-      "kl": 3.75,
-      "learning_rate": 6.800643086250121e-07,
-      "loss": 1.0874,
-      "reward": 2.6055747270584106,
-      "reward_std": 0.6811087727546692,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.026369919069111347,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 534.5833435058594,
+      "epoch": 0.6832844574780058,
+      "grad_norm": 86.07803816104924,
+      "kl": 4.0537109375,
+      "learning_rate": 3.483264254389358e-07,
+      "loss": 0.4928,
+      "reward": 2.188483476638794,
+      "reward_std": 0.2733900472521782,
+      "rewards/accuracy_reward": 0.25000000558793545,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025058263912796974,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 932
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 489.97918701171875,
-      "epoch": 0.4665,
-      "grad_norm": 105.78114916915985,
-      "kl": 7.40625,
-      "learning_rate": 6.793122339323705e-07,
-      "loss": 0.9496,
-      "reward": 2.352501630783081,
-      "reward_std": 0.6076760590076447,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.020762240514159203,
-      "rewards/tag_count_reward": 0.8802083730697632,
+      "completion_length": 459.0208435058594,
+      "epoch": 0.6840175953079178,
+      "grad_norm": 22.812614433514874,
+      "kl": 1.59375,
+      "learning_rate": 3.472971003920353e-07,
+      "loss": 0.1919,
+      "reward": 2.3389848470687866,
+      "reward_std": 0.393401101231575,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.030806850641965866,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 933
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.7708435058594,
-      "epoch": 0.467,
-      "grad_norm": 28.045265825606887,
-      "kl": 2.93017578125,
-      "learning_rate": 6.78559765332238e-07,
-      "loss": 0.4259,
-      "reward": 2.5912506580352783,
-      "reward_std": 0.45991945266723633,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02159656397998333,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 536.6250152587891,
+      "epoch": 0.6847507331378299,
+      "grad_norm": 2.672732005418521,
+      "kl": 0.3359375,
+      "learning_rate": 3.462691041779483e-07,
+      "loss": 0.0192,
+      "reward": 2.4783459901809692,
+      "reward_std": 0.011177142150700092,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02165412623435259,
+      "rewards/tag_count_reward": 1.0,
       "step": 934
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.00001525878906,
-      "epoch": 0.4675,
-      "grad_norm": 41.65994882506967,
-      "kl": 1.521484375,
-      "learning_rate": 6.778069051167653e-07,
-      "loss": 0.62,
-      "reward": 2.5147244930267334,
-      "reward_std": 0.556397408246994,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.0338868722319603,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 448.8958435058594,
+      "epoch": 0.6854838709677419,
+      "grad_norm": 5.349593962272704,
+      "kl": 0.416015625,
+      "learning_rate": 3.4524244353577513e-07,
+      "loss": 0.0268,
+      "reward": 2.214493155479431,
+      "reward_std": 0.051492489874362946,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02335413731634617,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 935
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 691.4166870117188,
-      "epoch": 0.468,
-      "grad_norm": 37.144816051148496,
-      "kl": 4.2109375,
-      "learning_rate": 6.770536555792944e-07,
-      "loss": 0.8037,
-      "reward": 2.3306804895401,
-      "reward_std": 0.7895675301551819,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.02001405507326126,
-      "rewards/tag_count_reward": 0.8229166865348816,
+      "completion_length": 523.7708435058594,
+      "epoch": 0.6862170087976539,
+      "grad_norm": 14.297145277012756,
+      "kl": 1.078125,
+      "learning_rate": 3.4421712519586016e-07,
+      "loss": 0.2576,
+      "reward": 2.4406609535217285,
+      "reward_std": 0.1489308439195156,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017672521993517876,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 936
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 526.0625305175781,
-      "epoch": 0.4685,
-      "grad_norm": 48.4930120879613,
-      "kl": 2.5390625,
-      "learning_rate": 6.763000190143545e-07,
-      "loss": 0.7913,
-      "reward": 2.2242666482925415,
-      "reward_std": 0.5582642555236816,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.036150138825178146,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 493.5208435058594,
+      "epoch": 0.6869501466275659,
+      "grad_norm": 32.92184403209849,
+      "kl": 1.6328125,
+      "learning_rate": 3.4319315587974806e-07,
+      "loss": 0.3352,
+      "reward": 2.660341739654541,
+      "reward_std": 0.22230494022369385,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027158407494425774,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 937
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 472.9583435058594,
-      "epoch": 0.469,
-      "grad_norm": 28.377979881418177,
-      "kl": 2.875,
-      "learning_rate": 6.755459977176532e-07,
-      "loss": 0.7778,
-      "reward": 2.534548759460449,
-      "reward_std": 0.6151235550642014,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02100683329626918,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 466.8541717529297,
+      "epoch": 0.6876832844574781,
+      "grad_norm": 8.17285504048901,
+      "kl": 0.4970703125,
+      "learning_rate": 3.4217054230014073e-07,
+      "loss": 0.0179,
+      "reward": 2.4424521923065186,
+      "reward_std": 0.1104821190237999,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02629770338535309,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 938
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 506.08335876464844,
-      "epoch": 0.4695,
-      "grad_norm": 51.22661172315456,
-      "kl": 5.640625,
-      "learning_rate": 6.747915939860701e-07,
-      "loss": 1.0882,
-      "reward": 2.568353295326233,
-      "reward_std": 0.7697390615940094,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.028869030997157097,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 449.3125,
+      "epoch": 0.6884164222873901,
+      "grad_norm": 8.937956638965543,
+      "kl": 0.55859375,
+      "learning_rate": 3.411492911608513e-07,
+      "loss": 0.0235,
+      "reward": 1.9536827206611633,
+      "reward_std": 0.07988723739981651,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02548403199762106,
+      "rewards/tag_count_reward": 1.0,
       "step": 939
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 490.87501525878906,
-      "epoch": 0.47,
-      "grad_norm": 90.34107970778037,
-      "kl": 5.359375,
-      "learning_rate": 6.740368101176495e-07,
-      "loss": 1.3803,
-      "reward": 2.270451307296753,
-      "reward_std": 0.7119334787130356,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.03510438837110996,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 591.7708435058594,
+      "epoch": 0.6891495601173021,
+      "grad_norm": 83.16419128491232,
+      "kl": 5.015625,
+      "learning_rate": 3.401294091567626e-07,
+      "loss": 0.7022,
+      "reward": 1.9109691977500916,
+      "reward_std": 0.28589335083961487,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.04041970055550337,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 940
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 668.5416870117188,
-      "epoch": 0.4705,
-      "grad_norm": 149.87469687137508,
-      "kl": 9.921875,
-      "learning_rate": 6.732816484115946e-07,
-      "loss": 1.7406,
-      "reward": 2.2741907835006714,
-      "reward_std": 0.8710194230079651,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.03136484418064356,
-      "rewards/tag_count_reward": 0.8125,
+      "completion_length": 468.4375,
+      "epoch": 0.6898826979472141,
+      "grad_norm": 57.040934440046975,
+      "kl": 3.2890625,
+      "learning_rate": 3.3911090297378054e-07,
+      "loss": 0.3252,
+      "reward": 2.1530415415763855,
+      "reward_std": 0.22559036314487457,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.027514135465025902,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 941
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 346.2291717529297,
-      "epoch": 0.471,
-      "grad_norm": 28.86324528704515,
-      "kl": 3.076171875,
-      "learning_rate": 6.725261111682584e-07,
-      "loss": 0.739,
-      "reward": 2.4970829486846924,
-      "reward_std": 0.5250428169965744,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.01506982184946537,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 456.00001525878906,
+      "epoch": 0.6906158357771262,
+      "grad_norm": 2.8055744806214746,
+      "kl": 0.349609375,
+      "learning_rate": 3.3809377928879327e-07,
+      "loss": 0.0145,
+      "reward": 2.45681369304657,
+      "reward_std": 0.08130190032534301,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02235298790037632,
+      "rewards/tag_count_reward": 1.0,
       "step": 942
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 487.75001525878906,
-      "epoch": 0.4715,
-      "grad_norm": 56.50232838741636,
-      "kl": 3.095703125,
-      "learning_rate": 6.717702006891386e-07,
-      "loss": 0.723,
-      "reward": 2.7474167346954346,
-      "reward_std": 0.4104699492454529,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.02688878308981657,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 487.31251525878906,
+      "epoch": 0.6913489736070382,
+      "grad_norm": 4.906686721090249,
+      "kl": 0.345703125,
+      "learning_rate": 3.370780447696246e-07,
+      "loss": 0.0158,
+      "reward": 2.449528932571411,
+      "reward_std": 0.09997610654681921,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02442941814661026,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 943
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 494.35418701171875,
-      "epoch": 0.472,
-      "grad_norm": 29.170486989553982,
-      "kl": 2.484375,
-      "learning_rate": 6.710139192768694e-07,
-      "loss": 0.8221,
-      "reward": 2.548454523086548,
-      "reward_std": 0.6629728078842163,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.875,
-      "rewards/repetition_penalty_reward": -0.02446222584694624,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 466.50001525878906,
+      "epoch": 0.6920821114369502,
+      "grad_norm": 7.045604029987775,
+      "kl": 1.572265625,
+      "learning_rate": 3.360637060749924e-07,
+      "loss": 0.0785,
+      "reward": 1.9422118663787842,
+      "reward_std": 0.07563984906300902,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02306581661105156,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 944
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 438.97918701171875,
-      "epoch": 0.4725,
-      "grad_norm": 32.67810625226338,
-      "kl": 1.666015625,
-      "learning_rate": 6.702572692352155e-07,
-      "loss": 0.43,
-      "reward": 2.627410054206848,
-      "reward_std": 0.5064197182655334,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.027104116044938564,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 472.3333435058594,
+      "epoch": 0.6928152492668622,
+      "grad_norm": 4.579383798845335,
+      "kl": 0.3828125,
+      "learning_rate": 3.350507698544636e-07,
+      "loss": 0.0729,
+      "reward": 2.200911045074463,
+      "reward_std": 0.07387769222259521,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02304728701710701,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 945
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.1458435058594,
-      "epoch": 0.473,
-      "grad_norm": 17.27648804391711,
-      "kl": 1.1796875,
-      "learning_rate": 6.695002528690639e-07,
-      "loss": 0.4697,
-      "reward": 2.5221011638641357,
-      "reward_std": 0.5778738856315613,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.024773948825895786,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 478.29168701171875,
+      "epoch": 0.6935483870967742,
+      "grad_norm": 11.882042524248234,
+      "kl": 1.51171875,
+      "learning_rate": 3.340392427484117e-07,
+      "loss": 0.1229,
+      "reward": 2.3835513591766357,
+      "reward_std": 0.24781902134418488,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022698688320815563,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 946
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.2708435058594,
-      "epoch": 0.4735,
-      "grad_norm": 29.4628975430113,
-      "kl": 1.16015625,
-      "learning_rate": 6.687428724844179e-07,
-      "loss": 0.7055,
-      "reward": 2.7500462532043457,
-      "reward_std": 0.556076854467392,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.02078736387193203,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 460.2708435058594,
+      "epoch": 0.6942815249266863,
+      "grad_norm": 16.42715424721198,
+      "kl": 1.53515625,
+      "learning_rate": 3.330291313879716e-07,
+      "loss": 0.2588,
+      "reward": 2.4029751420021057,
+      "reward_std": 0.23220430314540863,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.0310527877882123,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 947
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.75,
-      "epoch": 0.474,
-      "grad_norm": 20.698807383719775,
-      "kl": 2.576171875,
-      "learning_rate": 6.679851303883891e-07,
-      "loss": 0.4381,
-      "reward": 2.62761914730072,
-      "reward_std": 0.5112544745206833,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.05293664522469044,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 460.75001525878906,
+      "epoch": 0.6950146627565983,
+      "grad_norm": 22.424491823020983,
+      "kl": 2.09765625,
+      "learning_rate": 3.3202044239499867e-07,
+      "loss": 0.3906,
+      "reward": 2.326223611831665,
+      "reward_std": 0.40988829731941223,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.024470987729728222,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 948
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 693.7500305175781,
-      "epoch": 0.4745,
-      "grad_norm": 96.72626140777622,
-      "kl": 5.59375,
-      "learning_rate": 6.672270288891918e-07,
-      "loss": 1.1839,
-      "reward": 2.393503427505493,
-      "reward_std": 0.6808468699455261,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.847222238779068,
-      "rewards/repetition_penalty_reward": -0.01621889090165496,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 560.9166870117188,
+      "epoch": 0.6957478005865103,
+      "grad_norm": 84.3739723227209,
+      "kl": 7.5234375,
+      "learning_rate": 3.3101318238202245e-07,
+      "loss": 0.415,
+      "reward": 2.309966802597046,
+      "reward_std": 0.2813423126935959,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.019894277676939964,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 949
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.5208435058594,
-      "epoch": 0.475,
-      "grad_norm": 19.558125629971823,
-      "kl": 1.59765625,
-      "learning_rate": 6.664685702961344e-07,
-      "loss": 0.5762,
-      "reward": 2.7208783626556396,
-      "reward_std": 0.4175289124250412,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03780231811106205,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 498.7708435058594,
+      "epoch": 0.6964809384164223,
+      "grad_norm": 34.148485717679705,
+      "kl": 3.671875,
+      "learning_rate": 3.3000735795220566e-07,
+      "loss": 0.4339,
+      "reward": 2.2733023166656494,
+      "reward_std": 0.4924462139606476,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.023572625126689672,
+      "rewards/tag_count_reward": 0.8802083432674408,
       "step": 950
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.3541717529297,
-      "epoch": 0.4755,
-      "grad_norm": 10.796574951729502,
-      "kl": 1.2109375,
-      "learning_rate": 6.657097569196133e-07,
-      "loss": 0.6176,
-      "reward": 2.8126251697540283,
-      "reward_std": 0.4413589537143707,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03633330576121807,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 540.9166717529297,
+      "epoch": 0.6972140762463344,
+      "grad_norm": 41.73333734505236,
+      "kl": 4.234375,
+      "learning_rate": 3.290029756992995e-07,
+      "loss": 0.4413,
+      "reward": 2.3373730182647705,
+      "reward_std": 0.3256710283458233,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027210503350943327,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 951
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 511.18751525878906,
-      "epoch": 0.476,
-      "grad_norm": 19.892775367759974,
-      "kl": 1.998046875,
-      "learning_rate": 6.649505910711058e-07,
-      "loss": 0.8213,
-      "reward": 2.4712870121002197,
-      "reward_std": 0.6184780597686768,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9722221791744232,
-      "rewards/repetition_penalty_reward": -0.04781022481620312,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 519.5625,
+      "epoch": 0.6979472140762464,
+      "grad_norm": 76.8637407662865,
+      "kl": 6.9921875,
+      "learning_rate": 3.280000422076007e-07,
+      "loss": 0.6329,
+      "reward": 2.4091644287109375,
+      "reward_std": 0.26125724613666534,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.024863524362444878,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 952
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 392.4791717529297,
-      "epoch": 0.4765,
-      "grad_norm": 4.848138327898023,
-      "kl": 0.654296875,
-      "learning_rate": 6.641910750631626e-07,
-      "loss": 0.4091,
-      "reward": 2.516338586807251,
-      "reward_std": 0.4349832981824875,
-      "rewards/accuracy_reward": 0.5833333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02011991571635008,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 460.1041717529297,
+      "epoch": 0.6986803519061584,
+      "grad_norm": 5.933236012161051,
+      "kl": 0.72265625,
+      "learning_rate": 3.269985640519093e-07,
+      "loss": 0.043,
+      "reward": 2.4667599201202393,
+      "reward_std": 0.04559937119483948,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022823692299425602,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 953
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.2291717529297,
-      "epoch": 0.477,
-      "grad_norm": 7.336625031482144,
-      "kl": 0.3828125,
-      "learning_rate": 6.634312112094013e-07,
-      "loss": 0.2705,
-      "reward": 2.9284573793411255,
-      "reward_std": 0.1592683894559741,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.0281402375549078,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 446.2291717529297,
+      "epoch": 0.6994134897360704,
+      "grad_norm": 11.219462628947934,
+      "kl": 0.67578125,
+      "learning_rate": 3.259985477974838e-07,
+      "loss": 0.0423,
+      "reward": 2.6256914138793945,
+      "reward_std": 0.2616752292960882,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030558819882571697,
+      "rewards/tag_count_reward": 0.96875,
       "step": 954
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 437.06251525878906,
-      "epoch": 0.4775,
-      "grad_norm": 7.131878067757179,
-      "kl": 0.966796875,
-      "learning_rate": 6.626710018244987e-07,
-      "loss": 0.475,
-      "reward": 2.6469991207122803,
-      "reward_std": 0.4648020267486572,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888657093048,
-      "rewards/repetition_penalty_reward": -0.03876485675573349,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 508.47918701171875,
+      "epoch": 0.7001466275659824,
+      "grad_norm": 43.155555290044155,
+      "kl": 1.7216796875,
+      "learning_rate": 3.250000000000001e-07,
+      "loss": 0.3124,
+      "reward": 2.1255834102630615,
+      "reward_std": 0.252389095723629,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.021986079402267933,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 955
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 548.125,
-      "epoch": 0.478,
-      "grad_norm": 6.425684042725763,
-      "kl": 1.1748046875,
-      "learning_rate": 6.619104492241847e-07,
-      "loss": 0.6925,
-      "reward": 2.6355875730514526,
-      "reward_std": 0.6411095261573792,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.92361119389534,
-      "rewards/repetition_penalty_reward": -0.02239851839840412,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 489.18751525878906,
+      "epoch": 0.7008797653958945,
+      "grad_norm": 25.849133555001085,
+      "kl": 3.09375,
+      "learning_rate": 3.240029272055065e-07,
+      "loss": 0.3879,
+      "reward": 2.3594762086868286,
+      "reward_std": 0.5459988713264465,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.025940511375665665,
+      "rewards/tag_count_reward": 0.8645833730697632,
       "step": 956
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 626.2916870117188,
-      "epoch": 0.4785,
-      "grad_norm": 16.967190075717454,
-      "kl": 1.76171875,
-      "learning_rate": 6.611495557252344e-07,
-      "loss": 0.5574,
-      "reward": 2.226294755935669,
-      "reward_std": 0.6637153029441833,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.03585825115442276,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 492.4375,
+      "epoch": 0.7016129032258065,
+      "grad_norm": 8.258539904474,
+      "kl": 0.76171875,
+      "learning_rate": 3.230073359503829e-07,
+      "loss": 0.0552,
+      "reward": 2.192040979862213,
+      "reward_std": 0.13235630840063095,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021500680595636368,
+      "rewards/tag_count_reward": 0.984375,
       "step": 957
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 404.2291717529297,
-      "epoch": 0.479,
-      "grad_norm": 10.223600950988965,
-      "kl": 0.904296875,
-      "learning_rate": 6.603883236454612e-07,
-      "loss": 0.3123,
-      "reward": 2.5562199354171753,
-      "reward_std": 0.36893555521965027,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02884970884770155,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 464.3333435058594,
+      "epoch": 0.7023460410557185,
+      "grad_norm": 8.679112971623974,
+      "kl": 1.78125,
+      "learning_rate": 3.220132327612959e-07,
+      "loss": 0.0354,
+      "reward": 2.4318766593933105,
+      "reward_std": 0.42502492666244507,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02124821860343218,
+      "rewards/tag_count_reward": 0.890625,
       "step": 958
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.0000305175781,
-      "epoch": 0.4795,
-      "grad_norm": 13.545049398841398,
-      "kl": 1.447265625,
-      "learning_rate": 6.596267553037102e-07,
-      "loss": 0.6647,
-      "reward": 2.6013318300247192,
-      "reward_std": 0.5714467167854309,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.021932163275778294,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 515.6458435058594,
+      "epoch": 0.7030791788856305,
+      "grad_norm": 27.796035153234367,
+      "kl": 1.87890625,
+      "learning_rate": 3.210206241551576e-07,
+      "loss": 0.1472,
+      "reward": 2.4991250038146973,
+      "reward_std": 0.5063153505325317,
+      "rewards/accuracy_reward": 0.6250000149011612,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.028652765788137913,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 959
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 281.9375,
-      "epoch": 0.48,
-      "grad_norm": 3.6393715149294783,
-      "kl": 0.318359375,
-      "learning_rate": 6.588648530198504e-07,
-      "loss": 0.0146,
-      "reward": 2.820993185043335,
-      "reward_std": 0.29440733790397644,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.033173730596899986,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 562.5208435058594,
+      "epoch": 0.7038123167155426,
+      "grad_norm": 16.67018322666244,
+      "kl": 3.1796875,
+      "learning_rate": 3.2002951663908184e-07,
+      "loss": 0.3967,
+      "reward": 2.2723554372787476,
+      "reward_std": 0.4776581823825836,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02451958041638136,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 960
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 403.41668701171875,
-      "epoch": 0.4805,
-      "grad_norm": 12.12449463950798,
-      "kl": 0.63671875,
-      "learning_rate": 6.581026191147687e-07,
-      "loss": 0.2886,
-      "reward": 2.8694658279418945,
-      "reward_std": 0.1928266827017069,
-      "rewards/accuracy_reward": 0.9375,
+      "completion_length": 559.6250305175781,
+      "epoch": 0.7045454545454546,
+      "grad_norm": 18.351794895624867,
+      "kl": 2.2109375,
+      "learning_rate": 3.1903991671034257e-07,
+      "loss": 0.3861,
+      "reward": 2.369241237640381,
+      "reward_std": 0.22771289199590683,
+      "rewards/accuracy_reward": 0.4791666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03157583996653557,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.026591990143060684,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 961
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 473.35418701171875,
-      "epoch": 0.481,
-      "grad_norm": 11.78122309788569,
-      "kl": 0.736328125,
-      "learning_rate": 6.573400559103613e-07,
-      "loss": 0.5582,
-      "reward": 2.6566274166107178,
-      "reward_std": 0.5360835194587708,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.023928127251565456,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 485.47918701171875,
+      "epoch": 0.7052785923753666,
+      "grad_norm": 13.326292369321743,
+      "kl": 2.2421875,
+      "learning_rate": 3.180518308563298e-07,
+      "loss": 0.2725,
+      "reward": 2.3383569717407227,
+      "reward_std": 0.3190757483243942,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02101796120405197,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 962
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.41668701171875,
-      "epoch": 0.4815,
-      "grad_norm": 5.271282050317202,
-      "kl": 0.7451171875,
-      "learning_rate": 6.565771657295285e-07,
-      "loss": 0.5522,
-      "reward": 2.6375869512557983,
-      "reward_std": 0.5502025783061981,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.030815905891358852,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 503.2291717529297,
+      "epoch": 0.7060117302052786,
+      "grad_norm": 38.51770861382194,
+      "kl": 4.75,
+      "learning_rate": 3.1706526555450874e-07,
+      "loss": 0.5938,
+      "reward": 2.50447940826416,
+      "reward_std": 0.4233640283346176,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03197902161628008,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 963
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 652.5416717529297,
-      "epoch": 0.482,
-      "grad_norm": 15.413225325982117,
-      "kl": 2.1796875,
-      "learning_rate": 6.558139508961654e-07,
-      "loss": 0.3435,
-      "reward": 2.3981354236602783,
-      "reward_std": 0.5044302940368652,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.030684133991599083,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 483.4583435058594,
+      "epoch": 0.7067448680351907,
+      "grad_norm": 23.230178570798735,
+      "kl": 4.46875,
+      "learning_rate": 3.160802272723758e-07,
+      "loss": 0.2725,
+      "reward": 2.4244531393051147,
+      "reward_std": 0.4745712876319885,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.030408103950321674,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 964
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 512.5625152587891,
-      "epoch": 0.4825,
-      "grad_norm": 12.446301073299496,
-      "kl": 2.546875,
-      "learning_rate": 6.550504137351575e-07,
-      "loss": 0.6114,
-      "reward": 2.6402413845062256,
-      "reward_std": 0.6303743720054626,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.035105928778648376,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 505.6041717529297,
+      "epoch": 0.7074780058651027,
+      "grad_norm": 88.08557499027471,
+      "kl": 7.671875,
+      "learning_rate": 3.150967224674177e-07,
+      "loss": 0.5289,
+      "reward": 1.9547891020774841,
+      "reward_std": 0.3700524717569351,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.02437763847410679,
+      "rewards/tag_count_reward": 0.8541666865348816,
       "step": 965
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 326.625,
-      "epoch": 0.483,
-      "grad_norm": 18.969040400669726,
-      "kl": 1.03125,
-      "learning_rate": 6.542865565723707e-07,
-      "loss": 0.2782,
-      "reward": 2.5593295097351074,
-      "reward_std": 0.25267046224325895,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0135872233659029,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 504.31251525878906,
+      "epoch": 0.7082111436950147,
+      "grad_norm": 15.371719850558602,
+      "kl": 2.17578125,
+      "learning_rate": 3.141147575870676e-07,
+      "loss": 0.3489,
+      "reward": 2.378512144088745,
+      "reward_std": 0.308450847864151,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.019057356752455235,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 966
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 586.7291870117188,
-      "epoch": 0.4835,
-      "grad_norm": 16.445189525113065,
-      "kl": 1.46875,
-      "learning_rate": 6.53522381734647e-07,
-      "loss": 0.8025,
-      "reward": 2.4304505586624146,
-      "reward_std": 0.6917058825492859,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.029619052074849606,
-      "rewards/tag_count_reward": 0.890625,
+      "completion_length": 497.60418701171875,
+      "epoch": 0.7089442815249267,
+      "grad_norm": 11.79394222832606,
+      "kl": 2.16015625,
+      "learning_rate": 3.1313433906866374e-07,
+      "loss": 0.2853,
+      "reward": 2.5798145532608032,
+      "reward_std": 0.33551979064941406,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024352273903787136,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 967
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 352.0416717529297,
-      "epoch": 0.484,
-      "grad_norm": 12.008822684584926,
-      "kl": 0.662109375,
-      "learning_rate": 6.527578915497951e-07,
-      "loss": 0.3397,
-      "reward": 2.639287829399109,
-      "reward_std": 0.19891707226634026,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.025642716325819492,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 448.29168701171875,
+      "epoch": 0.7096774193548387,
+      "grad_norm": 14.817819935865485,
+      "kl": 3.67578125,
+      "learning_rate": 3.1215547333940764e-07,
+      "loss": 0.1242,
+      "reward": 2.103150486946106,
+      "reward_std": 0.185621440410614,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.020113405771553516,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 968
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.8333435058594,
-      "epoch": 0.4845,
-      "grad_norm": 20.326619395037802,
-      "kl": 0.962890625,
-      "learning_rate": 6.519930883465847e-07,
-      "loss": 0.7163,
-      "reward": 2.6135048866271973,
-      "reward_std": 0.5543282628059387,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.02538419794291258,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 452.12501525878906,
+      "epoch": 0.7104105571847508,
+      "grad_norm": 9.799356075669513,
+      "kl": 2.66015625,
+      "learning_rate": 3.1117816681632046e-07,
+      "loss": 0.1152,
+      "reward": 2.278549313545227,
+      "reward_std": 0.29779060930013657,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.023534007370471954,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 969
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 655.375,
-      "epoch": 0.485,
-      "grad_norm": 19.44522032453373,
-      "kl": 1.9609375,
-      "learning_rate": 6.512279744547392e-07,
-      "loss": 0.3818,
-      "reward": 2.0434839129447937,
-      "reward_std": 0.49595144391059875,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.022488368675112724,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 490.7291717529297,
+      "epoch": 0.7111436950146628,
+      "grad_norm": 23.529385447949288,
+      "kl": 2.2421875,
+      "learning_rate": 3.1020242590620293e-07,
+      "loss": 0.2476,
+      "reward": 1.8638713955879211,
+      "reward_std": 0.26981137692928314,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652778506278992,
+      "rewards/repetition_penalty_reward": -0.023281488567590714,
+      "rewards/tag_count_reward": 0.921875,
       "step": 970
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 469.16668701171875,
-      "epoch": 0.4855,
-      "grad_norm": 24.245196285909877,
-      "kl": 1.53515625,
-      "learning_rate": 6.50462552204928e-07,
-      "loss": 0.2542,
-      "reward": 2.400037169456482,
-      "reward_std": 0.32993632555007935,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03225455339998007,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 577.4166870117188,
+      "epoch": 0.7118768328445748,
+      "grad_norm": 17.290844738388767,
+      "kl": 0.8828125,
+      "learning_rate": 3.092282570055913e-07,
+      "loss": 0.0675,
+      "reward": 2.3447808027267456,
+      "reward_std": 0.29597213864326477,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.012858240399509668,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 971
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 513.3333435058594,
-      "epoch": 0.486,
-      "grad_norm": 8.729059180440508,
-      "kl": 1.6484375,
-      "learning_rate": 6.496968239287603e-07,
-      "loss": 0.6719,
-      "reward": 2.4571033716201782,
-      "reward_std": 0.5960609018802643,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.01859105657786131,
+      "completion_length": 448.4583435058594,
+      "epoch": 0.7126099706744868,
+      "grad_norm": 25.22529983173914,
+      "kl": 2.34375,
+      "learning_rate": 3.0825566650071726e-07,
+      "loss": 0.2648,
+      "reward": 2.5462182760238647,
+      "reward_std": 0.37398337107151747,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.026698616333305836,
       "rewards/tag_count_reward": 0.9270833432674408,
       "step": 972
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.9583435058594,
-      "epoch": 0.4865,
-      "grad_norm": 11.187904638989847,
-      "kl": 1.177734375,
-      "learning_rate": 6.489307919587769e-07,
-      "loss": 0.3269,
-      "reward": 2.578757405281067,
-      "reward_std": 0.5115742385387421,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.0358259379863739,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 556.3125,
+      "epoch": 0.7133431085043989,
+      "grad_norm": 57.26538846475611,
+      "kl": 2.48828125,
+      "learning_rate": 3.072846607674645e-07,
+      "loss": 0.6625,
+      "reward": 2.342366099357605,
+      "reward_std": 0.38562868535518646,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0222172187641263,
+      "rewards/tag_count_reward": 0.9270833730697632,
       "step": 973
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 299.37501525878906,
-      "epoch": 0.487,
-      "grad_norm": 5.4073047177912175,
-      "kl": 0.423828125,
-      "learning_rate": 6.481644586284442e-07,
-      "loss": 0.2367,
-      "reward": 2.902934432029724,
-      "reward_std": 0.275345578789711,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.018940678797662258,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 504.4791717529297,
+      "epoch": 0.7140762463343109,
+      "grad_norm": 28.943299265226212,
+      "kl": 4.5546875,
+      "learning_rate": 3.063152461713282e-07,
+      "loss": 0.3193,
+      "reward": 2.0221683979034424,
+      "reward_std": 0.4104950726032257,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.02123451605439186,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 974
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 521.4791870117188,
-      "epoch": 0.4875,
-      "grad_norm": 6.345217828877253,
-      "kl": 1.3828125,
-      "learning_rate": 6.473978262721463e-07,
-      "loss": 0.5127,
-      "reward": 2.6163452863693237,
-      "reward_std": 0.4908182621002197,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.039904940873384476,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 545.0000152587891,
+      "epoch": 0.7148093841642229,
+      "grad_norm": 117.23597424908264,
+      "kl": 11.8203125,
+      "learning_rate": 3.053474290673722e-07,
+      "loss": 0.9305,
+      "reward": 2.131690263748169,
+      "reward_std": 0.6166838854551315,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9513889253139496,
+      "rewards/repetition_penalty_reward": -0.017615425400435925,
+      "rewards/tag_count_reward": 0.71875,
       "step": 975
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.47918701171875,
-      "epoch": 0.488,
-      "grad_norm": 20.969372614612894,
-      "kl": 0.859375,
-      "learning_rate": 6.466308972251785e-07,
-      "loss": 0.3447,
-      "reward": 2.4979482889175415,
-      "reward_std": 0.43351081013679504,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.01767673483118415,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 508.16668701171875,
+      "epoch": 0.7155425219941349,
+      "grad_norm": 26.99768837152522,
+      "kl": 4.7421875,
+      "learning_rate": 3.0438121580018863e-07,
+      "loss": 0.5739,
+      "reward": 2.092137038707733,
+      "reward_std": 0.2849106341600418,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.020710238255560398,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 976
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 553.3541870117188,
-      "epoch": 0.4885,
-      "grad_norm": 22.992172626012245,
-      "kl": 2.705078125,
-      "learning_rate": 6.458636738237395e-07,
-      "loss": 0.2706,
-      "reward": 1.9824464321136475,
-      "reward_std": 0.34522050246596336,
-      "rewards/accuracy_reward": 0.1875,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.01928970357403159,
-      "rewards/tag_count_reward": 0.890625,
+      "completion_length": 576.7083435058594,
+      "epoch": 0.716275659824047,
+      "grad_norm": 30.385974891375128,
+      "kl": 3.8359375,
+      "learning_rate": 3.0341661270385446e-07,
+      "loss": 0.4812,
+      "reward": 2.785071015357971,
+      "reward_std": 0.561683714389801,
+      "rewards/accuracy_reward": 0.9166666865348816,
+      "rewards/reasoning_steps_reward": 0.965277761220932,
+      "rewards/repetition_penalty_reward": -0.023956785909831524,
+      "rewards/tag_count_reward": 0.9270833730697632,
       "step": 977
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 351.9791717529297,
-      "epoch": 0.489,
-      "grad_norm": 13.361424348905297,
-      "kl": 1.169921875,
-      "learning_rate": 6.45096158404925e-07,
-      "loss": 0.2465,
-      "reward": 2.648337244987488,
-      "reward_std": 0.3259388506412506,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.0461073312908411,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 405.2291717529297,
+      "epoch": 0.717008797653959,
+      "grad_norm": 10.81014359610337,
+      "kl": 1.70703125,
+      "learning_rate": 3.024536261018923e-07,
+      "loss": 0.0371,
+      "reward": 2.183934807777405,
+      "reward_std": 0.1534016877412796,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02266244124621153,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 978
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 295.31251525878906,
-      "epoch": 0.4895,
-      "grad_norm": 7.444601060796791,
-      "kl": 0.79296875,
-      "learning_rate": 6.443283533067198e-07,
-      "loss": 0.1929,
-      "reward": 2.6383087635040283,
-      "reward_std": 0.48684653639793396,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.03703854978084564,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "completion_length": 505.4166717529297,
+      "epoch": 0.717741935483871,
+      "grad_norm": 20.583436231099498,
+      "kl": 4.859375,
+      "learning_rate": 3.0149226230722656e-07,
+      "loss": 0.5499,
+      "reward": 2.495741605758667,
+      "reward_std": 0.45375633239746094,
+      "rewards/accuracy_reward": 0.645833358168602,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.021619529463350773,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 979
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 394.81251525878906,
-      "epoch": 0.49,
-      "grad_norm": 16.978947124748732,
-      "kl": 2.134765625,
-      "learning_rate": 6.435602608679916e-07,
-      "loss": 0.54,
-      "reward": 2.573986530303955,
-      "reward_std": 0.4741198271512985,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.014555106405168772,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 563.1875305175781,
+      "epoch": 0.718475073313783,
+      "grad_norm": 21.523757743477038,
+      "kl": 3.1484375,
+      "learning_rate": 3.0053252762214434e-07,
+      "loss": 0.5152,
+      "reward": 2.2795934081077576,
+      "reward_std": 0.5194336771965027,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02075397362932563,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 980
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 397.5,
-      "epoch": 0.4905,
-      "grad_norm": 7.762331640955408,
-      "kl": 1.609375,
-      "learning_rate": 6.427918834284834e-07,
-      "loss": 0.3917,
-      "reward": 2.5270793437957764,
-      "reward_std": 0.3988271802663803,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.02326801000162959,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 462.6458435058594,
+      "epoch": 0.719208211143695,
+      "grad_norm": 9.328779600109762,
+      "kl": 2.67578125,
+      "learning_rate": 2.9957442833825207e-07,
+      "loss": 0.023,
+      "reward": 1.9250345826148987,
+      "reward_std": 0.28224488347768784,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.02461833320558071,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 981
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.5625,
-      "epoch": 0.491,
-      "grad_norm": 15.572448453302112,
-      "kl": 1.1484375,
-      "learning_rate": 6.420232233288055e-07,
-      "loss": 0.2343,
-      "reward": 2.2758413553237915,
-      "reward_std": 0.42710670828819275,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.036658719182014465,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 517.7083435058594,
+      "epoch": 0.7199413489736071,
+      "grad_norm": 68.08501111143843,
+      "kl": 7.2265625,
+      "learning_rate": 2.986179707364355e-07,
+      "loss": 0.6412,
+      "reward": 2.2177438735961914,
+      "reward_std": 0.499715194106102,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.025311839766800404,
+      "rewards/tag_count_reward": 0.875,
       "step": 982
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.1458435058594,
-      "epoch": 0.4915,
-      "grad_norm": 8.40361032839979,
-      "kl": 0.9599609375,
-      "learning_rate": 6.412542829104306e-07,
-      "loss": 0.0975,
-      "reward": 2.634483575820923,
-      "reward_std": 0.15141713619232178,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.02350257895886898,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 544.9166870117188,
+      "epoch": 0.7206744868035191,
+      "grad_norm": 53.114941492476,
+      "kl": 6.5390625,
+      "learning_rate": 2.9766316108681867e-07,
+      "loss": 0.3512,
+      "reward": 2.465793192386627,
+      "reward_std": 0.4085993431508541,
+      "rewards/accuracy_reward": 0.6666666716337204,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.020318015478551388,
+      "rewards/tag_count_reward": 0.875,
       "step": 983
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.06251525878906,
-      "epoch": 0.492,
-      "grad_norm": 27.667281989688025,
-      "kl": 0.796875,
-      "learning_rate": 6.404850645156841e-07,
-      "loss": 0.3823,
-      "reward": 2.5004520416259766,
-      "reward_std": 0.42026159167289734,
-      "rewards/accuracy_reward": 0.5833333432674408,
+      "completion_length": 470.87501525878906,
+      "epoch": 0.7214076246334311,
+      "grad_norm": 21.15094205176047,
+      "kl": 5.328125,
+      "learning_rate": 2.9671000564872155e-07,
+      "loss": 0.2666,
+      "reward": 2.513883590698242,
+      "reward_std": 0.42151640355587006,
+      "rewards/accuracy_reward": 0.645833358168602,
       "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.025589827448129654,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.017366615124046803,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 984
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 271.50001525878906,
-      "epoch": 0.4925,
-      "grad_norm": 5.158618170324173,
-      "kl": 0.271484375,
-      "learning_rate": 6.397155704877388e-07,
-      "loss": -0.0319,
-      "reward": 2.6765854358673096,
-      "reward_std": 0.21046356856822968,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.024803485721349716,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 524.2916717529297,
+      "epoch": 0.7221407624633431,
+      "grad_norm": 29.752132464122592,
+      "kl": 4.78125,
+      "learning_rate": 2.9575851067062065e-07,
+      "loss": 0.5037,
+      "reward": 2.2734715938568115,
+      "reward_std": 0.5585350394248962,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9513888955116272,
+      "rewards/repetition_penalty_reward": -0.02166739758104086,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 985
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 374.375,
-      "epoch": 0.493,
-      "grad_norm": 21.884347593037273,
-      "kl": 0.80859375,
-      "learning_rate": 6.389458031706068e-07,
-      "loss": 0.431,
-      "reward": 2.621227979660034,
-      "reward_std": 0.43661460280418396,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03154988866299391,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 507.8333435058594,
+      "epoch": 0.7228739002932552,
+      "grad_norm": 14.723027004397416,
+      "kl": 4.6484375,
+      "learning_rate": 2.948086823901064e-07,
+      "loss": 0.4912,
+      "reward": 2.0892439484596252,
+      "reward_std": 0.30918999761343,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.025339476764202118,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 986
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 330.87501525878906,
-      "epoch": 0.4935,
-      "grad_norm": 4.514766065731832,
-      "kl": 0.408203125,
-      "learning_rate": 6.381757649091329e-07,
-      "loss": 0.1863,
-      "reward": 2.54175066947937,
-      "reward_std": 0.15631027286872268,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.025957662612199783,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 487.375,
+      "epoch": 0.7236070381231672,
+      "grad_norm": 21.42719494284422,
+      "kl": 3.1953125,
+      "learning_rate": 2.938605270338438e-07,
+      "loss": 0.305,
+      "reward": 2.3562979698181152,
+      "reward_std": 0.33968590199947357,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.022174209356307983,
+      "rewards/tag_count_reward": 0.9270833730697632,
       "step": 987
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 426.47918701171875,
-      "epoch": 0.494,
-      "grad_norm": 8.57007282438186,
-      "kl": 1.37109375,
-      "learning_rate": 6.374054580489873e-07,
-      "loss": 0.5563,
-      "reward": 2.7405987977981567,
-      "reward_std": 0.40447968570515513,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.016345561482012272,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 581.4166870117188,
+      "epoch": 0.7243401759530792,
+      "grad_norm": 57.98934250609035,
+      "kl": 2.4609375,
+      "learning_rate": 2.929140508175303e-07,
+      "loss": 0.4714,
+      "reward": 2.6463661193847656,
+      "reward_std": 0.5489610433578491,
+      "rewards/accuracy_reward": 0.8333333730697632,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.01856454461812973,
+      "rewards/tag_count_reward": 0.8385416865348816,
       "step": 988
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 459.77085876464844,
-      "epoch": 0.4945,
-      "grad_norm": 7.660866604622285,
-      "kl": 1.337890625,
-      "learning_rate": 6.366348849366583e-07,
-      "loss": 0.1801,
-      "reward": 2.6990854740142822,
-      "reward_std": 0.36674173176288605,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.04570627398788929,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 504.12501525878906,
+      "epoch": 0.7250733137829912,
+      "grad_norm": 5.472385083004388,
+      "kl": 0.865234375,
+      "learning_rate": 2.919692599458562e-07,
+      "loss": -0.0366,
+      "reward": 2.373246669769287,
+      "reward_std": 0.2569347317330539,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.019114472903311253,
+      "rewards/tag_count_reward": 0.96875,
       "step": 989
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 329.97918701171875,
-      "epoch": 0.495,
-      "grad_norm": 21.838061572005632,
-      "kl": 1.4375,
-      "learning_rate": 6.358640479194451e-07,
-      "loss": 0.4576,
-      "reward": 2.5701619386672974,
-      "reward_std": 0.5304689109325409,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.01664359588176012,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 519.3541717529297,
+      "epoch": 0.7258064516129032,
+      "grad_norm": 39.08643489144547,
+      "kl": 1.72265625,
+      "learning_rate": 2.910261606124628e-07,
+      "loss": 0.3925,
+      "reward": 2.668207883834839,
+      "reward_std": 0.20043479651212692,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019292150624096394,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 990
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 327.43751525878906,
-      "epoch": 0.4955,
-      "grad_norm": 24.17528666080015,
-      "kl": 0.6298828125,
-      "learning_rate": 6.35092949345451e-07,
-      "loss": 0.3975,
-      "reward": 2.8759747743606567,
-      "reward_std": 0.2522295266389847,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.03201141953468323,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 477.75,
+      "epoch": 0.7265395894428153,
+      "grad_norm": 10.397393837487297,
+      "kl": 3.3984375,
+      "learning_rate": 2.9008475899990303e-07,
+      "loss": 0.3512,
+      "reward": 1.907959520816803,
+      "reward_std": 0.17317739874124527,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.0225960835814476,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 991
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 399.31251525878906,
-      "epoch": 0.496,
-      "grad_norm": 32.1142545684353,
-      "kl": 3.203125,
-      "learning_rate": 6.343215915635761e-07,
-      "loss": 0.7948,
-      "reward": 2.630898594856262,
-      "reward_std": 0.6931562125682831,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.027087541297078133,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 423.0,
+      "epoch": 0.7272727272727273,
+      "grad_norm": 6.425647931776092,
+      "kl": 1.0693359375,
+      "learning_rate": 2.891450612795996e-07,
+      "loss": 0.0657,
+      "reward": 2.434900164604187,
+      "reward_std": 0.11677450966089964,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.033849772065877914,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 992
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 471.10418701171875,
-      "epoch": 0.4965,
-      "grad_norm": 48.892823948801954,
-      "kl": 3.1953125,
-      "learning_rate": 6.335499769235098e-07,
-      "loss": 0.6139,
-      "reward": 2.738042116165161,
-      "reward_std": 0.37622474133968353,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.05015224777162075,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 430.8958435058594,
+      "epoch": 0.7280058651026393,
+      "grad_norm": 7.681856829230564,
+      "kl": 0.69140625,
+      "learning_rate": 2.88207073611806e-07,
+      "loss": 0.0605,
+      "reward": 2.4544625282287598,
+      "reward_std": 0.09726346097886562,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019495833665132523,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 993
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 330.87500762939453,
-      "epoch": 0.497,
-      "grad_norm": 28.390795641858606,
-      "kl": 1.5107421875,
-      "learning_rate": 6.327781077757241e-07,
-      "loss": 0.2853,
-      "reward": 2.7957078218460083,
-      "reward_std": 0.19093896262347698,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.025472811423242092,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 536.3750152587891,
+      "epoch": 0.7287390029325513,
+      "grad_norm": 32.06588173332881,
+      "kl": 3.70703125,
+      "learning_rate": 2.8727080214556457e-07,
+      "loss": 0.5747,
+      "reward": 2.737803339958191,
+      "reward_std": 0.5189033299684525,
+      "rewards/accuracy_reward": 0.8750000298023224,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.024349420331418514,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 994
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 329.6666717529297,
-      "epoch": 0.4975,
-      "grad_norm": 10.891904018933554,
-      "kl": 1.03515625,
-      "learning_rate": 6.320059864714664e-07,
-      "loss": 0.1864,
-      "reward": 2.720821738243103,
-      "reward_std": 0.32492922246456146,
-      "rewards/accuracy_reward": 0.7708333432674408,
+      "completion_length": 475.4166717529297,
+      "epoch": 0.7294721407624634,
+      "grad_norm": 34.63378364115736,
+      "kl": 3.9453125,
+      "learning_rate": 2.863362530186678e-07,
+      "loss": 0.2747,
+      "reward": 2.359430193901062,
+      "reward_std": 0.3197652115486562,
+      "rewards/accuracy_reward": 0.4375,
       "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02570601273328066,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.02772271167486906,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 995
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 435.1041717529297,
-      "epoch": 0.498,
-      "grad_norm": 27.389591437302162,
-      "kl": 1.552734375,
-      "learning_rate": 6.31233615362752e-07,
-      "loss": 0.7395,
-      "reward": 2.655308961868286,
-      "reward_std": 0.42288788408041,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03392717707902193,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 442.2916717529297,
+      "epoch": 0.7302052785923754,
+      "grad_norm": 11.427440648824225,
+      "kl": 1.951171875,
+      "learning_rate": 2.8540343235761647e-07,
+      "loss": 0.1325,
+      "reward": 2.1879454851150513,
+      "reward_std": 0.10632134415209293,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02038785256445408,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 996
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 394.4583435058594,
-      "epoch": 0.4985,
-      "grad_norm": 37.45628290835572,
-      "kl": 1.1953125,
-      "learning_rate": 6.304609968023572e-07,
-      "loss": 0.5472,
-      "reward": 2.78287935256958,
-      "reward_std": 0.4373747333884239,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.031356871128082275,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 514.9375152587891,
+      "epoch": 0.7309384164222874,
+      "grad_norm": 40.24736372449541,
+      "kl": 5.890625,
+      "learning_rate": 2.844723462775808e-07,
+      "loss": 0.6704,
+      "reward": 2.442981481552124,
+      "reward_std": 0.531048059463501,
+      "rewards/accuracy_reward": 0.6250000298023224,
+      "rewards/reasoning_steps_reward": 0.9374999701976776,
+      "rewards/repetition_penalty_reward": -0.025768570601940155,
+      "rewards/tag_count_reward": 0.90625,
       "step": 997
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 440.3333435058594,
-      "epoch": 0.499,
-      "grad_norm": 8.83893360388916,
-      "kl": 1.12890625,
-      "learning_rate": 6.296881331438126e-07,
-      "loss": 0.3209,
-      "reward": 2.574609398841858,
-      "reward_std": 0.4172719120979309,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.019140728749334812,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 502.7708435058594,
+      "epoch": 0.7316715542521994,
+      "grad_norm": 5.792758545167139,
+      "kl": 0.421875,
+      "learning_rate": 2.835430008823595e-07,
+      "loss": 0.0022,
+      "reward": 2.200049042701721,
+      "reward_std": 0.11532247066497803,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018701023422181606,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 998
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.4166717529297,
-      "epoch": 0.4995,
-      "grad_norm": 25.468071616698786,
-      "kl": 1.109375,
-      "learning_rate": 6.289150267413942e-07,
-      "loss": 0.5873,
-      "reward": 2.646699547767639,
-      "reward_std": 0.38845836371183395,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.023439443670213223,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 443.22918701171875,
+      "epoch": 0.7324046920821115,
+      "grad_norm": 4.830574121704087,
+      "kl": 0.392578125,
+      "learning_rate": 2.8261540226434053e-07,
+      "loss": 0.0439,
+      "reward": 2.2262839674949646,
+      "reward_std": 0.012909410055726767,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023716239258646965,
+      "rewards/tag_count_reward": 1.0,
       "step": 999
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.1041717529297,
-      "epoch": 0.5,
-      "grad_norm": 9.084576194579185,
-      "kl": 2.25,
-      "learning_rate": 6.281416799501187e-07,
-      "loss": 0.5736,
-      "reward": 2.3330485820770264,
-      "reward_std": 0.5498259365558624,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.019382060505449772,
-      "rewards/tag_count_reward": 0.8802083730697632,
+      "completion_length": 456.06251525878906,
+      "epoch": 0.7331378299120235,
+      "grad_norm": 15.554349111823829,
+      "kl": 1.70703125,
+      "learning_rate": 2.816895565044605e-07,
+      "loss": 0.175,
+      "reward": 2.610460877418518,
+      "reward_std": 0.27700604498386383,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03537251055240631,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1000
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.8333435058594,
-      "epoch": 0.5005,
-      "grad_norm": 9.95609254967102,
-      "kl": 1.60546875,
-      "learning_rate": 6.273680951257342e-07,
-      "loss": 0.5362,
-      "reward": 2.549267292022705,
-      "reward_std": 0.6142518520355225,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.03580236993730068,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 444.31251525878906,
+      "epoch": 0.7338709677419355,
+      "grad_norm": 2.7793634910585094,
+      "kl": 0.390625,
+      "learning_rate": 2.8076546967216487e-07,
+      "loss": 0.0144,
+      "reward": 2.483184516429901,
+      "reward_std": 0.011150819715112448,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.016815499402582645,
+      "rewards/tag_count_reward": 1.0,
       "step": 1001
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 455.0833435058594,
-      "epoch": 0.501,
-      "grad_norm": 14.049667830028957,
-      "kl": 2.2265625,
-      "learning_rate": 6.265942746247146e-07,
-      "loss": 0.7722,
-      "reward": 2.731945276260376,
-      "reward_std": 0.5192966759204865,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.021526905708014965,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 484.10418701171875,
+      "epoch": 0.7346041055718475,
+      "grad_norm": 2.713549340063795,
+      "kl": 0.34375,
+      "learning_rate": 2.798431478253686e-07,
+      "loss": 0.0461,
+      "reward": 2.456187903881073,
+      "reward_std": 0.07819372694939375,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02297879382967949,
+      "rewards/tag_count_reward": 1.0,
       "step": 1002
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 623.5625305175781,
-      "epoch": 0.5015,
-      "grad_norm": 31.177249787933718,
-      "kl": 2.55859375,
-      "learning_rate": 6.258202208042511e-07,
-      "loss": 1.1778,
-      "reward": 2.524030923843384,
-      "reward_std": 0.7691468000411987,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.02110826689749956,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 452.2083435058594,
+      "epoch": 0.7353372434017595,
+      "grad_norm": 50.419548757796655,
+      "kl": 1.0673828125,
+      "learning_rate": 2.78922597010416e-07,
+      "loss": -0.0155,
+      "reward": 2.23778760433197,
+      "reward_std": 0.04544468317180872,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022629093378782272,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1003
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 584.2083435058594,
-      "epoch": 0.502,
-      "grad_norm": 39.78085883662432,
-      "kl": 3.6015625,
-      "learning_rate": 6.25045936022246e-07,
-      "loss": 1.1624,
-      "reward": 2.3681070804595947,
-      "reward_std": 0.57652947306633,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.015573485288769007,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 474.79168701171875,
+      "epoch": 0.7360703812316716,
+      "grad_norm": 19.19048360727899,
+      "kl": 0.7900390625,
+      "learning_rate": 2.7800382326204126e-07,
+      "loss": 0.1705,
+      "reward": 2.125224530696869,
+      "reward_std": 0.3402523510158062,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.020608842372894287,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 1004
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 541.2083587646484,
-      "epoch": 0.5025,
-      "grad_norm": 15.400304918011507,
-      "kl": 2.7578125,
-      "learning_rate": 6.242714226373049e-07,
-      "loss": 0.8093,
-      "reward": 2.1841408014297485,
-      "reward_std": 0.5138780176639557,
-      "rewards/accuracy_reward": 0.3750000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.015512102749198675,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 425.25001525878906,
+      "epoch": 0.7368035190615836,
+      "grad_norm": 6.278542797034713,
+      "kl": 0.5361328125,
+      "learning_rate": 2.770868326033291e-07,
+      "loss": 0.0111,
+      "reward": 2.221871554851532,
+      "reward_std": 0.028360038995742798,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02292016614228487,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1005
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 517.3541870117188,
-      "epoch": 0.503,
-      "grad_norm": 6.931951953481591,
-      "kl": 2.15234375,
-      "learning_rate": 6.2349668300873e-07,
-      "loss": 0.6114,
-      "reward": 2.5530234575271606,
-      "reward_std": 0.6553203761577606,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.03030997794121504,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 480.1875,
+      "epoch": 0.7375366568914956,
+      "grad_norm": 29.55654512712693,
+      "kl": 0.8466796875,
+      "learning_rate": 2.761716310456748e-07,
+      "loss": 0.2498,
+      "reward": 2.4252238273620605,
+      "reward_std": 0.16729998588562012,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02790138777345419,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1006
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 549.6666870117188,
-      "epoch": 0.5035,
-      "grad_norm": 22.648929704749897,
-      "kl": 1.70703125,
-      "learning_rate": 6.227217194965125e-07,
-      "loss": 0.8695,
-      "reward": 2.318639397621155,
-      "reward_std": 0.6079018115997314,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.014693964272737503,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 425.3958435058594,
+      "epoch": 0.7382697947214076,
+      "grad_norm": 8.38447348775669,
+      "kl": 0.83203125,
+      "learning_rate": 2.7525822458874524e-07,
+      "loss": 0.0214,
+      "reward": 2.186690092086792,
+      "reward_std": 0.12868688255548477,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.021643266081809998,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1007
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.8333435058594,
-      "epoch": 0.504,
-      "grad_norm": 28.81093113427859,
-      "kl": 0.859375,
-      "learning_rate": 6.219465344613258e-07,
-      "loss": 0.4981,
-      "reward": 2.6072503328323364,
-      "reward_std": 0.45103733241558075,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.026430224999785423,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 472.41668701171875,
+      "epoch": 0.7390029325513197,
+      "grad_norm": 3.1114573861463257,
+      "kl": 0.349609375,
+      "learning_rate": 2.7434661922043914e-07,
+      "loss": 0.011,
+      "reward": 2.4778274297714233,
+      "reward_std": 0.0110463029704988,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0221726531162858,
+      "rewards/tag_count_reward": 1.0,
       "step": 1008
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 579.2500305175781,
-      "epoch": 0.5045,
-      "grad_norm": 18.90641611996879,
-      "kl": 1.79296875,
-      "learning_rate": 6.211711302645177e-07,
-      "loss": 0.7654,
-      "reward": 2.513100743293762,
-      "reward_std": 0.6586687564849854,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.025093771517276764,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 517.3125152587891,
+      "epoch": 0.7397360703812317,
+      "grad_norm": 5.211723665878622,
+      "kl": 1.21875,
+      "learning_rate": 2.7343682091684863e-07,
+      "loss": 0.0202,
+      "reward": 2.127828001976013,
+      "reward_std": 0.2590429000556469,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.019741501659154892,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1009
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 316.3333435058594,
-      "epoch": 0.505,
-      "grad_norm": 10.521243740499507,
-      "kl": 0.7080078125,
-      "learning_rate": 6.203955092681039e-07,
-      "loss": 0.2849,
-      "reward": 2.616108775138855,
-      "reward_std": 0.26797990035265684,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.031460804864764214,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 465.3958435058594,
+      "epoch": 0.7404692082111437,
+      "grad_norm": 51.62344516592479,
+      "kl": 3.9140625,
+      "learning_rate": 2.725288356422187e-07,
+      "loss": 0.3732,
+      "reward": 2.1338714361190796,
+      "reward_std": 0.23930185288190842,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01717032492160797,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 1010
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 762.6875457763672,
-      "epoch": 0.5055,
-      "grad_norm": 17.712711157663584,
-      "kl": 2.359375,
-      "learning_rate": 6.196196738347607e-07,
-      "loss": 0.5658,
-      "reward": 2.252875328063965,
-      "reward_std": 0.44946494698524475,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.0370553620159626,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 491.6458435058594,
+      "epoch": 0.7412023460410557,
+      "grad_norm": 8.872840652024472,
+      "kl": 0.521484375,
+      "learning_rate": 2.7162266934890975e-07,
+      "loss": 0.0284,
+      "reward": 2.226145088672638,
+      "reward_std": 0.008340620435774326,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023855021223425865,
+      "rewards/tag_count_reward": 1.0,
       "step": 1011
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 358.9791717529297,
-      "epoch": 0.506,
-      "grad_norm": 6.724680601267686,
-      "kl": 0.7841796875,
-      "learning_rate": 6.188436263278172e-07,
-      "loss": 0.371,
-      "reward": 2.8078267574310303,
-      "reward_std": 0.3918469473719597,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.018562145065516233,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 477.5833435058594,
+      "epoch": 0.7419354838709677,
+      "grad_norm": 12.230811361407058,
+      "kl": 0.763671875,
+      "learning_rate": 2.707183279773569e-07,
+      "loss": 0.0509,
+      "reward": 1.968254268169403,
+      "reward_std": 0.043425518088042736,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021329134702682495,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1012
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 381.6666717529297,
-      "epoch": 0.5065,
-      "grad_norm": 7.753482099144785,
-      "kl": 1.005859375,
-      "learning_rate": 6.180673691112486e-07,
-      "loss": 0.7111,
-      "reward": 2.758282780647278,
-      "reward_std": 0.42837944626808167,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02643944276496768,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 555.4583435058594,
+      "epoch": 0.7426686217008798,
+      "grad_norm": 29.90738464709304,
+      "kl": 3.765625,
+      "learning_rate": 2.698158174560326e-07,
+      "loss": 0.838,
+      "reward": 2.151626408100128,
+      "reward_std": 0.2698955833911896,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02024863287806511,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 1013
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 618.2500305175781,
-      "epoch": 0.507,
-      "grad_norm": 14.72862436999275,
-      "kl": 1.84765625,
-      "learning_rate": 6.172909045496694e-07,
-      "loss": 1.0001,
-      "reward": 2.36434543132782,
-      "reward_std": 0.6381807327270508,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.0245436392724514,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 436.8333435058594,
+      "epoch": 0.7434017595307918,
+      "grad_norm": 13.228223995097775,
+      "kl": 1.28125,
+      "learning_rate": 2.6891514370140645e-07,
+      "loss": 0.1214,
+      "reward": 1.9460716843605042,
+      "reward_std": 0.11848503537476063,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.024414503015577793,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1014
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 824.8750457763672,
-      "epoch": 0.5075,
-      "grad_norm": 16.05316707574026,
-      "kl": 1.919921875,
-      "learning_rate": 6.165142350083249e-07,
-      "loss": 0.9197,
-      "reward": 2.327476441860199,
-      "reward_std": 0.8264204859733582,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.8750000298023224,
-      "rewards/repetition_penalty_reward": -0.016273547895252705,
-      "rewards/tag_count_reward": 0.78125,
+      "completion_length": 488.75001525878906,
+      "epoch": 0.7441348973607038,
+      "grad_norm": 10.713414373967986,
+      "kl": 1.26953125,
+      "learning_rate": 2.6801631261790747e-07,
+      "loss": 0.2509,
+      "reward": 2.429144859313965,
+      "reward_std": 0.17435809317976236,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.022244098596274853,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1015
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 662.8333435058594,
-      "epoch": 0.508,
-      "grad_norm": 14.986219495301736,
-      "kl": 1.734375,
-      "learning_rate": 6.157373628530852e-07,
-      "loss": 0.6306,
-      "reward": 2.3806835412979126,
-      "reward_std": 0.4617319107055664,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.018622069619596004,
-      "rewards/tag_count_reward": 0.8645833432674408,
-      "step": 1016
-    },
+      "completion_length": 481.56251525878906,
+      "epoch": 0.7448680351906158,
+      "grad_norm": 35.03331056974067,
+      "kl": 3.734375,
+      "learning_rate": 2.6711933009788443e-07,
+      "loss": 0.2651,
+      "reward": 2.333442807197571,
+      "reward_std": 0.3207738474011421,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.024196190759539604,
+      "rewards/tag_count_reward": 0.9479166865348816,
+      "step": 1016
+    },
     {
       "clip_ratio": 0.0,
-      "completion_length": 493.97918701171875,
-      "epoch": 0.5085,
-      "grad_norm": 10.603280718054956,
-      "kl": 1.19921875,
-      "learning_rate": 6.149602904504378e-07,
-      "loss": 0.6167,
-      "reward": 2.702357053756714,
-      "reward_std": 0.46163134276866913,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.026809771545231342,
+      "completion_length": 505.41668701171875,
+      "epoch": 0.7456011730205279,
+      "grad_norm": 11.324692674530787,
+      "kl": 3.4765625,
+      "learning_rate": 2.6622420202156843e-07,
+      "loss": 0.4659,
+      "reward": 2.356720805168152,
+      "reward_std": 0.36550724506378174,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02522371429949999,
       "rewards/tag_count_reward": 0.9166666865348816,
       "step": 1017
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 505.5,
-      "epoch": 0.509,
-      "grad_norm": 12.432373079567979,
-      "kl": 1.107421875,
-      "learning_rate": 6.141830201674802e-07,
-      "loss": 0.7902,
-      "reward": 2.693175435066223,
-      "reward_std": 0.5161421597003937,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03425509575754404,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 460.25001525878906,
+      "epoch": 0.7463343108504399,
+      "grad_norm": 15.163042787217018,
+      "kl": 1.9248046875,
+      "learning_rate": 2.653309342570327e-07,
+      "loss": 0.2913,
+      "reward": 2.355245351791382,
+      "reward_std": 0.31433626264333725,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02843527588993311,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1018
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.8750305175781,
-      "epoch": 0.5095,
-      "grad_norm": 7.175100274761201,
-      "kl": 1.376953125,
-      "learning_rate": 6.134055543719121e-07,
-      "loss": 0.4146,
-      "reward": 2.4220484495162964,
-      "reward_std": 0.5273237824440002,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.027604437433183193,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 464.9166717529297,
+      "epoch": 0.7470674486803519,
+      "grad_norm": 11.573884174204364,
+      "kl": 1.68359375,
+      "learning_rate": 2.64439532660156e-07,
+      "loss": 0.1937,
+      "reward": 2.401885986328125,
+      "reward_std": 0.2557380646467209,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02519738022238016,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1019
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 456.6250305175781,
-      "epoch": 0.51,
-      "grad_norm": 16.588343745029032,
-      "kl": 0.994140625,
-      "learning_rate": 6.126278954320294e-07,
-      "loss": 0.7095,
-      "reward": 2.6970959901809692,
-      "reward_std": 0.5613195151090622,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.023390086367726326,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 499.10418701171875,
+      "epoch": 0.7478005865102639,
+      "grad_norm": 3.365385207956817,
+      "kl": 0.3740234375,
+      "learning_rate": 2.6355000307458253e-07,
+      "loss": 0.0359,
+      "reward": 2.2115240693092346,
+      "reward_std": 0.07929915469139814,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017642635852098465,
+      "rewards/tag_count_reward": 1.0,
       "step": 1020
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 734.9375,
-      "epoch": 0.5105,
-      "grad_norm": 9.757877385128149,
-      "kl": 1.38671875,
-      "learning_rate": 6.118500457167159e-07,
-      "loss": 0.8497,
-      "reward": 2.0375831723213196,
-      "reward_std": 0.6933330148458481,
-      "rewards/accuracy_reward": 0.3750000149011612,
-      "rewards/reasoning_steps_reward": 0.8402778208255768,
-      "rewards/repetition_penalty_reward": -0.021444641053676605,
-      "rewards/tag_count_reward": 0.8437500298023224,
+      "completion_length": 443.5416717529297,
+      "epoch": 0.748533724340176,
+      "grad_norm": 5.113590914631466,
+      "kl": 1.4794921875,
+      "learning_rate": 2.6266235133168503e-07,
+      "loss": 0.0197,
+      "reward": 2.3895903825759888,
+      "reward_std": 0.21832578629255295,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.021868057548999786,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1021
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.6250305175781,
-      "epoch": 0.511,
-      "grad_norm": 3.581679020231462,
-      "kl": 0.5986328125,
-      "learning_rate": 6.11072007595437e-07,
-      "loss": 0.2243,
-      "reward": 2.635998249053955,
-      "reward_std": 0.3600511699914932,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.020251845009624958,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 520.0625152587891,
+      "epoch": 0.749266862170088,
+      "grad_norm": 11.69931205695156,
+      "kl": 2.16796875,
+      "learning_rate": 2.617765832505253e-07,
+      "loss": 0.3627,
+      "reward": 2.5873245000839233,
+      "reward_std": 0.2989402636885643,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02378668077290058,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 1022
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 532.3125305175781,
-      "epoch": 0.5115,
-      "grad_norm": 17.57086871577716,
-      "kl": 0.810546875,
-      "learning_rate": 6.102937834382315e-07,
-      "loss": 0.7239,
-      "reward": 2.707748532295227,
-      "reward_std": 0.5111279785633087,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.021418226417154074,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 450.3541717529297,
+      "epoch": 0.75,
+      "grad_norm": 4.454764934413698,
+      "kl": 0.4326171875,
+      "learning_rate": 2.608927046378173e-07,
+      "loss": 0.061,
+      "reward": 2.2236390113830566,
+      "reward_std": 0.01102450443431735,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02636106964200735,
+      "rewards/tag_count_reward": 1.0,
       "step": 1023
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 446.0000305175781,
-      "epoch": 0.512,
-      "grad_norm": 5.091174343110264,
-      "kl": 0.666015625,
-      "learning_rate": 6.095153756157051e-07,
-      "loss": 0.4922,
-      "reward": 2.5856151580810547,
-      "reward_std": 0.5574827194213867,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.027232157066464424,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 465.41668701171875,
+      "epoch": 0.750733137829912,
+      "grad_norm": 6.766283640737552,
+      "kl": 1.3330078125,
+      "learning_rate": 2.6001072128788795e-07,
+      "loss": 0.0486,
+      "reward": 2.1870197653770447,
+      "reward_std": 0.11883579567074776,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.017841434106230736,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1024
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 425.56251525878906,
-      "epoch": 0.5125,
-      "grad_norm": 7.051286670184644,
-      "kl": 0.54296875,
-      "learning_rate": 6.087367864990232e-07,
-      "loss": 0.4512,
-      "reward": 2.401527166366577,
-      "reward_std": 0.45996415615081787,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.027292468585073948,
+      "completion_length": 500.75001525878906,
+      "epoch": 0.751466275659824,
+      "grad_norm": 11.468805888423775,
+      "kl": 2.26953125,
+      "learning_rate": 2.5913063898263975e-07,
+      "loss": 0.4147,
+      "reward": 2.1911988258361816,
+      "reward_std": 0.11320665059611201,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.015398475807160139,
       "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1025
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 481.41668701171875,
-      "epoch": 0.513,
-      "grad_norm": 6.804881212406539,
-      "kl": 0.7265625,
-      "learning_rate": 6.079580184599032e-07,
-      "loss": 0.752,
-      "reward": 2.53912889957428,
-      "reward_std": 0.4916386604309082,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9513888657093048,
-      "rewards/repetition_penalty_reward": -0.03205180913209915,
+      "completion_length": 546.2291870117188,
+      "epoch": 0.7521994134897361,
+      "grad_norm": 62.06601803645074,
+      "kl": 4.2333984375,
+      "learning_rate": 2.5825246349151296e-07,
+      "loss": 0.3466,
+      "reward": 2.1409623622894287,
+      "reward_std": 0.19636456668376923,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.020496048033237457,
       "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1026
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 428.25001525878906,
-      "epoch": 0.5135,
-      "grad_norm": 4.0838002502110955,
-      "kl": 0.689453125,
-      "learning_rate": 6.071790738706078e-07,
-      "loss": 0.7677,
-      "reward": 2.633172869682312,
-      "reward_std": 0.5927000939846039,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.030021720565855503,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 469.8958435058594,
+      "epoch": 0.7529325513196481,
+      "grad_norm": 6.915256602758481,
+      "kl": 1.46484375,
+      "learning_rate": 2.573762005714474e-07,
+      "loss": 0.084,
+      "reward": 1.950873076915741,
+      "reward_std": 0.1016916565131396,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.0213491627946496,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1027
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 445.8750305175781,
-      "epoch": 0.514,
-      "grad_norm": 6.82558184595021,
-      "kl": 0.6650390625,
-      "learning_rate": 6.06399955103937e-07,
-      "loss": 0.3746,
-      "reward": 2.3708232641220093,
-      "reward_std": 0.47719016671180725,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.021537834778428078,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 526.2500152587891,
+      "epoch": 0.7536656891495601,
+      "grad_norm": 15.895006895352855,
+      "kl": 1.791015625,
+      "learning_rate": 2.5650185596684513e-07,
+      "loss": 0.1532,
+      "reward": 1.9461398124694824,
+      "reward_std": 0.21893376857042313,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.020874238573014736,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1028
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 612.4375305175781,
-      "epoch": 0.5145,
-      "grad_norm": 29.593011906377633,
-      "kl": 1.89453125,
-      "learning_rate": 6.056206645332217e-07,
-      "loss": 0.6587,
-      "reward": 2.507744789123535,
-      "reward_std": 0.5372722446918488,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.03218586929142475,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 481.3541717529297,
+      "epoch": 0.7543988269794721,
+      "grad_norm": 10.156286209074864,
+      "kl": 1.3154296875,
+      "learning_rate": 2.556294354095321e-07,
+      "loss": 0.154,
+      "reward": 2.8607027530670166,
+      "reward_std": 0.29952816385775805,
+      "rewards/accuracy_reward": 0.9583333432674408,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.02992249419912696,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1029
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 447.0208435058594,
-      "epoch": 0.515,
-      "grad_norm": 14.40828703378696,
-      "kl": 1.123046875,
-      "learning_rate": 6.048412045323164e-07,
-      "loss": 0.3732,
-      "reward": 2.6217926740646362,
-      "reward_std": 0.3849295526742935,
+      "completion_length": 435.7083435058594,
+      "epoch": 0.7551319648093842,
+      "grad_norm": 11.155712646658968,
+      "kl": 0.6943359375,
+      "learning_rate": 2.547589446187217e-07,
+      "loss": 0.0538,
+      "reward": 2.7281389236450195,
+      "reward_std": 0.01100248470902443,
       "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.03966595232486725,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021861168555915356,
+      "rewards/tag_count_reward": 1.0,
       "step": 1030
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 443.4583435058594,
-      "epoch": 0.5155,
-      "grad_norm": 14.1549537273764,
-      "kl": 1.20703125,
-      "learning_rate": 6.040615774755911e-07,
-      "loss": 0.8186,
-      "reward": 2.3135095834732056,
-      "reward_std": 0.4170246571302414,
-      "rewards/accuracy_reward": 0.45833333395421505,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.01461556926369667,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 505.25001525878906,
+      "epoch": 0.7558651026392962,
+      "grad_norm": 20.534972400969437,
+      "kl": 3.484375,
+      "learning_rate": 2.5389038930097594e-07,
+      "loss": 0.44,
+      "reward": 2.0344144701957703,
+      "reward_std": 0.44953444600105286,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.028085462749004364,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 1031
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 668.5625,
-      "epoch": 0.516,
-      "grad_norm": 16.64560517730956,
-      "kl": 1.71875,
-      "learning_rate": 6.032817857379256e-07,
-      "loss": 0.5198,
-      "reward": 2.264461040496826,
-      "reward_std": 0.5811220407485962,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.9166666567325592,
-      "rewards/repetition_penalty_reward": -0.02720571681857109,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 408.0208435058594,
+      "epoch": 0.7565982404692082,
+      "grad_norm": 6.69655925623942,
+      "kl": 0.875,
+      "learning_rate": 2.5302377515016916e-07,
+      "loss": 0.0028,
+      "reward": 2.4262704849243164,
+      "reward_std": 0.16276609152555466,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.028590744361281395,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1032
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 331.93751525878906,
-      "epoch": 0.5165,
-      "grad_norm": 4.122201207331607,
-      "kl": 0.443359375,
-      "learning_rate": 6.025018316946999e-07,
-      "loss": 0.2138,
-      "reward": 2.7509995698928833,
-      "reward_std": 0.42070019245147705,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.026778437197208405,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 479.62501525878906,
+      "epoch": 0.7573313782991202,
+      "grad_norm": 23.560206724875798,
+      "kl": 1.322265625,
+      "learning_rate": 2.5215910784745e-07,
+      "loss": 0.327,
+      "reward": 2.4021449089050293,
+      "reward_std": 0.27173662185668945,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019729983061552048,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1033
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 630.0833740234375,
-      "epoch": 0.517,
-      "grad_norm": 5.176497247797343,
-      "kl": 1.1875,
-      "learning_rate": 6.017217177217899e-07,
-      "loss": 0.7832,
-      "reward": 2.3645520210266113,
-      "reward_std": 0.8221311867237091,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.02954527549445629,
-      "rewards/tag_count_reward": 0.859375,
+      "completion_length": 493.91668701171875,
+      "epoch": 0.7580645161290323,
+      "grad_norm": 8.901515825557974,
+      "kl": 0.66796875,
+      "learning_rate": 2.5129639306120467e-07,
+      "loss": 0.0747,
+      "reward": 2.471045136451721,
+      "reward_std": 0.03157370677217841,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018538357689976692,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1034
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 402.08335876464844,
-      "epoch": 0.5175,
-      "grad_norm": 4.289877365631067,
-      "kl": 0.6337890625,
-      "learning_rate": 6.009414461955581e-07,
-      "loss": 0.3456,
-      "reward": 2.8156780004501343,
-      "reward_std": 0.25007878383621573,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.012447083368897438,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 487.93751525878906,
+      "epoch": 0.7587976539589443,
+      "grad_norm": 12.897795206877362,
+      "kl": 2.890625,
+      "learning_rate": 2.5043563644701905e-07,
+      "loss": 0.4459,
+      "reward": 2.2605895400047302,
+      "reward_std": 0.49446502327919006,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9583334028720856,
+      "rewards/repetition_penalty_reward": -0.02586888149380684,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 1035
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 511.6666717529297,
-      "epoch": 0.518,
-      "grad_norm": 4.534984555827674,
-      "kl": 0.7265625,
-      "learning_rate": 6.001610194928464e-07,
-      "loss": 0.6627,
-      "reward": 2.6687086820602417,
-      "reward_std": 0.5741814076900482,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.02052734326571226,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 491.75001525878906,
+      "epoch": 0.7595307917888563,
+      "grad_norm": 17.104268270251925,
+      "kl": 1.79296875,
+      "learning_rate": 2.495768436476427e-07,
+      "loss": 0.3061,
+      "reward": 2.1887518167495728,
+      "reward_std": 0.13222945481538773,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02478979155421257,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1036
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 293.4166717529297,
-      "epoch": 0.5185,
-      "grad_norm": 9.036303143255743,
-      "kl": 0.3173828125,
-      "learning_rate": 5.993804399909703e-07,
-      "loss": 0.2845,
-      "reward": 2.868683695793152,
-      "reward_std": 0.25010958313941956,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.023677408695220947,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 448.81251525878906,
+      "epoch": 0.7602639296187683,
+      "grad_norm": 13.687511958831577,
+      "kl": 1.87890625,
+      "learning_rate": 2.4872002029295057e-07,
+      "loss": 0.2406,
+      "reward": 2.3408429622650146,
+      "reward_std": 0.30387626588344574,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.020268219523131847,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 1037
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 581.3125305175781,
-      "epoch": 0.519,
-      "grad_norm": 4.473097097190504,
-      "kl": 1.04296875,
-      "learning_rate": 5.985997100677103e-07,
-      "loss": 0.3827,
-      "reward": 2.478750705718994,
-      "reward_std": 0.30521145928651094,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.01083279075101018,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 424.16668701171875,
+      "epoch": 0.7609970674486803,
+      "grad_norm": 11.657813766508225,
+      "kl": 2.53125,
+      "learning_rate": 2.4786517199990764e-07,
+      "loss": 0.1052,
+      "reward": 2.448213815689087,
+      "reward_std": 0.0886231642216444,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.018800227902829647,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1038
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.91668701171875,
-      "epoch": 0.5195,
-      "grad_norm": 4.330270457188464,
-      "kl": 0.677734375,
-      "learning_rate": 5.97818832101305e-07,
-      "loss": 0.4467,
-      "reward": 2.632758140563965,
-      "reward_std": 0.37518632411956787,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.025228080339729786,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 429.43751525878906,
+      "epoch": 0.7617302052785924,
+      "grad_norm": 27.142165668107076,
+      "kl": 2.048828125,
+      "learning_rate": 2.470123043725304e-07,
+      "loss": 0.1753,
+      "reward": 2.197335362434387,
+      "reward_std": 0.10227534547448158,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02662304975092411,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1039
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 432.4166717529297,
-      "epoch": 0.52,
-      "grad_norm": 5.413314396002232,
-      "kl": 0.7490234375,
-      "learning_rate": 5.97037808470444e-07,
-      "loss": 0.4434,
-      "reward": 2.658997416496277,
-      "reward_std": 0.548340767621994,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.021558281034231186,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 479.7291717529297,
+      "epoch": 0.7624633431085044,
+      "grad_norm": 13.619344186767858,
+      "kl": 0.86328125,
+      "learning_rate": 2.4616142300185125e-07,
+      "loss": 0.0615,
+      "reward": 2.9825761318206787,
+      "reward_std": 0.01011534919962287,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017423998564481735,
+      "rewards/tag_count_reward": 1.0,
       "step": 1040
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 462.7083435058594,
-      "epoch": 0.5205,
-      "grad_norm": 13.173521990092542,
-      "kl": 0.990234375,
-      "learning_rate": 5.96256641554261e-07,
-      "loss": 0.9078,
-      "reward": 2.477555751800537,
-      "reward_std": 0.6211674511432648,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889849185944,
-      "rewards/repetition_penalty_reward": -0.025916431099176407,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 566.9583740234375,
+      "epoch": 0.7631964809384164,
+      "grad_norm": 11.118122539502124,
+      "kl": 2.19921875,
+      "learning_rate": 2.453125334658819e-07,
+      "loss": 0.4298,
+      "reward": 2.101525664329529,
+      "reward_std": 0.36887478455901146,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.018265982158482075,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1041
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 747.7500305175781,
-      "epoch": 0.521,
-      "grad_norm": 5.994356817443346,
-      "kl": 1.3681640625,
-      "learning_rate": 5.954753337323259e-07,
-      "loss": 0.3688,
-      "reward": 2.3351893424987793,
-      "reward_std": 0.5483206920325756,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.875,
-      "rewards/repetition_penalty_reward": -0.024185655638575554,
-      "rewards/tag_count_reward": 0.796875,
+      "completion_length": 519.5625305175781,
+      "epoch": 0.7639296187683284,
+      "grad_norm": 40.200766946980536,
+      "kl": 6.421875,
+      "learning_rate": 2.444656413295758e-07,
+      "loss": 0.6816,
+      "reward": 2.028169095516205,
+      "reward_std": 0.4279635548591614,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.01870589703321457,
+      "rewards/tag_count_reward": 0.8802083730697632,
       "step": 1042
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 641.5833587646484,
-      "epoch": 0.5215,
-      "grad_norm": 6.65678571854715,
-      "kl": 1.65234375,
-      "learning_rate": 5.946938873846375e-07,
-      "loss": 0.6598,
-      "reward": 2.1638104915618896,
-      "reward_std": 0.6675990223884583,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.8541667461395264,
-      "rewards/repetition_penalty_reward": -0.02889794297516346,
-      "rewards/tag_count_reward": 0.8177083432674408,
+      "completion_length": 440.1666717529297,
+      "epoch": 0.7646627565982405,
+      "grad_norm": 8.382550351469364,
+      "kl": 0.5185546875,
+      "learning_rate": 2.4362075214479296e-07,
+      "loss": 0.0405,
+      "reward": 2.469712793827057,
+      "reward_std": 0.014355432707816362,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.030287256464362144,
+      "rewards/tag_count_reward": 1.0,
       "step": 1043
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 581.5625,
-      "epoch": 0.522,
-      "grad_norm": 7.592842509620014,
-      "kl": 1.189453125,
-      "learning_rate": 5.939123048916173e-07,
-      "loss": 0.836,
-      "reward": 2.385079026222229,
-      "reward_std": 0.90406933426857,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.8680556118488312,
-      "rewards/repetition_penalty_reward": -0.019434815272688866,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 474.8333435058594,
+      "epoch": 0.7653958944281525,
+      "grad_norm": 23.33023618104358,
+      "kl": 1.25,
+      "learning_rate": 2.4277787145026235e-07,
+      "loss": 0.2837,
+      "reward": 2.182273507118225,
+      "reward_std": 0.1675884760916233,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020851566456258297,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 1044
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 786.4583740234375,
-      "epoch": 0.5225,
-      "grad_norm": 4.691007195698727,
-      "kl": 1.4140625,
-      "learning_rate": 5.931305886341008e-07,
-      "loss": 0.7366,
-      "reward": 2.2028392553329468,
-      "reward_std": 0.9715997576713562,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.8541666865348816,
-      "rewards/repetition_penalty_reward": -0.015910686925053596,
-      "rewards/tag_count_reward": 0.7604166865348816,
+      "completion_length": 423.25001525878906,
+      "epoch": 0.7661290322580645,
+      "grad_norm": 8.571737590563789,
+      "kl": 0.4443359375,
+      "learning_rate": 2.4193700477154653e-07,
+      "loss": 0.0521,
+      "reward": 2.2212164402008057,
+      "reward_std": 0.027374879457056522,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02357533946633339,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1045
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 484.85418701171875,
-      "epoch": 0.523,
-      "grad_norm": 11.332963488425568,
-      "kl": 0.888671875,
-      "learning_rate": 5.923487409933315e-07,
-      "loss": 0.4905,
-      "reward": 2.6106256246566772,
-      "reward_std": 0.4605254530906677,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 467.0416717529297,
+      "epoch": 0.7668621700879765,
+      "grad_norm": 14.989284883435417,
+      "kl": 1.318359375,
+      "learning_rate": 2.4109815762100485e-07,
+      "loss": 0.2389,
+      "reward": 2.384683132171631,
+      "reward_std": 0.3186868131160736,
+      "rewards/accuracy_reward": 0.4583333432674408,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.016110544558614492,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "rewards/repetition_penalty_reward": -0.023303166031837463,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1046
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 620.1250152587891,
-      "epoch": 0.5235,
-      "grad_norm": 7.355316334467517,
-      "kl": 1.28125,
-      "learning_rate": 5.915667643509528e-07,
-      "loss": 0.5121,
-      "reward": 2.435990571975708,
-      "reward_std": 0.720505028963089,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.03449564054608345,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 460.7083435058594,
+      "epoch": 0.7675953079178885,
+      "grad_norm": 13.662504493852214,
+      "kl": 1.90625,
+      "learning_rate": 2.402613354977577e-07,
+      "loss": 0.2727,
+      "reward": 2.3878710865974426,
+      "reward_std": 0.22365204244852066,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.032267773523926735,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1047
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 493.79168701171875,
-      "epoch": 0.524,
-      "grad_norm": 10.744727961689891,
-      "kl": 0.791015625,
-      "learning_rate": 5.907846610890011e-07,
-      "loss": 0.5435,
-      "reward": 2.488598942756653,
-      "reward_std": 0.5222236812114716,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.028762370347976685,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 466.8541717529297,
+      "epoch": 0.7683284457478006,
+      "grad_norm": 13.403401572039542,
+      "kl": 1.337890625,
+      "learning_rate": 2.3942654388764985e-07,
+      "loss": 0.0999,
+      "reward": 2.4051430225372314,
+      "reward_std": 0.1881369361653924,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.028884700499475002,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1048
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 643.3958435058594,
-      "epoch": 0.5245,
-      "grad_norm": 10.473792543164542,
-      "kl": 1.25,
-      "learning_rate": 5.900024335898987e-07,
-      "loss": 0.7268,
-      "reward": 2.29390549659729,
-      "reward_std": 0.8730533719062805,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.03769184276461601,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 443.2291717529297,
+      "epoch": 0.7690615835777126,
+      "grad_norm": 7.891190935869175,
+      "kl": 0.5068359375,
+      "learning_rate": 2.385937882632155e-07,
+      "loss": 0.0426,
+      "reward": 2.22906756401062,
+      "reward_std": 0.009660831652581692,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020932521671056747,
+      "rewards/tag_count_reward": 1.0,
       "step": 1049
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 499.35418701171875,
-      "epoch": 0.525,
-      "grad_norm": 12.588187330698355,
-      "kl": 1.1171875,
-      "learning_rate": 5.892200842364462e-07,
-      "loss": 0.5724,
-      "reward": 2.6492995023727417,
-      "reward_std": 0.7308410704135895,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.03299206867814064,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 490.97918701171875,
+      "epoch": 0.7697947214076246,
+      "grad_norm": 13.667764691578203,
+      "kl": 2.5078125,
+      "learning_rate": 2.377630740836411e-07,
+      "loss": 0.5406,
+      "reward": 2.324502468109131,
+      "reward_std": 0.36973246932029724,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02792811580002308,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 1050
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.375,
-      "epoch": 0.5255,
-      "grad_norm": 10.44138233428014,
-      "kl": 0.4931640625,
-      "learning_rate": 5.884376154118154e-07,
-      "loss": 0.2827,
-      "reward": 2.626540184020996,
-      "reward_std": 0.44100892543792725,
-      "rewards/accuracy_reward": 0.6875000149011612,
+      "completion_length": 527.2500152587891,
+      "epoch": 0.7705278592375366,
+      "grad_norm": 17.845348751851517,
+      "kl": 2.1953125,
+      "learning_rate": 2.3693440679473106e-07,
+      "loss": 0.3505,
+      "reward": 2.4364585876464844,
+      "reward_std": 0.15930373966693878,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.017557154409587383,
+      "rewards/repetition_penalty_reward": -0.020138615276664495,
       "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1051
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 692.6458435058594,
-      "epoch": 0.526,
-      "grad_norm": 18.556893989812647,
-      "kl": 2.2890625,
-      "learning_rate": 5.87655029499542e-07,
-      "loss": 0.7235,
-      "reward": 2.1944429874420166,
-      "reward_std": 0.7475170493125916,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.02604318968951702,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 447.3333435058594,
+      "epoch": 0.7712609970674487,
+      "grad_norm": 15.068120067737828,
+      "kl": 1.03125,
+      "learning_rate": 2.3610779182887044e-07,
+      "loss": 0.0492,
+      "reward": 2.2252615690231323,
+      "reward_std": 0.012322348076850176,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024738566018640995,
+      "rewards/tag_count_reward": 1.0,
       "step": 1052
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 561.8125,
-      "epoch": 0.5265,
-      "grad_norm": 23.386680578226347,
-      "kl": 2.37890625,
-      "learning_rate": 5.868723288835184e-07,
-      "loss": 0.6783,
-      "reward": 2.347724437713623,
-      "reward_std": 0.5882080346345901,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.013386863050982356,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 423.87501525878906,
+      "epoch": 0.7719941348973607,
+      "grad_norm": 23.95294488179518,
+      "kl": 4.4453125,
+      "learning_rate": 2.352832346049909e-07,
+      "loss": 0.2367,
+      "reward": 2.359814405441284,
+      "reward_std": 0.38373930752277374,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02907445840537548,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 1053
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 507.18751525878906,
-      "epoch": 0.527,
-      "grad_norm": 25.81517984790388,
-      "kl": 1.8828125,
-      "learning_rate": 5.860895159479864e-07,
-      "loss": 0.7704,
-      "reward": 2.459168314933777,
-      "reward_std": 0.5893406569957733,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.030415082350373268,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1054
-    },
+      "completion_length": 530.6041717529297,
+      "epoch": 0.7727272727272727,
+      "grad_norm": 21.090369592035625,
+      "kl": 2.4375,
+      "learning_rate": 2.3446074052853398e-07,
+      "loss": 0.2974,
+      "reward": 2.8810449838638306,
+      "reward_std": 0.25332972407341003,
+      "rewards/accuracy_reward": 0.9375000298023224,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02520513255149126,
+      "rewards/tag_count_reward": 0.96875,
+      "step": 1054
+    },
     {
       "clip_ratio": 0.0,
-      "completion_length": 358.00001525878906,
-      "epoch": 0.5275,
-      "grad_norm": 5.939357848487736,
-      "kl": 0.48828125,
-      "learning_rate": 5.853065930775303e-07,
-      "loss": 0.2008,
-      "reward": 2.8095940351486206,
-      "reward_std": 0.29858143627643585,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.023739230819046497,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 545.1041870117188,
+      "epoch": 0.7734604105571847,
+      "grad_norm": 18.541416537922142,
+      "kl": 1.6875,
+      "learning_rate": 2.33640314991416e-07,
+      "loss": 0.3785,
+      "reward": 2.4116270542144775,
+      "reward_std": 0.18292175233364105,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.022400776855647564,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1055
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.3125,
-      "epoch": 0.528,
-      "grad_norm": 29.053870250832556,
-      "kl": 2.244140625,
-      "learning_rate": 5.845235626570683e-07,
-      "loss": 0.4827,
-      "reward": 2.430117607116699,
-      "reward_std": 0.5931105017662048,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.03689653240144253,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 473.9791717529297,
+      "epoch": 0.7741935483870968,
+      "grad_norm": 7.841288579770671,
+      "kl": 1.44140625,
+      "learning_rate": 2.3282196337199336e-07,
+      "loss": 0.0469,
+      "reward": 2.1994876861572266,
+      "reward_std": 0.0929469121620059,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02620673179626465,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1056
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 464.2916717529297,
-      "epoch": 0.5285,
-      "grad_norm": 19.31179372615611,
-      "kl": 1.26953125,
-      "learning_rate": 5.837404270718475e-07,
-      "loss": 0.7061,
-      "reward": 2.5217255353927612,
-      "reward_std": 0.4243352711200714,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.04424683563411236,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 446.5208435058594,
+      "epoch": 0.7749266862170088,
+      "grad_norm": 6.869915300476055,
+      "kl": 0.5234375,
+      "learning_rate": 2.3200569103502623e-07,
+      "loss": 0.0616,
+      "reward": 2.4464250206947327,
+      "reward_std": 0.1164440019056201,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022325048223137856,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1057
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 326.8541717529297,
-      "epoch": 0.529,
-      "grad_norm": 6.273677914137758,
-      "kl": 0.4892578125,
-      "learning_rate": 5.829571887074343e-07,
-      "loss": 0.1964,
-      "reward": 2.713360071182251,
-      "reward_std": 0.12399672530591488,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03490386623889208,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 511.8958435058594,
+      "epoch": 0.7756598240469208,
+      "grad_norm": 27.238285089186576,
+      "kl": 3.625,
+      "learning_rate": 2.311915033316443e-07,
+      "loss": 0.5597,
+      "reward": 2.585835337638855,
+      "reward_std": 0.3875824511051178,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.027012161910533905,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1058
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 351.7291717529297,
-      "epoch": 0.5295,
-      "grad_norm": 4.222827898707743,
-      "kl": 0.4443359375,
-      "learning_rate": 5.821738499497086e-07,
-      "loss": 0.1775,
-      "reward": 2.596918225288391,
-      "reward_std": 0.3194064572453499,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03329028841108084,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 435.5833435058594,
+      "epoch": 0.7763929618768328,
+      "grad_norm": 15.130806571886888,
+      "kl": 2.33203125,
+      "learning_rate": 2.3037940559931084e-07,
+      "loss": 0.2147,
+      "reward": 2.1360930800437927,
+      "reward_std": 0.21016471646726131,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.028837502002716064,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1059
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.06251525878906,
-      "epoch": 0.53,
-      "grad_norm": 3.4491270319460914,
-      "kl": 0.31640625,
-      "learning_rate": 5.813904131848564e-07,
-      "loss": 0.0394,
-      "reward": 2.959268808364868,
-      "reward_std": 0.0850947042927146,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.019898047670722008,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 472.8333435058594,
+      "epoch": 0.7771260997067448,
+      "grad_norm": 13.573733175581262,
+      "kl": 1.35546875,
+      "learning_rate": 2.2956940316178884e-07,
+      "loss": 0.2755,
+      "reward": 2.1681582927703857,
+      "reward_std": 0.1469826102256775,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.033230654895305634,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1060
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 392.60418701171875,
-      "epoch": 0.5305,
-      "grad_norm": 7.953501592426025,
-      "kl": 0.4990234375,
-      "learning_rate": 5.806068807993617e-07,
-      "loss": 0.4339,
-      "reward": 2.659141421318054,
-      "reward_std": 0.45532485842704773,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.024886406026780605,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 429.9583435058594,
+      "epoch": 0.7778592375366569,
+      "grad_norm": 8.50090498665031,
+      "kl": 1.953125,
+      "learning_rate": 2.2876150132910466e-07,
+      "loss": 0.0629,
+      "reward": 2.407193899154663,
+      "reward_std": 0.23686270415782928,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02509789913892746,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1061
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 335.18751525878906,
-      "epoch": 0.531,
-      "grad_norm": 3.524239803768179,
-      "kl": 0.40625,
-      "learning_rate": 5.798232551800002e-07,
-      "loss": 0.0785,
-      "reward": 2.477108120918274,
-      "reward_std": 0.38651110231876373,
-      "rewards/accuracy_reward": 0.5208333432674408,
+      "completion_length": 465.7708435058594,
+      "epoch": 0.7785923753665689,
+      "grad_norm": 15.772638637934058,
+      "kl": 1.3466796875,
+      "learning_rate": 2.2795570539751462e-07,
+      "loss": 0.275,
+      "reward": 2.4364675879478455,
+      "reward_std": 0.1519809989258647,
+      "rewards/accuracy_reward": 0.4791666865348816,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03330867923796177,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.02186590526252985,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1062
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 310.3541717529297,
-      "epoch": 0.5315,
-      "grad_norm": 3.4813021990603783,
-      "kl": 0.353515625,
-      "learning_rate": 5.790395387138311e-07,
-      "loss": 0.0409,
-      "reward": 2.969285249710083,
-      "reward_std": 0.014413285069167614,
-      "rewards/accuracy_reward": 1.0,
+      "completion_length": 489.54168701171875,
+      "epoch": 0.7793255131964809,
+      "grad_norm": 14.481423143656839,
+      "kl": 1.7978515625,
+      "learning_rate": 2.2715202064946925e-07,
+      "loss": 0.3213,
+      "reward": 1.9716586470603943,
+      "reward_std": 0.13082672283053398,
+      "rewards/accuracy_reward": 0.02083333395421505,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.030714819207787514,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02313299011439085,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1063
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 387.9791717529297,
-      "epoch": 0.532,
-      "grad_norm": 7.496016496118182,
-      "kl": 0.8828125,
-      "learning_rate": 5.78255733788191e-07,
-      "loss": 0.6521,
-      "reward": 2.826792359352112,
-      "reward_std": 0.36261652410030365,
-      "rewards/accuracy_reward": 0.9166666865348816,
+      "completion_length": 509.83335876464844,
+      "epoch": 0.7800586510263929,
+      "grad_norm": 27.515519930915364,
+      "kl": 2.30859375,
+      "learning_rate": 2.263504523535795e-07,
+      "loss": 0.6025,
+      "reward": 2.1453371047973633,
+      "reward_std": 0.28774622082710266,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.029110469855368137,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "rewards/repetition_penalty_reward": -0.02827406395226717,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1064
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 370.5833435058594,
-      "epoch": 0.5325,
-      "grad_norm": 5.973629081248443,
-      "kl": 0.701171875,
-      "learning_rate": 5.774718427906856e-07,
-      "loss": 0.3884,
-      "reward": 2.569111704826355,
-      "reward_std": 0.5015820562839508,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9513888657093048,
-      "rewards/repetition_penalty_reward": -0.01769387163221836,
+      "completion_length": 484.87501525878906,
+      "epoch": 0.780791788856305,
+      "grad_norm": 14.499965581307233,
+      "kl": 3.7109375,
+      "learning_rate": 2.255510057645812e-07,
+      "loss": 0.6072,
+      "reward": 2.1432166695594788,
+      "reward_std": 0.28085365891456604,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.026922253891825676,
       "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1065
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 287.5416717529297,
-      "epoch": 0.533,
-      "grad_norm": 3.6653468809368026,
-      "kl": 0.345703125,
-      "learning_rate": 5.766878681091828e-07,
-      "loss": 0.0043,
-      "reward": 2.7937185764312744,
-      "reward_std": 0.12711532320827246,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.039614940993487835,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 458.7291717529297,
+      "epoch": 0.781524926686217,
+      "grad_norm": 52.53300723069954,
+      "kl": 3.0625,
+      "learning_rate": 2.2475368612330182e-07,
+      "loss": 0.2262,
+      "reward": 2.1494187712669373,
+      "reward_std": 0.20825094729661942,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02592852246016264,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1066
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 330.7916717529297,
-      "epoch": 0.5335,
-      "grad_norm": 5.676230222355891,
-      "kl": 0.3671875,
-      "learning_rate": 5.759038121318052e-07,
-      "loss": 0.1888,
-      "reward": 2.7420976161956787,
-      "reward_std": 0.3609135150909424,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.026999651454389095,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 405.9166717529297,
+      "epoch": 0.782258064516129,
+      "grad_norm": 30.234824161584932,
+      "kl": 3.40625,
+      "learning_rate": 2.2395849865662487e-07,
+      "loss": 0.2387,
+      "reward": 2.6589914560317993,
+      "reward_std": 0.22190771251916885,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.0354531928896904,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1067
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 309.00001525878906,
-      "epoch": 0.534,
-      "grad_norm": 2.9464749451257464,
-      "kl": 0.33203125,
-      "learning_rate": 5.751196772469237e-07,
-      "loss": 0.035,
-      "reward": 2.555404543876648,
-      "reward_std": 0.19347204267978668,
-      "rewards/accuracy_reward": 0.5833333432674408,
+      "completion_length": 495.91668701171875,
+      "epoch": 0.782991202346041,
+      "grad_norm": 22.759908198553244,
+      "kl": 2.1484375,
+      "learning_rate": 2.2316544857745678e-07,
+      "loss": 0.2113,
+      "reward": 2.4049072265625,
+      "reward_std": 0.19384130463004112,
+      "rewards/accuracy_reward": 0.4583333432674408,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.027928968891501427,
-      "rewards/tag_count_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02217612974345684,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1068
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 346.6041717529297,
-      "epoch": 0.5345,
-      "grad_norm": 4.718857747074456,
-      "kl": 0.4462890625,
-      "learning_rate": 5.743354658431489e-07,
-      "loss": 0.2027,
-      "reward": 2.7974963188171387,
-      "reward_std": 0.351472407579422,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.015003710053861141,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 464.75001525878906,
+      "epoch": 0.783724340175953,
+      "grad_norm": 36.380039815706255,
+      "kl": 3.642578125,
+      "learning_rate": 2.223745410846919e-07,
+      "loss": 0.3783,
+      "reward": 2.373390316963196,
+      "reward_std": 0.24706235527992249,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.025915381498634815,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1069
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 368.68751525878906,
-      "epoch": 0.535,
-      "grad_norm": 7.916520582997023,
-      "kl": 0.783203125,
-      "learning_rate": 5.735511803093248e-07,
-      "loss": 0.7907,
-      "reward": 2.7259095907211304,
-      "reward_std": 0.5795675814151764,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.018882008269429207,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 437.91668701171875,
+      "epoch": 0.7844574780058651,
+      "grad_norm": 6.394595193309836,
+      "kl": 0.50390625,
+      "learning_rate": 2.2158578136317851e-07,
+      "loss": 0.042,
+      "reward": 2.244118392467499,
+      "reward_std": 0.0806655939668417,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026714895851910114,
+      "rewards/tag_count_reward": 1.0,
       "step": 1070
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.5416717529297,
-      "epoch": 0.5355,
-      "grad_norm": 89.56603759912137,
-      "kl": 1.296875,
-      "learning_rate": 5.727668230345209e-07,
-      "loss": 0.6934,
-      "reward": 2.24530291557312,
-      "reward_std": 0.495767742395401,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.023794405162334442,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 489.9583435058594,
+      "epoch": 0.7851906158357771,
+      "grad_norm": 14.072098484553294,
+      "kl": 1.5390625,
+      "learning_rate": 2.2079917458368563e-07,
+      "loss": 0.2618,
+      "reward": 2.6522449254989624,
+      "reward_std": 0.17534173047170043,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024838595651090145,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1071
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 515.4791717529297,
-      "epoch": 0.536,
-      "grad_norm": 9.256848299391667,
-      "kl": 1.056640625,
-      "learning_rate": 5.71982396408026e-07,
-      "loss": 0.3638,
-      "reward": 2.5147180557250977,
-      "reward_std": 0.4126999229192734,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.016532148234546185,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 469.7083435058594,
+      "epoch": 0.7859237536656891,
+      "grad_norm": 15.845583496718644,
+      "kl": 1.81640625,
+      "learning_rate": 2.2001472590286778e-07,
+      "loss": 0.338,
+      "reward": 2.3699461221694946,
+      "reward_std": 0.28435058146715164,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.03283172659575939,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1072
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 496.6250305175781,
-      "epoch": 0.5365,
-      "grad_norm": 9.704892056750113,
-      "kl": 0.923828125,
-      "learning_rate": 5.711979028193391e-07,
-      "loss": 0.7874,
-      "reward": 2.534700036048889,
-      "reward_std": 0.4814092218875885,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.022591806016862392,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 473.9166717529297,
+      "epoch": 0.7866568914956011,
+      "grad_norm": 28.450144567340768,
+      "kl": 0.958984375,
+      "learning_rate": 2.1923244046323263e-07,
+      "loss": 0.2799,
+      "reward": 2.455487847328186,
+      "reward_std": 0.07996404357254505,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023678927682340145,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1073
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 442.4583435058594,
-      "epoch": 0.537,
-      "grad_norm": 4.434868047648692,
-      "kl": 0.734375,
-      "learning_rate": 5.704133446581642e-07,
-      "loss": 0.594,
-      "reward": 2.7428154945373535,
-      "reward_std": 0.5054127871990204,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.014129179995507002,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 483.3333435058594,
+      "epoch": 0.7873900293255132,
+      "grad_norm": 9.489962973191355,
+      "kl": 0.45703125,
+      "learning_rate": 2.1845232339310594e-07,
+      "loss": 0.0416,
+      "reward": 2.480448365211487,
+      "reward_std": 0.1484880894422531,
+      "rewards/accuracy_reward": 0.5000000204890966,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019551726058125496,
+      "rewards/tag_count_reward": 1.0,
       "step": 1074
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 739.2708740234375,
-      "epoch": 0.5375,
-      "grad_norm": 10.643100205082053,
-      "kl": 1.72265625,
-      "learning_rate": 5.696287243144012e-07,
-      "loss": 0.8503,
-      "reward": 2.1527023315429688,
-      "reward_std": 0.8699755072593689,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.8680556118488312,
-      "rewards/repetition_penalty_reward": -0.01222835062071681,
-      "rewards/tag_count_reward": 0.7760416865348816,
+      "completion_length": 451.12501525878906,
+      "epoch": 0.7881231671554252,
+      "grad_norm": 10.244882208914222,
+      "kl": 0.84765625,
+      "learning_rate": 2.1767437980659913e-07,
+      "loss": 0.1509,
+      "reward": 1.9186533689498901,
+      "reward_std": 0.13470640173181891,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.030999451875686646,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1075
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 386.875,
-      "epoch": 0.538,
-      "grad_norm": 5.50232302994543,
-      "kl": 0.69921875,
-      "learning_rate": 5.688440441781398e-07,
-      "loss": 0.3794,
-      "reward": 2.6137609481811523,
-      "reward_std": 0.37844765186309814,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.026864062063395977,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 549.3333435058594,
+      "epoch": 0.7888563049853372,
+      "grad_norm": 40.24012373692978,
+      "kl": 2.4765625,
+      "learning_rate": 2.168986148035748e-07,
+      "loss": 0.8641,
+      "reward": 2.33972430229187,
+      "reward_std": 0.34671784937381744,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.033539606258273125,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 1076
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 348.2083435058594,
-      "epoch": 0.5385,
-      "grad_norm": 4.831237438916453,
-      "kl": 0.5751953125,
-      "learning_rate": 5.680593066396518e-07,
-      "loss": 0.4982,
-      "reward": 2.895869016647339,
-      "reward_std": 0.267215795814991,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.027742099948227406,
+      "completion_length": 437.50001525878906,
+      "epoch": 0.7895894428152492,
+      "grad_norm": 8.330876049338293,
+      "kl": 0.884765625,
+      "learning_rate": 2.161250334696139e-07,
+      "loss": 0.1215,
+      "reward": 2.4110584259033203,
+      "reward_std": 0.1561183100566268,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026441698893904686,
       "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1077
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 411.45835876464844,
-      "epoch": 0.539,
-      "grad_norm": 4.089673654340983,
-      "kl": 0.5966796875,
-      "learning_rate": 5.672745140893839e-07,
-      "loss": 0.449,
-      "reward": 2.5935864448547363,
-      "reward_std": 0.31501081585884094,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.022733049467206,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 502.0,
+      "epoch": 0.7903225806451613,
+      "grad_norm": 14.720403395941624,
+      "kl": 1.7216796875,
+      "learning_rate": 2.15353640875982e-07,
+      "loss": 0.3272,
+      "reward": 2.7998095750808716,
+      "reward_std": 0.3225977895781398,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/reasoning_steps_reward": 0.9513888955116272,
+      "rewards/repetition_penalty_reward": -0.03699600324034691,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1078
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 500.3541717529297,
-      "epoch": 0.5395,
-      "grad_norm": 3.580216142280184,
-      "kl": 0.658203125,
-      "learning_rate": 5.664896689179504e-07,
-      "loss": 0.6341,
-      "reward": 2.669227361679077,
-      "reward_std": 0.7126676142215729,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.028689204715192318,
-      "rewards/tag_count_reward": 0.9062500298023224,
+      "completion_length": 487.6875305175781,
+      "epoch": 0.7910557184750733,
+      "grad_norm": 13.10411383821781,
+      "kl": 1.7822265625,
+      "learning_rate": 2.1458444207959653e-07,
+      "loss": 0.4046,
+      "reward": 2.6844232082366943,
+      "reward_std": 0.10148819629102945,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02911848109215498,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1079
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 781.6667175292969,
-      "epoch": 0.54,
-      "grad_norm": 4.955650799366805,
-      "kl": 1.166015625,
-      "learning_rate": 5.657047735161255e-07,
-      "loss": 0.8425,
-      "reward": 2.199775218963623,
-      "reward_std": 0.9051741063594818,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.017238642554730177,
-      "rewards/tag_count_reward": 0.7864583730697632,
+      "completion_length": 463.66668701171875,
+      "epoch": 0.7917888563049853,
+      "grad_norm": 12.822024813188964,
+      "kl": 1.4140625,
+      "learning_rate": 2.1381744212299303e-07,
+      "loss": 0.0617,
+      "reward": 2.677112340927124,
+      "reward_std": 0.17961880564689636,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.022540478967130184,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 1080
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 399.72918701171875,
-      "epoch": 0.5405,
-      "grad_norm": 4.90026140945702,
-      "kl": 0.5576171875,
-      "learning_rate": 5.649198302748368e-07,
-      "loss": 0.4486,
-      "reward": 2.7975977659225464,
-      "reward_std": 0.45839452743530273,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.021846801973879337,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 452.2708435058594,
+      "epoch": 0.7925219941348973,
+      "grad_norm": 8.946363278262771,
+      "kl": 1.1591796875,
+      "learning_rate": 2.1305264603429261e-07,
+      "loss": 0.2552,
+      "reward": 2.203592896461487,
+      "reward_std": 0.09071096312254667,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025573882274329662,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1081
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 757.9791870117188,
-      "epoch": 0.541,
-      "grad_norm": 8.049018307327215,
-      "kl": 1.220703125,
-      "learning_rate": 5.641348415851577e-07,
-      "loss": 0.7273,
-      "reward": 2.0966323614120483,
-      "reward_std": 0.7242147624492645,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.01968714315444231,
-      "rewards/tag_count_reward": 0.8177083730697632,
+      "completion_length": 452.5208435058594,
+      "epoch": 0.7932551319648093,
+      "grad_norm": 20.42295106802756,
+      "kl": 1.91796875,
+      "learning_rate": 2.1229005882716854e-07,
+      "loss": 0.2016,
+      "reward": 2.4216538667678833,
+      "reward_std": 0.1843453124165535,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02626277320086956,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1082
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 374.2916717529297,
-      "epoch": 0.5415,
-      "grad_norm": 8.835700341793663,
-      "kl": 0.77734375,
-      "learning_rate": 5.633498098382998e-07,
-      "loss": 0.4341,
-      "reward": 2.6963536739349365,
-      "reward_std": 0.3628556430339813,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.022396229207515717,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 510.66668701171875,
+      "epoch": 0.7939882697947214,
+      "grad_norm": 12.095799408086036,
+      "kl": 2.515625,
+      "learning_rate": 2.11529685500814e-07,
+      "loss": 0.6492,
+      "reward": 2.6630301475524902,
+      "reward_std": 0.2383480668067932,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.022733934223651886,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1083
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 802.6875,
-      "epoch": 0.542,
-      "grad_norm": 9.101773741644875,
-      "kl": 1.55078125,
-      "learning_rate": 5.625647374256061e-07,
-      "loss": 0.741,
-      "reward": 2.3281177282333374,
-      "reward_std": 0.6684702336788177,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.909722238779068,
-      "rewards/repetition_penalty_reward": -0.013896321877837181,
-      "rewards/tag_count_reward": 0.7656250298023224,
+      "completion_length": 472.3125,
+      "epoch": 0.7947214076246334,
+      "grad_norm": 14.367290877648022,
+      "kl": 1.642578125,
+      "learning_rate": 2.1077153103990854e-07,
+      "loss": 0.3468,
+      "reward": 2.667872428894043,
+      "reward_std": 0.2050323337316513,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.024836037307977676,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1084
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 559.9166870117188,
-      "epoch": 0.5425,
-      "grad_norm": 3.17667785466319,
-      "kl": 0.849609375,
-      "learning_rate": 5.617796267385429e-07,
-      "loss": 0.5913,
-      "reward": 2.5073158740997314,
-      "reward_std": 0.6131802946329117,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03261485882103443,
-      "rewards/tag_count_reward": 0.8802083730697632,
+      "completion_length": 446.2708435058594,
+      "epoch": 0.7954545454545454,
+      "grad_norm": 5.5197384607329845,
+      "kl": 0.5810546875,
+      "learning_rate": 2.1001560041458573e-07,
+      "loss": 0.106,
+      "reward": 2.179283857345581,
+      "reward_std": 0.16980974515900016,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.027313435450196266,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1085
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.54168701171875,
-      "epoch": 0.543,
-      "grad_norm": 5.388043302367293,
-      "kl": 0.642578125,
-      "learning_rate": 5.60994480168694e-07,
-      "loss": 0.369,
-      "reward": 2.5772793292999268,
-      "reward_std": 0.5051662921905518,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.01820683665573597,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 469.5833435058594,
+      "epoch": 0.7961876832844574,
+      "grad_norm": 7.0820397306841825,
+      "kl": 0.5576171875,
+      "learning_rate": 2.0926189858040118e-07,
+      "loss": 0.0277,
+      "reward": 2.4565619230270386,
+      "reward_std": 0.1886884942650795,
+      "rewards/accuracy_reward": 0.5000000204890966,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03302140720188618,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1086
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 585.6250305175781,
-      "epoch": 0.5435,
-      "grad_norm": 9.467820919919676,
-      "kl": 0.974609375,
-      "learning_rate": 5.602093001077517e-07,
-      "loss": 0.667,
-      "reward": 2.562462568283081,
-      "reward_std": 0.6790414154529572,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.010454241652041674,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 441.9791717529297,
+      "epoch": 0.7969208211143695,
+      "grad_norm": 5.213802139763893,
+      "kl": 0.80859375,
+      "learning_rate": 2.0851043047829886e-07,
+      "loss": 0.0479,
+      "reward": 1.9766491651535034,
+      "reward_std": 0.012979320250451565,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0233508488163352,
+      "rewards/tag_count_reward": 1.0,
       "step": 1087
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 357.81251525878906,
-      "epoch": 0.544,
-      "grad_norm": 10.151144754971412,
-      "kl": 0.7001953125,
-      "learning_rate": 5.594240889475106e-07,
-      "loss": 0.615,
-      "reward": 2.8339508771896362,
-      "reward_std": 0.4007309675216675,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.023687981069087982,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 427.2083435058594,
+      "epoch": 0.7976539589442815,
+      "grad_norm": 6.021152479365784,
+      "kl": 1.365234375,
+      "learning_rate": 2.0776120103457987e-07,
+      "loss": 0.0423,
+      "reward": 2.4225898385047913,
+      "reward_std": 0.19223318248987198,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02359061688184738,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1088
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 653.4583435058594,
-      "epoch": 0.5445,
-      "grad_norm": 5.455861003165772,
-      "kl": 0.9765625,
-      "learning_rate": 5.586388490798604e-07,
-      "loss": 0.6132,
-      "reward": 2.212650716304779,
-      "reward_std": 0.6732420325279236,
-      "rewards/accuracy_reward": 0.4375000223517418,
-      "rewards/reasoning_steps_reward": 0.92361119389534,
-      "rewards/repetition_penalty_reward": -0.018252158537507057,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 467.4166717529297,
+      "epoch": 0.7983870967741935,
+      "grad_norm": 13.154645588183993,
+      "kl": 0.888671875,
+      "learning_rate": 2.070142151608692e-07,
+      "loss": 0.1902,
+      "reward": 2.6917331218719482,
+      "reward_std": 0.12653527967631817,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02354466635733843,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1089
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 648.2291870117188,
-      "epoch": 0.545,
-      "grad_norm": 7.571198091437875,
-      "kl": 1.234375,
-      "learning_rate": 5.578535828967777e-07,
-      "loss": 0.8813,
-      "reward": 2.416181802749634,
-      "reward_std": 0.9853273630142212,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.875,
-      "rewards/repetition_penalty_reward": -0.01090173190459609,
-      "rewards/tag_count_reward": 0.8229166865348816,
+      "completion_length": 518.7291717529297,
+      "epoch": 0.7991202346041055,
+      "grad_norm": 44.5268065319015,
+      "kl": 2.80859375,
+      "learning_rate": 2.0626947775408444e-07,
+      "loss": 0.666,
+      "reward": 2.565494179725647,
+      "reward_std": 0.44115468859672546,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.04214485548436642,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1090
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 752.1458435058594,
-      "epoch": 0.5455,
-      "grad_norm": 6.561919666240053,
-      "kl": 1.169921875,
-      "learning_rate": 5.570682927903193e-07,
-      "loss": 0.4967,
-      "reward": 2.3344783782958984,
-      "reward_std": 0.5779477655887604,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.01621603313833475,
-      "rewards/tag_count_reward": 0.8229166865348816,
-      "step": 1091
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 620.2708435058594,
-      "epoch": 0.546,
-      "grad_norm": 8.795113051800255,
-      "kl": 1.126953125,
-      "learning_rate": 5.562829811526154e-07,
-      "loss": 0.6867,
-      "reward": 2.5719066858291626,
-      "reward_std": 0.6096862554550171,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.02184334397315979,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 456.91668701171875,
+      "epoch": 0.7998533724340176,
+      "grad_norm": 10.596915261641815,
+      "kl": 0.97265625,
+      "learning_rate": 2.0552699369640263e-07,
+      "loss": 0.0155,
+      "reward": 2.1983089447021484,
+      "reward_std": 0.07216011872515082,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025649478659033775,
+      "rewards/tag_count_reward": 0.9739583432674408,
+      "step": 1091
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.5208435058594,
+      "epoch": 0.8005865102639296,
+      "grad_norm": 22.398728890888155,
+      "kl": 2.08203125,
+      "learning_rate": 2.0478676785522936e-07,
+      "loss": 0.4324,
+      "reward": 2.3511595726013184,
+      "reward_std": 0.3135446608066559,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03425721637904644,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1092
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 448.1458435058594,
-      "epoch": 0.5465,
-      "grad_norm": 5.044503857903457,
-      "kl": 0.6328125,
-      "learning_rate": 5.554976503758612e-07,
-      "loss": 0.7076,
-      "reward": 2.7934606075286865,
-      "reward_std": 0.3946908265352249,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.017303182743489742,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 406.56251525878906,
+      "epoch": 0.8013196480938416,
+      "grad_norm": 11.634427759894564,
+      "kl": 1.40234375,
+      "learning_rate": 2.0404880508316597e-07,
+      "loss": 0.185,
+      "reward": 2.701943874359131,
+      "reward_std": 0.08190051838755608,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027222798205912113,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1093
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 521.8541870117188,
-      "epoch": 0.547,
-      "grad_norm": 11.91339929157061,
-      "kl": 0.794921875,
-      "learning_rate": 5.547123028523106e-07,
-      "loss": 0.4694,
-      "reward": 2.475094199180603,
-      "reward_std": 0.4313882440328598,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.028378095477819443,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 460.47918701171875,
+      "epoch": 0.8020527859237536,
+      "grad_norm": 31.318190759662002,
+      "kl": 1.11328125,
+      "learning_rate": 2.0331311021797836e-07,
+      "loss": 0.2413,
+      "reward": 2.1923688650131226,
+      "reward_std": 0.12720130756497383,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02290901355445385,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1094
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 608.2291717529297,
-      "epoch": 0.5475,
-      "grad_norm": 21.561567034341035,
-      "kl": 0.744140625,
-      "learning_rate": 5.539269409742683e-07,
-      "loss": 0.8278,
-      "reward": 2.4341979026794434,
-      "reward_std": 0.6945553719997406,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.024135553278028965,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 483.16668701171875,
+      "epoch": 0.8027859237536656,
+      "grad_norm": 16.85003870587138,
+      "kl": 1.560546875,
+      "learning_rate": 2.0257968808256465e-07,
+      "loss": 0.2716,
+      "reward": 2.6920918226242065,
+      "reward_std": 0.1356341354548931,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021449715830385685,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1095
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 534.8750305175781,
-      "epoch": 0.548,
-      "grad_norm": 25.643096112271426,
-      "kl": 1.119140625,
-      "learning_rate": 5.531415671340826e-07,
-      "loss": 0.5556,
-      "reward": 2.2709327936172485,
-      "reward_std": 0.5148254334926605,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.02594222454354167,
-      "rewards/tag_count_reward": 0.8593750298023224,
+      "completion_length": 450.8541717529297,
+      "epoch": 0.8035190615835777,
+      "grad_norm": 4.965107999898547,
+      "kl": 0.4130859375,
+      "learning_rate": 2.018485434849243e-07,
+      "loss": 0.0301,
+      "reward": 2.9743878841400146,
+      "reward_std": 0.010763033293187618,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025612126104533672,
+      "rewards/tag_count_reward": 1.0,
       "step": 1096
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 337.12501525878906,
-      "epoch": 0.5485,
-      "grad_norm": 15.402452878812943,
-      "kl": 0.4892578125,
-      "learning_rate": 5.523561837241387e-07,
-      "loss": 0.2395,
-      "reward": 2.4139556884765625,
-      "reward_std": 0.25268905609846115,
-      "rewards/accuracy_reward": 0.4583333432674408,
+      "completion_length": 444.25,
+      "epoch": 0.8042521994134897,
+      "grad_norm": 11.890604702844437,
+      "kl": 0.79296875,
+      "learning_rate": 2.01119681218126e-07,
+      "loss": 0.1023,
+      "reward": 2.1787749528884888,
+      "reward_std": 0.1856333538889885,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.018336026929318905,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.019141847267746925,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1097
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 396.93751525878906,
-      "epoch": 0.549,
-      "grad_norm": 20.68700015444551,
-      "kl": 0.609375,
-      "learning_rate": 5.515707931368507e-07,
-      "loss": 0.3136,
-      "reward": 2.6157283782958984,
-      "reward_std": 0.503062829375267,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.01968833664432168,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 568.7916870117188,
+      "epoch": 0.8049853372434017,
+      "grad_norm": 31.623012706962754,
+      "kl": 5.75390625,
+      "learning_rate": 2.0039310606027664e-07,
+      "loss": 0.7709,
+      "reward": 2.1479861736297607,
+      "reward_std": 0.5531877502799034,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.037777796387672424,
+      "rewards/tag_count_reward": 0.859375,
       "step": 1098
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 549.8333435058594,
-      "epoch": 0.5495,
-      "grad_norm": 41.64035805095098,
-      "kl": 0.728515625,
-      "learning_rate": 5.507853977646543e-07,
-      "loss": 0.6883,
-      "reward": 2.3382461071014404,
-      "reward_std": 0.7803103625774384,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.017656567506492138,
-      "rewards/tag_count_reward": 0.8489583432674408,
+      "completion_length": 454.5,
+      "epoch": 0.8057184750733137,
+      "grad_norm": 8.212504455950251,
+      "kl": 1.162109375,
+      "learning_rate": 1.996688227744894e-07,
+      "loss": 0.0791,
+      "reward": 2.2392346262931824,
+      "reward_std": 0.1137156393378973,
+      "rewards/accuracy_reward": 0.2708333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02118207886815071,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1099
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 434.16668701171875,
-      "epoch": 0.55,
-      "grad_norm": 42.17393716054865,
-      "kl": 0.666015625,
-      "learning_rate": 5.5e-07,
-      "loss": 0.5129,
-      "reward": 2.6097629070281982,
-      "reward_std": 0.6973889470100403,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.023917713202536106,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 455.85418701171875,
+      "epoch": 0.8064516129032258,
+      "grad_norm": 5.727879818508118,
+      "kl": 0.728515625,
+      "learning_rate": 1.989468361088536e-07,
+      "loss": 0.0209,
+      "reward": 2.187276005744934,
+      "reward_std": 0.14227101765573025,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.024529581889510155,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1100
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 546.1875152587891,
-      "epoch": 0.5505,
-      "grad_norm": 19.4698112016211,
-      "kl": 0.84375,
-      "learning_rate": 5.492146022353459e-07,
-      "loss": 0.3103,
-      "reward": 2.297290325164795,
-      "reward_std": 0.6591008305549622,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.02041808795183897,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 462.1041717529297,
+      "epoch": 0.8071847507331378,
+      "grad_norm": 17.32722660816832,
+      "kl": 0.80078125,
+      "learning_rate": 1.9822715079640217e-07,
+      "loss": 0.2153,
+      "reward": 2.3942633867263794,
+      "reward_std": 0.2861350402235985,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03108394891023636,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 1101
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 500.8958435058594,
-      "epoch": 0.551,
-      "grad_norm": 27.46742900229019,
-      "kl": 0.751953125,
-      "learning_rate": 5.484292068631494e-07,
-      "loss": 0.9024,
-      "reward": 2.3236552476882935,
-      "reward_std": 0.5587631464004517,
-      "rewards/accuracy_reward": 0.4583333358168602,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.01662263460457325,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 459.75001525878906,
+      "epoch": 0.8079178885630498,
+      "grad_norm": 8.204192297581018,
+      "kl": 1.5859375,
+      "learning_rate": 1.9750977155508201e-07,
+      "loss": 0.1769,
+      "reward": 2.646689295768738,
+      "reward_std": 0.29864780604839325,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019977413583546877,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1102
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 422.1041717529297,
-      "epoch": 0.5515,
-      "grad_norm": 6.678322908726758,
-      "kl": 0.634765625,
-      "learning_rate": 5.476438162758611e-07,
-      "loss": 0.3346,
-      "reward": 2.5052073001861572,
-      "reward_std": 0.44907619804143906,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.01909833773970604,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 507.83335876464844,
+      "epoch": 0.8086510263929618,
+      "grad_norm": 29.183446868684296,
+      "kl": 2.73046875,
+      "learning_rate": 1.9679470308772193e-07,
+      "loss": 0.5248,
+      "reward": 2.162355661392212,
+      "reward_std": 0.15475745499134064,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.03208877891302109,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1103
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.1458435058594,
-      "epoch": 0.552,
-      "grad_norm": 7.97609070470728,
-      "kl": 0.7421875,
-      "learning_rate": 5.468584328659172e-07,
-      "loss": 0.3472,
-      "reward": 2.4966301918029785,
-      "reward_std": 0.3519609868526459,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.018995044752955437,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 452.1041717529297,
+      "epoch": 0.8093841642228738,
+      "grad_norm": 9.188573023239696,
+      "kl": 1.494140625,
+      "learning_rate": 1.960819500820027e-07,
+      "loss": 0.3051,
+      "reward": 2.201483130455017,
+      "reward_std": 0.06417120806872845,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03289197292178869,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1104
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 498.5000305175781,
-      "epoch": 0.5525,
-      "grad_norm": 8.65361833333178,
-      "kl": 0.7255859375,
-      "learning_rate": 5.460730590257317e-07,
-      "loss": 0.4795,
-      "reward": 2.138282537460327,
-      "reward_std": 0.5641656816005707,
-      "rewards/accuracy_reward": 0.2916666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.017967475578188896,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 468.66668701171875,
+      "epoch": 0.8101173020527859,
+      "grad_norm": 7.686165194216877,
+      "kl": 1.32421875,
+      "learning_rate": 1.9537151721042544e-07,
+      "loss": 0.1647,
+      "reward": 2.193081557750702,
+      "reward_std": 0.11296498030424118,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02046018559485674,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1105
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.9583435058594,
-      "epoch": 0.553,
-      "grad_norm": 12.3661318307847,
-      "kl": 0.677734375,
-      "learning_rate": 5.452876971476896e-07,
-      "loss": 0.7296,
-      "reward": 2.612514019012451,
-      "reward_std": 0.6336883902549744,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.021166563034057617,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 480.06251525878906,
+      "epoch": 0.8108504398826979,
+      "grad_norm": 16.66437068456755,
+      "kl": 1.755859375,
+      "learning_rate": 1.94663409130282e-07,
+      "loss": 0.1331,
+      "reward": 2.607347011566162,
+      "reward_std": 0.26773516833782196,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.029805734753608704,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1106
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 515.6250305175781,
-      "epoch": 0.5535,
-      "grad_norm": 10.944643674304801,
-      "kl": 0.74609375,
-      "learning_rate": 5.445023496241388e-07,
-      "loss": 0.8027,
-      "reward": 2.3295055627822876,
-      "reward_std": 0.5938288271427155,
-      "rewards/accuracy_reward": 0.5000000111758709,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.01598059432581067,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 428.1458435058594,
+      "epoch": 0.8115835777126099,
+      "grad_norm": 17.084109852146433,
+      "kl": 0.8701171875,
+      "learning_rate": 1.939576304836235e-07,
+      "loss": 0.25,
+      "reward": 2.6833220720291138,
+      "reward_std": 0.1571330651640892,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.023275235667824745,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1107
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 544.2708435058594,
-      "epoch": 0.554,
-      "grad_norm": 6.272584778246144,
-      "kl": 1.17578125,
-      "learning_rate": 5.437170188473847e-07,
-      "loss": 0.5575,
-      "reward": 2.0059564113616943,
-      "reward_std": 0.6833735406398773,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.01661309227347374,
-      "rewards/tag_count_reward": 0.8489583432674408,
+      "completion_length": 438.1458435058594,
+      "epoch": 0.8123167155425219,
+      "grad_norm": 8.723073183829872,
+      "kl": 0.986328125,
+      "learning_rate": 1.9325418589723063e-07,
+      "loss": 0.056,
+      "reward": 2.417007803916931,
+      "reward_std": 0.19728430174291134,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02743679191917181,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1108
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.2916717529297,
-      "epoch": 0.5545,
-      "grad_norm": 6.425896412413649,
-      "kl": 0.81640625,
-      "learning_rate": 5.429317072096807e-07,
-      "loss": 0.3538,
-      "reward": 2.409471869468689,
-      "reward_std": 0.5708480477333069,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.017611466348171234,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 406.6666717529297,
+      "epoch": 0.8130498533724341,
+      "grad_norm": 6.426501532620271,
+      "kl": 0.560546875,
+      "learning_rate": 1.9255307998258253e-07,
+      "loss": 0.063,
+      "reward": 2.729717493057251,
+      "reward_std": 0.010303615126758814,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020282641053199768,
+      "rewards/tag_count_reward": 1.0,
       "step": 1109
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 555.4375,
-      "epoch": 0.555,
-      "grad_norm": 8.904743072445507,
-      "kl": 1.025390625,
-      "learning_rate": 5.421464171032224e-07,
-      "loss": 0.8839,
-      "reward": 2.551916480064392,
-      "reward_std": 0.8339214324951172,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.012319804634898901,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 544.3541717529297,
+      "epoch": 0.8137829912023461,
+      "grad_norm": 14.856144237306745,
+      "kl": 1.06640625,
+      "learning_rate": 1.9185431733582755e-07,
+      "loss": 0.3038,
+      "reward": 1.9218279719352722,
+      "reward_std": 0.19134631752967834,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.02782483585178852,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1110
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 421.37501525878906,
-      "epoch": 0.5555,
-      "grad_norm": 9.390143696400399,
-      "kl": 0.7890625,
-      "learning_rate": 5.413611509201396e-07,
-      "loss": 0.6891,
-      "reward": 2.6331262588500977,
-      "reward_std": 0.6708503365516663,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.04395711608231068,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 474.41668701171875,
+      "epoch": 0.8145161290322581,
+      "grad_norm": 10.786777205070308,
+      "kl": 0.71484375,
+      "learning_rate": 1.9115790253775211e-07,
+      "loss": 0.0898,
+      "reward": 2.22803795337677,
+      "reward_std": 0.012332984246313572,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02196214161813259,
+      "rewards/tag_count_reward": 1.0,
       "step": 1111
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 566.3333740234375,
-      "epoch": 0.556,
-      "grad_norm": 7.055072585098017,
-      "kl": 1.05078125,
-      "learning_rate": 5.405759110524894e-07,
-      "loss": 0.688,
-      "reward": 2.20969557762146,
-      "reward_std": 0.6133010685443878,
-      "rewards/accuracy_reward": 0.3750000223517418,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.029887686483561993,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 444.81251525878906,
+      "epoch": 0.8152492668621701,
+      "grad_norm": 28.863582269415154,
+      "kl": 1.203125,
+      "learning_rate": 1.9046384015375157e-07,
+      "loss": 0.1168,
+      "reward": 2.685865640640259,
+      "reward_std": 0.11857039388269186,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.032884408719837666,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1112
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 460.81251525878906,
-      "epoch": 0.5565,
-      "grad_norm": 6.681017604333264,
-      "kl": 0.806640625,
-      "learning_rate": 5.397906998922483e-07,
-      "loss": 0.4867,
-      "reward": 2.5056605339050293,
-      "reward_std": 0.42460909485816956,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.022117381915450096,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 481.58335876464844,
+      "epoch": 0.8159824046920822,
+      "grad_norm": 17.369555980254702,
+      "kl": 2.251953125,
+      "learning_rate": 1.897721347337995e-07,
+      "loss": 0.35,
+      "reward": 2.158285677433014,
+      "reward_std": 0.2446889877319336,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.022269919514656067,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1113
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 502.1666717529297,
-      "epoch": 0.557,
-      "grad_norm": 7.9919915253075136,
-      "kl": 0.951171875,
-      "learning_rate": 5.390055198313061e-07,
-      "loss": 0.8675,
-      "reward": 2.357274293899536,
-      "reward_std": 0.6162551641464233,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.015989708248525858,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 469.1041717529297,
+      "epoch": 0.8167155425219942,
+      "grad_norm": 24.713866753619417,
+      "kl": 2.609375,
+      "learning_rate": 1.8908279081241863e-07,
+      "loss": 0.2155,
+      "reward": 2.4129501581192017,
+      "reward_std": 0.19241027534008026,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024549901485443115,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1114
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.6250305175781,
-      "epoch": 0.5575,
-      "grad_norm": 6.025174035853018,
-      "kl": 0.744140625,
-      "learning_rate": 5.382203732614571e-07,
-      "loss": 0.5821,
-      "reward": 2.6463170051574707,
-      "reward_std": 0.5895664393901825,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.015141477808356285,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 455.8333435058594,
+      "epoch": 0.8174486803519062,
+      "grad_norm": 5.506746123637378,
+      "kl": 0.396484375,
+      "learning_rate": 1.8839581290865014e-07,
+      "loss": 0.0246,
+      "reward": 2.4741445779800415,
+      "reward_std": 0.012463107705116272,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025855595245957375,
+      "rewards/tag_count_reward": 1.0,
       "step": 1115
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 648.9791870117188,
-      "epoch": 0.558,
-      "grad_norm": 4.919326916823641,
-      "kl": 1.15234375,
-      "learning_rate": 5.37435262574394e-07,
-      "loss": 0.6887,
-      "reward": 2.228627920150757,
-      "reward_std": 0.6992431879043579,
-      "rewards/accuracy_reward": 0.4375000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.017899959348142147,
-      "rewards/tag_count_reward": 0.8437500298023224,
+      "completion_length": 474.9791717529297,
+      "epoch": 0.8181818181818182,
+      "grad_norm": 15.558503462858535,
+      "kl": 1.7021484375,
+      "learning_rate": 1.877112055260253e-07,
+      "loss": 0.4739,
+      "reward": 2.3901326656341553,
+      "reward_std": 0.29310342809185386,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.036950779147446156,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1116
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 543.4375,
-      "epoch": 0.5585,
-      "grad_norm": 6.777349325411678,
-      "kl": 0.990234375,
-      "learning_rate": 5.366501901617001e-07,
-      "loss": 0.7701,
-      "reward": 2.5158661603927612,
-      "reward_std": 0.6982110738754272,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.902777761220932,
-      "rewards/repetition_penalty_reward": -0.011911679524928331,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 495.4791717529297,
+      "epoch": 0.8189149560117303,
+      "grad_norm": 6.5218599318564765,
+      "kl": 1.484375,
+      "learning_rate": 1.8702897315253473e-07,
+      "loss": 0.2184,
+      "reward": 2.606796145439148,
+      "reward_std": 0.29400739073753357,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03209282737225294,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1117
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 367.2708435058594,
-      "epoch": 0.559,
-      "grad_norm": 4.625628969961506,
-      "kl": 0.611328125,
-      "learning_rate": 5.358651584148423e-07,
-      "loss": 0.4419,
-      "reward": 2.7811131477355957,
-      "reward_std": 0.3881167322397232,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04006761498749256,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 492.0625,
+      "epoch": 0.8196480938416423,
+      "grad_norm": 6.440030855286785,
+      "kl": 0.716796875,
+      "learning_rate": 1.8634912026059996e-07,
+      "loss": 0.0511,
+      "reward": 2.47199022769928,
+      "reward_std": 0.012247168458998203,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028009764850139618,
+      "rewards/tag_count_reward": 1.0,
       "step": 1118
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 481.58335876464844,
-      "epoch": 0.5595,
-      "grad_norm": 5.8630513324216755,
-      "kl": 0.779296875,
-      "learning_rate": 5.350801697251633e-07,
-      "loss": 0.5938,
-      "reward": 2.6719554662704468,
-      "reward_std": 0.5751761198043823,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.03116954304277897,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 501.3958435058594,
+      "epoch": 0.8203812316715543,
+      "grad_norm": 14.602053842200213,
+      "kl": 2.78515625,
+      "learning_rate": 1.8567165130704314e-07,
+      "loss": 0.4461,
+      "reward": 2.591174006462097,
+      "reward_std": 0.3254464864730835,
+      "rewards/accuracy_reward": 0.6666666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023409449495375156,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1119
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 393.0833435058594,
-      "epoch": 0.56,
-      "grad_norm": 5.093420961702017,
-      "kl": 0.5625,
-      "learning_rate": 5.342952264838747e-07,
-      "loss": 0.4989,
-      "reward": 2.689083218574524,
-      "reward_std": 0.388533353805542,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.01230586925521493,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 477.1250305175781,
+      "epoch": 0.8211143695014663,
+      "grad_norm": 13.113340234764465,
+      "kl": 0.970703125,
+      "learning_rate": 1.849965707330589e-07,
+      "loss": 0.2927,
+      "reward": 2.440806031227112,
+      "reward_std": 0.12088531628251076,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03141636308282614,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1120
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.7083435058594,
-      "epoch": 0.5605,
-      "grad_norm": 5.605297281726827,
-      "kl": 0.5947265625,
-      "learning_rate": 5.335103310820496e-07,
-      "loss": 0.5772,
-      "reward": 2.8223936557769775,
-      "reward_std": 0.38263121247291565,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.017884175293147564,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 451.1875,
+      "epoch": 0.8218475073313783,
+      "grad_norm": 9.162423347156384,
+      "kl": 0.515625,
+      "learning_rate": 1.8432388296418411e-07,
+      "loss": 0.0294,
+      "reward": 2.6752790212631226,
+      "reward_std": 0.13515725173056126,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0226375968195498,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1121
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 601.6666870117188,
-      "epoch": 0.561,
-      "grad_norm": 6.832349813903946,
-      "kl": 0.763671875,
-      "learning_rate": 5.32725485910616e-07,
-      "loss": 0.8745,
-      "reward": 2.4064905643463135,
-      "reward_std": 0.7045398056507111,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.01885672379285097,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 489.1041717529297,
+      "epoch": 0.8225806451612904,
+      "grad_norm": 17.42462161111345,
+      "kl": 3.28125,
+      "learning_rate": 1.836535924102701e-07,
+      "loss": 0.5659,
+      "reward": 2.626253128051758,
+      "reward_std": 0.2911444902420044,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.03173297643661499,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1122
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 450.0833435058594,
-      "epoch": 0.5615,
-      "grad_norm": 4.514039507778649,
-      "kl": 0.666015625,
-      "learning_rate": 5.319406933603482e-07,
-      "loss": 0.5151,
-      "reward": 2.757925033569336,
-      "reward_std": 0.3729214509949088,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.0250612860545516,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 473.6041717529297,
+      "epoch": 0.8233137829912024,
+      "grad_norm": 7.8820590601670055,
+      "kl": 0.8828125,
+      "learning_rate": 1.8298570346545247e-07,
+      "loss": 0.2549,
+      "reward": 1.948028564453125,
+      "reward_std": 0.10797865828499198,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.031137985177338123,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1123
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 649.3541870117188,
-      "epoch": 0.562,
-      "grad_norm": 7.659959107724474,
-      "kl": 0.943359375,
-      "learning_rate": 5.311559558218603e-07,
-      "loss": 0.6994,
-      "reward": 2.274022102355957,
-      "reward_std": 0.7414794862270355,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9513888657093048,
-      "rewards/repetition_penalty_reward": -0.03153356537222862,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 422.91668701171875,
+      "epoch": 0.8240469208211144,
+      "grad_norm": 4.156410874608448,
+      "kl": 0.3779296875,
+      "learning_rate": 1.823202205081234e-07,
+      "loss": 0.0052,
+      "reward": 2.8767616748809814,
+      "reward_std": 0.20274555077776313,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.020807928405702114,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1124
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 671.4166870117188,
-      "epoch": 0.5625,
-      "grad_norm": 6.923021149158682,
-      "kl": 0.923828125,
-      "learning_rate": 5.303712756855988e-07,
-      "loss": 0.8844,
-      "reward": 2.3472338914871216,
-      "reward_std": 0.7413772344589233,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9305556416511536,
-      "rewards/repetition_penalty_reward": -0.015613417141139507,
-      "rewards/tag_count_reward": 0.828125,
+      "completion_length": 436.62501525878906,
+      "epoch": 0.8247800586510264,
+      "grad_norm": 6.798128573391826,
+      "kl": 1.0078125,
+      "learning_rate": 1.81657147900902e-07,
+      "loss": 0.2609,
+      "reward": 2.441956400871277,
+      "reward_std": 0.24651040136814117,
+      "rewards/accuracy_reward": 0.5000000204890966,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0372103713452816,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1125
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.54168701171875,
-      "epoch": 0.563,
-      "grad_norm": 6.103986634370641,
-      "kl": 0.55078125,
-      "learning_rate": 5.295866553418358e-07,
-      "loss": 0.5005,
-      "reward": 2.7973004579544067,
-      "reward_std": 0.39559805393218994,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.03256077412515879,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 521.0625305175781,
+      "epoch": 0.8255131964809385,
+      "grad_norm": 18.921212456734796,
+      "kl": 2.3857421875,
+      "learning_rate": 1.8099648999060658e-07,
+      "loss": 0.3091,
+      "reward": 2.5876940488815308,
+      "reward_std": 0.265332761220634,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.0320977782830596,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1126
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 624.5000152587891,
-      "epoch": 0.5635,
-      "grad_norm": 6.343512742022832,
-      "kl": 0.99609375,
-      "learning_rate": 5.288020971806608e-07,
-      "loss": 0.4152,
-      "reward": 2.39252108335495,
-      "reward_std": 0.40336638130247593,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.015465098433196545,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 435.4791717529297,
+      "epoch": 0.8262463343108505,
+      "grad_norm": 11.468478482896765,
+      "kl": 0.8310546875,
+      "learning_rate": 1.8033825110822542e-07,
+      "loss": 0.1217,
+      "reward": 2.2099719047546387,
+      "reward_std": 0.07140774186700583,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024402983486652374,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1127
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 343.5833435058594,
-      "epoch": 0.564,
-      "grad_norm": 24.603696739447937,
-      "kl": 0.9208984375,
-      "learning_rate": 5.28017603591974e-07,
-      "loss": 0.3151,
-      "reward": 2.6542476415634155,
-      "reward_std": 0.28428603522479534,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.012418974190950394,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 561.7708587646484,
+      "epoch": 0.8269794721407625,
+      "grad_norm": 20.46432385173581,
+      "kl": 2.1875,
+      "learning_rate": 1.7968243556888903e-07,
+      "loss": 0.4326,
+      "reward": 1.8412283658981323,
+      "reward_std": 0.23730798065662384,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.056341132149100304,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1128
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 271.2291717529297,
-      "epoch": 0.5645,
-      "grad_norm": 5.473040679290024,
-      "kl": 0.490234375,
-      "learning_rate": 5.27233176965479e-07,
-      "loss": 0.0469,
-      "reward": 2.9089274406433105,
-      "reward_std": 0.12796843331307173,
-      "rewards/accuracy_reward": 0.9375,
+      "completion_length": 422.4791717529297,
+      "epoch": 0.8277126099706745,
+      "grad_norm": 7.042971822737819,
+      "kl": 0.49609375,
+      "learning_rate": 1.7902904767184125e-07,
+      "loss": 0.0169,
+      "reward": 2.967703938484192,
+      "reward_std": 0.013247686438262463,
+      "rewards/accuracy_reward": 1.0,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.028572553768754005,
+      "rewards/repetition_penalty_reward": -0.03229622729122639,
       "rewards/tag_count_reward": 1.0,
       "step": 1129
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 626.6458435058594,
-      "epoch": 0.565,
-      "grad_norm": 13.844398470198444,
-      "kl": 0.90625,
-      "learning_rate": 5.264488196906752e-07,
-      "loss": 0.7776,
-      "reward": 2.4067180156707764,
-      "reward_std": 0.6049718260765076,
-      "rewards/accuracy_reward": 0.5625000298023224,
+      "completion_length": 485.95835876464844,
+      "epoch": 0.8284457478005866,
+      "grad_norm": 12.848811794663536,
+      "kl": 1.41015625,
+      "learning_rate": 1.7837809170041112e-07,
+      "loss": 0.1916,
+      "reward": 2.4559115171432495,
+      "reward_std": 0.0645798435434699,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.020365470554679632,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "rewards/repetition_penalty_reward": -0.02325524017214775,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1130
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 575.9583435058594,
-      "epoch": 0.5655,
-      "grad_norm": 47.74850593269307,
-      "kl": 1.37890625,
-      "learning_rate": 5.256645341568511e-07,
-      "loss": 0.3055,
-      "reward": 2.4448657035827637,
-      "reward_std": 0.2919907867908478,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.015203722519800067,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 431.8958435058594,
+      "epoch": 0.8291788856304986,
+      "grad_norm": 10.31962203088763,
+      "kl": 1.35546875,
+      "learning_rate": 1.7772957192198578e-07,
+      "loss": 0.1319,
+      "reward": 2.4423160552978516,
+      "reward_std": 0.12352583277970552,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.022961710579693317,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1131
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.9375305175781,
-      "epoch": 0.566,
-      "grad_norm": 16.058299463435173,
-      "kl": 0.744140625,
-      "learning_rate": 5.248803227530763e-07,
-      "loss": 0.7605,
-      "reward": 2.6384165287017822,
-      "reward_std": 0.5586017668247223,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.0195696409791708,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 645.1250305175781,
+      "epoch": 0.8299120234604106,
+      "grad_norm": 25.376081021002964,
+      "kl": 2.890625,
+      "learning_rate": 1.77083492587981e-07,
+      "loss": 0.704,
+      "reward": 2.2698137760162354,
+      "reward_std": 0.4809025526046753,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.049630703404545784,
+      "rewards/tag_count_reward": 0.8958333730697632,
       "step": 1132
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.8333435058594,
-      "epoch": 0.5665,
-      "grad_norm": 4.518324512537823,
-      "kl": 0.4765625,
-      "learning_rate": 5.240961878681947e-07,
-      "loss": 0.0132,
-      "reward": 2.93279492855072,
-      "reward_std": 0.15127281844615936,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.025538288988173008,
-      "rewards/tag_count_reward": 1.0,
+      "completion_length": 480.9166717529297,
+      "epoch": 0.8306451612903226,
+      "grad_norm": 19.581286588231446,
+      "kl": 2.84375,
+      "learning_rate": 1.7643985793381443e-07,
+      "loss": 0.5377,
+      "reward": 2.567038655281067,
+      "reward_std": 0.5014015734195709,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.03886430896818638,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1133
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 480.04168701171875,
-      "epoch": 0.567,
-      "grad_norm": 11.667992967616525,
-      "kl": 0.814453125,
-      "learning_rate": 5.233121318908173e-07,
-      "loss": 0.4719,
-      "reward": 2.2194743156433105,
-      "reward_std": 0.4004889130592346,
-      "rewards/accuracy_reward": 0.3750000223517418,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.018372977152466774,
-      "rewards/tag_count_reward": 0.890625,
+      "completion_length": 437.8333435058594,
+      "epoch": 0.8313782991202346,
+      "grad_norm": 6.4055923974991735,
+      "kl": 0.9765625,
+      "learning_rate": 1.7579867217887734e-07,
+      "loss": 0.0771,
+      "reward": 2.2104244232177734,
+      "reward_std": 0.044318219646811485,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.029159046709537506,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1134
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.4583435058594,
-      "epoch": 0.5675,
-      "grad_norm": 6.73610126947889,
-      "kl": 0.7626953125,
-      "learning_rate": 5.225281572093143e-07,
-      "loss": 0.2514,
-      "reward": 2.7708280086517334,
-      "reward_std": 0.23756166687235236,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03299156203866005,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 480.25001525878906,
+      "epoch": 0.8321114369501467,
+      "grad_norm": 16.04432271166462,
+      "kl": 2.5546875,
+      "learning_rate": 1.7515993952650716e-07,
+      "loss": 0.3801,
+      "reward": 2.606268286705017,
+      "reward_std": 0.38931509852409363,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.032620541751384735,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1135
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 791.6875305175781,
-      "epoch": 0.568,
-      "grad_norm": 25.279730322882415,
-      "kl": 1.59765625,
-      "learning_rate": 5.21744266211809e-07,
-      "loss": 0.8005,
-      "reward": 2.3063154816627502,
-      "reward_std": 0.6179798245429993,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.016601404175162315,
-      "rewards/tag_count_reward": 0.78125,
+      "completion_length": 536.2916870117188,
+      "epoch": 0.8328445747800587,
+      "grad_norm": 18.81150662725805,
+      "kl": 3.421875,
+      "learning_rate": 1.745236641639596e-07,
+      "loss": 0.4975,
+      "reward": 2.0818097591400146,
+      "reward_std": 0.31087224930524826,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.024093182757496834,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1136
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 466.16668701171875,
-      "epoch": 0.5685,
-      "grad_norm": 18.939649860781724,
-      "kl": 0.869140625,
-      "learning_rate": 5.20960461286169e-07,
-      "loss": 0.6348,
-      "reward": 2.7132285833358765,
-      "reward_std": 0.41872841119766235,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02635475154966116,
+      "completion_length": 529.5625,
+      "epoch": 0.8335777126099707,
+      "grad_norm": 72.73956524353684,
+      "kl": 4.28515625,
+      "learning_rate": 1.7388985026238179e-07,
+      "loss": 0.6823,
+      "reward": 2.3693403005599976,
+      "reward_std": 0.247810211032629,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.0369098074734211,
       "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1137
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 704.2500305175781,
-      "epoch": 0.569,
-      "grad_norm": 23.295755447219996,
-      "kl": 1.234375,
-      "learning_rate": 5.2017674482e-07,
-      "loss": 0.7717,
-      "reward": 2.3411978483200073,
-      "reward_std": 0.7033064663410187,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.019913168624043465,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 464.375,
+      "epoch": 0.8343108504398827,
+      "grad_norm": 4.609364870013891,
+      "kl": 0.486328125,
+      "learning_rate": 1.7325850197678425e-07,
+      "loss": 0.0561,
+      "reward": 2.4805774688720703,
+      "reward_std": 0.009202238637953997,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01942244078963995,
+      "rewards/tag_count_reward": 1.0,
       "step": 1138
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 512.9166717529297,
-      "epoch": 0.5695,
-      "grad_norm": 14.21734574883039,
-      "kl": 1.03515625,
-      "learning_rate": 5.193931192006385e-07,
-      "loss": 0.5358,
-      "reward": 2.592092990875244,
-      "reward_std": 0.6145272552967072,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02249028254300356,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 436.91668701171875,
+      "epoch": 0.8350439882697948,
+      "grad_norm": 7.809025581477368,
+      "kl": 0.7265625,
+      "learning_rate": 1.726296234460143e-07,
+      "loss": 0.0077,
+      "reward": 2.4543532133102417,
+      "reward_std": 0.10273497458547354,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.017868993803858757,
+      "rewards/tag_count_reward": 1.0,
       "step": 1139
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 394.45835876464844,
-      "epoch": 0.57,
-      "grad_norm": 6.405748026127363,
-      "kl": 0.642578125,
-      "learning_rate": 5.186095868151436e-07,
-      "loss": 0.3287,
-      "reward": 2.8148388862609863,
-      "reward_std": 0.3306480962783098,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03238342609256506,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 426.6666717529297,
+      "epoch": 0.8357771260997068,
+      "grad_norm": 6.403930601129145,
+      "kl": 0.5244140625,
+      "learning_rate": 1.7200321879272821e-07,
+      "loss": 0.0159,
+      "reward": 2.459131121635437,
+      "reward_std": 0.08256103657186031,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020035718102008104,
+      "rewards/tag_count_reward": 1.0,
       "step": 1140
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 643.0208435058594,
-      "epoch": 0.5705,
-      "grad_norm": 11.8102138105351,
-      "kl": 1.228515625,
-      "learning_rate": 5.178261500502912e-07,
-      "loss": 0.5072,
-      "reward": 2.575770854949951,
-      "reward_std": 0.3936486691236496,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.014507037587463856,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 458.10418701171875,
+      "epoch": 0.8365102639296188,
+      "grad_norm": 3.918762150296133,
+      "kl": 0.5322265625,
+      "learning_rate": 1.7137929212336504e-07,
+      "loss": 0.038,
+      "reward": 2.2210280895233154,
+      "reward_std": 0.010795718058943748,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028971992433071136,
+      "rewards/tag_count_reward": 1.0,
       "step": 1141
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 484.1875,
-      "epoch": 0.571,
-      "grad_norm": 19.62442109664474,
-      "kl": 1.203125,
-      "learning_rate": 5.170428112925659e-07,
-      "loss": 0.6059,
-      "reward": 2.3984756469726562,
-      "reward_std": 0.5576977431774139,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02860766276717186,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 413.56251525878906,
+      "epoch": 0.8372434017595308,
+      "grad_norm": 8.59347643879693,
+      "kl": 0.3896484375,
+      "learning_rate": 1.7075784752811885e-07,
+      "loss": 0.0366,
+      "reward": 2.4820199012756348,
+      "reward_std": 0.0108394306153059,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.017980179749429226,
+      "rewards/tag_count_reward": 1.0,
       "step": 1142
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 339.9583435058594,
-      "epoch": 0.5715,
-      "grad_norm": 15.224539776880427,
-      "kl": 0.6611328125,
-      "learning_rate": 5.162595729281526e-07,
-      "loss": 0.3318,
-      "reward": 2.6164965629577637,
-      "reward_std": 0.2758345529437065,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.018920221365988255,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 421.97918701171875,
+      "epoch": 0.8379765395894428,
+      "grad_norm": 14.774468827305876,
+      "kl": 1.431640625,
+      "learning_rate": 1.7013888908091262e-07,
+      "loss": 0.1838,
+      "reward": 1.9469353556632996,
+      "reward_std": 0.08503856789320707,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02355077490210533,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1143
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 400.4583435058594,
-      "epoch": 0.572,
-      "grad_norm": 16.037796811858144,
-      "kl": 1.94921875,
-      "learning_rate": 5.154764373429315e-07,
-      "loss": 0.5664,
-      "reward": 2.7207865715026855,
-      "reward_std": 0.4415482133626938,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.024005182087421417,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 452.43751525878906,
+      "epoch": 0.8387096774193549,
+      "grad_norm": 58.13871324922508,
+      "kl": 2.9189453125,
+      "learning_rate": 1.6952242083937097e-07,
+      "loss": 0.1956,
+      "reward": 2.162394165992737,
+      "reward_std": 0.1664935452863574,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.023369694128632545,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1144
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 488.3750305175781,
-      "epoch": 0.5725,
-      "grad_norm": 89.73106922514725,
-      "kl": 7.046875,
-      "learning_rate": 5.146934069224698e-07,
-      "loss": 0.8408,
-      "reward": 2.387607216835022,
-      "reward_std": 0.6802188009023666,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.016906835604459047,
-      "rewards/tag_count_reward": 0.7864583432674408,
+      "completion_length": 459.2708435058594,
+      "epoch": 0.8394428152492669,
+      "grad_norm": 8.424296203656573,
+      "kl": 1.720703125,
+      "learning_rate": 1.6890844684479386e-07,
+      "loss": 0.1905,
+      "reward": 2.372523546218872,
+      "reward_std": 0.37988629192113876,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.037198787555098534,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1145
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 334.6041717529297,
-      "epoch": 0.573,
-      "grad_norm": 32.93197336588902,
-      "kl": 2.5234375,
-      "learning_rate": 5.139104840520135e-07,
-      "loss": 0.4021,
-      "reward": 2.706830859184265,
-      "reward_std": 0.45073381066322327,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.017127559520304203,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 493.2708435058594,
+      "epoch": 0.8401759530791789,
+      "grad_norm": 22.816794127705354,
+      "kl": 3.078125,
+      "learning_rate": 1.6829697112213025e-07,
+      "loss": 0.3806,
+      "reward": 2.0439147353172302,
+      "reward_std": 0.3693936914205551,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.025529890321195126,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 1146
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 331.18751525878906,
-      "epoch": 0.5735,
-      "grad_norm": 16.862260635413147,
-      "kl": 1.87109375,
-      "learning_rate": 5.131276711164815e-07,
-      "loss": 0.2396,
-      "reward": 2.566492795944214,
-      "reward_std": 0.4739261567592621,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.028993389569222927,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 508.8958435058594,
+      "epoch": 0.8409090909090909,
+      "grad_norm": 12.890399440726029,
+      "kl": 3.3203125,
+      "learning_rate": 1.676879976799511e-07,
+      "loss": 0.462,
+      "reward": 2.3762617111206055,
+      "reward_std": 0.2129766345024109,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02478000707924366,
+      "rewards/tag_count_reward": 0.921875,
       "step": 1147
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.3333435058594,
-      "epoch": 0.574,
-      "grad_norm": 34.79221151751134,
-      "kl": 3.4921875,
-      "learning_rate": 5.123449705004581e-07,
-      "loss": 0.3237,
-      "reward": 2.6664516925811768,
-      "reward_std": 0.6325987875461578,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02625663299113512,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 478.85418701171875,
+      "epoch": 0.841642228739003,
+      "grad_norm": 19.300394028055656,
+      "kl": 1.95703125,
+      "learning_rate": 1.6708153051042396e-07,
+      "loss": 0.3214,
+      "reward": 2.646037220954895,
+      "reward_std": 0.2798616886138916,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.024101640097796917,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1148
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 253.3541717529297,
-      "epoch": 0.5745,
-      "grad_norm": 12.048802514250214,
-      "kl": 0.947265625,
-      "learning_rate": 5.115623845881847e-07,
-      "loss": 0.0768,
-      "reward": 2.8428802490234375,
-      "reward_std": 0.40082596242427826,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.019967169500887394,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 464.0208435058594,
+      "epoch": 0.842375366568915,
+      "grad_norm": 37.132576967657364,
+      "kl": 1.580078125,
+      "learning_rate": 1.6647757358928588e-07,
+      "loss": 0.3186,
+      "reward": 2.4220274090766907,
+      "reward_std": 0.19371453439816833,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.027625439688563347,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1149
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.7708435058594,
-      "epoch": 0.575,
-      "grad_norm": 10.82498445900699,
-      "kl": 0.498046875,
-      "learning_rate": 5.107799157635538e-07,
-      "loss": 0.0567,
-      "reward": 2.6700661182403564,
-      "reward_std": 0.20545261912047863,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02264238614588976,
-      "rewards/tag_count_reward": 0.984375,
+      "completion_length": 486.12501525878906,
+      "epoch": 0.843108504398827,
+      "grad_norm": 15.356178665631093,
+      "kl": 1.7890625,
+      "learning_rate": 1.6587613087581832e-07,
+      "loss": 0.2237,
+      "reward": 2.3487614393234253,
+      "reward_std": 0.4307193011045456,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.036655270494520664,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1150
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.1041717529297,
-      "epoch": 0.5755,
-      "grad_norm": 47.5496817156261,
-      "kl": 4.015625,
-      "learning_rate": 5.099975664101014e-07,
-      "loss": 0.1526,
-      "reward": 1.90774405002594,
-      "reward_std": 0.7336077690124512,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000894069672,
-      "rewards/repetition_penalty_reward": -0.014130960684269667,
-      "rewards/tag_count_reward": 0.7135416865348816,
+      "completion_length": 461.18751525878906,
+      "epoch": 0.843841642228739,
+      "grad_norm": 15.508356091158527,
+      "kl": 2.2734375,
+      "learning_rate": 1.652772063128201e-07,
+      "loss": 0.5044,
+      "reward": 2.67854905128479,
+      "reward_std": 0.16638881852850318,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0245761526748538,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1151
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.0833435058594,
-      "epoch": 0.576,
-      "grad_norm": 11.1836621188091,
-      "kl": 1.27734375,
-      "learning_rate": 5.09215338910999e-07,
-      "loss": 0.062,
-      "reward": 2.778138041496277,
-      "reward_std": 0.30686675012111664,
-      "rewards/accuracy_reward": 0.8541666865348816,
+      "completion_length": 557.3125305175781,
+      "epoch": 0.844574780058651,
+      "grad_norm": 11.973782162720196,
+      "kl": 2.30078125,
+      "learning_rate": 1.6468080382658273e-07,
+      "loss": 0.5168,
+      "reward": 2.1508249044418335,
+      "reward_std": 0.2192765325307846,
+      "rewards/accuracy_reward": 0.2083333432674408,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02915370836853981,
-      "rewards/tag_count_reward": 0.953125,
+      "rewards/repetition_penalty_reward": -0.0210501654073596,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1152
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 278.47918701171875,
-      "epoch": 0.5765,
-      "grad_norm": 8.241389663503151,
-      "kl": 0.83984375,
-      "learning_rate": 5.084332356490472e-07,
-      "loss": -0.0037,
-      "reward": 2.4805880784988403,
-      "reward_std": 0.40117160230875015,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.043717604130506516,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 468.2083435058594,
+      "epoch": 0.8453079178885631,
+      "grad_norm": 8.18992294263394,
+      "kl": 0.724609375,
+      "learning_rate": 1.6408692732686346e-07,
+      "loss": 0.0572,
+      "reward": 2.428075909614563,
+      "reward_std": 0.14463306940160692,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.014632577076554298,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1153
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 253.1666717529297,
-      "epoch": 0.577,
-      "grad_norm": 65.55942523736746,
-      "kl": 6.75,
-      "learning_rate": 5.076512590066685e-07,
-      "loss": 0.0028,
-      "reward": 2.0602548122406006,
-      "reward_std": 0.6848001033067703,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.01960639003664255,
-      "rewards/tag_count_reward": 0.6979166865348816,
+      "completion_length": 436.7083435058594,
+      "epoch": 0.8460410557184751,
+      "grad_norm": 8.203490331986044,
+      "kl": 1.4375,
+      "learning_rate": 1.634955807068609e-07,
+      "loss": 0.2517,
+      "reward": 2.4469761848449707,
+      "reward_std": 0.1210167994722724,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.0304544810205698,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1154
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 270.9583435058594,
-      "epoch": 0.5775,
-      "grad_norm": 57.13616985785417,
-      "kl": 4.9140625,
-      "learning_rate": 5.068694113658992e-07,
-      "loss": -0.0814,
-      "reward": 2.022095203399658,
-      "reward_std": 0.7005333751440048,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.8680555820465088,
-      "rewards/repetition_penalty_reward": -0.023043738678097725,
-      "rewards/tag_count_reward": 0.6979166865348816,
+      "completion_length": 425.9583435058594,
+      "epoch": 0.8467741935483871,
+      "grad_norm": 14.864662992722334,
+      "kl": 0.638671875,
+      "learning_rate": 1.6290676784318818e-07,
+      "loss": 0.0969,
+      "reward": 2.7268673181533813,
+      "reward_std": 0.011194499209523201,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02313273958861828,
+      "rewards/tag_count_reward": 1.0,
       "step": 1155
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 255.75000762939453,
-      "epoch": 0.578,
-      "grad_norm": 5.38110971277495,
-      "kl": 1.228515625,
-      "learning_rate": 5.060876951083828e-07,
-      "loss": -0.0316,
-      "reward": 2.7976086139678955,
-      "reward_std": 0.3995959609746933,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.01662743976339698,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 498.60418701171875,
+      "epoch": 0.8475073313782991,
+      "grad_norm": 86.480628341073,
+      "kl": 5.9453125,
+      "learning_rate": 1.6232049259584885e-07,
+      "loss": 0.4999,
+      "reward": 2.3408678770065308,
+      "reward_std": 0.2514855843037367,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.027187674306333065,
+      "rewards/tag_count_reward": 0.9375,
       "step": 1156
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 295.50001525878906,
-      "epoch": 0.5785,
-      "grad_norm": 50.70936605802299,
-      "kl": 3.1552734375,
-      "learning_rate": 5.053061126153624e-07,
-      "loss": 0.0544,
-      "reward": 2.074872672557831,
-      "reward_std": 0.20399940758943558,
+      "completion_length": 444.50001525878906,
+      "epoch": 0.8482404692082112,
+      "grad_norm": 10.416530700300191,
+      "kl": 1.046875,
+      "learning_rate": 1.6173675880821045e-07,
+      "loss": 0.0737,
+      "reward": 2.2128702998161316,
+      "reward_std": 0.05877932719886303,
       "rewards/accuracy_reward": 0.25,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.017141404328867793,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02150482777506113,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 1157
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.4791717529297,
-      "epoch": 0.579,
-      "grad_norm": 64.52110252352004,
-      "kl": 2.74609375,
-      "learning_rate": 5.045246662676741e-07,
-      "loss": 0.0535,
-      "reward": 2.5658187866210938,
-      "reward_std": 0.34509243071079254,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.036611984483897686,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 502.81251525878906,
+      "epoch": 0.8489736070381232,
+      "grad_norm": 31.385957646206187,
+      "kl": 3.5703125,
+      "learning_rate": 1.6115557030698022e-07,
+      "loss": 0.6985,
+      "reward": 1.8645765781402588,
+      "reward_std": 0.3231193572282791,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.057298444211483,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 1158
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 258.00000762939453,
-      "epoch": 0.5795,
-      "grad_norm": 15.605596683642418,
-      "kl": 1.49609375,
-      "learning_rate": 5.037433584457389e-07,
-      "loss": -0.0383,
-      "reward": 2.314841389656067,
-      "reward_std": 0.7232391238212585,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.015019847080111504,
-      "rewards/tag_count_reward": 0.78125,
+      "completion_length": 482.45835876464844,
+      "epoch": 0.8497067448680352,
+      "grad_norm": 34.994146803580094,
+      "kl": 3.578125,
+      "learning_rate": 1.6057693090217925e-07,
+      "loss": 0.3718,
+      "reward": 2.401385545730591,
+      "reward_std": 0.24192781373858452,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.03437837865203619,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1159
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.02083587646484,
-      "epoch": 0.58,
-      "grad_norm": 12.22918579768311,
-      "kl": 0.7314453125,
-      "learning_rate": 5.02962191529556e-07,
-      "loss": -0.0099,
-      "reward": 2.601512908935547,
-      "reward_std": 0.5186595022678375,
-      "rewards/accuracy_reward": 0.7083333432674408,
+      "completion_length": 449.75,
+      "epoch": 0.8504398826979472,
+      "grad_norm": 6.489234968620317,
+      "kl": 0.603515625,
+      "learning_rate": 1.6000084438711793e-07,
+      "loss": 0.0343,
+      "reward": 1.9903408288955688,
+      "reward_std": 0.09549414180219173,
+      "rewards/accuracy_reward": 0.02083333395421505,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.013070614542812109,
-      "rewards/tag_count_reward": 0.90625,
+      "rewards/repetition_penalty_reward": -0.025284183211624622,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1160
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.2708435058594,
-      "epoch": 0.5805,
-      "grad_norm": 21.869574669814327,
-      "kl": 2.5107421875,
-      "learning_rate": 5.021811678986951e-07,
-      "loss": 0.0476,
-      "reward": 2.564257025718689,
-      "reward_std": 0.4466948760673404,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444179534912,
-      "rewards/repetition_penalty_reward": -0.015604046639055014,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 468.4791717529297,
+      "epoch": 0.8511730205278593,
+      "grad_norm": 10.677103082846811,
+      "kl": 1.9345703125,
+      "learning_rate": 1.5942731453837122e-07,
+      "loss": 0.3723,
+      "reward": 2.1833943724632263,
+      "reward_std": 0.17482627276331186,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.017994558438658714,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1161
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 264.12501525878906,
-      "epoch": 0.581,
-      "grad_norm": 8.780241833303409,
-      "kl": 1.43359375,
-      "learning_rate": 5.014002899322896e-07,
-      "loss": -0.0048,
-      "reward": 2.296339511871338,
-      "reward_std": 0.45754382014274597,
-      "rewards/accuracy_reward": 0.5208333432674408,
+      "completion_length": 465.37501525878906,
+      "epoch": 0.8519061583577713,
+      "grad_norm": 6.559132148219684,
+      "kl": 0.4189453125,
+      "learning_rate": 1.5885634511575347e-07,
+      "loss": 0.0566,
+      "reward": 2.4819835424423218,
+      "reward_std": 0.01208042073994875,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.026577199809253216,
-      "rewards/tag_count_reward": 0.8020833432674408,
+      "rewards/repetition_penalty_reward": -0.01801648736000061,
+      "rewards/tag_count_reward": 1.0,
       "step": 1162
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 300.7708435058594,
-      "epoch": 0.5815,
-      "grad_norm": 21.9309323286652,
-      "kl": 2.3203125,
-      "learning_rate": 5.006195600090296e-07,
-      "loss": -0.0216,
-      "reward": 2.414031744003296,
-      "reward_std": 0.7338520288467407,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.02520434372127056,
-      "rewards/tag_count_reward": 0.828125,
+      "completion_length": 513.2083435058594,
+      "epoch": 0.8526392961876833,
+      "grad_norm": 16.350981255664664,
+      "kl": 2.6640625,
+      "learning_rate": 1.5828793986229406e-07,
+      "loss": 0.8073,
+      "reward": 2.545455813407898,
+      "reward_std": 0.5733033120632172,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.9652778506278992,
+      "rewards/repetition_penalty_reward": -0.034405382350087166,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1163
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.08333587646484,
-      "epoch": 0.582,
-      "grad_norm": 28.587099800302813,
-      "kl": 3.21875,
-      "learning_rate": 4.998389805071536e-07,
-      "loss": 0.0103,
-      "reward": 2.427722692489624,
-      "reward_std": 0.7513796091079712,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.006305098533630371,
-      "rewards/tag_count_reward": 0.7812500298023224,
+      "completion_length": 552.0000305175781,
+      "epoch": 0.8533724340175953,
+      "grad_norm": 16.641164201933258,
+      "kl": 2.689453125,
+      "learning_rate": 1.5772210250421265e-07,
+      "loss": 0.3053,
+      "reward": 2.5371824502944946,
+      "reward_std": 0.40333325043320656,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.025317718740552664,
+      "rewards/tag_count_reward": 0.9375,
       "step": 1164
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 266.7708435058594,
-      "epoch": 0.5825,
-      "grad_norm": 19.590917470188238,
-      "kl": 2.234375,
-      "learning_rate": 4.990585538044419e-07,
-      "loss": 0.0747,
-      "reward": 2.6480218172073364,
-      "reward_std": 0.6686672568321228,
-      "rewards/accuracy_reward": 0.7916666865348816,
+      "completion_length": 434.3541717529297,
+      "epoch": 0.8541055718475073,
+      "grad_norm": 8.346505801510467,
+      "kl": 0.53515625,
+      "learning_rate": 1.5715883675089524e-07,
+      "loss": 0.0462,
+      "reward": 2.4680683612823486,
+      "reward_std": 0.017134539783000946,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.013436626642942429,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "rewards/repetition_penalty_reward": -0.031931765377521515,
+      "rewards/tag_count_reward": 1.0,
       "step": 1165
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 253.2916717529297,
-      "epoch": 0.583,
-      "grad_norm": 20.553956833130847,
-      "kl": 2.9140625,
-      "learning_rate": 4.982782822782101e-07,
-      "loss": 0.0401,
-      "reward": 1.9601789712905884,
-      "reward_std": 0.4777047038078308,
-      "rewards/accuracy_reward": 0.375,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.013779422268271446,
-      "rewards/tag_count_reward": 0.6614583432674408,
+      "completion_length": 487.125,
+      "epoch": 0.8548387096774194,
+      "grad_norm": 17.46249875334204,
+      "kl": 1.2744140625,
+      "learning_rate": 1.5659814629486896e-07,
+      "loss": 0.2772,
+      "reward": 1.9583578705787659,
+      "reward_std": 0.07822929974645376,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02080879732966423,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1166
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 270.50001525878906,
-      "epoch": 0.5835,
-      "grad_norm": 89.06303811158742,
-      "kl": 3.669921875,
-      "learning_rate": 4.974981683053001e-07,
-      "loss": 0.1299,
-      "reward": 2.885384678840637,
-      "reward_std": 0.34253598749637604,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.015657078940421343,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 453.79168701171875,
+      "epoch": 0.8555718475073314,
+      "grad_norm": 15.376964004491224,
+      "kl": 1.38671875,
+      "learning_rate": 1.56040034811779e-07,
+      "loss": 0.2414,
+      "reward": 2.2069084644317627,
+      "reward_std": 0.08541684225201607,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.0205221064388752,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1167
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 289.3958435058594,
-      "epoch": 0.584,
-      "grad_norm": 13.515172514998415,
-      "kl": 0.8046875,
-      "learning_rate": 4.967182142620745e-07,
-      "loss": 0.0289,
-      "reward": 2.4830256700515747,
-      "reward_std": 0.39654435217380524,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.022182647138834,
-      "rewards/tag_count_reward": 0.859375,
+      "completion_length": 449.31251525878906,
+      "epoch": 0.8563049853372434,
+      "grad_norm": 9.078560179362256,
+      "kl": 1.28125,
+      "learning_rate": 1.5548450596036328e-07,
+      "loss": 0.0469,
+      "reward": 2.198473036289215,
+      "reward_std": 0.08828200493007898,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.022013090550899506,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1168
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 267.4583435058594,
-      "epoch": 0.5845,
-      "grad_norm": 16.061739704037873,
-      "kl": 1.3359375,
-      "learning_rate": 4.959384225244087e-07,
-      "loss": 0.0793,
-      "reward": 1.9616607427597046,
-      "reward_std": 0.44488397240638733,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.017505998257547617,
-      "rewards/tag_count_reward": 0.6458333432674408,
+      "completion_length": 455.87501525878906,
+      "epoch": 0.8570381231671554,
+      "grad_norm": 13.56245035458174,
+      "kl": 0.8818359375,
+      "learning_rate": 1.5493156338242971e-07,
+      "loss": 0.1281,
+      "reward": 2.4598007202148438,
+      "reward_std": 0.07951221195980906,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019365964457392693,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1169
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 269.1666717529297,
-      "epoch": 0.585,
-      "grad_norm": 7.397678949657141,
-      "kl": 0.7978515625,
-      "learning_rate": 4.951587954676837e-07,
-      "loss": 0.0111,
-      "reward": 2.502622127532959,
-      "reward_std": 0.2668640099000186,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.01126689650118351,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 616.9791870117188,
+      "epoch": 0.8577712609970675,
+      "grad_norm": 26.531238059381693,
+      "kl": 3.109375,
+      "learning_rate": 1.5438121070283128e-07,
+      "loss": 0.5462,
+      "reward": 2.1935884952545166,
+      "reward_std": 0.5035333782434464,
+      "rewards/accuracy_reward": 0.3750000149011612,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.05814778432250023,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 1170
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 226.93750762939453,
-      "epoch": 0.5855,
-      "grad_norm": 16.086138152776787,
-      "kl": 1.734375,
-      "learning_rate": 4.943793354667783e-07,
-      "loss": 0.0168,
-      "reward": 2.2989531755447388,
-      "reward_std": 0.43994690477848053,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9236112236976624,
-      "rewards/repetition_penalty_reward": -0.015283002983778715,
-      "rewards/tag_count_reward": 0.7864583432674408,
+      "completion_length": 439.0833435058594,
+      "epoch": 0.8585043988269795,
+      "grad_norm": 14.122971665456385,
+      "kl": 1.74609375,
+      "learning_rate": 1.5383345152944294e-07,
+      "loss": 0.2753,
+      "reward": 2.3982787132263184,
+      "reward_std": 0.27669892460107803,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.023596427403390408,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1171
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.8333435058594,
-      "epoch": 0.586,
-      "grad_norm": 11.885572960330673,
-      "kl": 1.953125,
-      "learning_rate": 4.93600044896063e-07,
-      "loss": 0.0119,
-      "reward": 2.477262020111084,
-      "reward_std": 0.5187919661402702,
-      "rewards/accuracy_reward": 0.6666666865348816,
+      "completion_length": 473.4583435058594,
+      "epoch": 0.8592375366568915,
+      "grad_norm": 13.759082348025947,
+      "kl": 1.82421875,
+      "learning_rate": 1.5328828945313764e-07,
+      "loss": 0.3198,
+      "reward": 2.3727020025253296,
+      "reward_std": 0.26478735730051994,
+      "rewards/accuracy_reward": 0.4583333432674408,
       "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.022738128900527954,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "rewards/repetition_penalty_reward": -0.03354795090854168,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1172
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.91668701171875,
-      "epoch": 0.5865,
-      "grad_norm": 188.62778027268504,
-      "kl": 9.859375,
-      "learning_rate": 4.928209261293923e-07,
-      "loss": 0.3053,
-      "reward": 2.367971897125244,
-      "reward_std": 0.6133864223957062,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.013972645625472069,
-      "rewards/tag_count_reward": 0.7916666865348816,
+      "completion_length": 471.3125,
+      "epoch": 0.8599706744868035,
+      "grad_norm": 12.864618269615681,
+      "kl": 1.615234375,
+      "learning_rate": 1.5274572804776284e-07,
+      "loss": 0.3322,
+      "reward": 2.208186984062195,
+      "reward_std": 0.10108592826873064,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.014035395812243223,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1173
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.85417938232422,
-      "epoch": 0.587,
-      "grad_norm": 541.9716559112582,
-      "kl": 18.40625,
-      "learning_rate": 4.920419815400968e-07,
-      "loss": 0.6135,
-      "reward": 2.119057536125183,
-      "reward_std": 0.6997096538543701,
-      "rewards/accuracy_reward": 0.4375000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.01983139617368579,
-      "rewards/tag_count_reward": 0.7291666865348816,
+      "completion_length": 446.7291717529297,
+      "epoch": 0.8607038123167156,
+      "grad_norm": 8.624897435289583,
+      "kl": 1.2255859375,
+      "learning_rate": 1.5220577087011731e-07,
+      "loss": 0.2663,
+      "reward": 2.4378814697265625,
+      "reward_std": 0.14415617939084768,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.027396278455853462,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1174
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.4166717529297,
-      "epoch": 0.5875,
-      "grad_norm": 47.221216815875486,
-      "kl": 4.671875,
-      "learning_rate": 4.912632135009769e-07,
-      "loss": 0.0897,
-      "reward": 1.7002249956130981,
-      "reward_std": 0.7154510319232941,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.008108395617455244,
-      "rewards/tag_count_reward": 0.5416666865348816,
+      "completion_length": 463.8125,
+      "epoch": 0.8614369501466276,
+      "grad_norm": 11.736172117731995,
+      "kl": 1.0546875,
+      "learning_rate": 1.5166842145992737e-07,
+      "loss": 0.2542,
+      "reward": 1.9319466352462769,
+      "reward_std": 0.1647976189851761,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.028122933581471443,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1175
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.64583587646484,
-      "epoch": 0.588,
-      "grad_norm": 620.752818719277,
-      "kl": 5.140625,
-      "learning_rate": 4.904846243842949e-07,
-      "loss": 0.109,
-      "reward": 1.9387726187705994,
-      "reward_std": 0.8643776774406433,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.017824689392000437,
-      "rewards/tag_count_reward": 0.6093750149011612,
+      "completion_length": 427.2708435058594,
+      "epoch": 0.8621700879765396,
+      "grad_norm": 14.550521023717632,
+      "kl": 2.2421875,
+      "learning_rate": 1.5113368333982424e-07,
+      "loss": 0.172,
+      "reward": 2.188947319984436,
+      "reward_std": 0.09993797168135643,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02112211100757122,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1176
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.43750762939453,
-      "epoch": 0.5885,
-      "grad_norm": 12.885096090616047,
-      "kl": 1.40234375,
-      "learning_rate": 4.897062165617686e-07,
-      "loss": -0.0543,
-      "reward": 1.8845123052597046,
-      "reward_std": 0.6029966920614243,
-      "rewards/accuracy_reward": 0.33333333395421505,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.016529476270079613,
-      "rewards/tag_count_reward": 0.609375,
+      "completion_length": 451.50001525878906,
+      "epoch": 0.8629032258064516,
+      "grad_norm": 17.998782549691533,
+      "kl": 1.345703125,
+      "learning_rate": 1.5060156001532024e-07,
+      "loss": 0.2064,
+      "reward": 2.1768603920936584,
+      "reward_std": 0.16409555356949568,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.028000716120004654,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1177
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 239.1666717529297,
-      "epoch": 0.589,
-      "grad_norm": 10.235870138091864,
-      "kl": 1.046875,
-      "learning_rate": 4.88927992404563e-07,
-      "loss": -0.055,
-      "reward": 2.0582520961761475,
-      "reward_std": 0.688510000705719,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.011192373465746641,
-      "rewards/tag_count_reward": 0.6875000298023224,
+      "completion_length": 377.7916717529297,
+      "epoch": 0.8636363636363636,
+      "grad_norm": 7.291251293870026,
+      "kl": 0.85546875,
+      "learning_rate": 1.5007205497478672e-07,
+      "loss": 0.0573,
+      "reward": 2.477933406829834,
+      "reward_std": 0.014990990981459618,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022066613659262657,
+      "rewards/tag_count_reward": 1.0,
       "step": 1178
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 277.9166717529297,
-      "epoch": 0.5895,
-      "grad_norm": 15.676254056984863,
-      "kl": 1.47265625,
-      "learning_rate": 4.881499542832841e-07,
-      "loss": -0.0441,
-      "reward": 1.829641878604889,
-      "reward_std": 0.8753339052200317,
-      "rewards/accuracy_reward": 0.3541666865348816,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.01237204298377037,
-      "rewards/tag_count_reward": 0.5781250298023224,
+      "completion_length": 479.8541717529297,
+      "epoch": 0.8643695014662757,
+      "grad_norm": 12.249922267015474,
+      "kl": 1.8388671875,
+      "learning_rate": 1.4954517168943015e-07,
+      "loss": 0.3705,
+      "reward": 2.452030062675476,
+      "reward_std": 0.0967979496344924,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021928315982222557,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1179
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 254.35417938232422,
-      "epoch": 0.59,
-      "grad_norm": 15.872841179430333,
-      "kl": 1.21484375,
-      "learning_rate": 4.873721045679706e-07,
-      "loss": -0.0526,
-      "reward": 1.8742225170135498,
-      "reward_std": 0.628957211971283,
-      "rewards/accuracy_reward": 0.2500000111758709,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.009458072949200869,
-      "rewards/tag_count_reward": 0.7447916865348816,
+      "completion_length": 446.8958435058594,
+      "epoch": 0.8651026392961877,
+      "grad_norm": 16.52706856842083,
+      "kl": 1.943359375,
+      "learning_rate": 1.4902091361327049e-07,
+      "loss": 0.113,
+      "reward": 2.450742721557617,
+      "reward_std": 0.10176345612853765,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.02147953025996685,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1180
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 272.5208435058594,
-      "epoch": 0.5905,
-      "grad_norm": 17.36437993847142,
-      "kl": 2.4609375,
-      "learning_rate": 4.865944456280878e-07,
-      "loss": 0.0072,
-      "reward": 1.6619837880134583,
-      "reward_std": 0.573122188448906,
-      "rewards/accuracy_reward": 0.0833333358168602,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.00989127904176712,
-      "rewards/tag_count_reward": 0.6510416865348816,
+      "completion_length": 458.8541717529297,
+      "epoch": 0.8658357771260997,
+      "grad_norm": 16.404992846234286,
+      "kl": 0.71875,
+      "learning_rate": 1.4849928418311742e-07,
+      "loss": 0.0433,
+      "reward": 2.4826748371124268,
+      "reward_std": 0.009747894946485758,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01732515450567007,
+      "rewards/tag_count_reward": 1.0,
       "step": 1181
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.0625,
-      "epoch": 0.591,
-      "grad_norm": 18.143037794685533,
-      "kl": 3.7890625,
-      "learning_rate": 4.858169798325198e-07,
-      "loss": 0.0575,
-      "reward": 1.7578097581863403,
-      "reward_std": 0.9271320402622223,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.75,
-      "rewards/repetition_penalty_reward": -0.013023747596889734,
-      "rewards/tag_count_reward": 0.6250000149011612,
+      "completion_length": 545.0208435058594,
+      "epoch": 0.8665689149560117,
+      "grad_norm": 101.74778357413155,
+      "kl": 5.078125,
+      "learning_rate": 1.4798028681854875e-07,
+      "loss": 0.9233,
+      "reward": 2.569236397743225,
+      "reward_std": 0.4390984922647476,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.04187488742172718,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1182
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 278.2916717529297,
-      "epoch": 0.5915,
-      "grad_norm": 12.26718270823858,
-      "kl": 1.2421875,
-      "learning_rate": 4.850397095495621e-07,
-      "loss": -0.0167,
-      "reward": 2.673969864845276,
-      "reward_std": 0.5497699528932571,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.025683030486106873,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 492.25001525878906,
+      "epoch": 0.8673020527859238,
+      "grad_norm": 26.246204917626002,
+      "kl": 3.287109375,
+      "learning_rate": 1.4746392492188717e-07,
+      "loss": 0.552,
+      "reward": 2.1077802181243896,
+      "reward_std": 0.3405429106205702,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.03805319964885712,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1183
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 278.2291717529297,
-      "epoch": 0.592,
-      "grad_norm": 10.94115924929318,
-      "kl": 2.15234375,
-      "learning_rate": 4.842626371469149e-07,
-      "loss": -0.0423,
-      "reward": 2.5248043537139893,
-      "reward_std": 0.6554135978221893,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.02033464703708887,
-      "rewards/tag_count_reward": 0.8645833730697632,
+      "completion_length": 499.62501525878906,
+      "epoch": 0.8680351906158358,
+      "grad_norm": 35.521939075442454,
+      "kl": 3.9921875,
+      "learning_rate": 1.46950201878179e-07,
+      "loss": 0.4332,
+      "reward": 1.9154297709465027,
+      "reward_std": 0.1296032927930355,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.023806375451385975,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1184
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 305.81251525878906,
-      "epoch": 0.5925,
-      "grad_norm": 19.120132180785248,
-      "kl": 2.685546875,
-      "learning_rate": 4.834857649916752e-07,
-      "loss": 0.0412,
-      "reward": 2.3415642976760864,
-      "reward_std": 0.4712478220462799,
-      "rewards/accuracy_reward": 0.5000000149011612,
+      "completion_length": 411.7083435058594,
+      "epoch": 0.8687683284457478,
+      "grad_norm": 34.922739418576704,
+      "kl": 2.0234375,
+      "learning_rate": 1.464391210551707e-07,
+      "loss": 0.0956,
+      "reward": 2.4347234964370728,
+      "reward_std": 0.23893173784017563,
+      "rewards/accuracy_reward": 0.47916667722165585,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.033435771241784096,
-      "rewards/tag_count_reward": 0.875,
+      "rewards/repetition_penalty_reward": -0.02881821058690548,
+      "rewards/tag_count_reward": 0.9843750298023224,
       "step": 1185
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 291.60418701171875,
-      "epoch": 0.593,
-      "grad_norm": 29.326687780779196,
-      "kl": 2.50390625,
-      "learning_rate": 4.827090954503308e-07,
-      "loss": -0.0046,
-      "reward": 2.505213499069214,
-      "reward_std": 0.5307941734790802,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02777272555977106,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 535.5833435058594,
+      "epoch": 0.8695014662756598,
+      "grad_norm": 14.431104694894044,
+      "kl": 2.265625,
+      "learning_rate": 1.4593068580328804e-07,
+      "loss": 0.4029,
+      "reward": 2.140149235725403,
+      "reward_std": 0.2738456204533577,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.026517387479543686,
+      "rewards/tag_count_reward": 0.9375,
       "step": 1186
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.37500762939453,
-      "epoch": 0.5935,
-      "grad_norm": 89.56476050571975,
-      "kl": 8.875,
-      "learning_rate": 4.819326308887513e-07,
-      "loss": 0.2113,
-      "reward": 1.9479205012321472,
-      "reward_std": 0.5512201189994812,
-      "rewards/accuracy_reward": 0.2916666716337204,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.01735728792846203,
-      "rewards/tag_count_reward": 0.7500000298023224,
+      "completion_length": 431.0,
+      "epoch": 0.8702346041055719,
+      "grad_norm": 13.622638724234001,
+      "kl": 0.95703125,
+      "learning_rate": 1.4542489945561314e-07,
+      "loss": 0.0834,
+      "reward": 2.226495683193207,
+      "reward_std": 0.012074500788003206,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023504262790083885,
+      "rewards/tag_count_reward": 1.0,
       "step": 1187
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.0833435058594,
-      "epoch": 0.594,
-      "grad_norm": 15.951627791356907,
-      "kl": 3.03125,
-      "learning_rate": 4.811563736721829e-07,
-      "loss": -0.0638,
-      "reward": 2.4049184322357178,
-      "reward_std": 0.6997295022010803,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.018692869693040848,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 567.4375305175781,
+      "epoch": 0.8709677419354839,
+      "grad_norm": 45.186053187429835,
+      "kl": 3.1171875,
+      "learning_rate": 1.4492176532786332e-07,
+      "loss": 0.9847,
+      "reward": 2.02320396900177,
+      "reward_std": 0.5472326725721359,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.05144892632961273,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 1188
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 266.9583435058594,
-      "epoch": 0.5945,
-      "grad_norm": 20.534655927942946,
-      "kl": 1.666015625,
-      "learning_rate": 4.803803261652395e-07,
-      "loss": 0.0088,
-      "reward": 2.855802297592163,
-      "reward_std": 0.3537350296974182,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.043503398075699806,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 525.75,
+      "epoch": 0.8717008797653959,
+      "grad_norm": 25.416128836027184,
+      "kl": 2.2890625,
+      "learning_rate": 1.4442128671836896e-07,
+      "loss": 0.5288,
+      "reward": 2.13466614484787,
+      "reward_std": 0.25415295362472534,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021583949215710163,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1189
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.6041717529297,
-      "epoch": 0.595,
-      "grad_norm": 6.707455759169878,
-      "kl": 0.607421875,
-      "learning_rate": 4.79604490731896e-07,
-      "loss": 0.0076,
-      "reward": 2.3484212160110474,
-      "reward_std": 0.3202339052222669,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.012690091505646706,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 410.0833435058594,
+      "epoch": 0.8724340175953079,
+      "grad_norm": 9.144807724609006,
+      "kl": 0.6318359375,
+      "learning_rate": 1.4392346690805202e-07,
+      "loss": 0.0231,
+      "reward": 1.9753663539886475,
+      "reward_std": 0.011926409788429737,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024633726105093956,
+      "rewards/tag_count_reward": 1.0,
       "step": 1190
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 291.3541717529297,
-      "epoch": 0.5955,
-      "grad_norm": 9.733669029070196,
-      "kl": 1.18359375,
-      "learning_rate": 4.788288697354824e-07,
-      "loss": -0.0888,
-      "reward": 2.4767041206359863,
-      "reward_std": 0.5791968405246735,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.026768106035888195,
-      "rewards/tag_count_reward": 0.8437500298023224,
+      "completion_length": 419.8958435058594,
+      "epoch": 0.8731671554252199,
+      "grad_norm": 14.712869736478394,
+      "kl": 0.4169921875,
+      "learning_rate": 1.4342830916040455e-07,
+      "loss": 0.0499,
+      "reward": 2.230422258377075,
+      "reward_std": 0.010051010176539421,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01957788784056902,
+      "rewards/tag_count_reward": 1.0,
       "step": 1191
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.3125,
-      "epoch": 0.596,
-      "grad_norm": 5.518435395583406,
-      "kl": 0.6328125,
-      "learning_rate": 4.780534655386743e-07,
-      "loss": 0.0373,
-      "reward": 2.48011314868927,
-      "reward_std": 0.3792032450437546,
-      "rewards/accuracy_reward": 0.5833333432674408,
+      "completion_length": 413.66668701171875,
+      "epoch": 0.873900293255132,
+      "grad_norm": 11.265022293824497,
+      "kl": 1.419921875,
+      "learning_rate": 1.4293581672146727e-07,
+      "loss": 0.1369,
+      "reward": 2.434700131416321,
+      "reward_std": 0.15641514584422112,
+      "rewards/accuracy_reward": 0.4791666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.030303513631224632,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "rewards/repetition_penalty_reward": -0.023633372969925404,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1192
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 275.3333435058594,
-      "epoch": 0.5965,
-      "grad_norm": 10.222004650555824,
-      "kl": 0.916015625,
-      "learning_rate": 4.772782805034876e-07,
-      "loss": -0.0505,
-      "reward": 2.466397762298584,
-      "reward_std": 0.637960284948349,
-      "rewards/accuracy_reward": 0.6666666865348816,
+      "completion_length": 520.7500305175781,
+      "epoch": 0.874633431085044,
+      "grad_norm": 11.514329955466966,
+      "kl": 3.640625,
+      "learning_rate": 1.424459928198083e-07,
+      "loss": 0.5466,
+      "reward": 2.527653455734253,
+      "reward_std": 0.499290406703949,
+      "rewards/accuracy_reward": 0.6458333432674408,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03533835709095001,
-      "rewards/tag_count_reward": 0.8489583432674408,
+      "rewards/repetition_penalty_reward": -0.02095778752118349,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 1193
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.20834350585938,
-      "epoch": 0.597,
-      "grad_norm": 83.67864904271147,
-      "kl": 4.06640625,
-      "learning_rate": 4.7650331699127013e-07,
-      "loss": 0.021,
-      "reward": 2.561871290206909,
-      "reward_std": 0.4868089556694031,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.0197259820997715,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 485.75001525878906,
+      "epoch": 0.875366568914956,
+      "grad_norm": 13.6591202283712,
+      "kl": 1.0458984375,
+      "learning_rate": 1.419588406665019e-07,
+      "loss": 0.2251,
+      "reward": 2.1814990043640137,
+      "reward_std": 0.16585272178053856,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.032042741775512695,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1194
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.2708435058594,
-      "epoch": 0.5975,
-      "grad_norm": 1778.754909364379,
-      "kl": 56.125,
-      "learning_rate": 4.75728577362695e-07,
-      "loss": 1.2038,
-      "reward": 2.206901729106903,
-      "reward_std": 0.6084506213665009,
-      "rewards/accuracy_reward": 0.5208333358168602,
-      "rewards/reasoning_steps_reward": 0.9791667461395264,
-      "rewards/repetition_penalty_reward": -0.02747342176735401,
-      "rewards/tag_count_reward": 0.734375,
+      "completion_length": 477.8333435058594,
+      "epoch": 0.876099706744868,
+      "grad_norm": 22.93844108305487,
+      "kl": 2.21875,
+      "learning_rate": 1.4147436345510758e-07,
+      "loss": 0.5344,
+      "reward": 2.395401358604431,
+      "reward_std": 0.26352133601903915,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.028209981508553028,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1195
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 287.1458435058594,
-      "epoch": 0.598,
-      "grad_norm": 43.303276292552525,
-      "kl": 3.14453125,
-      "learning_rate": 4.749540639777539e-07,
-      "loss": 0.2523,
-      "reward": 2.6388306617736816,
-      "reward_std": 0.47564953565597534,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.013947171624749899,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 475.875,
+      "epoch": 0.8768328445747801,
+      "grad_norm": 22.306040255922916,
+      "kl": 1.7109375,
+      "learning_rate": 1.4099256436164898e-07,
+      "loss": 0.5019,
+      "reward": 2.3607842922210693,
+      "reward_std": 0.33058515191078186,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02636854164302349,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1196
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 297.4375,
-      "epoch": 0.5985,
-      "grad_norm": 6.55423415450962,
-      "kl": 0.69921875,
-      "learning_rate": 4.741797791957489e-07,
-      "loss": -0.0043,
-      "reward": 2.5631258487701416,
-      "reward_std": 0.4409189820289612,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0254158116877079,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 546.6458435058594,
+      "epoch": 0.8775659824046921,
+      "grad_norm": 18.68583800339866,
+      "kl": 3.7109375,
+      "learning_rate": 1.405134465445934e-07,
+      "loss": 0.5144,
+      "reward": 1.8736881017684937,
+      "reward_std": 0.26206301152706146,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.029089704155921936,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 1197
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 286.5,
-      "epoch": 0.599,
-      "grad_norm": 79.15687028509065,
-      "kl": 5.171875,
-      "learning_rate": 4.7340572537528547e-07,
-      "loss": 0.1315,
-      "reward": 2.3954086303710938,
-      "reward_std": 0.5703263282775879,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.022994363214820623,
-      "rewards/tag_count_reward": 0.890625,
+      "completion_length": 514.0,
+      "epoch": 0.8782991202346041,
+      "grad_norm": 18.250109922553403,
+      "kl": 4.234375,
+      "learning_rate": 1.4003701314483042e-07,
+      "loss": 0.6348,
+      "reward": 1.910728394985199,
+      "reward_std": 0.18229395896196365,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02156328223645687,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1198
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 274.0208435058594,
-      "epoch": 0.5995,
-      "grad_norm": 24.952831112368063,
-      "kl": 3.373046875,
-      "learning_rate": 4.7263190487426563e-07,
-      "loss": -0.0475,
-      "reward": 2.256582021713257,
-      "reward_std": 0.5435906499624252,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.028140274807810783,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 522.1041870117188,
+      "epoch": 0.8790322580645161,
+      "grad_norm": 35.35953038811825,
+      "kl": 3.84375,
+      "learning_rate": 1.395632672856523e-07,
+      "loss": 0.948,
+      "reward": 2.56496000289917,
+      "reward_std": 0.4408094882965088,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.04094269871711731,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1199
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 316.5208435058594,
-      "epoch": 0.6,
-      "grad_norm": 5.061254957850967,
-      "kl": 0.705078125,
-      "learning_rate": 4.7185832004988133e-07,
-      "loss": -0.0041,
-      "reward": 2.658898711204529,
-      "reward_std": 0.46046267449855804,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.03207360953092575,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 481.25001525878906,
+      "epoch": 0.8797653958944281,
+      "grad_norm": 18.7935164342564,
+      "kl": 3.859375,
+      "learning_rate": 1.3909221207273232e-07,
+      "loss": 0.5714,
+      "reward": 2.5062928199768066,
+      "reward_std": 0.5336205363273621,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03537383023649454,
+      "rewards/tag_count_reward": 0.9375,
       "step": 1200
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 261.5416717529297,
-      "epoch": 0.6005,
-      "grad_norm": 35.65864208267965,
-      "kl": 4.21484375,
-      "learning_rate": 4.710849732586059e-07,
-      "loss": 0.0959,
-      "reward": 2.372064232826233,
-      "reward_std": 0.5162666738033295,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9444444179534912,
-      "rewards/repetition_penalty_reward": -0.015088722575455904,
-      "rewards/tag_count_reward": 0.8177083432674408,
+      "completion_length": 454.87501525878906,
+      "epoch": 0.8804985337243402,
+      "grad_norm": 22.88119881713903,
+      "kl": 2.09765625,
+      "learning_rate": 1.3862385059410565e-07,
+      "loss": 0.0926,
+      "reward": 1.9407550692558289,
+      "reward_std": 0.2067294642329216,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.026258857920765877,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1201
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 300.2708435058594,
-      "epoch": 0.601,
-      "grad_norm": 14.890784763265065,
-      "kl": 1.40234375,
-      "learning_rate": 4.703118668561875e-07,
-      "loss": 0.0295,
-      "reward": 2.602800130844116,
-      "reward_std": 0.5039637088775635,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03088043723255396,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 425.4166717529297,
+      "epoch": 0.8812316715542522,
+      "grad_norm": 14.47777815558714,
+      "kl": 0.8076171875,
+      "learning_rate": 1.381581859201479e-07,
+      "loss": 0.2542,
+      "reward": 2.196794271469116,
+      "reward_std": 0.1006504325196147,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.03063626028597355,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1202
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 275.93751525878906,
-      "epoch": 0.6015,
-      "grad_norm": 24.01630825109177,
-      "kl": 2.609375,
-      "learning_rate": 4.6953900319764274e-07,
-      "loss": 0.0056,
-      "reward": 2.8198323249816895,
-      "reward_std": 0.4068307876586914,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.025654025375843048,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 469.43751525878906,
+      "epoch": 0.8819648093841642,
+      "grad_norm": 9.167261630009445,
+      "kl": 1.208984375,
+      "learning_rate": 1.376952211035562e-07,
+      "loss": 0.0365,
+      "reward": 2.668929934501648,
+      "reward_std": 0.22134077921509743,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.018570033833384514,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1203
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 311.0416717529297,
-      "epoch": 0.602,
-      "grad_norm": 48.98626731878835,
-      "kl": 4.4609375,
-      "learning_rate": 4.68766384637248e-07,
-      "loss": 0.0732,
-      "reward": 1.9985000491142273,
-      "reward_std": 0.7038697004318237,
-      "rewards/accuracy_reward": 0.354166679084301,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.022333373315632343,
-      "rewards/tag_count_reward": 0.75,
-      "step": 1204
-    },
-    {
+      "completion_length": 419.9375,
+      "epoch": 0.8826979472140762,
+      "grad_norm": 8.414115405334524,
+      "kl": 0.986328125,
+      "learning_rate": 1.3723495917932803e-07,
+      "loss": 0.0615,
+      "reward": 2.1917551159858704,
+      "reward_std": 0.11872765189036727,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02699489053338766,
+      "rewards/tag_count_reward": 0.9895833432674408,
+      "step": 1204
+    },
+    {
       "clip_ratio": 0.0,
-      "completion_length": 308.41668701171875,
-      "epoch": 0.6025,
-      "grad_norm": 3.501918254202678,
-      "kl": 0.4033203125,
-      "learning_rate": 4.679940135285336e-07,
-      "loss": 0.0275,
-      "reward": 2.9462958574295044,
-      "reward_std": 0.0838532904163003,
-      "rewards/accuracy_reward": 0.9791666865348816,
+      "completion_length": 408.2083435058594,
+      "epoch": 0.8834310850439883,
+      "grad_norm": 11.814801184529381,
+      "kl": 0.869140625,
+      "learning_rate": 1.3677740316474236e-07,
+      "loss": 0.0662,
+      "reward": 2.4721962213516235,
+      "reward_std": 0.015518466010689735,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03287102282047272,
+      "rewards/repetition_penalty_reward": -0.027803857810795307,
       "rewards/tag_count_reward": 1.0,
       "step": 1205
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.06251525878906,
-      "epoch": 0.603,
-      "grad_norm": 11.808559352326427,
-      "kl": 0.861328125,
-      "learning_rate": 4.672218922242759e-07,
-      "loss": 0.0187,
-      "reward": 2.636156678199768,
-      "reward_std": 0.512239083647728,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.011412853142246604,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 487.41668701171875,
+      "epoch": 0.8841642228739003,
+      "grad_norm": 26.396037778778368,
+      "kl": 3.11328125,
+      "learning_rate": 1.3632255605933892e-07,
+      "loss": 0.4828,
+      "reward": 2.3294543027877808,
+      "reward_std": 0.3807095689699054,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03339302074164152,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1206
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 324.18751525878906,
-      "epoch": 0.6035,
-      "grad_norm": 9.023520837002595,
-      "kl": 0.73046875,
-      "learning_rate": 4.664500230764903e-07,
-      "loss": -0.1363,
-      "reward": 2.22309547662735,
-      "reward_std": 0.5313438028097153,
-      "rewards/accuracy_reward": 0.4166666679084301,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.026904682628810406,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 524.1458435058594,
+      "epoch": 0.8848973607038123,
+      "grad_norm": 22.881106867606714,
+      "kl": 2.7265625,
+      "learning_rate": 1.358704208448994e-07,
+      "loss": 0.3669,
+      "reward": 2.072553813457489,
+      "reward_std": 0.34631527960300446,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.029876701533794403,
+      "rewards/tag_count_reward": 0.921875,
       "step": 1207
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 307.2916717529297,
-      "epoch": 0.604,
-      "grad_norm": 10.414640951029634,
-      "kl": 0.888671875,
-      "learning_rate": 4.656784084364238e-07,
-      "loss": -0.0566,
-      "reward": 2.740461230278015,
-      "reward_std": 0.5690730065107346,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02516377530992031,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 560.7500152587891,
+      "epoch": 0.8856304985337243,
+      "grad_norm": 24.40594031253714,
+      "kl": 4.421875,
+      "learning_rate": 1.3542100048542723e-07,
+      "loss": 0.7167,
+      "reward": 2.2936359643936157,
+      "reward_std": 0.47601407766342163,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.03796131908893585,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 1208
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 336.6458435058594,
-      "epoch": 0.6045,
-      "grad_norm": 5.915397925387995,
-      "kl": 1.1640625,
-      "learning_rate": 4.6490705065454883e-07,
-      "loss": -0.099,
-      "reward": 2.537236452102661,
-      "reward_std": 0.5170433670282364,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.02179141901433468,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 452.62501525878906,
+      "epoch": 0.8863636363636364,
+      "grad_norm": 9.913065932344221,
+      "kl": 2.974609375,
+      "learning_rate": 1.349742979271286e-07,
+      "loss": 0.4171,
+      "reward": 2.3427236080169678,
+      "reward_std": 0.2851731404662132,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.028804211877286434,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1209
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 318.18751525878906,
-      "epoch": 0.605,
-      "grad_norm": 18.20904524508889,
-      "kl": 2.44140625,
-      "learning_rate": 4.641359520805548e-07,
-      "loss": 0.0451,
-      "reward": 2.4042060375213623,
-      "reward_std": 0.44842204451560974,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.041974639520049095,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 472.72918701171875,
+      "epoch": 0.8870967741935484,
+      "grad_norm": 9.604198032999998,
+      "kl": 1.984375,
+      "learning_rate": 1.3453031609839265e-07,
+      "loss": 0.2398,
+      "reward": 2.3267154693603516,
+      "reward_std": 0.3730589300394058,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.0291875172406435,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1210
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 377.29168701171875,
-      "epoch": 0.6055,
-      "grad_norm": 43.49583663170755,
-      "kl": 4.55859375,
-      "learning_rate": 4.6336511506334177e-07,
-      "loss": 0.0108,
-      "reward": 2.3035465478897095,
-      "reward_std": 0.5203736424446106,
-      "rewards/accuracy_reward": 0.4583333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.038467422127723694,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 553.6666870117188,
+      "epoch": 0.8878299120234604,
+      "grad_norm": 18.106414337727866,
+      "kl": 2.814453125,
+      "learning_rate": 1.3408905790977318e-07,
+      "loss": 0.4803,
+      "reward": 2.5070048570632935,
+      "reward_std": 0.44919482129625976,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.02598138339817524,
+      "rewards/tag_count_reward": 0.921875,
       "step": 1211
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 290.9375,
-      "epoch": 0.606,
-      "grad_norm": 42.363711059687056,
-      "kl": 4.953125,
-      "learning_rate": 4.6259454195101267e-07,
-      "loss": 0.1363,
-      "reward": 2.4941481351852417,
-      "reward_std": 0.5663126707077026,
-      "rewards/accuracy_reward": 0.6458333730697632,
+      "completion_length": 496.16668701171875,
+      "epoch": 0.8885630498533724,
+      "grad_norm": 36.20233541493654,
+      "kl": 2.24609375,
+      "learning_rate": 1.3365052625396833e-07,
+      "loss": 0.6054,
+      "reward": 2.33927983045578,
+      "reward_std": 0.382673054933548,
+      "rewards/accuracy_reward": 0.4583333432674408,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.023213034495711327,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "rewards/repetition_penalty_reward": -0.03224811889231205,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 1212
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.8541717529297,
-      "epoch": 0.6065,
-      "grad_norm": 53.23769285154482,
-      "kl": 6.1328125,
-      "learning_rate": 4.61824235090867e-07,
-      "loss": 0.2492,
-      "reward": 2.665413498878479,
-      "reward_std": 0.4333008825778961,
-      "rewards/accuracy_reward": 0.8125,
+      "completion_length": 434.8958435058594,
+      "epoch": 0.8892961876832844,
+      "grad_norm": 16.41131988450452,
+      "kl": 0.74609375,
+      "learning_rate": 1.3321472400580273e-07,
+      "loss": 0.2423,
+      "reward": 1.95037442445755,
+      "reward_std": 0.11447333311662078,
+      "rewards/accuracy_reward": 0.0,
       "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.018614262342453003,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "rewards/repetition_penalty_reward": -0.02011175360530615,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1213
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.75001525878906,
-      "epoch": 0.607,
-      "grad_norm": 23.490826994445097,
-      "kl": 3.400390625,
-      "learning_rate": 4.6105419682939316e-07,
-      "loss": 0.0216,
-      "reward": 2.4767391681671143,
-      "reward_std": 0.47361528873443604,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.030205383896827698,
-      "rewards/tag_count_reward": 0.8958333730697632,
+      "completion_length": 422.31251525878906,
+      "epoch": 0.8900293255131965,
+      "grad_norm": 3.9170854028531417,
+      "kl": 0.3603515625,
+      "learning_rate": 1.3278165402220787e-07,
+      "loss": 0.0441,
+      "reward": 2.4774237275123596,
+      "reward_std": 0.009436836931854486,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022576178424060345,
+      "rewards/tag_count_reward": 1.0,
       "step": 1214
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.75001525878906,
-      "epoch": 0.6075,
-      "grad_norm": 7.699965204481391,
-      "kl": 0.775390625,
-      "learning_rate": 4.602844295122613e-07,
-      "loss": 0.0431,
-      "reward": 2.93735134601593,
-      "reward_std": 0.11865681782364845,
-      "rewards/accuracy_reward": 0.9791666865348816,
+      "completion_length": 448.9583435058594,
+      "epoch": 0.8907624633431085,
+      "grad_norm": 9.61162686291127,
+      "kl": 0.6162109375,
+      "learning_rate": 1.3235131914220406e-07,
+      "loss": 0.0524,
+      "reward": 2.1963998675346375,
+      "reward_std": 0.11624268954619765,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03139885421842337,
+      "rewards/repetition_penalty_reward": -0.022350233048200607,
       "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 299.6666717529297,
-      "epoch": 0.608,
-      "grad_norm": 8.096084671606365,
-      "kl": 1.009765625,
-      "learning_rate": 4.59514935484316e-07,
-      "loss": 0.049,
-      "reward": 2.79358172416687,
-      "reward_std": 0.4377841055393219,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.024126553907990456,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 516.0208435058594,
+      "epoch": 0.8914956011730205,
+      "grad_norm": 12.978659682793714,
+      "kl": 0.75390625,
+      "learning_rate": 1.3192372218688105e-07,
+      "loss": 0.1972,
+      "reward": 2.4325318336486816,
+      "reward_std": 0.31300088763237,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02753778174519539,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 1216
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 329.0416717529297,
-      "epoch": 0.6085,
-      "grad_norm": 14.138163667060162,
-      "kl": 1.8046875,
-      "learning_rate": 4.5874571708956953e-07,
-      "loss": -0.0943,
-      "reward": 2.6621501445770264,
-      "reward_std": 0.6885767579078674,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.037502871826291084,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 512.9791870117188,
+      "epoch": 0.8922287390029325,
+      "grad_norm": 19.904083399665815,
+      "kl": 3.35546875,
+      "learning_rate": 1.3149886595938024e-07,
+      "loss": 0.6293,
+      "reward": 1.8745170831680298,
+      "reward_std": 0.2614711821079254,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.028260784223675728,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 1217
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 317.6041717529297,
-      "epoch": 0.609,
-      "grad_norm": 10.580306326635657,
-      "kl": 1.7734375,
-      "learning_rate": 4.579767766711944e-07,
-      "loss": 0.085,
-      "reward": 2.5517923831939697,
-      "reward_std": 0.4928157329559326,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.019388345535844564,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 529.3125305175781,
+      "epoch": 0.8929618768328446,
+      "grad_norm": 16.529405747089786,
+      "kl": 2.06640625,
+      "learning_rate": 1.3107675324487567e-07,
+      "loss": 0.3418,
+      "reward": 2.143596053123474,
+      "reward_std": 0.2585507184267044,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.026542955078184605,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1218
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 301.25001525878906,
-      "epoch": 0.6095,
-      "grad_norm": 23.76275938679832,
-      "kl": 4.3046875,
-      "learning_rate": 4.572081165715167e-07,
-      "loss": 0.0931,
-      "reward": 2.224815607070923,
-      "reward_std": 0.5812746435403824,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.030392706394195557,
-      "rewards/tag_count_reward": 0.796875,
+      "completion_length": 425.3958435058594,
+      "epoch": 0.8936950146627566,
+      "grad_norm": 7.720965596393824,
+      "kl": 0.650390625,
+      "learning_rate": 1.3065738681055659e-07,
+      "loss": 0.0344,
+      "reward": 2.6714645624160767,
+      "reward_std": 0.19277621805667877,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.024716145358979702,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1219
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.5416717529297,
-      "epoch": 0.61,
-      "grad_norm": 16.029210941264648,
-      "kl": 3.0,
-      "learning_rate": 4.5643973913200837e-07,
-      "loss": 0.0726,
-      "reward": 2.567992091178894,
-      "reward_std": 0.6492457389831543,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 436.91668701171875,
+      "epoch": 0.8944281524926686,
+      "grad_norm": 15.006457009295644,
+      "kl": 1.58984375,
+      "learning_rate": 1.302407694056083e-07,
+      "loss": 0.3509,
+      "reward": 2.410833716392517,
+      "reward_std": 0.24607142433524132,
+      "rewards/accuracy_reward": 0.4791666865348816,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03791070729494095,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "rewards/repetition_penalty_reward": -0.028402483090758324,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1220
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 286.0,
-      "epoch": 0.6105,
-      "grad_norm": 14.40075724881573,
-      "kl": 2.84375,
-      "learning_rate": 4.556716466932803e-07,
-      "loss": 0.0603,
-      "reward": 2.1511141061782837,
-      "reward_std": 0.6159583330154419,
-      "rewards/accuracy_reward": 0.3333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.017288665752857924,
-      "rewards/tag_count_reward": 0.8489583730697632,
+      "completion_length": 476.5833435058594,
+      "epoch": 0.8951612903225806,
+      "grad_norm": 12.304779027075734,
+      "kl": 3.09375,
+      "learning_rate": 1.2982690376119503e-07,
+      "loss": 0.4719,
+      "reward": 2.622697591781616,
+      "reward_std": 0.33321088552474976,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.026607911102473736,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1221
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 322.87501525878906,
-      "epoch": 0.611,
-      "grad_norm": 7.252852057442951,
-      "kl": 0.806640625,
-      "learning_rate": 4.549038415950751e-07,
-      "loss": -0.048,
-      "reward": 2.8554985523223877,
-      "reward_std": 0.38053126633167267,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03339047962799668,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 463.41668701171875,
+      "epoch": 0.8958944281524927,
+      "grad_norm": 9.34249431097831,
+      "kl": 1.8505859375,
+      "learning_rate": 1.2941579259044145e-07,
+      "loss": 0.3572,
+      "reward": 2.2139004468917847,
+      "reward_std": 0.05917600984685123,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.020474628545343876,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1222
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 299.3333435058594,
-      "epoch": 0.6115,
-      "grad_norm": 9.575941886870105,
-      "kl": 2.7734375,
-      "learning_rate": 4.5413632617626054e-07,
-      "loss": -0.1175,
-      "reward": 2.2987377047538757,
-      "reward_std": 0.7605935335159302,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556416511536,
-      "rewards/repetition_penalty_reward": -0.02765120565891266,
-      "rewards/tag_count_reward": 0.8125000298023224,
+      "completion_length": 568.0,
+      "epoch": 0.8966275659824047,
+      "grad_norm": 32.507561910320035,
+      "kl": 3.80859375,
+      "learning_rate": 1.290074385884151e-07,
+      "loss": 0.8871,
+      "reward": 2.7785022258758545,
+      "reward_std": 0.6063933372497559,
+      "rewards/accuracy_reward": 0.9166666865348816,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.03573389910161495,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1223
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 319.8333435058594,
-      "epoch": 0.612,
-      "grad_norm": 7.684972316087842,
-      "kl": 1.193359375,
-      "learning_rate": 4.5336910277482155e-07,
-      "loss": -0.0379,
-      "reward": 2.6804885864257812,
-      "reward_std": 0.4239862561225891,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02437271736562252,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 419.3958435058594,
+      "epoch": 0.8973607038123167,
+      "grad_norm": 13.8733638371739,
+      "kl": 1.4609375,
+      "learning_rate": 1.2860184443210882e-07,
+      "loss": 0.0547,
+      "reward": 2.6921792030334473,
+      "reward_std": 0.13939360855147243,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.019626601599156857,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1224
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 263.9166717529297,
-      "epoch": 0.6125,
-      "grad_norm": 9.7169462842633,
-      "kl": 2.3359375,
-      "learning_rate": 4.526021737278537e-07,
-      "loss": -0.0673,
-      "reward": 2.2160778045654297,
-      "reward_std": 0.7273769080638885,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.8819445371627808,
-      "rewards/repetition_penalty_reward": -0.02524164505302906,
-      "rewards/tag_count_reward": 0.8177083432674408,
+      "completion_length": 468.00001525878906,
+      "epoch": 0.8980938416422287,
+      "grad_norm": 43.64985284284774,
+      "kl": 1.40234375,
+      "learning_rate": 1.28199012780423e-07,
+      "loss": 0.3605,
+      "reward": 2.430221438407898,
+      "reward_std": 0.18982463865540922,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02116764523088932,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1225
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 327.37501525878906,
-      "epoch": 0.613,
-      "grad_norm": 23.176995418112103,
-      "kl": 3.3359375,
-      "learning_rate": 4.51835541371556e-07,
-      "loss": 0.0103,
-      "reward": 2.078250527381897,
-      "reward_std": 0.5842549949884415,
-      "rewards/accuracy_reward": 0.31250002048909664,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.020707917399704456,
-      "rewards/tag_count_reward": 0.8281250298023224,
+      "completion_length": 578.0208435058594,
+      "epoch": 0.8988269794721407,
+      "grad_norm": 96.47944289282677,
+      "kl": 5.515625,
+      "learning_rate": 1.277989462741482e-07,
+      "loss": 0.7847,
+      "reward": 2.0465909242630005,
+      "reward_std": 0.5166294425725937,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.069728534668684,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 1226
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.18750762939453,
-      "epoch": 0.6135,
-      "grad_norm": 105.22916350823351,
-      "kl": 10.765625,
-      "learning_rate": 4.5106920804122304e-07,
-      "loss": 0.1645,
-      "reward": 2.2080377340316772,
-      "reward_std": 0.8133403062820435,
-      "rewards/accuracy_reward": 0.5833333730697632,
-      "rewards/reasoning_steps_reward": 0.8749999701976776,
-      "rewards/repetition_penalty_reward": -0.015920499339699745,
-      "rewards/tag_count_reward": 0.7656250298023224,
+      "completion_length": 395.0,
+      "epoch": 0.8995601173020528,
+      "grad_norm": 11.508237038705388,
+      "kl": 2.203125,
+      "learning_rate": 1.2740164753594811e-07,
+      "loss": 0.1107,
+      "reward": 2.3587182760238647,
+      "reward_std": 0.3529049903154373,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.021490052342414856,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1227
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 343.1875,
-      "epoch": 0.614,
-      "grad_norm": 34.43707466221288,
-      "kl": 2.984375,
-      "learning_rate": 4.503031760712397e-07,
-      "loss": 0.0916,
-      "reward": 2.6236408948898315,
-      "reward_std": 0.5556021928787231,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 444.9791717529297,
+      "epoch": 0.9002932551319648,
+      "grad_norm": 9.91761080011214,
+      "kl": 1.1171875,
+      "learning_rate": 1.2700711917034177e-07,
+      "loss": 0.0532,
+      "reward": 2.222747564315796,
+      "reward_std": 0.025613236241042614,
+      "rewards/accuracy_reward": 0.25,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02219252847135067,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.022044179029762745,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1228
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 268.6041717529297,
-      "epoch": 0.6145,
-      "grad_norm": 47.071050622736806,
-      "kl": 7.921875,
-      "learning_rate": 4.4953744779507197e-07,
-      "loss": 0.0256,
-      "reward": 2.315521240234375,
-      "reward_std": 0.8524576425552368,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.021284347400069237,
-      "rewards/tag_count_reward": 0.8229166865348816,
+      "completion_length": 479.7708435058594,
+      "epoch": 0.9010263929618768,
+      "grad_norm": 20.729917098151063,
+      "kl": 3.1640625,
+      "learning_rate": 1.2661536376368723e-07,
+      "loss": 0.39,
+      "reward": 2.633534550666809,
+      "reward_std": 0.3318822309374809,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02445169072598219,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1229
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 285.0,
-      "epoch": 0.615,
-      "grad_norm": 10.5407270563147,
-      "kl": 2.294921875,
-      "learning_rate": 4.4877202554526084e-07,
-      "loss": -0.0323,
-      "reward": 2.4727187156677246,
-      "reward_std": 0.6452691853046417,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03422584570944309,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 491.04168701171875,
+      "epoch": 0.9017595307917888,
+      "grad_norm": 18.64841756924077,
+      "kl": 1.595703125,
+      "learning_rate": 1.2622638388416385e-07,
+      "loss": 0.3109,
+      "reward": 2.4270366430282593,
+      "reward_std": 0.1843274012207985,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02088008914142847,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1230
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.8333435058594,
-      "epoch": 0.6155,
-      "grad_norm": 8.990594800844864,
-      "kl": 0.833984375,
-      "learning_rate": 4.480069116534151e-07,
-      "loss": -0.0071,
-      "reward": 2.5792577266693115,
-      "reward_std": 0.3115484416484833,
-      "rewards/accuracy_reward": 0.6666666865348816,
+      "completion_length": 460.68751525878906,
+      "epoch": 0.9024926686217009,
+      "grad_norm": 14.523184732588259,
+      "kl": 0.984375,
+      "learning_rate": 1.2584018208175614e-07,
+      "loss": 0.0594,
+      "reward": 2.475397825241089,
+      "reward_std": 0.025617304258048534,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03011729847639799,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "rewards/repetition_penalty_reward": -0.01939393486827612,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1231
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 331.8333435058594,
-      "epoch": 0.616,
-      "grad_norm": 8.186829347268167,
-      "kl": 1.681640625,
-      "learning_rate": 4.4724210845020494e-07,
-      "loss": -0.0651,
-      "reward": 2.419158935546875,
-      "reward_std": 0.5638627856969833,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.033966176211833954,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 443.2291717529297,
+      "epoch": 0.9032258064516129,
+      "grad_norm": 16.281236006778695,
+      "kl": 1.4375,
+      "learning_rate": 1.2545676088823656e-07,
+      "loss": 0.0787,
+      "reward": 2.6920576095581055,
+      "reward_std": 0.1349460631608963,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.019748042337596416,
+      "rewards/tag_count_reward": 0.9895833730697632,
       "step": 1232
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 283.5416717529297,
-      "epoch": 0.6165,
-      "grad_norm": 16.90957738932618,
-      "kl": 2.40625,
-      "learning_rate": 4.4647761826535303e-07,
-      "loss": -0.0256,
-      "reward": 2.2396740913391113,
-      "reward_std": 0.492450088262558,
-      "rewards/accuracy_reward": 0.458333358168602,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.03810371086001396,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 626.0625305175781,
+      "epoch": 0.9039589442815249,
+      "grad_norm": 24.419234328744878,
+      "kl": 2.33203125,
+      "learning_rate": 1.2507612281714912e-07,
+      "loss": 0.5811,
+      "reward": 1.8098527789115906,
+      "reward_std": 0.42128223180770874,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9513888657093048,
+      "rewards/repetition_penalty_reward": -0.05820286273956299,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 1233
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 270.3541717529297,
-      "epoch": 0.617,
-      "grad_norm": 11.105722560883672,
-      "kl": 1.4140625,
-      "learning_rate": 4.457134434276293e-07,
-      "loss": -0.1259,
-      "reward": 2.2069406509399414,
-      "reward_std": 0.5749087035655975,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.03437890112400055,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 497.0833435058594,
+      "epoch": 0.9046920821114369,
+      "grad_norm": 9.210214401503478,
+      "kl": 1.6591796875,
+      "learning_rate": 1.2469827036379294e-07,
+      "loss": 0.3667,
+      "reward": 2.687574028968811,
+      "reward_std": 0.1076923101209104,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02596777305006981,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1234
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.7083435058594,
-      "epoch": 0.6175,
-      "grad_norm": 9.032805027425631,
-      "kl": 1.0859375,
-      "learning_rate": 4.449495862648427e-07,
-      "loss": 0.0574,
-      "reward": 2.7222955226898193,
-      "reward_std": 0.23863910883665085,
-      "rewards/accuracy_reward": 0.7708333730697632,
+      "completion_length": 479.89585876464844,
+      "epoch": 0.905425219941349,
+      "grad_norm": 21.720247309897992,
+      "kl": 2.3671875,
+      "learning_rate": 1.2432320600520568e-07,
+      "loss": 0.3584,
+      "reward": 2.1699541807174683,
+      "reward_std": 0.18353354185819626,
+      "rewards/accuracy_reward": 0.2291666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.022496161051094532,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.02275434322655201,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1235
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 264.2083435058594,
-      "epoch": 0.618,
-      "grad_norm": 17.78102072531694,
-      "kl": 2.375,
-      "learning_rate": 4.441860491038345e-07,
-      "loss": 0.0578,
-      "reward": 2.586129903793335,
-      "reward_std": 0.6346015930175781,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.02324526757001877,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 586.7291717529297,
+      "epoch": 0.906158357771261,
+      "grad_norm": 29.757104937366716,
+      "kl": 2.986328125,
+      "learning_rate": 1.2395093220014776e-07,
+      "loss": 0.3691,
+      "reward": 2.2928508520126343,
+      "reward_std": 0.2880670018494129,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.03701025526970625,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 1236
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.7708435058594,
-      "epoch": 0.6185,
-      "grad_norm": 9.03437362621798,
-      "kl": 1.70703125,
-      "learning_rate": 4.4342283427047164e-07,
-      "loss": -0.0525,
-      "reward": 2.5365703105926514,
-      "reward_std": 0.5162703096866608,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.024193717166781425,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 507.75,
+      "epoch": 0.906891495601173,
+      "grad_norm": 12.415793376854689,
+      "kl": 2.44140625,
+      "learning_rate": 1.235814513890855e-07,
+      "loss": 0.34,
+      "reward": 2.7981667518615723,
+      "reward_std": 0.5196200609207153,
+      "rewards/accuracy_reward": 0.9166666865348816,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.03690283186733723,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1237
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 312.4375,
-      "epoch": 0.619,
-      "grad_norm": 15.517046311400755,
-      "kl": 2.40234375,
-      "learning_rate": 4.4265994408963867e-07,
-      "loss": 0.063,
-      "reward": 2.5961966514587402,
-      "reward_std": 0.6436916887760162,
-      "rewards/accuracy_reward": 0.7291666865348816,
+      "completion_length": 442.625,
+      "epoch": 0.907624633431085,
+      "grad_norm": 9.400049645745804,
+      "kl": 1.259765625,
+      "learning_rate": 1.232147659941761e-07,
+      "loss": 0.3226,
+      "reward": 2.4332507848739624,
+      "reward_std": 0.15348897967487574,
+      "rewards/accuracy_reward": 0.4791666716337204,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02880349662154913,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "rewards/repetition_penalty_reward": -0.030291039496660233,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1238
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.25001525878906,
-      "epoch": 0.6195,
-      "grad_norm": 24.87465794144074,
-      "kl": 3.734375,
-      "learning_rate": 4.418973808852313e-07,
-      "loss": 0.0546,
-      "reward": 2.469591498374939,
-      "reward_std": 0.5368989706039429,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.018255963921546936,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 495.3125,
+      "epoch": 0.908357771260997,
+      "grad_norm": 7.834262887636369,
+      "kl": 0.9462890625,
+      "learning_rate": 1.228508784192506e-07,
+      "loss": 0.2261,
+      "reward": 2.2043164372444153,
+      "reward_std": 0.08925489895045757,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024850289337337017,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1239
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 342.12501525878906,
-      "epoch": 0.62,
-      "grad_norm": 12.84411480237786,
-      "kl": 2.25390625,
-      "learning_rate": 4.4113514698014953e-07,
-      "loss": 0.024,
-      "reward": 2.184650182723999,
-      "reward_std": 0.47897736728191376,
-      "rewards/accuracy_reward": 0.3541666679084301,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.023683225736021996,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 391.125,
+      "epoch": 0.9090909090909091,
+      "grad_norm": 6.238896486111178,
+      "kl": 0.40625,
+      "learning_rate": 1.2248979104979925e-07,
+      "loss": 0.0608,
+      "reward": 2.9420199394226074,
+      "reward_std": 0.12390666967257857,
+      "rewards/accuracy_reward": 0.9791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02672996185719967,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1240
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 296.5208435058594,
-      "epoch": 0.6205,
-      "grad_norm": 8.658225737289808,
-      "kl": 1.1953125,
-      "learning_rate": 4.403732446962899e-07,
-      "loss": -0.0936,
-      "reward": 2.3716037273406982,
-      "reward_std": 0.558637946844101,
-      "rewards/accuracy_reward": 0.5208333358168602,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.01554908649995923,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 460.43751525878906,
+      "epoch": 0.9098240469208211,
+      "grad_norm": 18.532777826662272,
+      "kl": 1.0888671875,
+      "learning_rate": 1.2213150625295507e-07,
+      "loss": 0.2335,
+      "reward": 2.4339605569839478,
+      "reward_std": 0.16963256802409887,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.026108983904123306,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1241
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 312.60418701171875,
-      "epoch": 0.621,
-      "grad_norm": 7.919211211849244,
-      "kl": 1.11328125,
-      "learning_rate": 4.3961167635453876e-07,
-      "loss": 0.0181,
-      "reward": 2.5375410318374634,
-      "reward_std": 0.37939758598804474,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02148678805679083,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 476.4791717529297,
+      "epoch": 0.9105571847507331,
+      "grad_norm": 11.675756206099358,
+      "kl": 2.9296875,
+      "learning_rate": 1.2177602637747878e-07,
+      "loss": 0.3675,
+      "reward": 2.145154595375061,
+      "reward_std": 0.18334370106458664,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.033664777874946594,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 1242
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.50001525878906,
-      "epoch": 0.6215,
-      "grad_norm": 5.99197945202883,
-      "kl": 0.673828125,
-      "learning_rate": 4.388504442747657e-07,
-      "loss": -0.0048,
-      "reward": 2.649431347846985,
-      "reward_std": 0.3595951795578003,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.034596722573041916,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 466.8333435058594,
+      "epoch": 0.9112903225806451,
+      "grad_norm": 16.09050924699834,
+      "kl": 0.79296875,
+      "learning_rate": 1.2142335375374307e-07,
+      "loss": 0.2617,
+      "reward": 2.4195971488952637,
+      "reward_std": 0.22157121449708939,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.026583565399050713,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1243
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 325.56251525878906,
-      "epoch": 0.622,
-      "grad_norm": 7.039763497814729,
-      "kl": 1.1123046875,
-      "learning_rate": 4.3808955077581546e-07,
-      "loss": -0.0806,
-      "reward": 2.560014247894287,
-      "reward_std": 0.45148639380931854,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.025055398233234882,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 569.1458587646484,
+      "epoch": 0.9120234604105572,
+      "grad_norm": 78.30173265234124,
+      "kl": 1.275390625,
+      "learning_rate": 1.2107349069371778e-07,
+      "loss": 0.4808,
+      "reward": 2.301529884338379,
+      "reward_std": 0.3600015640258789,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.021386777982115746,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 1244
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 334.18751525878906,
-      "epoch": 0.6225,
-      "grad_norm": 9.138240023491278,
-      "kl": 0.78515625,
-      "learning_rate": 4.373289981755013e-07,
-      "loss": -0.0215,
-      "reward": 2.5294055938720703,
-      "reward_std": 0.3349990248680115,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.050455573946237564,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 424.91668701171875,
+      "epoch": 0.9127565982404692,
+      "grad_norm": 8.469807341370322,
+      "kl": 1.4306640625,
+      "learning_rate": 1.2072643949095406e-07,
+      "loss": 0.1403,
+      "reward": 2.1825441122055054,
+      "reward_std": 0.16613122075796127,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02058098092675209,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 1245
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 264.5,
-      "epoch": 0.623,
-      "grad_norm": 8.492208011646788,
-      "kl": 1.853515625,
-      "learning_rate": 4.365687887905988e-07,
-      "loss": -0.0616,
-      "reward": 2.7429254055023193,
-      "reward_std": 0.5102400928735733,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.01575501961633563,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 437.4791717529297,
+      "epoch": 0.9134897360703812,
+      "grad_norm": 5.404996461007736,
+      "kl": 0.5380859375,
+      "learning_rate": 1.2038220242057014e-07,
+      "loss": 0.029,
+      "reward": 2.972726821899414,
+      "reward_std": 0.010692416690289974,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02727325912564993,
+      "rewards/tag_count_reward": 1.0,
       "step": 1246
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 297.93751525878906,
-      "epoch": 0.6235,
-      "grad_norm": 57.99567662946909,
-      "kl": 7.73828125,
-      "learning_rate": 4.358089249368375e-07,
-      "loss": 0.086,
-      "reward": 2.5771158933639526,
-      "reward_std": 0.5258086919784546,
-      "rewards/accuracy_reward": 0.6875000298023224,
+      "completion_length": 501.2708435058594,
+      "epoch": 0.9142228739002932,
+      "grad_norm": 23.52216583858044,
+      "kl": 1.69140625,
+      "learning_rate": 1.2004078173923584e-07,
+      "loss": 0.2544,
+      "reward": 2.575079560279846,
+      "reward_std": 0.2885263650678098,
+      "rewards/accuracy_reward": 0.6875,
       "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.021842443384230137,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "rewards/repetition_penalty_reward": -0.04471219517290592,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1247
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.8333435058594,
-      "epoch": 0.624,
-      "grad_norm": 341.16700521948934,
-      "kl": 29.625,
-      "learning_rate": 4.350494089288943e-07,
-      "loss": 0.676,
-      "reward": 2.2864397764205933,
-      "reward_std": 0.4129794090986252,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.027796387672424316,
-      "rewards/tag_count_reward": 0.890625,
+      "completion_length": 445.4583435058594,
+      "epoch": 0.9149560117302052,
+      "grad_norm": 26.89486686665491,
+      "kl": 1.7890625,
+      "learning_rate": 1.1970217968515773e-07,
+      "loss": 0.2036,
+      "reward": 1.9872766733169556,
+      "reward_std": 0.16751797497272491,
+      "rewards/accuracy_reward": 0.0416666679084301,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.028348451480269432,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1248
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 320.68751525878906,
-      "epoch": 0.6245,
-      "grad_norm": 181.81088614690876,
-      "kl": 15.53125,
-      "learning_rate": 4.3429024308038686e-07,
-      "loss": 0.2868,
-      "reward": 2.834537148475647,
-      "reward_std": 0.33811767399311066,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.03178227413445711,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 433.5,
+      "epoch": 0.9156891495601173,
+      "grad_norm": 10.715869001628393,
+      "kl": 1.19140625,
+      "learning_rate": 1.1936639847806516e-07,
+      "loss": 0.27,
+      "reward": 2.4046987295150757,
+      "reward_std": 0.2617655247449875,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.02932926919311285,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1249
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 297.0625,
-      "epoch": 0.625,
-      "grad_norm": 11.08135265703862,
-      "kl": 1.1259765625,
-      "learning_rate": 4.3353142970386557e-07,
-      "loss": 0.1305,
-      "reward": 2.7022109031677246,
-      "reward_std": 0.10300289653241634,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.01653942931443453,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 452.8333435058594,
+      "epoch": 0.9164222873900293,
+      "grad_norm": 33.601663618254626,
+      "kl": 5.296875,
+      "learning_rate": 1.1903344031919474e-07,
+      "loss": 0.3832,
+      "reward": 2.310217022895813,
+      "reward_std": 0.30332429707050323,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.031796906143426895,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1250
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.9583435058594,
-      "epoch": 0.6255,
-      "grad_norm": 124.39669515969251,
-      "kl": 14.46875,
-      "learning_rate": 4.327729711108082e-07,
-      "loss": 0.2354,
-      "reward": 2.619844675064087,
-      "reward_std": 0.6426686346530914,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.019044365733861923,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 523.125,
+      "epoch": 0.9171554252199413,
+      "grad_norm": 40.609113917444844,
+      "kl": 5.0,
+      "learning_rate": 1.1870330739127676e-07,
+      "loss": 0.6408,
+      "reward": 2.7230184078216553,
+      "reward_std": 0.4918576031923294,
+      "rewards/accuracy_reward": 0.8958333432674408,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.0356622040271759,
+      "rewards/tag_count_reward": 0.890625,
       "step": 1251
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 314.0208435058594,
-      "epoch": 0.626,
-      "grad_norm": 4.466923459475626,
-      "kl": 0.685546875,
-      "learning_rate": 4.3201486961161093e-07,
-      "loss": -0.0116,
-      "reward": 2.894577383995056,
-      "reward_std": 0.2078223153948784,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.029034032486379147,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "completion_length": 472.33335876464844,
+      "epoch": 0.9178885630498533,
+      "grad_norm": 8.756571405355077,
+      "kl": 1.392578125,
+      "learning_rate": 1.1837600185852021e-07,
+      "loss": 0.254,
+      "reward": 2.383722424507141,
+      "reward_std": 0.35482998192310333,
+      "rewards/accuracy_reward": 0.47916667722165585,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.027735993266105652,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1252
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.9791717529297,
-      "epoch": 0.6265,
-      "grad_norm": 26.605555594559796,
-      "kl": 1.48828125,
-      "learning_rate": 4.312571275155823e-07,
-      "loss": -0.038,
-      "reward": 2.5493518114089966,
-      "reward_std": 0.5423057973384857,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.040926164016127586,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 514.125,
+      "epoch": 0.9186217008797654,
+      "grad_norm": 12.083545586661096,
+      "kl": 1.7421875,
+      "learning_rate": 1.1805152586659917e-07,
+      "loss": 0.544,
+      "reward": 2.0876930952072144,
+      "reward_std": 0.39283469319343567,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9583334028720856,
+      "rewards/repetition_penalty_reward": -0.05293210782110691,
+      "rewards/tag_count_reward": 0.953125,
       "step": 1253
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 328.18751525878906,
-      "epoch": 0.627,
-      "grad_norm": 8.302364671310045,
-      "kl": 0.7890625,
-      "learning_rate": 4.304997471309361e-07,
-      "loss": -0.0157,
-      "reward": 2.6195199489593506,
-      "reward_std": 0.5493273586034775,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.045410582795739174,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 404.81251525878906,
+      "epoch": 0.9193548387096774,
+      "grad_norm": 19.594726969083506,
+      "kl": 1.513671875,
+      "learning_rate": 1.1772988154263827e-07,
+      "loss": 0.0739,
+      "reward": 2.4594032764434814,
+      "reward_std": 0.08329129219055176,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019763246178627014,
+      "rewards/tag_count_reward": 1.0,
       "step": 1254
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 304.4166717529297,
-      "epoch": 0.6275,
-      "grad_norm": 13.946595632340095,
-      "kl": 1.984375,
-      "learning_rate": 4.297427307647844e-07,
-      "loss": -0.0215,
-      "reward": 2.4039559364318848,
-      "reward_std": 0.4896374046802521,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02312744501978159,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 468.89585876464844,
+      "epoch": 0.9200879765395894,
+      "grad_norm": 13.53668123908568,
+      "kl": 1.2998046875,
+      "learning_rate": 1.1741107099519908e-07,
+      "loss": 0.4167,
+      "reward": 2.84389591217041,
+      "reward_std": 0.40458007249981165,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03457646816968918,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1255
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 283.3958435058594,
-      "epoch": 0.628,
-      "grad_norm": 11.365303476859737,
-      "kl": 0.7919921875,
-      "learning_rate": 4.2898608072313045e-07,
-      "loss": -0.0273,
-      "reward": 2.542173385620117,
-      "reward_std": 0.4263547882437706,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.027271111495792866,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 463.8333435058594,
+      "epoch": 0.9208211143695014,
+      "grad_norm": 13.28386012669474,
+      "kl": 1.55859375,
+      "learning_rate": 1.1709509631426599e-07,
+      "loss": 0.1879,
+      "reward": 2.147110402584076,
+      "reward_std": 0.2086901506409049,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02129247970879078,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1256
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 301.06251525878906,
-      "epoch": 0.6285,
-      "grad_norm": 6.488072817521581,
-      "kl": 1.6943359375,
-      "learning_rate": 4.2822979931086144e-07,
-      "loss": 0.064,
-      "reward": 2.6413581371307373,
-      "reward_std": 0.32615266740322113,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.025308695621788502,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "completion_length": 520.2291870117188,
+      "epoch": 0.9215542521994134,
+      "grad_norm": 18.597312059452115,
+      "kl": 1.416015625,
+      "learning_rate": 1.167819595712329e-07,
+      "loss": 0.2873,
+      "reward": 2.6505656242370605,
+      "reward_std": 0.19670572225004435,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.024781646206974983,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1257
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 320.4166717529297,
-      "epoch": 0.629,
-      "grad_norm": 5.571259374449054,
-      "kl": 0.7109375,
-      "learning_rate": 4.2747388883174154e-07,
-      "loss": -0.0249,
-      "reward": 2.5305432081222534,
-      "reward_std": 0.34117555618286133,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.03716518171131611,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 470.16668701171875,
+      "epoch": 0.9222873900293255,
+      "grad_norm": 27.28829956069516,
+      "kl": 1.01171875,
+      "learning_rate": 1.1647166281888922e-07,
+      "loss": 0.2236,
+      "reward": 2.4381165504455566,
+      "reward_std": 0.13398257829248905,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025425168685615063,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1258
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 319.0208435058594,
-      "epoch": 0.6295,
-      "grad_norm": 10.818868109831325,
-      "kl": 1.11328125,
-      "learning_rate": 4.267183515884054e-07,
-      "loss": -0.0971,
-      "reward": 2.6202439069747925,
-      "reward_std": 0.6800469756126404,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.02732554590329528,
-      "rewards/tag_count_reward": 0.9114583730697632,
+      "completion_length": 528.4166870117188,
+      "epoch": 0.9230205278592375,
+      "grad_norm": 25.886415618898045,
+      "kl": 1.421875,
+      "learning_rate": 1.1616420809140668e-07,
+      "loss": 0.4292,
+      "reward": 2.6378209590911865,
+      "reward_std": 0.33803558349609375,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.021901373751461506,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 1259
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 313.8333435058594,
-      "epoch": 0.63,
-      "grad_norm": 5.109825873578351,
-      "kl": 1.12890625,
-      "learning_rate": 4.2596318988235037e-07,
-      "loss": -0.0602,
-      "reward": 2.7829357385635376,
-      "reward_std": 0.4666026383638382,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.024355984292924404,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 448.6666717529297,
+      "epoch": 0.9237536656891495,
+      "grad_norm": 7.422823393613719,
+      "kl": 1.1396484375,
+      "learning_rate": 1.1585959740432584e-07,
+      "loss": 0.0856,
+      "reward": 2.69480299949646,
+      "reward_std": 0.14079985255375504,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.015266527887433767,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1260
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.4166717529297,
-      "epoch": 0.6305,
-      "grad_norm": 113.69520754686019,
-      "kl": 6.984375,
-      "learning_rate": 4.2520840601392996e-07,
-      "loss": 0.0285,
-      "reward": 2.4763646125793457,
-      "reward_std": 0.5876338928937912,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02189927827566862,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 484.2916717529297,
+      "epoch": 0.9244868035190615,
+      "grad_norm": 14.2945025870546,
+      "kl": 0.798828125,
+      "learning_rate": 1.1555783275454323e-07,
+      "loss": 0.1845,
+      "reward": 2.6793763637542725,
+      "reward_std": 0.18702445551753044,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023748809471726418,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1261
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 277.20833587646484,
-      "epoch": 0.631,
-      "grad_norm": 4.878770353368535,
-      "kl": 0.8046875,
-      "learning_rate": 4.2445400228234687e-07,
-      "loss": -0.0089,
-      "reward": 2.2267041206359863,
-      "reward_std": 0.21407258417457342,
-      "rewards/accuracy_reward": 0.3125,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.023295993451029062,
-      "rewards/tag_count_reward": 0.9375,
+      "completion_length": 480.00001525878906,
+      "epoch": 0.9252199413489736,
+      "grad_norm": 35.82067585260527,
+      "kl": 1.615234375,
+      "learning_rate": 1.1525891612029762e-07,
+      "loss": 0.5305,
+      "reward": 2.1269590258598328,
+      "reward_std": 0.3459872379899025,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.04144384525716305,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1262
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.00000762939453,
-      "epoch": 0.6315,
-      "grad_norm": 91.61805536571175,
-      "kl": 14.0,
-      "learning_rate": 4.2369998098564554e-07,
-      "loss": 0.1059,
-      "reward": 2.389165997505188,
-      "reward_std": 0.8639044761657715,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.8819444179534912,
-      "rewards/repetition_penalty_reward": -0.024028603918850422,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 416.8125,
+      "epoch": 0.9259530791788856,
+      "grad_norm": 18.34196969705659,
+      "kl": 0.880859375,
+      "learning_rate": 1.1496284946115756e-07,
+      "loss": 0.3035,
+      "reward": 2.1744728088378906,
+      "reward_std": 0.18630531942471862,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03212452307343483,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1263
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.4791793823242,
-      "epoch": 0.632,
-      "grad_norm": 61.3227518293924,
-      "kl": 7.921875,
-      "learning_rate": 4.2294634442070553e-07,
-      "loss": 0.0403,
-      "reward": 2.4555550813674927,
-      "reward_std": 0.7910381853580475,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.02361162193119526,
-      "rewards/tag_count_reward": 0.875,
+      "completion_length": 477.7083435058594,
+      "epoch": 0.9266862170087976,
+      "grad_norm": 13.058537172952395,
+      "kl": 1.1953125,
+      "learning_rate": 1.1466963471800852e-07,
+      "loss": 0.2567,
+      "reward": 1.9618767499923706,
+      "reward_std": 0.06609710678458214,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022498343139886856,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1264
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 298.97918701171875,
-      "epoch": 0.6325,
-      "grad_norm": 11.219358419697596,
-      "kl": 2.75390625,
-      "learning_rate": 4.2219309488323487e-07,
-      "loss": 0.0209,
-      "reward": 2.7085201740264893,
-      "reward_std": 0.5442517399787903,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.029327161610126495,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 450.4375,
+      "epoch": 0.9274193548387096,
+      "grad_norm": 93.37185157819849,
+      "kl": 4.87890625,
+      "learning_rate": 1.1437927381303987e-07,
+      "loss": 0.5945,
+      "reward": 2.346126675605774,
+      "reward_std": 0.3644867241382599,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.03755396045744419,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1265
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 275.7708435058594,
-      "epoch": 0.633,
-      "grad_norm": 398.00956099056515,
-      "kl": 23.125,
-      "learning_rate": 4.214402346677619e-07,
-      "loss": 0.2082,
-      "reward": 2.259987235069275,
-      "reward_std": 0.9177981615066528,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.8263889253139496,
-      "rewards/repetition_penalty_reward": -0.024735040962696075,
-      "rewards/tag_count_reward": 0.8333333432674408,
+      "completion_length": 584.6458587646484,
+      "epoch": 0.9281524926686217,
+      "grad_norm": 33.76460029432066,
+      "kl": 4.23046875,
+      "learning_rate": 1.140917686497326e-07,
+      "loss": 0.2746,
+      "reward": 2.094321370124817,
+      "reward_std": 0.17763768695294857,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.965277761220932,
+      "rewards/repetition_penalty_reward": -0.042831544764339924,
+      "rewards/tag_count_reward": 0.9218750298023224,
       "step": 1266
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 268.9583435058594,
-      "epoch": 0.6335,
-      "grad_norm": 24.983686575360647,
-      "kl": 3.240234375,
-      "learning_rate": 4.206877660676297e-07,
-      "loss": 0.0538,
-      "reward": 2.548527956008911,
-      "reward_std": 0.6168785095214844,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.01570827839896083,
-      "rewards/tag_count_reward": 0.890625,
+      "completion_length": 385.0208435058594,
+      "epoch": 0.9288856304985337,
+      "grad_norm": 8.536556995623087,
+      "kl": 1.265625,
+      "learning_rate": 1.1380712111284648e-07,
+      "loss": 0.0854,
+      "reward": 2.4350061416625977,
+      "reward_std": 0.1251449566334486,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.03200777154415846,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1267
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.6875,
-      "epoch": 0.634,
-      "grad_norm": 29.77346744252865,
-      "kl": 3.23046875,
-      "learning_rate": 4.1993569137498776e-07,
-      "loss": 0.0976,
-      "reward": 2.5990532636642456,
-      "reward_std": 0.3927089273929596,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.01726605836302042,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 535.875,
+      "epoch": 0.9296187683284457,
+      "grad_norm": 40.76353309315977,
+      "kl": 4.78125,
+      "learning_rate": 1.1352533306840818e-07,
+      "loss": 0.5238,
+      "reward": 2.105325937271118,
+      "reward_std": 0.17815731838345528,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.03877122886478901,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 1268
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 291.7708435058594,
-      "epoch": 0.6345,
-      "grad_norm": 6.809776019842994,
-      "kl": 1.5078125,
-      "learning_rate": 4.1918401288078633e-07,
-      "loss": -0.0669,
-      "reward": 2.4295482635498047,
-      "reward_std": 0.6562110781669617,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.014896340668201447,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 473.75,
+      "epoch": 0.9303519061583577,
+      "grad_norm": 18.746529200671343,
+      "kl": 2.71875,
+      "learning_rate": 1.1324640636369844e-07,
+      "loss": 0.3549,
+      "reward": 2.0650742650032043,
+      "reward_std": 0.34250083193182945,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/reasoning_steps_reward": 0.9652778506278992,
+      "rewards/repetition_penalty_reward": -0.030411873012781143,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 1269
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 242.54167938232422,
-      "epoch": 0.635,
-      "grad_norm": 13.637945833280545,
-      "kl": 2.11328125,
-      "learning_rate": 4.1843273287476854e-07,
-      "loss": -0.2244,
-      "reward": 2.2396379709243774,
-      "reward_std": 0.7876444458961487,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.8472222685813904,
-      "rewards/repetition_penalty_reward": -0.024251021444797516,
-      "rewards/tag_count_reward": 0.8750000298023224,
+      "completion_length": 519.1666870117188,
+      "epoch": 0.9310850439882697,
+      "grad_norm": 19.92539027857833,
+      "kl": 1.70703125,
+      "learning_rate": 1.129703428272407e-07,
+      "loss": 0.5492,
+      "reward": 2.290251612663269,
+      "reward_std": 0.4478663057088852,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.03960954770445824,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1270
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.18750762939453,
-      "epoch": 0.6355,
-      "grad_norm": 9.401287077014372,
-      "kl": 2.37109375,
-      "learning_rate": 4.1768185364546326e-07,
-      "loss": -0.2551,
-      "reward": 1.9714569449424744,
-      "reward_std": 0.8513112664222717,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.7500000596046448,
-      "rewards/repetition_penalty_reward": -0.018126386683434248,
-      "rewards/tag_count_reward": 0.7395833432674408,
+      "completion_length": 446.1666717529297,
+      "epoch": 0.9318181818181818,
+      "grad_norm": 9.895164235157509,
+      "kl": 0.76171875,
+      "learning_rate": 1.1269714426878821e-07,
+      "loss": 0.0382,
+      "reward": 1.9925453066825867,
+      "reward_std": 0.09840421006083488,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023079711012542248,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1271
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 319.7083435058594,
-      "epoch": 0.636,
-      "grad_norm": 5.439379439237209,
-      "kl": 0.857421875,
-      "learning_rate": 4.1693137748017915e-07,
-      "loss": -0.0795,
-      "reward": 2.6746604442596436,
-      "reward_std": 0.536898672580719,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.02672865055501461,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 518.0416870117188,
+      "epoch": 0.9325513196480938,
+      "grad_norm": 15.315615201974119,
+      "kl": 1.39453125,
+      "learning_rate": 1.1242681247931319e-07,
+      "loss": 0.4336,
+      "reward": 2.3977036476135254,
+      "reward_std": 0.25321169197559357,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.04326878301799297,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1272
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 255.56250762939453,
-      "epoch": 0.6365,
-      "grad_norm": 6.202209412890006,
-      "kl": 0.8515625,
-      "learning_rate": 4.161813066649963e-07,
-      "loss": -0.0982,
-      "reward": 2.706597089767456,
-      "reward_std": 0.5873250961303711,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.013889186084270477,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 514.9583587646484,
+      "epoch": 0.9332844574780058,
+      "grad_norm": 10.106874745508811,
+      "kl": 1.427734375,
+      "learning_rate": 1.1215934923099414e-07,
+      "loss": 0.2627,
+      "reward": 2.1677005290985107,
+      "reward_std": 0.1815025839023292,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03021625615656376,
+      "rewards/tag_count_reward": 0.96875,
       "step": 1273
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 253.87500762939453,
-      "epoch": 0.637,
-      "grad_norm": 8.311119282622155,
-      "kl": 1.412109375,
-      "learning_rate": 4.15431643484761e-07,
-      "loss": -0.0722,
-      "reward": 2.4473708868026733,
-      "reward_std": 0.5833633840084076,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.02832351950928569,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 411.87501525878906,
+      "epoch": 0.9340175953079178,
+      "grad_norm": 9.054120736545237,
+      "kl": 0.982421875,
+      "learning_rate": 1.1189475627720488e-07,
+      "loss": 0.0483,
+      "reward": 2.7023842334747314,
+      "reward_std": 0.32853075861930847,
+      "rewards/accuracy_reward": 0.7500000298023224,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.02331024780869484,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1274
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.5416717529297,
-      "epoch": 0.6375,
-      "grad_norm": 5.198591187578019,
-      "kl": 1.04296875,
-      "learning_rate": 4.146823902230772e-07,
-      "loss": -0.0484,
-      "reward": 2.8356668949127197,
-      "reward_std": 0.44375722110271454,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.020235823933035135,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 478.1875,
+      "epoch": 0.9347507331378299,
+      "grad_norm": 14.23126659602911,
+      "kl": 0.462890625,
+      "learning_rate": 1.1163303535250265e-07,
+      "loss": 0.0494,
+      "reward": 2.2366175055503845,
+      "reward_std": 0.009620955679565668,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013382541947066784,
+      "rewards/tag_count_reward": 1.0,
       "step": 1275
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.58334350585938,
-      "epoch": 0.638,
-      "grad_norm": 6.926096135008214,
-      "kl": 1.96484375,
-      "learning_rate": 4.1393354916230005e-07,
-      "loss": -0.0609,
-      "reward": 2.677065134048462,
-      "reward_std": 0.594237208366394,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.01043500192463398,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 546.8541870117188,
+      "epoch": 0.9354838709677419,
+      "grad_norm": 16.41714592228837,
+      "kl": 2.0625,
+      "learning_rate": 1.1137418817261706e-07,
+      "loss": 0.6162,
+      "reward": 1.894201636314392,
+      "reward_std": 0.26965878158807755,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.03982617612928152,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1276
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.68750762939453,
-      "epoch": 0.6385,
-      "grad_norm": 48.40360467461647,
-      "kl": 3.640625,
-      "learning_rate": 4.1318512258352936e-07,
-      "loss": 0.0027,
-      "reward": 2.614649772644043,
-      "reward_std": 0.4902600198984146,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.008614218328148127,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 595.7083435058594,
+      "epoch": 0.9362170087976539,
+      "grad_norm": 26.283905458815948,
+      "kl": 3.166015625,
+      "learning_rate": 1.1111821643443861e-07,
+      "loss": 0.6573,
+      "reward": 2.7341933250427246,
+      "reward_std": 0.5056948512792587,
+      "rewards/accuracy_reward": 0.8958333730697632,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.04358469694852829,
+      "rewards/tag_count_reward": 0.9166666865348816,
       "step": 1277
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.50001525878906,
-      "epoch": 0.639,
-      "grad_norm": 17.05514052018502,
-      "kl": 3.43359375,
-      "learning_rate": 4.124371127666024e-07,
-      "loss": -0.045,
-      "reward": 2.4537200927734375,
-      "reward_std": 0.6568253189325333,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.013293889816850424,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 573.1666870117188,
+      "epoch": 0.9369501466275659,
+      "grad_norm": 37.98541597450915,
+      "kl": 3.1796875,
+      "learning_rate": 1.1086512181600757e-07,
+      "loss": 0.4427,
+      "reward": 2.0666526556015015,
+      "reward_std": 0.3224688321352005,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.042722418904304504,
+      "rewards/tag_count_reward": 0.921875,
       "step": 1278
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 287.0833435058594,
-      "epoch": 0.6395,
-      "grad_norm": 12.772767939709558,
-      "kl": 3.58984375,
-      "learning_rate": 4.1168952199008677e-07,
-      "loss": -0.074,
-      "reward": 2.3198667764663696,
-      "reward_std": 0.6525312066078186,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.02561924420297146,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "completion_length": 489.93751525878906,
+      "epoch": 0.9376832844574781,
+      "grad_norm": 13.211520187016381,
+      "kl": 1.947265625,
+      "learning_rate": 1.1061490597650326e-07,
+      "loss": 0.509,
+      "reward": 2.851483106613159,
+      "reward_std": 0.40315455198287964,
+      "rewards/accuracy_reward": 0.9166666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023517010267823935,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1279
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 290.2916717529297,
-      "epoch": 0.64,
-      "grad_norm": 13.074456042005389,
-      "kl": 2.43359375,
-      "learning_rate": 4.1094235253127374e-07,
-      "loss": -0.0559,
-      "reward": 2.621940493583679,
-      "reward_std": 0.6388831436634064,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03430960513651371,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 462.3958435058594,
+      "epoch": 0.9384164222873901,
+      "grad_norm": 13.920681467096035,
+      "kl": 1.82421875,
+      "learning_rate": 1.1036757055623277e-07,
+      "loss": 0.2295,
+      "reward": 2.3927890062332153,
+      "reward_std": 0.21528612356632948,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.029086150228977203,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1280
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.3541717529297,
-      "epoch": 0.6405,
-      "grad_norm": 20.83070325460604,
-      "kl": 3.6875,
-      "learning_rate": 4.101956066661708e-07,
-      "loss": -0.0974,
-      "reward": 2.285021424293518,
-      "reward_std": 0.5357790589332581,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.018798216711729765,
-      "rewards/tag_count_reward": 0.8802083730697632,
+      "completion_length": 432.0208435058594,
+      "epoch": 0.9391495601173021,
+      "grad_norm": 19.243232638505983,
+      "kl": 0.9921875,
+      "learning_rate": 1.1012311717662053e-07,
+      "loss": 0.248,
+      "reward": 2.65679132938385,
+      "reward_std": 0.18610515631735325,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.032444894313812256,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1281
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 274.04168701171875,
-      "epoch": 0.641,
-      "grad_norm": 12.971542858607965,
-      "kl": 2.666015625,
-      "learning_rate": 4.0944928666949527e-07,
-      "loss": -0.0943,
-      "reward": 2.2288068532943726,
-      "reward_std": 0.6288715898990631,
-      "rewards/accuracy_reward": 0.416666679084301,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.014248816296458244,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 445.7291717529297,
+      "epoch": 0.9398826979472141,
+      "grad_norm": 12.50332420462573,
+      "kl": 1.984375,
+      "learning_rate": 1.0988154744019741e-07,
+      "loss": 0.3032,
+      "reward": 2.6296029090881348,
+      "reward_std": 0.33814698457717896,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.028383249416947365,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1282
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.25,
-      "epoch": 0.6415,
-      "grad_norm": 11.653407474012347,
-      "kl": 2.9140625,
-      "learning_rate": 4.0870339481466774e-07,
-      "loss": -0.0501,
-      "reward": 1.9373607635498047,
-      "reward_std": 0.5385548174381256,
-      "rewards/accuracy_reward": 0.3125000111758709,
-      "rewards/reasoning_steps_reward": 0.8472222685813904,
-      "rewards/repetition_penalty_reward": -0.02444479614496231,
-      "rewards/tag_count_reward": 0.8020833432674408,
+      "completion_length": 450.91668701171875,
+      "epoch": 0.9406158357771262,
+      "grad_norm": 25.595049083415667,
+      "kl": 2.2109375,
+      "learning_rate": 1.096428629305905e-07,
+      "loss": 0.2472,
+      "reward": 2.625510334968567,
+      "reward_std": 0.2489984016865492,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03594798780977726,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1283
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 289.56250762939453,
-      "epoch": 0.642,
-      "grad_norm": 8.453230476877637,
-      "kl": 0.779296875,
-      "learning_rate": 4.079579333738039e-07,
-      "loss": 0.0324,
-      "reward": 2.838531732559204,
-      "reward_std": 0.28950972855091095,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.036468397825956345,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 532.2500305175781,
+      "epoch": 0.9413489736070382,
+      "grad_norm": 25.12369374073104,
+      "kl": 3.4921875,
+      "learning_rate": 1.0940706521251251e-07,
+      "loss": 0.3859,
+      "reward": 2.824937343597412,
+      "reward_std": 0.3094763532280922,
+      "rewards/accuracy_reward": 0.8958333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.022284891456365585,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1284
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 274.7916717529297,
-      "epoch": 0.6425,
-      "grad_norm": 8.516876725525995,
-      "kl": 0.984375,
-      "learning_rate": 4.0721290461770863e-07,
-      "loss": -0.0514,
-      "reward": 2.528114676475525,
-      "reward_std": 0.6328976899385452,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.018760375678539276,
-      "rewards/tag_count_reward": 0.8802083730697632,
+      "completion_length": 487.6458435058594,
+      "epoch": 0.9420821114369502,
+      "grad_norm": 9.331338158859646,
+      "kl": 1.044921875,
+      "learning_rate": 1.091741558317517e-07,
+      "loss": 0.4031,
+      "reward": 2.372399091720581,
+      "reward_std": 0.3811139464378357,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03385098837316036,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1285
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 254.66667938232422,
-      "epoch": 0.643,
-      "grad_norm": 11.245200868491317,
-      "kl": 1.1171875,
-      "learning_rate": 4.064683108158685e-07,
-      "loss": -0.1401,
-      "reward": 2.3839638233184814,
-      "reward_std": 0.6318697333335876,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.022286144085228443,
-      "rewards/tag_count_reward": 0.90625,
+      "completion_length": 560.3125305175781,
+      "epoch": 0.9428152492668622,
+      "grad_norm": 27.446421938812083,
+      "kl": 3.1953125,
+      "learning_rate": 1.0894413631516144e-07,
+      "loss": 0.5668,
+      "reward": 1.978183925151825,
+      "reward_std": 0.4256092458963394,
+      "rewards/accuracy_reward": 0.1666666716337204,
+      "rewards/reasoning_steps_reward": 0.951388955116272,
+      "rewards/repetition_penalty_reward": -0.05133005045354366,
+      "rewards/tag_count_reward": 0.9114583730697632,
       "step": 1286
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 277.9583435058594,
-      "epoch": 0.6435,
-      "grad_norm": 6.37277111754768,
-      "kl": 1.4609375,
-      "learning_rate": 4.057241542364457e-07,
-      "loss": -0.1055,
-      "reward": 2.32645583152771,
-      "reward_std": 0.5588487088680267,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.03465544432401657,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 498.79168701171875,
+      "epoch": 0.9435483870967742,
+      "grad_norm": 19.534270584207096,
+      "kl": 1.30859375,
+      "learning_rate": 1.087170081706506e-07,
+      "loss": 0.1945,
+      "reward": 2.385071635246277,
+      "reward_std": 0.34212101995944977,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.024650713428854942,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1287
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.1666717529297,
-      "epoch": 0.644,
-      "grad_norm": 16.043998757477272,
-      "kl": 4.4296875,
-      "learning_rate": 4.0498043714627006e-07,
-      "loss": -0.1519,
-      "reward": 2.1210697889328003,
-      "reward_std": 0.9449804127216339,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.8333333730697632,
-      "rewards/repetition_penalty_reward": -0.024763552471995354,
-      "rewards/tag_count_reward": 0.7916666865348816,
+      "completion_length": 510.29168701171875,
+      "epoch": 0.9442815249266863,
+      "grad_norm": 10.502662630078762,
+      "kl": 1.193359375,
+      "learning_rate": 1.084927728871733e-07,
+      "loss": 0.2169,
+      "reward": 2.1598105430603027,
+      "reward_std": 0.26580096036195755,
+      "rewards/accuracy_reward": 0.22916667722165585,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.029425671324133873,
+      "rewards/tag_count_reward": 0.9739583730697632,
       "step": 1288
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.4791717529297,
-      "epoch": 0.6445,
-      "grad_norm": 8.66946655884018,
-      "kl": 1.9375,
-      "learning_rate": 4.042371618108329e-07,
-      "loss": -0.0738,
-      "reward": 2.5021121501922607,
-      "reward_std": 0.7234326303005219,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.029137907549738884,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 533.1250152587891,
+      "epoch": 0.9450146627565983,
+      "grad_norm": 13.347926029552143,
+      "kl": 2.462890625,
+      "learning_rate": 1.0827143193471942e-07,
+      "loss": 0.5006,
+      "reward": 2.7681411504745483,
+      "reward_std": 0.380189748480916,
+      "rewards/accuracy_reward": 0.8958333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03915059007704258,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1289
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 258.39583587646484,
-      "epoch": 0.645,
-      "grad_norm": 6.507177763175018,
-      "kl": 2.046875,
-      "learning_rate": 4.034943304942796e-07,
-      "loss": -0.1071,
-      "reward": 2.659383535385132,
-      "reward_std": 0.7204856872558594,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.021172089502215385,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 476.1875,
+      "epoch": 0.9457478005865103,
+      "grad_norm": 9.069726802816593,
+      "kl": 0.8916015625,
+      "learning_rate": 1.0805298676430476e-07,
+      "loss": 0.2142,
+      "reward": 2.1827036142349243,
+      "reward_std": 0.17475424334406853,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.02562977932393551,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1290
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 269.87500762939453,
-      "epoch": 0.6455,
-      "grad_norm": 8.84789787566044,
-      "kl": 1.96484375,
-      "learning_rate": 4.027519454594033e-07,
-      "loss": -0.0137,
-      "reward": 2.724217653274536,
-      "reward_std": 0.6305935382843018,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.022310104221105576,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 453.04168701171875,
+      "epoch": 0.9464809384164223,
+      "grad_norm": 19.11237742206637,
+      "kl": 1.53515625,
+      "learning_rate": 1.0783743880796175e-07,
+      "loss": 0.4172,
+      "reward": 2.1592122316360474,
+      "reward_std": 0.33645743131637573,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.03523235023021698,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1291
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.14584350585938,
-      "epoch": 0.646,
-      "grad_norm": 54.434135625320714,
-      "kl": 7.625,
-      "learning_rate": 4.020100089676376e-07,
-      "loss": 0.0351,
-      "reward": 2.350663661956787,
-      "reward_std": 0.5377750098705292,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.015656011179089546,
-      "rewards/tag_count_reward": 0.8385416865348816,
+      "completion_length": 408.7083435058594,
+      "epoch": 0.9472140762463344,
+      "grad_norm": 8.358380076378197,
+      "kl": 1.1708984375,
+      "learning_rate": 1.0762478947872983e-07,
+      "loss": 0.0129,
+      "reward": 2.4570391178131104,
+      "reward_std": 0.08680337062105536,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.02039137203246355,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1292
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.37500762939453,
-      "epoch": 0.6465,
-      "grad_norm": 36.29934720854378,
-      "kl": 9.203125,
-      "learning_rate": 4.012685232790497e-07,
-      "loss": -0.1163,
-      "reward": 2.269049644470215,
-      "reward_std": 0.7809967696666718,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.017408739775419235,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 531.0000305175781,
+      "epoch": 0.9479472140762464,
+      "grad_norm": 19.714536710646975,
+      "kl": 2.4140625,
+      "learning_rate": 1.0741504017064627e-07,
+      "loss": 0.4306,
+      "reward": 2.0773446559906006,
+      "reward_std": 0.4128805547952652,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.02161379996687174,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 1293
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 326.56251525878906,
-      "epoch": 0.647,
-      "grad_norm": 13.353341754245465,
-      "kl": 1.373046875,
-      "learning_rate": 4.005274906523336e-07,
-      "loss": -0.0158,
-      "reward": 2.862304449081421,
-      "reward_std": 0.2681258460506797,
-      "rewards/accuracy_reward": 0.9375,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03700113669037819,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 552.2083435058594,
+      "epoch": 0.9486803519061584,
+      "grad_norm": 16.131634788364266,
+      "kl": 1.17578125,
+      "learning_rate": 1.0720819225873714e-07,
+      "loss": 0.5132,
+      "reward": 2.111280918121338,
+      "reward_std": 0.29894164204597473,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9652778804302216,
+      "rewards/repetition_penalty_reward": -0.04149695113301277,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 1294
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.875,
-      "epoch": 0.6475,
-      "grad_norm": 17.584019029906294,
-      "kl": 4.6484375,
-      "learning_rate": 3.9978691334480306e-07,
-      "loss": -0.026,
-      "reward": 2.621469259262085,
-      "reward_std": 0.6262362897396088,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.022628027945756912,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 630.2916870117188,
+      "epoch": 0.9494134897360704,
+      "grad_norm": 18.93383557304818,
+      "kl": 1.9453125,
+      "learning_rate": 1.0700424709900813e-07,
+      "loss": 0.4087,
+      "reward": 2.7276880741119385,
+      "reward_std": 0.521675705909729,
+      "rewards/accuracy_reward": 0.8750000298023224,
+      "rewards/reasoning_steps_reward": 0.958333432674408,
+      "rewards/repetition_penalty_reward": -0.04314529709517956,
+      "rewards/tag_count_reward": 0.9375,
       "step": 1295
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 264.25000762939453,
-      "epoch": 0.648,
-      "grad_norm": 20.539771262644624,
-      "kl": 2.46484375,
-      "learning_rate": 3.9904679361238526e-07,
-      "loss": -0.0646,
-      "reward": 2.5812262296676636,
-      "reward_std": 0.40000835061073303,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.019468236714601517,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 421.2083435058594,
+      "epoch": 0.9501466275659824,
+      "grad_norm": 11.487695498130753,
+      "kl": 0.4814453125,
+      "learning_rate": 1.0680320602843588e-07,
+      "loss": 0.0643,
+      "reward": 1.978863000869751,
+      "reward_std": 0.008737085154280066,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0211369963362813,
+      "rewards/tag_count_reward": 1.0,
       "step": 1296
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.3125,
-      "epoch": 0.6485,
-      "grad_norm": 12.020081562329604,
-      "kl": 1.96875,
-      "learning_rate": 3.9830713370961313e-07,
-      "loss": 0.0126,
-      "reward": 2.7614296674728394,
-      "reward_std": 0.3552953898906708,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.01287601888179779,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 410.9583435058594,
+      "epoch": 0.9508797653958945,
+      "grad_norm": 9.690609279712593,
+      "kl": 0.546875,
+      "learning_rate": 1.0660507036495882e-07,
+      "loss": 0.1067,
+      "reward": 2.6800166368484497,
+      "reward_std": 0.18910772260278463,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.01963624032214284,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1297
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 250.25001525878906,
-      "epoch": 0.649,
-      "grad_norm": 7.055794372513674,
-      "kl": 1.11328125,
-      "learning_rate": 3.975679358896189e-07,
-      "loss": -0.0177,
-      "reward": 2.7628384828567505,
-      "reward_std": 0.35927814757451415,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.027092115953564644,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "completion_length": 407.93751525878906,
+      "epoch": 0.9516129032258065,
+      "grad_norm": 7.924204047826416,
+      "kl": 0.59375,
+      "learning_rate": 1.0640984140746907e-07,
+      "loss": 0.0238,
+      "reward": 2.7067856788635254,
+      "reward_std": 0.0974614720325917,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01717284694314003,
+      "rewards/tag_count_reward": 0.9947916865348816,
       "step": 1298
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.70834350585938,
-      "epoch": 0.6495,
-      "grad_norm": 10.528185417792633,
-      "kl": 1.76953125,
-      "learning_rate": 3.968292024041275e-07,
-      "loss": -0.1546,
-      "reward": 2.3756613731384277,
-      "reward_std": 0.7093529403209686,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.8472222089767456,
-      "rewards/repetition_penalty_reward": -0.018436014652252197,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 468.54168701171875,
+      "epoch": 0.9523460410557185,
+      "grad_norm": 17.894742340360352,
+      "kl": 0.787109375,
+      "learning_rate": 1.0621752043580337e-07,
+      "loss": 0.151,
+      "reward": 2.209893822669983,
+      "reward_std": 0.06893100775778294,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02448125835508108,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1299
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.25,
-      "epoch": 0.65,
-      "grad_norm": 13.557597077977892,
-      "kl": 2.1328125,
-      "learning_rate": 3.9609093550344907e-07,
-      "loss": -0.0656,
-      "reward": 2.1020314693450928,
-      "reward_std": 0.7527401447296143,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.8680556118488312,
-      "rewards/repetition_penalty_reward": -0.02644097339361906,
-      "rewards/tag_count_reward": 0.8645833432674408,
+      "completion_length": 468.31251525878906,
+      "epoch": 0.9530791788856305,
+      "grad_norm": 33.42783345561901,
+      "kl": 1.515625,
+      "learning_rate": 1.0602810871073524e-07,
+      "loss": 0.4529,
+      "reward": 2.6334890127182007,
+      "reward_std": 0.3280341923236847,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.031441716477274895,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1300
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.0208435058594,
-      "epoch": 0.6505,
-      "grad_norm": 5.083335577912237,
-      "kl": 0.4794921875,
-      "learning_rate": 3.953531374364728e-07,
-      "loss": 0.0102,
-      "reward": 2.6702791452407837,
-      "reward_std": 0.36818480491638184,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03284592926502228,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "completion_length": 500.6458435058594,
+      "epoch": 0.9538123167155426,
+      "grad_norm": 13.936654154401653,
+      "kl": 2.8125,
+      "learning_rate": 1.0584160747396613e-07,
+      "loss": 0.6693,
+      "reward": 2.0740148425102234,
+      "reward_std": 0.44181716442108154,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.04230464622378349,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 1301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 283.6875,
-      "epoch": 0.651,
-      "grad_norm": 7.37275238994372,
-      "kl": 1.07421875,
-      "learning_rate": 3.946158104506594e-07,
-      "loss": -0.0573,
-      "reward": 2.6404601335525513,
-      "reward_std": 0.5752403140068054,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.029678759165108204,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 367.6041717529297,
+      "epoch": 0.9545454545454546,
+      "grad_norm": 9.041598291124687,
+      "kl": 0.658203125,
+      "learning_rate": 1.0565801794811783e-07,
+      "loss": 0.0691,
+      "reward": 2.9332125186920166,
+      "reward_std": 0.1549149751663208,
+      "rewards/accuracy_reward": 0.9583333730697632,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02512078545987606,
+      "rewards/tag_count_reward": 1.0,
       "step": 1302
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 263.7291717529297,
-      "epoch": 0.6515,
-      "grad_norm": 6.525040125531069,
-      "kl": 2.5,
-      "learning_rate": 3.938789567920349e-07,
-      "loss": -0.0352,
-      "reward": 2.368511199951172,
-      "reward_std": 0.5849394798278809,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.02211400307714939,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "completion_length": 453.00001525878906,
+      "epoch": 0.9552785923753666,
+      "grad_norm": 20.85958631389929,
+      "kl": 0.888671875,
+      "learning_rate": 1.0547734133672415e-07,
+      "loss": 0.2331,
+      "reward": 2.6373571157455444,
+      "reward_std": 0.314850315451622,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.03104559425264597,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1303
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.2916717529297,
-      "epoch": 0.652,
-      "grad_norm": 13.454959697482677,
-      "kl": 2.1875,
-      "learning_rate": 3.931425787051832e-07,
-      "loss": -0.0314,
-      "reward": 2.6546378135681152,
-      "reward_std": 0.6842877864837646,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.012028906028717756,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "completion_length": 422.4375,
+      "epoch": 0.9560117302052786,
+      "grad_norm": 5.871158172325361,
+      "kl": 0.728515625,
+      "learning_rate": 1.0529957882422293e-07,
+      "loss": 0.0489,
+      "reward": 2.234027624130249,
+      "reward_std": 0.007591208443045616,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.015972347930073738,
+      "rewards/tag_count_reward": 1.0,
       "step": 1304
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.8541793823242,
-      "epoch": 0.6525,
-      "grad_norm": 28.026859752832458,
-      "kl": 5.671875,
-      "learning_rate": 3.924066784332396e-07,
-      "loss": -0.1091,
-      "reward": 2.2767953872680664,
-      "reward_std": 0.6093401312828064,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.8750000298023224,
-      "rewards/repetition_penalty_reward": -0.025287946220487356,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 431.7916717529297,
+      "epoch": 0.9567448680351907,
+      "grad_norm": 9.173786941390691,
+      "kl": 1.23046875,
+      "learning_rate": 1.0512473157594867e-07,
+      "loss": 0.2378,
+      "reward": 1.9633594751358032,
+      "reward_std": 0.07479000370949507,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02101556584239006,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1305
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.56250762939453,
-      "epoch": 0.653,
-      "grad_norm": 18.361877129436802,
-      "kl": 2.220703125,
-      "learning_rate": 3.9167125821788416e-07,
-      "loss": -0.0351,
-      "reward": 2.4435291290283203,
-      "reward_std": 0.3841914087533951,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.011332074645906687,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 501.87501525878906,
+      "epoch": 0.9574780058651027,
+      "grad_norm": 24.293729166843942,
+      "kl": 1.845703125,
+      "learning_rate": 1.0495280073812452e-07,
+      "loss": 0.2547,
+      "reward": 2.377333641052246,
+      "reward_std": 0.2659803181886673,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.020235841162502766,
+      "rewards/tag_count_reward": 0.9322916865348816,
       "step": 1306
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 274.87501525878906,
-      "epoch": 0.6535,
-      "grad_norm": 9.18937969115552,
-      "kl": 2.7890625,
-      "learning_rate": 3.909363202993343e-07,
-      "loss": -0.053,
-      "reward": 2.573843240737915,
-      "reward_std": 0.5460654944181442,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.02685134019702673,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 428.75,
+      "epoch": 0.9582111436950147,
+      "grad_norm": 8.978838251394835,
+      "kl": 1.2578125,
+      "learning_rate": 1.0478378743785488e-07,
+      "loss": 0.0763,
+      "reward": 2.881321907043457,
+      "reward_std": 0.2719968855381012,
+      "rewards/accuracy_reward": 0.9166666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02492798399180174,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1307
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 239.64584350585938,
-      "epoch": 0.654,
-      "grad_norm": 9.701372830225981,
-      "kl": 2.421875,
-      "learning_rate": 3.902018669163384e-07,
-      "loss": -0.0271,
-      "reward": 2.419216573238373,
-      "reward_std": 0.44797763228416443,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.007866791682317853,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 438.4583435058594,
+      "epoch": 0.9589442815249267,
+      "grad_norm": 11.981739176953312,
+      "kl": 0.87109375,
+      "learning_rate": 1.0461769278311814e-07,
+      "loss": 0.0627,
+      "reward": 2.2008538246154785,
+      "reward_std": 0.11611452978104353,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01789623498916626,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1308
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 287.66668701171875,
-      "epoch": 0.6545,
-      "grad_norm": 6.341395491310268,
-      "kl": 1.55078125,
-      "learning_rate": 3.894679003061686e-07,
-      "loss": -0.0434,
-      "reward": 2.7170095443725586,
-      "reward_std": 0.5187918990850449,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.027782058343291283,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 397.3958435058594,
+      "epoch": 0.9596774193548387,
+      "grad_norm": 17.04000369636799,
+      "kl": 2.03515625,
+      "learning_rate": 1.0445451786275917e-07,
+      "loss": 0.0789,
+      "reward": 2.6977003812789917,
+      "reward_std": 0.24708323180675507,
+      "rewards/accuracy_reward": 0.7500000298023224,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.022785856388509274,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1309
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 279.10418701171875,
-      "epoch": 0.655,
-      "grad_norm": 4.622903893254928,
-      "kl": 0.580078125,
-      "learning_rate": 3.8873442270461485e-07,
-      "loss": -0.0032,
-      "reward": 2.8831721544265747,
-      "reward_std": 0.2194080576300621,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.01613345229998231,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 401.9583435058594,
+      "epoch": 0.9604105571847508,
+      "grad_norm": 15.440879775642438,
+      "kl": 1.908203125,
+      "learning_rate": 1.0429426374648246e-07,
+      "loss": 0.0467,
+      "reward": 2.4519360065460205,
+      "reward_std": 0.11012615030631423,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.01855024415999651,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1310
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.56250762939453,
-      "epoch": 0.6555,
-      "grad_norm": 6.403895926939174,
-      "kl": 1.96875,
-      "learning_rate": 3.88001436345977e-07,
-      "loss": -0.0914,
-      "reward": 2.64253830909729,
-      "reward_std": 0.5459905564785004,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.015447880607098341,
-      "rewards/tag_count_reward": 0.9427083730697632,
+      "completion_length": 474.8333435058594,
+      "epoch": 0.9611436950146628,
+      "grad_norm": 63.444012755191835,
+      "kl": 5.65625,
+      "learning_rate": 1.0413693148484486e-07,
+      "loss": 0.4911,
+      "reward": 2.6069284677505493,
+      "reward_std": 0.26500143855810165,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.01980782952159643,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 1311
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 254.02083587646484,
-      "epoch": 0.656,
-      "grad_norm": 4.624188058528878,
-      "kl": 1.1171875,
-      "learning_rate": 3.872689434630585e-07,
-      "loss": -0.0328,
-      "reward": 2.666394829750061,
-      "reward_std": 0.4922281354665756,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02110534254461527,
+      "completion_length": 477.2083435058594,
+      "epoch": 0.9618768328445748,
+      "grad_norm": 16.284465114202774,
+      "kl": 1.77734375,
+      "learning_rate": 1.0398252210924889e-07,
+      "loss": 0.4078,
+      "reward": 2.1387650966644287,
+      "reward_std": 0.26892125606536865,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111640930176,
+      "rewards/repetition_penalty_reward": -0.03484594263136387,
       "rewards/tag_count_reward": 0.9583333432674408,
       "step": 1312
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.8541717529297,
-      "epoch": 0.6565,
-      "grad_norm": 10.421845265889829,
-      "kl": 0.916015625,
-      "learning_rate": 3.8653694628715984e-07,
-      "loss": -0.0879,
-      "reward": 2.8016003370285034,
-      "reward_std": 0.5981872081756592,
-      "rewards/accuracy_reward": 0.8958333432674408,
+      "completion_length": 612.6666870117188,
+      "epoch": 0.9626099706744868,
+      "grad_norm": 57.44133112793273,
+      "kl": 5.65625,
+      "learning_rate": 1.0383103663193576e-07,
+      "loss": 1.1269,
+      "reward": 2.1499454975128174,
+      "reward_std": 0.6474978625774384,
+      "rewards/accuracy_reward": 0.375,
       "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.010899642948061228,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.05838798172771931,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 1313
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.02084350585938,
-      "epoch": 0.657,
-      "grad_norm": 10.523509449540256,
-      "kl": 2.55859375,
-      "learning_rate": 3.8580544704807117e-07,
-      "loss": -0.0991,
-      "reward": 2.440296769142151,
-      "reward_std": 0.6269799470901489,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.012828361243009567,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 432.6041717529297,
+      "epoch": 0.9633431085043989,
+      "grad_norm": 11.55554991626459,
+      "kl": 1.234375,
+      "learning_rate": 1.0368247604597903e-07,
+      "loss": 0.2578,
+      "reward": 2.634058356285095,
+      "reward_std": 0.2719671204686165,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022191734984517097,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1314
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 251.89583587646484,
-      "epoch": 0.6575,
-      "grad_norm": 21.647956275310747,
-      "kl": 3.4375,
-      "learning_rate": 3.850744479740663e-07,
-      "loss": -0.0654,
-      "reward": 2.577293634414673,
-      "reward_std": 0.5918062180280685,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.018192541785538197,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 564.7291717529297,
+      "epoch": 0.9640762463343109,
+      "grad_norm": 35.946046250598904,
+      "kl": 2.578125,
+      "learning_rate": 1.0353684132527778e-07,
+      "loss": 0.5811,
+      "reward": 2.1190367937088013,
+      "reward_std": 0.24303436279296875,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.05283825471997261,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 1315
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.00000762939453,
-      "epoch": 0.658,
-      "grad_norm": 63.82832688411775,
-      "kl": 7.328125,
-      "learning_rate": 3.843439512918949e-07,
-      "loss": 0.0124,
-      "reward": 1.5498919486999512,
-      "reward_std": 0.5158031135797501,
-      "rewards/accuracy_reward": 0.0416666679084301,
-      "rewards/reasoning_steps_reward": 0.7638889253139496,
-      "rewards/repetition_penalty_reward": -0.016080408822745085,
-      "rewards/tag_count_reward": 0.7604166865348816,
+      "completion_length": 486.5833435058594,
+      "epoch": 0.9648093841642229,
+      "grad_norm": 13.375233254984911,
+      "kl": 1.296875,
+      "learning_rate": 1.0339413342455055e-07,
+      "loss": 0.4354,
+      "reward": 2.1532533764839172,
+      "reward_std": 0.19535775389522314,
+      "rewards/accuracy_reward": 0.27083333395421505,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03251057770103216,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 1316
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.0625,
-      "epoch": 0.6585,
-      "grad_norm": 6.870792569824665,
-      "kl": 2.2265625,
-      "learning_rate": 3.8361395922677687e-07,
-      "loss": -0.1222,
-      "reward": 2.7788249254226685,
-      "reward_std": 0.597758024930954,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.012841662392020226,
-      "rewards/tag_count_reward": 0.9583333730697632,
+      "completion_length": 481.8541717529297,
+      "epoch": 0.9655425219941349,
+      "grad_norm": 82.3335585692892,
+      "kl": 1.66796875,
+      "learning_rate": 1.0325435327932868e-07,
+      "loss": 0.3158,
+      "reward": 2.188454806804657,
+      "reward_std": 0.14728715340606868,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.019878730177879333,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1317
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.00001525878906,
-      "epoch": 0.659,
-      "grad_norm": 12.883962513964198,
-      "kl": 2.453125,
-      "learning_rate": 3.8288447400239443e-07,
-      "loss": -0.0232,
-      "reward": 2.208429753780365,
-      "reward_std": 0.39593251049518585,
-      "rewards/accuracy_reward": 0.3541666679084301,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.025945200584828854,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 515.0208435058594,
+      "epoch": 0.966275659824047,
+      "grad_norm": 8.842073408230645,
+      "kl": 1.07421875,
+      "learning_rate": 1.0311750180595063e-07,
+      "loss": 0.3922,
+      "reward": 2.0934900045394897,
+      "reward_std": 0.36611997336149216,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.034982199780642986,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1318
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 271.18751525878906,
-      "epoch": 0.6595,
-      "grad_norm": 11.437028269960171,
-      "kl": 2.12109375,
-      "learning_rate": 3.82155497840886e-07,
-      "loss": -0.0909,
-      "reward": 2.5074195861816406,
-      "reward_std": 0.697433352470398,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.015149833634495735,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "completion_length": 467.0416717529297,
+      "epoch": 0.967008797653959,
+      "grad_norm": 14.852296919095123,
+      "kl": 1.8115234375,
+      "learning_rate": 1.0298357990155564e-07,
+      "loss": 0.1998,
+      "reward": 2.190988779067993,
+      "reward_std": 0.24773601721972227,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.022552933543920517,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1319
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.72917938232422,
-      "epoch": 0.66,
-      "grad_norm": 15.92814404052159,
-      "kl": 3.4296875,
-      "learning_rate": 3.8142703296283953e-07,
-      "loss": -0.0835,
-      "reward": 2.2199000120162964,
-      "reward_std": 0.7194198369979858,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.02836394216865301,
-      "rewards/tag_count_reward": 0.8802083432674408,
+      "completion_length": 404.7708435058594,
+      "epoch": 0.967741935483871,
+      "grad_norm": 6.1793249158960855,
+      "kl": 0.384765625,
+      "learning_rate": 1.0285258844407792e-07,
+      "loss": 0.033,
+      "reward": 2.462868571281433,
+      "reward_std": 0.08148548658937216,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01629808358848095,
+      "rewards/tag_count_reward": 1.0,
       "step": 1320
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.8541717529297,
-      "epoch": 0.6605,
-      "grad_norm": 21.139528290510924,
-      "kl": 4.59375,
-      "learning_rate": 3.806990815872855e-07,
-      "loss": -0.0918,
-      "reward": 2.3190531730651855,
-      "reward_std": 0.38901272416114807,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.010808073915541172,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 461.1458435058594,
+      "epoch": 0.968475073313783,
+      "grad_norm": 9.003767777901873,
+      "kl": 0.8037109375,
+      "learning_rate": 1.0272452829224101e-07,
+      "loss": 0.2078,
+      "reward": 2.176120936870575,
+      "reward_std": 0.1836662571877241,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.030476349405944347,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1321
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.95834350585938,
-      "epoch": 0.661,
-      "grad_norm": 8.548692602029842,
-      "kl": 2.4921875,
-      "learning_rate": 3.7997164593168983e-07,
-      "loss": -0.062,
-      "reward": 2.5779298543930054,
-      "reward_std": 0.7175216972827911,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.022764576133340597,
-      "rewards/tag_count_reward": 0.8854166865348816,
+      "completion_length": 433.4583435058594,
+      "epoch": 0.969208211143695,
+      "grad_norm": 13.03765997652474,
+      "kl": 1.515625,
+      "learning_rate": 1.025994002855521e-07,
+      "loss": 0.2286,
+      "reward": 2.6289268732070923,
+      "reward_std": 0.23047233279794455,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.03253147657960653,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1322
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.06250762939453,
-      "epoch": 0.6615,
-      "grad_norm": 8.538300938371009,
-      "kl": 1.42578125,
-      "learning_rate": 3.7924472821194765e-07,
-      "loss": -0.1421,
-      "reward": 2.6461488008499146,
-      "reward_std": 0.7617769837379456,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.018781788181513548,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 482.7708435058594,
+      "epoch": 0.9699413489736071,
+      "grad_norm": 20.321561708883095,
+      "kl": 2.59375,
+      "learning_rate": 1.024772052442964e-07,
+      "loss": 0.3407,
+      "reward": 2.7547218799591064,
+      "reward_std": 0.471389040350914,
+      "rewards/accuracy_reward": 0.8958333730697632,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.0438892375677824,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 1323
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.62500762939453,
-      "epoch": 0.662,
-      "grad_norm": 10.10993358277435,
-      "kl": 1.47265625,
-      "learning_rate": 3.785183306423767e-07,
-      "loss": 0.0362,
-      "reward": 2.4081956148147583,
-      "reward_std": 0.4368290901184082,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.010207333602011204,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 455.4375,
+      "epoch": 0.9706744868035191,
+      "grad_norm": 4.241229172746372,
+      "kl": 0.3759765625,
+      "learning_rate": 1.02357943969532e-07,
+      "loss": 0.0252,
+      "reward": 2.7372305393218994,
+      "reward_std": 0.00828889012336731,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.012769339140504599,
+      "rewards/tag_count_reward": 1.0,
       "step": 1324
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 243.58334350585938,
-      "epoch": 0.6625,
-      "grad_norm": 6.92812761375714,
-      "kl": 1.0556640625,
-      "learning_rate": 3.777924554357096e-07,
-      "loss": -0.0024,
-      "reward": 2.8137227296829224,
-      "reward_std": 0.41092177480459213,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.02308299019932747,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 449.79168701171875,
+      "epoch": 0.9714076246334311,
+      "grad_norm": 8.59881732463318,
+      "kl": 1.044921875,
+      "learning_rate": 1.0224161724308424e-07,
+      "loss": 0.1959,
+      "reward": 2.18610417842865,
+      "reward_std": 0.1191612258553505,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.023965245112776756,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1325
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.8333435058594,
-      "epoch": 0.663,
-      "grad_norm": 7.315502843369173,
-      "kl": 2.02734375,
-      "learning_rate": 3.7706710480308835e-07,
-      "loss": -0.1371,
-      "reward": 2.6259608268737793,
-      "reward_std": 0.6581228971481323,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.03549747634679079,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 444.5208435058594,
+      "epoch": 0.9721407624633431,
+      "grad_norm": 15.822434043127465,
+      "kl": 0.62109375,
+      "learning_rate": 1.0212822582754111e-07,
+      "loss": 0.2747,
+      "reward": 2.4358739852905273,
+      "reward_std": 0.147409213706851,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.034612227231264114,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1326
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 279.2291717529297,
-      "epoch": 0.6635,
-      "grad_norm": 6.63436769667506,
-      "kl": 1.81640625,
-      "learning_rate": 3.7634228095405673e-07,
-      "loss": -0.0385,
-      "reward": 2.8240283727645874,
-      "reward_std": 0.34141383320093155,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.01972164958715439,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 397.375,
+      "epoch": 0.9728739002932552,
+      "grad_norm": 10.88147486521058,
+      "kl": 0.9609375,
+      "learning_rate": 1.0201777046624782e-07,
+      "loss": 0.0638,
+      "reward": 2.4328325986862183,
+      "reward_std": 0.12669185176491737,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.025500833988189697,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1327
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 293.5208435058594,
-      "epoch": 0.664,
-      "grad_norm": 20.757623767950136,
-      "kl": 3.8828125,
-      "learning_rate": 3.7561798609655373e-07,
-      "loss": -0.0051,
-      "reward": 2.598018765449524,
-      "reward_std": 0.724356472492218,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444179534912,
-      "rewards/repetition_penalty_reward": -0.018300842493772507,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 390.2083435058594,
+      "epoch": 0.9736070381231672,
+      "grad_norm": 16.115241449324763,
+      "kl": 0.4658203125,
+      "learning_rate": 1.0191025188330209e-07,
+      "loss": 0.0356,
+      "reward": 2.231991171836853,
+      "reward_std": 0.011185419745743275,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018008952029049397,
+      "rewards/tag_count_reward": 1.0,
       "step": 1328
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 222.7291717529297,
-      "epoch": 0.6645,
-      "grad_norm": 21.24530948252979,
-      "kl": 4.796875,
-      "learning_rate": 3.748942224369073e-07,
-      "loss": -0.0478,
-      "reward": 2.4989744424819946,
-      "reward_std": 0.6526926159858704,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.016650736331939697,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "completion_length": 478.31251525878906,
+      "epoch": 0.9743401759530792,
+      "grad_norm": 18.949099202801406,
+      "kl": 1.4453125,
+      "learning_rate": 1.0180567078354935e-07,
+      "loss": 0.5752,
+      "reward": 2.1427964568138123,
+      "reward_std": 0.2880570739507675,
+      "rewards/accuracy_reward": 0.2291666716337204,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.04123134259134531,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1329
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 251.75001525878906,
-      "epoch": 0.665,
-      "grad_norm": 35.64687506708033,
-      "kl": 6.21875,
-      "learning_rate": 3.7417099217982686e-07,
-      "loss": -0.0819,
-      "reward": 2.379560112953186,
-      "reward_std": 0.7591554820537567,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.881944477558136,
-      "rewards/repetition_penalty_reward": -0.02321775909513235,
-      "rewards/tag_count_reward": 0.8541666865348816,
+      "completion_length": 428.3958435058594,
+      "epoch": 0.9750733137829912,
+      "grad_norm": 7.7299459378810385,
+      "kl": 0.556640625,
+      "learning_rate": 1.0170402785257827e-07,
+      "loss": 0.0326,
+      "reward": 2.7296062707901,
+      "reward_std": 0.010482048150151968,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02039369009435177,
+      "rewards/tag_count_reward": 1.0,
       "step": 1330
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 289.9583435058594,
-      "epoch": 0.6655,
-      "grad_norm": 5.687701052224813,
-      "kl": 2.15234375,
-      "learning_rate": 3.734482975283975e-07,
-      "loss": -0.0797,
-      "reward": 2.6574783325195312,
-      "reward_std": 0.4438095688819885,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.026549477130174637,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 373.47918701171875,
+      "epoch": 0.9758064516129032,
+      "grad_norm": 7.036182974367325,
+      "kl": 0.798828125,
+      "learning_rate": 1.0160532375671602e-07,
+      "loss": 0.0637,
+      "reward": 2.454910397529602,
+      "reward_std": 0.08339553605765104,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.024256338365375996,
+      "rewards/tag_count_reward": 1.0,
       "step": 1331
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 312.4791717529297,
-      "epoch": 0.666,
-      "grad_norm": 5.722398391516816,
-      "kl": 1.5,
-      "learning_rate": 3.72726140684072e-07,
-      "loss": -0.0211,
-      "reward": 2.485495686531067,
-      "reward_std": 0.32544514536857605,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.03186549246311188,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "completion_length": 616.3125305175781,
+      "epoch": 0.9765395894428153,
+      "grad_norm": 23.087064957780417,
+      "kl": 1.5859375,
+      "learning_rate": 1.0150955914302412e-07,
+      "loss": 0.2972,
+      "reward": 2.4457297325134277,
+      "reward_std": 0.4613430858589709,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.04906199872493744,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 1332
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 273.3333435058594,
-      "epoch": 0.6665,
-      "grad_norm": 4.960361026761474,
-      "kl": 0.828125,
-      "learning_rate": 3.720045238466658e-07,
-      "loss": -0.0164,
-      "reward": 2.5775978565216064,
-      "reward_std": 0.36035288870334625,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.021360510494560003,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 441.3541717529297,
+      "epoch": 0.9772727272727273,
+      "grad_norm": 27.7813185862066,
+      "kl": 1.37109375,
+      "learning_rate": 1.0141673463929408e-07,
+      "loss": 0.2585,
+      "reward": 2.4148507118225098,
+      "reward_std": 0.22696854081004858,
+      "rewards/accuracy_reward": 0.4791666716337204,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.027857608161866665,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1333
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.4166717529297,
-      "epoch": 0.667,
-      "grad_norm": 6.897070121071065,
-      "kl": 2.5703125,
-      "learning_rate": 3.712834492143487e-07,
-      "loss": -0.088,
-      "reward": 2.4616823196411133,
-      "reward_std": 0.5930516719818115,
+      "completion_length": 584.9791717529297,
+      "epoch": 0.9780058651026393,
+      "grad_norm": 14.123296378129437,
+      "kl": 1.74609375,
+      "learning_rate": 1.0132685085404337e-07,
+      "loss": 0.5404,
+      "reward": 2.511002779006958,
+      "reward_std": 0.4390052007511258,
       "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.022692805156111717,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.04281671531498432,
+      "rewards/tag_count_reward": 0.9427083432674408,
       "step": 1334
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.16667938232422,
-      "epoch": 0.6675,
-      "grad_norm": 4.566188182751088,
-      "kl": 1.150390625,
-      "learning_rate": 3.7056291898363925e-07,
-      "loss": -0.0822,
-      "reward": 2.779423713684082,
-      "reward_std": 0.4814029037952423,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.013978923205286264,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "completion_length": 448.1458435058594,
+      "epoch": 0.9787390029325513,
+      "grad_norm": 15.585193483352148,
+      "kl": 1.09375,
+      "learning_rate": 1.0123990837651128e-07,
+      "loss": 0.2101,
+      "reward": 2.183935582637787,
+      "reward_std": 0.13025381043553352,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.979166716337204,
+      "rewards/repetition_penalty_reward": -0.029606159776449203,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1335
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.1458435058594,
-      "epoch": 0.668,
-      "grad_norm": 8.6793215256614,
-      "kl": 1.9140625,
-      "learning_rate": 3.6984293534939737e-07,
-      "loss": -0.1695,
-      "reward": 2.448217272758484,
-      "reward_std": 0.7062622308731079,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.02053278312087059,
-      "rewards/tag_count_reward": 0.9270833730697632,
+      "completion_length": 446.81251525878906,
+      "epoch": 0.9794721407624634,
+      "grad_norm": 18.778431032287738,
+      "kl": 1.517578125,
+      "learning_rate": 1.0115590777665522e-07,
+      "loss": 0.3054,
+      "reward": 2.205144762992859,
+      "reward_std": 0.09740199614316225,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01881374605000019,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 1336
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 272.2708435058594,
-      "epoch": 0.6685,
-      "grad_norm": 6.644806226411769,
-      "kl": 1.1875,
-      "learning_rate": 3.69123500504818e-07,
-      "loss": -0.0284,
-      "reward": 2.466250419616699,
-      "reward_std": 0.5085738003253937,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.028541546314954758,
-      "rewards/tag_count_reward": 0.953125,
+      "completion_length": 507.60418701171875,
+      "epoch": 0.9802052785923754,
+      "grad_norm": 11.377846780811359,
+      "kl": 2.37109375,
+      "learning_rate": 1.0107484960514692e-07,
+      "loss": 0.5538,
+      "reward": 2.415365695953369,
+      "reward_std": 0.2122260332107544,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.03428706340491772,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1337
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 270.5416717529297,
-      "epoch": 0.669,
-      "grad_norm": 8.436837507583917,
-      "kl": 1.466796875,
-      "learning_rate": 3.6840461664142444e-07,
-      "loss": -0.0728,
-      "reward": 2.5604257583618164,
-      "reward_std": 0.6860225200653076,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.029852177016437054,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 441.125,
+      "epoch": 0.9809384164222874,
+      "grad_norm": 6.413201892131247,
+      "kl": 0.517578125,
+      "learning_rate": 1.009967343933688e-07,
+      "loss": 0.0587,
+      "reward": 2.2234453558921814,
+      "reward_std": 0.04166480875574052,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.016138038132339716,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1338
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 281.06251525878906,
-      "epoch": 0.6695,
-      "grad_norm": 10.964332836550879,
-      "kl": 1.158203125,
-      "learning_rate": 3.6768628594906193e-07,
-      "loss": -0.0204,
-      "reward": 2.8616209030151367,
-      "reward_std": 0.35454705357551575,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.023795696906745434,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 432.1666717529297,
+      "epoch": 0.9816715542521994,
+      "grad_norm": 13.366893199956893,
+      "kl": 0.5498046875,
+      "learning_rate": 1.0092156265341051e-07,
+      "loss": 0.0339,
+      "reward": 2.7342896461486816,
+      "reward_std": 0.010294946376234293,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.01571043487638235,
+      "rewards/tag_count_reward": 1.0,
       "step": 1339
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.00000762939453,
-      "epoch": 0.67,
-      "grad_norm": 6.098760743160745,
-      "kl": 1.83984375,
-      "learning_rate": 3.6696851061588994e-07,
-      "loss": -0.044,
-      "reward": 2.4193036556243896,
-      "reward_std": 0.4224669486284256,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.014724194537848234,
-      "rewards/tag_count_reward": 0.9270833432674408,
+      "completion_length": 528.2083435058594,
+      "epoch": 0.9824046920821115,
+      "grad_norm": 26.73321311740256,
+      "kl": 2.1796875,
+      "learning_rate": 1.0084933487806555e-07,
+      "loss": 0.132,
+      "reward": 2.178415536880493,
+      "reward_std": 0.24035960249602795,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.036862210370600224,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1340
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 263.6458435058594,
-      "epoch": 0.6705,
-      "grad_norm": 14.11730319397243,
-      "kl": 3.6484375,
-      "learning_rate": 3.6625129282837685e-07,
-      "loss": -0.0756,
-      "reward": 2.5297341346740723,
-      "reward_std": 0.5198619514703751,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.031029692851006985,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 491.04168701171875,
+      "epoch": 0.9831378299120235,
+      "grad_norm": 17.211256661631793,
+      "kl": 1.6953125,
+      "learning_rate": 1.0078005154082807e-07,
+      "loss": 0.5392,
+      "reward": 2.8317149877548218,
+      "reward_std": 0.3898848742246628,
+      "rewards/accuracy_reward": 0.9375000298023224,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.04849330708384514,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1341
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.2708435058594,
-      "epoch": 0.671,
-      "grad_norm": 5.630265152909872,
-      "kl": 1.7578125,
-      "learning_rate": 3.655346347712922e-07,
-      "loss": -0.0712,
-      "reward": 2.448781371116638,
-      "reward_std": 0.4181585758924484,
-      "rewards/accuracy_reward": 0.5625000223517418,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.025177019648253918,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 463.3125,
+      "epoch": 0.9838709677419355,
+      "grad_norm": 17.9294618469925,
+      "kl": 0.806640625,
+      "learning_rate": 1.0071371309588976e-07,
+      "loss": 0.2448,
+      "reward": 2.6838122606277466,
+      "reward_std": 0.1747398329898715,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02278487477451563,
+      "rewards/tag_count_reward": 0.984375,
       "step": 1342
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.9166717529297,
-      "epoch": 0.6715,
-      "grad_norm": 13.132812973478561,
-      "kl": 4.578125,
-      "learning_rate": 3.6481853862770107e-07,
-      "loss": -0.1407,
-      "reward": 2.560381054878235,
-      "reward_std": 0.7369968295097351,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.028160739690065384,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "completion_length": 542.2291870117188,
+      "epoch": 0.9846041055718475,
+      "grad_norm": 14.081741076763183,
+      "kl": 2.796875,
+      "learning_rate": 1.006503199781369e-07,
+      "loss": 0.4648,
+      "reward": 2.298216700553894,
+      "reward_std": 0.4470781087875366,
+      "rewards/accuracy_reward": 0.4166666865348816,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.03338063694536686,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 1343
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.12501525878906,
-      "epoch": 0.672,
-      "grad_norm": 16.153270842061996,
-      "kl": 3.3125,
-      "learning_rate": 3.641030065789562e-07,
-      "loss": -0.173,
-      "reward": 2.4971349239349365,
-      "reward_std": 0.7496102154254913,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.01675412245094776,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "completion_length": 544.0416870117188,
+      "epoch": 0.9853372434017595,
+      "grad_norm": 10.81673080758501,
+      "kl": 2.078125,
+      "learning_rate": 1.0058987260314736e-07,
+      "loss": 0.2835,
+      "reward": 2.3138773441314697,
+      "reward_std": 0.31794362515211105,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.042025452479720116,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 1344
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 254.72917938232422,
-      "epoch": 0.6725,
-      "grad_norm": 13.478278088046087,
-      "kl": 2.83203125,
-      "learning_rate": 3.6338804080469253e-07,
-      "loss": -0.1632,
-      "reward": 2.4378998279571533,
-      "reward_std": 0.7053618729114532,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.013489224947988987,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "completion_length": 562.1458435058594,
+      "epoch": 0.9860703812316716,
+      "grad_norm": 20.449252275235782,
+      "kl": 2.265625,
+      "learning_rate": 1.0053237136718819e-07,
+      "loss": 0.4601,
+      "reward": 1.795183539390564,
+      "reward_std": 0.45035097002983093,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9305556416511536,
+      "rewards/repetition_penalty_reward": -0.05724710505455732,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 1345
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 313.9375,
-      "epoch": 0.673,
-      "grad_norm": 11.718823360410598,
-      "kl": 0.984375,
-      "learning_rate": 3.6267364348281946e-07,
-      "loss": -0.0235,
-      "reward": 2.578608751296997,
-      "reward_std": 0.4408767372369766,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02208577375859022,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "completion_length": 463.3125,
+      "epoch": 0.9868035190615836,
+      "grad_norm": 12.875001769568685,
+      "kl": 1.662109375,
+      "learning_rate": 1.0047781664721258e-07,
+      "loss": 0.252,
+      "reward": 2.38944935798645,
+      "reward_std": 0.32722827047109604,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.023745193146169186,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 1346
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.33333587646484,
-      "epoch": 0.6735,
-      "grad_norm": 6.659825601151128,
-      "kl": 1.31640625,
-      "learning_rate": 3.6195981678951535e-07,
-      "loss": -0.0251,
-      "reward": 2.802467465400696,
-      "reward_std": 0.32479756511747837,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02739358227699995,
-      "rewards/tag_count_reward": 0.96875,
+      "completion_length": 442.1875,
+      "epoch": 0.9875366568914956,
+      "grad_norm": 9.587097766988357,
+      "kl": 0.685546875,
+      "learning_rate": 1.004262088008578e-07,
+      "loss": 0.0343,
+      "reward": 1.9816942811012268,
+      "reward_std": 0.010914890561252832,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.018305765464901924,
+      "rewards/tag_count_reward": 1.0,
       "step": 1347
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.2916793823242,
-      "epoch": 0.674,
-      "grad_norm": 5.94749137911606,
-      "kl": 1.763671875,
-      "learning_rate": 3.612465628992203e-07,
-      "loss": -0.1275,
-      "reward": 2.4290517568588257,
-      "reward_std": 0.6968129873275757,
-      "rewards/accuracy_reward": 0.5833333730697632,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.020601162686944008,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 439.47918701171875,
+      "epoch": 0.9882697947214076,
+      "grad_norm": 7.081412711269489,
+      "kl": 0.919921875,
+      "learning_rate": 1.0037754816644265e-07,
+      "loss": 0.189,
+      "reward": 2.4098252058029175,
+      "reward_std": 0.17200952302664518,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.027674859389662743,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1348
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.43751525878906,
-      "epoch": 0.6745,
-      "grad_norm": 5.403140530841979,
-      "kl": 1.240234375,
-      "learning_rate": 3.60533883984629e-07,
-      "loss": -0.0099,
-      "reward": 2.505295157432556,
-      "reward_std": 0.556377038359642,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.020746564492583275,
-      "rewards/tag_count_reward": 0.921875,
+      "completion_length": 449.3750305175781,
+      "epoch": 0.9890029325513197,
+      "grad_norm": 8.416775160633,
+      "kl": 0.701171875,
+      "learning_rate": 1.003318350629653e-07,
+      "loss": 0.1907,
+      "reward": 2.4872329235076904,
+      "reward_std": 0.1283271312713623,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.023183775134384632,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 1349
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.25,
-      "epoch": 0.675,
-      "grad_norm": 24.75284339330913,
-      "kl": 0.8349609375,
-      "learning_rate": 3.5982178221668533e-07,
-      "loss": -0.0314,
-      "reward": 2.6801000833511353,
-      "reward_std": 0.3536926209926605,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02476109704002738,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "completion_length": 486.7916717529297,
+      "epoch": 0.9897360703812317,
+      "grad_norm": 9.157980739902086,
+      "kl": 0.70703125,
+      "learning_rate": 1.002890697901011e-07,
+      "loss": 0.3773,
+      "reward": 1.9337705969810486,
+      "reward_std": 0.18084391951560974,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02282659476622939,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 1350
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.06251525878906,
-      "epoch": 0.6755,
-      "grad_norm": 7.877722164133154,
-      "kl": 0.8818359375,
-      "learning_rate": 3.591102597645743e-07,
-      "loss": 0.0142,
-      "reward": 2.4543099403381348,
-      "reward_std": 0.3884861320257187,
-      "rewards/accuracy_reward": 0.5625,
+      "completion_length": 470.33335876464844,
+      "epoch": 0.9904692082111437,
+      "grad_norm": 63.26862900641875,
+      "kl": 0.46484375,
+      "learning_rate": 1.0024925262820074e-07,
+      "loss": 0.1247,
+      "reward": 2.6610316038131714,
+      "reward_std": 0.16902299923822284,
+      "rewards/accuracy_reward": 0.7083333432674408,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.014439986553043127,
-      "rewards/tag_count_reward": 0.90625,
+      "rewards/repetition_penalty_reward": -0.02646848652511835,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1351
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 305.60418701171875,
-      "epoch": 0.676,
-      "grad_norm": 9.392382547183344,
-      "kl": 0.9609375,
-      "learning_rate": 3.5839931879571725e-07,
-      "loss": 0.0275,
-      "reward": 2.4401715993881226,
-      "reward_std": 0.32545991241931915,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.0337868882343173,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "completion_length": 430.7916717529297,
+      "epoch": 0.9912023460410557,
+      "grad_norm": 7.50035566920925,
+      "kl": 0.78515625,
+      "learning_rate": 1.0021238383828834e-07,
+      "loss": 0.2537,
+      "reward": 2.181891918182373,
+      "reward_std": 0.17814004700630903,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.026441490277647972,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 1352
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.87501525878906,
-      "epoch": 0.6765,
-      "grad_norm": 7.560942470949891,
-      "kl": 1.6328125,
-      "learning_rate": 3.5768896147576344e-07,
-      "loss": -0.0042,
-      "reward": 2.3383556604385376,
-      "reward_std": 0.6181593537330627,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.02796376869082451,
-      "rewards/tag_count_reward": 0.9218750298023224,
+      "completion_length": 487.2500305175781,
+      "epoch": 0.9919354838709677,
+      "grad_norm": 16.736728648194653,
+      "kl": 2.486328125,
+      "learning_rate": 1.0017846366205987e-07,
+      "loss": 0.4959,
+      "reward": 2.3572378158569336,
+      "reward_std": 0.33005889039486647,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.028178916312754154,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 1353
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.2708435058594,
-      "epoch": 0.677,
-      "grad_norm": 6.137807981682768,
-      "kl": 1.51171875,
-      "learning_rate": 3.5697918996858443e-07,
-      "loss": 0.0373,
-      "reward": 2.459334135055542,
-      "reward_std": 0.5140793472528458,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02156880311667919,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1354
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.35418701171875,
-      "epoch": 0.6775,
-      "grad_norm": 18.4925775719971,
-      "kl": 1.98046875,
-      "learning_rate": 3.5627000643626704e-07,
-      "loss": 0.0317,
-      "reward": 2.6040374040603638,
-      "reward_std": 0.40690936520695686,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02096256148070097,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1355
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.25,
-      "epoch": 0.678,
-      "grad_norm": 32.05231705546735,
-      "kl": 2.2890625,
-      "learning_rate": 3.555614130391079e-07,
-      "loss": -0.1021,
-      "reward": 2.4450795650482178,
-      "reward_std": 0.5791552066802979,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.02887882199138403,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1356
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.81251525878906,
-      "epoch": 0.6785,
-      "grad_norm": 11.77786900698309,
-      "kl": 1.3203125,
-      "learning_rate": 3.5485341193560503e-07,
-      "loss": -0.0302,
-      "reward": 2.523303985595703,
-      "reward_std": 0.5757817924022675,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.04093226231634617,
-      "rewards/tag_count_reward": 0.8697916865348816,
-      "step": 1357
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.8541717529297,
-      "epoch": 0.679,
-      "grad_norm": 5.649915735065612,
-      "kl": 0.642578125,
-      "learning_rate": 3.5414600528245266e-07,
-      "loss": 0.0445,
-      "reward": 2.7024723291397095,
-      "reward_std": 0.05420066323131323,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03711113706231117,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1358
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.7916717529297,
-      "epoch": 0.6795,
-      "grad_norm": 5.052148500574189,
-      "kl": 1.94140625,
-      "learning_rate": 3.534391952345341e-07,
-      "loss": -0.2133,
-      "reward": 2.543895125389099,
-      "reward_std": 0.7587614357471466,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9166667461395264,
-      "rewards/repetition_penalty_reward": -0.023813419975340366,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1359
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 235.64584350585938,
-      "epoch": 0.68,
-      "grad_norm": 19.199009856910283,
-      "kl": 3.46875,
-      "learning_rate": 3.5273298394491515e-07,
-      "loss": -0.0754,
-      "reward": 1.7231401801109314,
-      "reward_std": 0.5748586058616638,
-      "rewards/accuracy_reward": 0.125,
-      "rewards/reasoning_steps_reward": 0.8611111342906952,
-      "rewards/repetition_penalty_reward": -0.023387585766613483,
-      "rewards/tag_count_reward": 0.7604166865348816,
-      "step": 1360
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 236.62500762939453,
-      "epoch": 0.6805,
-      "grad_norm": 6.3532586709420995,
-      "kl": 2.1875,
-      "learning_rate": 3.5202737356483816e-07,
-      "loss": -0.1683,
-      "reward": 2.469906449317932,
-      "reward_std": 0.6009674370288849,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.02314911223948002,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1361
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.1666717529297,
-      "epoch": 0.681,
-      "grad_norm": 6.5401180752318036,
-      "kl": 2.05078125,
-      "learning_rate": 3.513223662437147e-07,
-      "loss": -0.1042,
-      "reward": 2.417715549468994,
-      "reward_std": 0.5224019438028336,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.028464973904192448,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1362
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 263.5833435058594,
-      "epoch": 0.6815,
-      "grad_norm": 6.66636418634202,
-      "kl": 1.2109375,
-      "learning_rate": 3.5061796412911913e-07,
-      "loss": -0.0175,
-      "reward": 2.8467352390289307,
-      "reward_std": 0.4228966236114502,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.016112081240862608,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1363
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 288.7083435058594,
-      "epoch": 0.682,
-      "grad_norm": 5.548234698164087,
-      "kl": 0.7255859375,
-      "learning_rate": 3.4991416936678276e-07,
-      "loss": 0.0183,
-      "reward": 2.5735777616500854,
-      "reward_std": 0.2825750932097435,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.0288529209792614,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1364
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 302.5208435058594,
-      "epoch": 0.6825,
-      "grad_norm": 7.01523336912401,
-      "kl": 1.494140625,
-      "learning_rate": 3.49210984100586e-07,
-      "loss": -0.0757,
-      "reward": 2.2636520862579346,
-      "reward_std": 0.5402050614356995,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.02627858892083168,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1365
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.4375,
-      "epoch": 0.683,
-      "grad_norm": 10.223491193197818,
-      "kl": 2.58203125,
-      "learning_rate": 3.4850841047255364e-07,
-      "loss": 0.0061,
-      "reward": 2.299806833267212,
-      "reward_std": 0.5171876847743988,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.01963762380182743,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1366
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.25,
-      "epoch": 0.6835,
-      "grad_norm": 3.9777954578862067,
-      "kl": 0.681640625,
-      "learning_rate": 3.4780645062284665e-07,
-      "loss": 0.049,
-      "reward": 2.467653274536133,
-      "reward_std": 0.14734814129769802,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.025402450934052467,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1367
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 299.4791717529297,
-      "epoch": 0.684,
-      "grad_norm": 7.507696165222269,
-      "kl": 1.6875,
-      "learning_rate": 3.471051066897562e-07,
-      "loss": -0.0996,
-      "reward": 2.167901575565338,
-      "reward_std": 0.4075617045164108,
-      "rewards/accuracy_reward": 0.2916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.024806811474263668,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1368
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 264.7083435058594,
-      "epoch": 0.6845,
-      "grad_norm": 6.142733918004118,
-      "kl": 2.0546875,
-      "learning_rate": 3.4640438080969773e-07,
-      "loss": -0.1285,
-      "reward": 2.334149956703186,
-      "reward_std": 0.4152573347091675,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.02175288973376155,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1369
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 281.2708435058594,
-      "epoch": 0.685,
-      "grad_norm": 19.072228574321905,
-      "kl": 2.3271484375,
-      "learning_rate": 3.45704275117204e-07,
-      "loss": 0.064,
-      "reward": 2.5171972513198853,
-      "reward_std": 0.44150757789611816,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.03141411580145359,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1370
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 287.72918701171875,
-      "epoch": 0.6855,
-      "grad_norm": 3.7189442550634975,
-      "kl": 0.521484375,
-      "learning_rate": 3.450047917449181e-07,
-      "loss": 0.0285,
-      "reward": 2.536484122276306,
-      "reward_std": 0.20072168111801147,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02601606771349907,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1371
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 248.20833587646484,
-      "epoch": 0.686,
-      "grad_norm": 7.372964659791776,
-      "kl": 1.83984375,
-      "learning_rate": 3.4430593282358777e-07,
-      "loss": -0.0345,
-      "reward": 2.7801530361175537,
-      "reward_std": 0.5550233423709869,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.02540257666260004,
-      "rewards/tag_count_reward": 0.9583333730697632,
-      "step": 1372
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 272.66668701171875,
-      "epoch": 0.6865,
-      "grad_norm": 11.180474899161313,
-      "kl": 1.767578125,
-      "learning_rate": 3.4360770048205843e-07,
-      "loss": 0.0396,
-      "reward": 2.6890029907226562,
-      "reward_std": 0.49107812345027924,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.024538762867450714,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1373
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.4791717529297,
-      "epoch": 0.687,
-      "grad_norm": 7.7693979337518275,
-      "kl": 0.7421875,
-      "learning_rate": 3.429100968472668e-07,
-      "loss": 0.0575,
-      "reward": 2.973837971687317,
-      "reward_std": 0.017366621643304825,
-      "rewards/accuracy_reward": 1.0,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02616224344819784,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1374
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.4166717529297,
-      "epoch": 0.6875,
-      "grad_norm": 3.5163971736947826,
-      "kl": 1.734375,
-      "learning_rate": 3.4221312404423486e-07,
-      "loss": -0.0705,
-      "reward": 2.387254238128662,
-      "reward_std": 0.3396844193339348,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.025940215215086937,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1375
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 270.5208435058594,
-      "epoch": 0.688,
-      "grad_norm": 4.361183296818996,
-      "kl": 0.716796875,
-      "learning_rate": 3.4151678419606233e-07,
-      "loss": 0.007,
-      "reward": 2.502146601676941,
-      "reward_std": 0.3024323433637619,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.02215902181342244,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1376
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 254.18750762939453,
-      "epoch": 0.6885,
-      "grad_norm": 5.83748552522261,
-      "kl": 2.4140625,
-      "learning_rate": 3.4082107942392136e-07,
-      "loss": -0.0837,
-      "reward": 2.4153069257736206,
-      "reward_std": 0.5053312480449677,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.03955421969294548,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1377
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 285.0416717529297,
-      "epoch": 0.689,
-      "grad_norm": 5.928807362280472,
-      "kl": 0.73046875,
-      "learning_rate": 3.4012601184704904e-07,
-      "loss": 0.0042,
-      "reward": 2.7761462926864624,
-      "reward_std": 0.2563507854938507,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.020728619303554296,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1378
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 255.58334350585938,
-      "epoch": 0.6895,
-      "grad_norm": 6.1951381664884595,
-      "kl": 1.62890625,
-      "learning_rate": 3.3943158358274203e-07,
-      "loss": -0.1059,
-      "reward": 2.466705560684204,
-      "reward_std": 0.49967700242996216,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.029822363518178463,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1379
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 300.8333435058594,
-      "epoch": 0.69,
-      "grad_norm": 6.849165033673041,
-      "kl": 0.73828125,
-      "learning_rate": 3.387377967463493e-07,
-      "loss": 0.0257,
-      "reward": 2.7919795513153076,
-      "reward_std": 0.2739688716828823,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.030937272123992443,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1380
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 253.33334350585938,
-      "epoch": 0.6905,
-      "grad_norm": 4.414135015976259,
-      "kl": 0.666015625,
-      "learning_rate": 3.3804465345126545e-07,
-      "loss": 0.0039,
-      "reward": 2.940259575843811,
-      "reward_std": 0.16437675757333636,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.014601573813706636,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1381
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.1458435058594,
-      "epoch": 0.691,
-      "grad_norm": 4.724734711788012,
-      "kl": 0.767578125,
-      "learning_rate": 3.3735215580892575e-07,
-      "loss": -0.1102,
-      "reward": 2.497297525405884,
-      "reward_std": 0.42764711380004883,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.02179985586553812,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1382
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 272.125,
-      "epoch": 0.6915,
-      "grad_norm": 6.326351779698143,
-      "kl": 0.69921875,
-      "learning_rate": 3.366603059287977e-07,
-      "loss": -0.0165,
-      "reward": 2.3360326290130615,
-      "reward_std": 0.4005787819623947,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02334247063845396,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1383
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.3541793823242,
-      "epoch": 0.692,
-      "grad_norm": 7.84619977481907,
-      "kl": 1.3828125,
-      "learning_rate": 3.359691059183761e-07,
-      "loss": -0.0385,
-      "reward": 2.366807222366333,
-      "reward_std": 0.606653481721878,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.025554182939231396,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1384
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 280.5625,
-      "epoch": 0.6925,
-      "grad_norm": 6.807191768545,
-      "kl": 0.876953125,
-      "learning_rate": 3.3527855788317614e-07,
-      "loss": 0.0225,
-      "reward": 2.5943243503570557,
-      "reward_std": 0.487922340631485,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.0341478455811739,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1385
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.04168701171875,
-      "epoch": 0.693,
-      "grad_norm": 9.428973328086897,
-      "kl": 0.693359375,
-      "learning_rate": 3.3458866392672694e-07,
-      "loss": -0.0436,
-      "reward": 2.774644374847412,
-      "reward_std": 0.39781980216503143,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.01875837054103613,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1386
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 286.7708435058594,
-      "epoch": 0.6935,
-      "grad_norm": 6.33506224802435,
-      "kl": 0.98046875,
-      "learning_rate": 3.338994261505649e-07,
-      "loss": -0.0637,
-      "reward": 2.1281405091285706,
-      "reward_std": 0.37489962577819824,
-      "rewards/accuracy_reward": 0.2291666716337204,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.026373423635959625,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1387
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.1666793823242,
-      "epoch": 0.694,
-      "grad_norm": 3.780779728016683,
-      "kl": 0.5712890625,
-      "learning_rate": 3.3321084665422803e-07,
-      "loss": -0.0363,
-      "reward": 2.5015201568603516,
-      "reward_std": 0.32130593061447144,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.026257574558258057,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1388
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 292.0416717529297,
-      "epoch": 0.6945,
-      "grad_norm": 4.691021479308191,
-      "kl": 1.3203125,
-      "learning_rate": 3.325229275352489e-07,
-      "loss": -0.0273,
-      "reward": 2.5804378986358643,
-      "reward_std": 0.4816815108060837,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.0237288074567914,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1389
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.50001525878906,
-      "epoch": 0.695,
-      "grad_norm": 5.62934560927229,
-      "kl": 0.6484375,
-      "learning_rate": 3.3183567088914833e-07,
-      "loss": 0.0106,
-      "reward": 2.7332091331481934,
-      "reward_std": 0.08886073343455791,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02720770798623562,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1390
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 264.4375,
-      "epoch": 0.6955,
-      "grad_norm": 6.2652786345135985,
-      "kl": 0.77734375,
-      "learning_rate": 3.3114907880942933e-07,
-      "loss": 0.0052,
-      "reward": 2.7369773387908936,
-      "reward_std": 0.24390956666320562,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.023439462296664715,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1391
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 305.5208435058594,
-      "epoch": 0.696,
-      "grad_norm": 4.763664401378893,
-      "kl": 0.587890625,
-      "learning_rate": 3.3046315338757026e-07,
-      "loss": 0.0138,
-      "reward": 2.908858060836792,
-      "reward_std": 0.17314723134040833,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.028641941025853157,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1392
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 265.62500762939453,
-      "epoch": 0.6965,
-      "grad_norm": 32.37138858122824,
-      "kl": 3.26953125,
-      "learning_rate": 3.297778967130191e-07,
-      "loss": 0.0044,
-      "reward": 2.3406665325164795,
-      "reward_std": 0.43019232153892517,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.0187085154466331,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1393
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 285.6458435058594,
-      "epoch": 0.697,
-      "grad_norm": 3.700595698109454,
-      "kl": 0.462890625,
-      "learning_rate": 3.290933108731866e-07,
-      "loss": 0.03,
-      "reward": 2.709470510482788,
-      "reward_std": 0.254656121134758,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04052966833114624,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1394
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.93750762939453,
-      "epoch": 0.6975,
-      "grad_norm": 17.617668970781107,
-      "kl": 3.083984375,
-      "learning_rate": 3.2840939795343987e-07,
-      "loss": -0.0307,
-      "reward": 2.570359468460083,
-      "reward_std": 0.3866235390305519,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.025126777589321136,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1395
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.7916717529297,
-      "epoch": 0.698,
-      "grad_norm": 5.286876953487483,
-      "kl": 1.009765625,
-      "learning_rate": 3.2772616003709616e-07,
-      "loss": -0.0073,
-      "reward": 2.618911862373352,
-      "reward_std": 0.3726077973842621,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.016504944302141666,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1396
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 245.6875,
-      "epoch": 0.6985,
-      "grad_norm": 11.84313036080623,
-      "kl": 2.0234375,
-      "learning_rate": 3.270435992054166e-07,
-      "loss": -0.0171,
-      "reward": 2.6750162839889526,
-      "reward_std": 0.4495895653963089,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.009011534042656422,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1397
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 266.5208435058594,
-      "epoch": 0.699,
-      "grad_norm": 4.6172662372737525,
-      "kl": 0.720703125,
-      "learning_rate": 3.263617175376001e-07,
-      "loss": -0.0352,
-      "reward": 2.491300940513611,
-      "reward_std": 0.3568393215537071,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.019115855917334557,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1398
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 312.0208435058594,
-      "epoch": 0.6995,
-      "grad_norm": 6.661016856595855,
-      "kl": 1.9296875,
-      "learning_rate": 3.2568051711077636e-07,
-      "loss": 0.0014,
-      "reward": 2.4803801774978638,
-      "reward_std": 0.2543382793664932,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.024828164838254452,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1399
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 245.64584350585938,
-      "epoch": 0.7,
-      "grad_norm": 7.280485227211617,
-      "kl": 1.5078125,
-      "learning_rate": 3.250000000000001e-07,
-      "loss": 0.0254,
-      "reward": 2.686321496963501,
-      "reward_std": 0.4712058752775192,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.011595276184380054,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1400
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 247.22917938232422,
-      "epoch": 0.7005,
-      "grad_norm": 5.073476939105119,
-      "kl": 0.724609375,
-      "learning_rate": 3.2432016827824414e-07,
-      "loss": -0.0513,
-      "reward": 2.620236396789551,
-      "reward_std": 0.33665385842323303,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02038868237286806,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1401
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 259.4791717529297,
-      "epoch": 0.701,
-      "grad_norm": 14.591352187407846,
-      "kl": 1.109375,
-      "learning_rate": 3.2364102401639423e-07,
-      "loss": 0.0143,
-      "reward": 2.708950996398926,
-      "reward_std": 0.34444018453359604,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.01674342295154929,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1402
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 250.79167938232422,
-      "epoch": 0.7015,
-      "grad_norm": 4.900616214888936,
-      "kl": 1.1083984375,
-      "learning_rate": 3.229625692832414e-07,
-      "loss": -0.008,
-      "reward": 2.674125075340271,
-      "reward_std": 0.4905224144458771,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.020319399423897266,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1403
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 281.2708435058594,
-      "epoch": 0.702,
-      "grad_norm": 3.8548797240419503,
-      "kl": 0.87109375,
-      "learning_rate": 3.222848061454764e-07,
-      "loss": -0.0311,
-      "reward": 2.7337580919265747,
-      "reward_std": 0.4215731620788574,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.017978041898459196,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1404
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 258.8333435058594,
-      "epoch": 0.7025,
-      "grad_norm": 7.245780935291608,
-      "kl": 0.900390625,
-      "learning_rate": 3.216077366676833e-07,
-      "loss": -0.0148,
-      "reward": 2.862648129463196,
-      "reward_std": 0.3005357086658478,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0331853311508894,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1405
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 277.7083435058594,
-      "epoch": 0.703,
-      "grad_norm": 8.179242595228185,
-      "kl": 1.078125,
-      "learning_rate": 3.209313629123329e-07,
-      "loss": 0.0065,
-      "reward": 2.753788113594055,
-      "reward_std": 0.3614218980073929,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0378786064684391,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1406
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.5208435058594,
-      "epoch": 0.7035,
-      "grad_norm": 8.893778669993276,
-      "kl": 2.21875,
-      "learning_rate": 3.2025568693977745e-07,
-      "loss": -0.0732,
-      "reward": 2.5992143154144287,
-      "reward_std": 0.45963357388973236,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.03446643240749836,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1407
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.4791717529297,
-      "epoch": 0.704,
-      "grad_norm": 19.76315212110327,
-      "kl": 4.63671875,
-      "learning_rate": 3.195807108082429e-07,
-      "loss": -0.1105,
-      "reward": 2.3212958574295044,
-      "reward_std": 0.6959238648414612,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.018981934990733862,
-      "rewards/tag_count_reward": 0.8958333730697632,
-      "step": 1408
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 265.7708435058594,
-      "epoch": 0.7045,
-      "grad_norm": 7.783421626644704,
-      "kl": 2.55859375,
-      "learning_rate": 3.1890643657382356e-07,
-      "loss": -0.1032,
-      "reward": 2.7160589694976807,
-      "reward_std": 0.5336126536130905,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.028732833918184042,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1409
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 212.7291717529297,
-      "epoch": 0.705,
-      "grad_norm": 13.071825269979621,
-      "kl": 3.9296875,
-      "learning_rate": 3.182328662904756e-07,
-      "loss": -0.0981,
-      "reward": 2.5850327014923096,
-      "reward_std": 0.6792955249547958,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.02087017334997654,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1410
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 227.12500762939453,
-      "epoch": 0.7055,
-      "grad_norm": 16.647908802505288,
-      "kl": 3.201171875,
-      "learning_rate": 3.175600020100112e-07,
-      "loss": -0.0142,
-      "reward": 2.422129988670349,
-      "reward_std": 0.3781207883730531,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.011897902470082045,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1411
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 251.8541717529297,
-      "epoch": 0.706,
-      "grad_norm": 4.246659669908856,
-      "kl": 2.57421875,
-      "learning_rate": 3.168878457820915e-07,
-      "loss": -0.193,
-      "reward": 2.498375415802002,
-      "reward_std": 0.7053702175617218,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.902777761220932,
-      "rewards/repetition_penalty_reward": -0.024194156285375357,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1412
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.00001525878906,
-      "epoch": 0.7065,
-      "grad_norm": 4.186288561909542,
-      "kl": 0.861328125,
-      "learning_rate": 3.162163996542209e-07,
-      "loss": -0.1177,
-      "reward": 2.7583051919937134,
-      "reward_std": 0.5227586776018143,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04204211104661226,
-      "rewards/tag_count_reward": 0.9739583730697632,
-      "step": 1413
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 295.8541717529297,
-      "epoch": 0.707,
-      "grad_norm": 4.18530097815396,
-      "kl": 0.830078125,
-      "learning_rate": 3.155456656717408e-07,
-      "loss": -0.0055,
-      "reward": 2.917997360229492,
-      "reward_std": 0.1906261881813407,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.029919438064098358,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1414
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 229.52083587646484,
-      "epoch": 0.7075,
-      "grad_norm": 7.3471907992432515,
-      "kl": 1.296875,
-      "learning_rate": 3.14875645877823e-07,
-      "loss": -0.1006,
-      "reward": 2.7960588932037354,
-      "reward_std": 0.5089210569858551,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.028593890368938446,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1415
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.8333435058594,
-      "epoch": 0.708,
-      "grad_norm": 5.66147418702201,
-      "kl": 1.16015625,
-      "learning_rate": 3.142063423134644e-07,
-      "loss": -0.0736,
-      "reward": 2.4612691402435303,
-      "reward_std": 0.4342493712902069,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.026578163262456656,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1416
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 277.2708435058594,
-      "epoch": 0.7085,
-      "grad_norm": 4.258559874095392,
-      "kl": 0.826171875,
-      "learning_rate": 3.135377570174796e-07,
-      "loss": 0.0009,
-      "reward": 2.634892225265503,
-      "reward_std": 0.32757639279589057,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02830233983695507,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1417
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 258.3333435058594,
-      "epoch": 0.709,
-      "grad_norm": 5.069921662523948,
-      "kl": 2.03515625,
-      "learning_rate": 3.1286989202649503e-07,
-      "loss": -0.0317,
-      "reward": 2.490046262741089,
-      "reward_std": 0.43885305523872375,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.027314997278153896,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1418
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 236.12500762939453,
-      "epoch": 0.7095,
-      "grad_norm": 6.797930142073019,
-      "kl": 3.453125,
-      "learning_rate": 3.122027493749438e-07,
-      "loss": -0.1656,
-      "reward": 1.9841939210891724,
-      "reward_std": 0.6511839628219604,
-      "rewards/accuracy_reward": 0.2708333432674408,
-      "rewards/reasoning_steps_reward": 0.8611111044883728,
-      "rewards/repetition_penalty_reward": -0.02275061421096325,
-      "rewards/tag_count_reward": 0.8750000298023224,
-      "step": 1419
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 256.3125,
-      "epoch": 0.71,
-      "grad_norm": 7.202911096329466,
-      "kl": 3.12109375,
-      "learning_rate": 3.115363310950578e-07,
-      "loss": -0.1218,
-      "reward": 2.4370113611221313,
-      "reward_std": 0.6423384845256805,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.8750000298023224,
-      "rewards/repetition_penalty_reward": -0.016113675199449062,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1420
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 248.43750762939453,
-      "epoch": 0.7105,
-      "grad_norm": 7.687028342637116,
-      "kl": 2.15625,
-      "learning_rate": 3.1087063921686263e-07,
-      "loss": -0.0065,
-      "reward": 2.5198620557785034,
-      "reward_std": 0.6163989156484604,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.023540794849395752,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1421
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 264.33333587646484,
-      "epoch": 0.711,
-      "grad_norm": 6.503537489968444,
-      "kl": 1.65625,
-      "learning_rate": 3.102056757681715e-07,
-      "loss": -0.0039,
-      "reward": 2.3564590215682983,
-      "reward_std": 0.3768700957298279,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03243005648255348,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1422
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 218.125,
-      "epoch": 0.7115,
-      "grad_norm": 13.267307709264951,
-      "kl": 2.6328125,
-      "learning_rate": 3.0954144277457817e-07,
-      "loss": -0.0765,
-      "reward": 2.4606250524520874,
-      "reward_std": 0.48642072081565857,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.009861073223873973,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1423
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 265.93750762939453,
-      "epoch": 0.712,
-      "grad_norm": 7.851695017414299,
-      "kl": 1.34765625,
-      "learning_rate": 3.0887794225945143e-07,
-      "loss": -0.0492,
-      "reward": 2.350769519805908,
-      "reward_std": 0.5201582908630371,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.036383312195539474,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1424
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 234.89584350585938,
-      "epoch": 0.7125,
-      "grad_norm": 8.683593317223446,
-      "kl": 2.890625,
-      "learning_rate": 3.0821517624392925e-07,
-      "loss": -0.069,
-      "reward": 2.6100372076034546,
-      "reward_std": 0.6106880903244019,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.030587902292609215,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1425
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 239.77084350585938,
-      "epoch": 0.713,
-      "grad_norm": 16.77464036064384,
-      "kl": 3.6015625,
-      "learning_rate": 3.075531467469116e-07,
-      "loss": -0.0936,
-      "reward": 2.576740264892578,
-      "reward_std": 0.7488699555397034,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.013537466991692781,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1426
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 327.06251525878906,
-      "epoch": 0.7135,
-      "grad_norm": 7.518467200296574,
-      "kl": 1.0859375,
-      "learning_rate": 3.0689185578505525e-07,
-      "loss": -0.0554,
-      "reward": 2.6223039627075195,
-      "reward_std": 0.5526255667209625,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.027001574635505676,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1427
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 276.62501525878906,
-      "epoch": 0.714,
-      "grad_norm": 8.336081909558045,
-      "kl": 1.48828125,
-      "learning_rate": 3.062313053727671e-07,
-      "loss": -0.0128,
-      "reward": 2.6898101568222046,
-      "reward_std": 0.5765750408172607,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.016787134110927582,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1428
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 251.14583587646484,
-      "epoch": 0.7145,
-      "grad_norm": 13.511892818726327,
-      "kl": 2.55859375,
-      "learning_rate": 3.055714975221981e-07,
-      "loss": 0.0218,
-      "reward": 2.5956475734710693,
-      "reward_std": 0.34704746305942535,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.022408071905374527,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1429
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.8541793823242,
-      "epoch": 0.715,
-      "grad_norm": 9.586287180266988,
-      "kl": 1.05078125,
-      "learning_rate": 3.0491243424323783e-07,
-      "loss": 0.0298,
-      "reward": 2.318286895751953,
-      "reward_std": 0.4003664702177048,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03414386324584484,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1430
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 336.4583435058594,
-      "epoch": 0.7155,
-      "grad_norm": 4.201243088427591,
-      "kl": 1.953125,
-      "learning_rate": 3.0425411754350694e-07,
-      "loss": -0.0551,
-      "reward": 2.253325581550598,
-      "reward_std": 0.4799940884113312,
-      "rewards/accuracy_reward": 0.39583333395421505,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.03660505823791027,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1431
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 261.1458435058594,
-      "epoch": 0.716,
-      "grad_norm": 11.754368643179218,
-      "kl": 2.6796875,
-      "learning_rate": 3.0359654942835247e-07,
-      "loss": 0.0551,
-      "reward": 2.5765037536621094,
-      "reward_std": 0.49608848989009857,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02766304276883602,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1432
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.6458435058594,
-      "epoch": 0.7165,
-      "grad_norm": 4.101040359968373,
-      "kl": 0.55078125,
-      "learning_rate": 3.029397319008407e-07,
-      "loss": -0.0074,
-      "reward": 2.9076608419418335,
-      "reward_std": 0.1762450411915779,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.029839315451681614,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1433
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.2083435058594,
-      "epoch": 0.717,
-      "grad_norm": 5.6015729375673065,
-      "kl": 0.94140625,
-      "learning_rate": 3.02283666961752e-07,
-      "loss": -0.0133,
-      "reward": 2.6073429584503174,
-      "reward_std": 0.20822132378816605,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.028073765337467194,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1434
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 280.7708435058594,
-      "epoch": 0.7175,
-      "grad_norm": 13.758583049621224,
-      "kl": 3.21875,
-      "learning_rate": 3.016283566095739e-07,
-      "loss": -0.0096,
-      "reward": 2.5433467626571655,
-      "reward_std": 0.5455273687839508,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.024361703544855118,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1435
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.7708435058594,
-      "epoch": 0.718,
-      "grad_norm": 6.637973784958379,
-      "kl": 1.078125,
-      "learning_rate": 3.0097380284049523e-07,
-      "loss": -0.0344,
-      "reward": 2.5512558221817017,
-      "reward_std": 0.4321069046854973,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.021661010570824146,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1436
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 256.9166793823242,
-      "epoch": 0.7185,
-      "grad_norm": 9.5020255723838,
-      "kl": 2.4609375,
-      "learning_rate": 3.003200076484004e-07,
-      "loss": -0.0598,
-      "reward": 2.710210919380188,
-      "reward_std": 0.5970990657806396,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.018955985084176064,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1437
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 270.14583587646484,
-      "epoch": 0.719,
-      "grad_norm": 6.729758300453091,
-      "kl": 1.2109375,
-      "learning_rate": 2.996669730248628e-07,
-      "loss": 0.0368,
-      "reward": 2.680380702018738,
-      "reward_std": 0.4900428205728531,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.022744507528841496,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1438
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 297.37501525878906,
-      "epoch": 0.7195,
-      "grad_norm": 6.100933401861528,
-      "kl": 1.5703125,
-      "learning_rate": 2.9901470095913943e-07,
-      "loss": -0.139,
-      "reward": 2.433695912361145,
-      "reward_std": 0.47993409633636475,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.033318111672997475,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1439
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 255.10417938232422,
-      "epoch": 0.72,
-      "grad_norm": 17.639971258796862,
-      "kl": 4.703125,
-      "learning_rate": 2.9836319343816397e-07,
-      "loss": -0.0614,
-      "reward": 2.4460188150405884,
-      "reward_std": 0.6759764552116394,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.01925905141979456,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1440
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 379.8541717529297,
-      "epoch": 0.7205,
-      "grad_norm": 6.145673583189092,
-      "kl": 1.65625,
-      "learning_rate": 2.977124524465413e-07,
-      "loss": -0.0369,
-      "reward": 2.5621336698532104,
-      "reward_std": 0.4305399991571903,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.029880317859351635,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1441
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 257.8333435058594,
-      "epoch": 0.721,
-      "grad_norm": 22.556717516314336,
-      "kl": 3.953125,
-      "learning_rate": 2.9706247996654134e-07,
-      "loss": 0.046,
-      "reward": 2.0625728368759155,
-      "reward_std": 0.7029457688331604,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.8750000298023224,
-      "rewards/repetition_penalty_reward": -0.02076055482029915,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1442
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 326.5833435058594,
-      "epoch": 0.7215,
-      "grad_norm": 9.337104428836039,
-      "kl": 1.0546875,
-      "learning_rate": 2.964132779780929e-07,
-      "loss": 0.0703,
-      "reward": 2.6360541582107544,
-      "reward_std": 0.4235610216856003,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.0358209777623415,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1443
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.29168701171875,
-      "epoch": 0.722,
-      "grad_norm": 14.451017089953675,
-      "kl": 1.880859375,
-      "learning_rate": 2.9576484845877793e-07,
-      "loss": -0.0315,
-      "reward": 2.36261785030365,
-      "reward_std": 0.4776066839694977,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.029743347316980362,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1444
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 264.62501525878906,
-      "epoch": 0.7225,
-      "grad_norm": 9.176318494305416,
-      "kl": 1.43359375,
-      "learning_rate": 2.9511719338382535e-07,
-      "loss": -0.0615,
-      "reward": 2.627773642539978,
-      "reward_std": 0.6298104226589203,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.019795984961092472,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1445
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.5416717529297,
-      "epoch": 0.723,
-      "grad_norm": 10.455365880612927,
-      "kl": 2.8125,
-      "learning_rate": 2.944703147261046e-07,
-      "loss": -0.1501,
-      "reward": 2.3291326761245728,
-      "reward_std": 0.7611142992973328,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.902777910232544,
-      "rewards/repetition_penalty_reward": -0.03197855316102505,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1446
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 261.89583587646484,
-      "epoch": 0.7235,
-      "grad_norm": 5.3123582713501944,
-      "kl": 1.1015625,
-      "learning_rate": 2.938242144561201e-07,
-      "loss": 0.055,
-      "reward": 2.4350517988204956,
-      "reward_std": 0.3026663661003113,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.016337126959115267,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1447
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.6041717529297,
-      "epoch": 0.724,
-      "grad_norm": 10.893245730461343,
-      "kl": 1.38671875,
-      "learning_rate": 2.931788945420058e-07,
-      "loss": -0.043,
-      "reward": 2.7075858116149902,
-      "reward_std": 0.4429877921938896,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.021580896340310574,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1448
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.8958435058594,
-      "epoch": 0.7245,
-      "grad_norm": 7.744283708478767,
-      "kl": 1.791015625,
-      "learning_rate": 2.925343569495178e-07,
-      "loss": -0.053,
-      "reward": 2.6358524560928345,
-      "reward_std": 0.5802061557769775,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03602285124361515,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1449
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 292.2291717529297,
-      "epoch": 0.725,
-      "grad_norm": 6.348495492774551,
-      "kl": 1.56640625,
-      "learning_rate": 2.918906036420294e-07,
-      "loss": -0.0218,
-      "reward": 2.6777302026748657,
-      "reward_std": 0.554046094417572,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.023658874444663525,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1450
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.7291717529297,
-      "epoch": 0.7255,
-      "grad_norm": 12.67301139932153,
-      "kl": 2.2890625,
-      "learning_rate": 2.9124763658052474e-07,
-      "loss": 0.0824,
-      "reward": 2.542311429977417,
-      "reward_std": 0.4715491533279419,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.03234157059341669,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1451
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.2708435058594,
-      "epoch": 0.726,
-      "grad_norm": 6.540507187939509,
-      "kl": 1.77734375,
-      "learning_rate": 2.9060545772359305e-07,
-      "loss": -0.0138,
-      "reward": 2.2951096296310425,
-      "reward_std": 0.7114408314228058,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02259882539510727,
-      "rewards/tag_count_reward": 0.8802083730697632,
-      "step": 1452
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 316.4583435058594,
-      "epoch": 0.7265,
-      "grad_norm": 3.9719963516737162,
-      "kl": 1.443359375,
-      "learning_rate": 2.8996406902742267e-07,
-      "loss": 0.0444,
-      "reward": 2.827430486679077,
-      "reward_std": 0.2230637795291841,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.018055669963359833,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1453
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.6666717529297,
-      "epoch": 0.727,
-      "grad_norm": 7.2887085683958945,
-      "kl": 1.142578125,
-      "learning_rate": 2.893234724457946e-07,
-      "loss": 0.0405,
-      "reward": 2.776036858558655,
-      "reward_std": 0.2234293557703495,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.024310494773089886,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1454
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 297.56251525878906,
-      "epoch": 0.7275,
-      "grad_norm": 7.258259475742343,
-      "kl": 1.33203125,
-      "learning_rate": 2.886836699300771e-07,
-      "loss": 0.0238,
-      "reward": 2.5538902282714844,
-      "reward_std": 0.48146432638168335,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666567325592,
-      "rewards/repetition_penalty_reward": -0.029443158768117428,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1455
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 288.2083435058594,
-      "epoch": 0.728,
-      "grad_norm": 4.296720231595159,
-      "kl": 0.537109375,
-      "learning_rate": 2.8804466342921987e-07,
-      "loss": 0.0545,
-      "reward": 2.8775835037231445,
-      "reward_std": 0.20204564975574613,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.018249690299853683,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1456
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 316.5625,
-      "epoch": 0.7285,
-      "grad_norm": 14.229710817664285,
-      "kl": 1.59375,
-      "learning_rate": 2.874064548897472e-07,
-      "loss": 0.0002,
-      "reward": 2.417072057723999,
-      "reward_std": 0.6614536046981812,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.027372430078685284,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1457
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 286.0833435058594,
-      "epoch": 0.729,
-      "grad_norm": 6.574513295769042,
-      "kl": 3.15625,
-      "learning_rate": 2.86769046255753e-07,
-      "loss": -0.0074,
-      "reward": 2.3303749561309814,
-      "reward_std": 0.8391402065753937,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.030736176297068596,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1458
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 303.5833435058594,
-      "epoch": 0.7295,
-      "grad_norm": 5.801082971170413,
-      "kl": 0.763671875,
-      "learning_rate": 2.8613243946889477e-07,
-      "loss": 0.0801,
-      "reward": 2.7063515186309814,
-      "reward_std": 0.49810338020324707,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.034967850893735886,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1459
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 236.06250762939453,
-      "epoch": 0.73,
-      "grad_norm": 6.729899483661514,
-      "kl": 1.302734375,
-      "learning_rate": 2.854966364683872e-07,
-      "loss": -0.0084,
-      "reward": 2.4949501752853394,
-      "reward_std": 0.4440324157476425,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.015466715674847364,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1460
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.18750762939453,
-      "epoch": 0.7305,
-      "grad_norm": 25.447643773212334,
-      "kl": 4.2109375,
-      "learning_rate": 2.848616391909959e-07,
-      "loss": 0.0692,
-      "reward": 2.4095431566238403,
-      "reward_std": 0.4361160099506378,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.024484614841639996,
-      "rewards/tag_count_reward": 0.9270833730697632,
-      "step": 1461
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 270.1666793823242,
-      "epoch": 0.731,
-      "grad_norm": 20.974946344266833,
-      "kl": 3.1328125,
-      "learning_rate": 2.842274495710335e-07,
-      "loss": 0.1305,
-      "reward": 2.630603075027466,
-      "reward_std": 0.5745793282985687,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.03953584283590317,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1462
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.4791717529297,
-      "epoch": 0.7315,
-      "grad_norm": 50.08951516994972,
-      "kl": 3.041015625,
-      "learning_rate": 2.835940695403512e-07,
-      "loss": 0.1238,
-      "reward": 2.7686582803726196,
-      "reward_std": 0.3026948422193527,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.023008490912616253,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1463
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.18751525878906,
-      "epoch": 0.732,
-      "grad_norm": 9.460276151267854,
-      "kl": 2.908203125,
-      "learning_rate": 2.829615010283344e-07,
-      "loss": 0.0303,
-      "reward": 2.6455318927764893,
-      "reward_std": 0.5820550620555878,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.03502368927001953,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1464
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 275.1041717529297,
-      "epoch": 0.7325,
-      "grad_norm": 10.796804080704874,
-      "kl": 2.96875,
-      "learning_rate": 2.8232974596189653e-07,
-      "loss": 0.0181,
-      "reward": 2.4227362871170044,
-      "reward_std": 0.4896738827228546,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.019972197711467743,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1465
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 260.0416793823242,
-      "epoch": 0.733,
-      "grad_norm": 18.4213130469492,
-      "kl": 3.0,
-      "learning_rate": 2.8169880626547283e-07,
-      "loss": 0.1161,
-      "reward": 2.2570921182632446,
-      "reward_std": 0.6915050446987152,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.022421800531446934,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1466
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 299.1875,
-      "epoch": 0.7335,
-      "grad_norm": 7.219616999713985,
-      "kl": 1.9921875,
-      "learning_rate": 2.8106868386101545e-07,
-      "loss": -0.0582,
-      "reward": 2.4741777181625366,
-      "reward_std": 0.46304862946271896,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.025822297669947147,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1467
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 288.2291717529297,
-      "epoch": 0.734,
-      "grad_norm": 8.310583448002093,
-      "kl": 1.1015625,
-      "learning_rate": 2.8043938066798645e-07,
-      "loss": 0.0088,
-      "reward": 2.6622068881988525,
-      "reward_std": 0.3658689558506012,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.021820951253175735,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1468
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.3333435058594,
-      "epoch": 0.7345,
-      "grad_norm": 10.495545513429683,
-      "kl": 0.80078125,
-      "learning_rate": 2.7981089860335225e-07,
-      "loss": 0.0209,
-      "reward": 2.71765673160553,
-      "reward_std": 0.37030835449695587,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.030607173219323158,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1469
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.3333435058594,
-      "epoch": 0.735,
-      "grad_norm": 3.6146465901165348,
-      "kl": 0.54296875,
-      "learning_rate": 2.791832395815782e-07,
-      "loss": 0.0526,
-      "reward": 2.7022202014923096,
-      "reward_std": 0.08511605486273766,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.026946650817990303,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1470
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.8541717529297,
-      "epoch": 0.7355,
-      "grad_norm": 12.76797627033702,
-      "kl": 0.978515625,
-      "learning_rate": 2.7855640551462287e-07,
-      "loss": 0.0287,
-      "reward": 2.633518099784851,
-      "reward_std": 0.5054084360599518,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02446805965155363,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1471
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 286.06251525878906,
-      "epoch": 0.736,
-      "grad_norm": 11.77020718227818,
-      "kl": 1.6171875,
-      "learning_rate": 2.7793039831193133e-07,
-      "loss": -0.0021,
-      "reward": 2.617877721786499,
-      "reward_std": 0.5727947354316711,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.04531669802963734,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1472
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 280.1458435058594,
-      "epoch": 0.7365,
-      "grad_norm": 6.357148681677889,
-      "kl": 0.94140625,
-      "learning_rate": 2.773052198804301e-07,
-      "loss": -0.0548,
-      "reward": 2.5771846771240234,
-      "reward_std": 0.6074622422456741,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.01830137614160776,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1473
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.4166717529297,
-      "epoch": 0.737,
-      "grad_norm": 6.670239361314333,
-      "kl": 1.5390625,
-      "learning_rate": 2.766808721245211e-07,
-      "loss": 0.0276,
-      "reward": 2.690428137779236,
-      "reward_std": 0.5497512817382812,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.023113532923161983,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1474
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.18751525878906,
-      "epoch": 0.7375,
-      "grad_norm": 6.355162766928286,
-      "kl": 2.09765625,
-      "learning_rate": 2.760573569460757e-07,
-      "loss": 0.0137,
-      "reward": 2.8231576681137085,
-      "reward_std": 0.3577008843421936,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.041425829753279686,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1475
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.7708435058594,
-      "epoch": 0.738,
-      "grad_norm": 4.4722454967487995,
-      "kl": 1.279296875,
-      "learning_rate": 2.7543467624442956e-07,
-      "loss": 0.0344,
-      "reward": 2.824985980987549,
-      "reward_std": 0.3037413991987705,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.017028134781867266,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1476
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 252.89583587646484,
-      "epoch": 0.7385,
-      "grad_norm": 16.986839644883492,
-      "kl": 4.03125,
-      "learning_rate": 2.7481283191637605e-07,
-      "loss": 0.0652,
-      "reward": 2.479672074317932,
-      "reward_std": 0.8198486566543579,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.009911454282701015,
-      "rewards/tag_count_reward": 0.8645833432674408,
-      "step": 1477
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 261.2708435058594,
-      "epoch": 0.739,
-      "grad_norm": 9.368512168345658,
-      "kl": 2.2265625,
-      "learning_rate": 2.741918258561607e-07,
-      "loss": -0.0376,
-      "reward": 2.04381787776947,
-      "reward_std": 0.49914440512657166,
-      "rewards/accuracy_reward": 0.1875000074505806,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.023890579119324684,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1478
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 303.625,
-      "epoch": 0.7395,
-      "grad_norm": 13.277381628251995,
-      "kl": 2.6484375,
-      "learning_rate": 2.7357165995547547e-07,
-      "loss": 0.1547,
-      "reward": 2.4987998008728027,
-      "reward_std": 0.6838244497776031,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.0272420234978199,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1479
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 263.8333435058594,
-      "epoch": 0.74,
-      "grad_norm": 7.347881942486295,
-      "kl": 1.5859375,
-      "learning_rate": 2.729523361034538e-07,
-      "loss": -0.0831,
-      "reward": 2.309889793395996,
-      "reward_std": 0.5420120805501938,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.025179607793688774,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1480
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 292.7291717529297,
-      "epoch": 0.7405,
-      "grad_norm": 14.604720055826698,
-      "kl": 1.775390625,
-      "learning_rate": 2.7233385618666315e-07,
-      "loss": 0.1195,
-      "reward": 2.609587788581848,
-      "reward_std": 0.3773094117641449,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03103726916015148,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1481
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.4375,
-      "epoch": 0.741,
-      "grad_norm": 34.38249331144065,
-      "kl": 4.140625,
-      "learning_rate": 2.717162220891007e-07,
-      "loss": 0.0792,
-      "reward": 1.9346249103546143,
-      "reward_std": 0.3914206847548485,
-      "rewards/accuracy_reward": 0.12500000558793545,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.01676415279507637,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1482
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 274.0416717529297,
-      "epoch": 0.7415,
-      "grad_norm": 4.498402010991118,
-      "kl": 1.48046875,
-      "learning_rate": 2.7109943569218707e-07,
-      "loss": -0.0545,
-      "reward": 2.460047483444214,
-      "reward_std": 0.543542668223381,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.026063593104481697,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1483
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 225.5416717529297,
-      "epoch": 0.742,
-      "grad_norm": 9.59444129515133,
-      "kl": 1.5859375,
-      "learning_rate": 2.7048349887476037e-07,
-      "loss": -0.0225,
-      "reward": 2.367347240447998,
-      "reward_std": 0.5063965022563934,
-      "rewards/accuracy_reward": 0.47916667722165585,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.014597164001315832,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1484
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 297.1666717529297,
-      "epoch": 0.7425,
-      "grad_norm": 6.833454160186346,
-      "kl": 1.1015625,
-      "learning_rate": 2.698684135130713e-07,
-      "loss": -0.0404,
-      "reward": 2.429524064064026,
-      "reward_std": 0.6519744396209717,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.04096201993525028,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1485
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 259.3958435058594,
-      "epoch": 0.743,
-      "grad_norm": 5.515959993557466,
-      "kl": 0.701171875,
-      "learning_rate": 2.692541814807763e-07,
-      "loss": 0.0611,
-      "reward": 2.8888471126556396,
-      "reward_std": 0.18290941882878542,
-      "rewards/accuracy_reward": 0.9375,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.0174028305336833,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1486
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.5208435058594,
-      "epoch": 0.7435,
-      "grad_norm": 6.265052966360687,
-      "kl": 1.017578125,
-      "learning_rate": 2.686408046489328e-07,
-      "loss": -0.0232,
-      "reward": 2.5907429456710815,
-      "reward_std": 0.3499850779771805,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.020368190482258797,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1487
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 324.0208435058594,
-      "epoch": 0.744,
-      "grad_norm": 6.5782759908928945,
-      "kl": 0.80859375,
-      "learning_rate": 2.6802828488599294e-07,
-      "loss": 0.0469,
-      "reward": 2.6091192960739136,
-      "reward_std": 0.4149770438671112,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02282518707215786,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1488
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.68751525878906,
-      "epoch": 0.7445,
-      "grad_norm": 6.142749229443921,
-      "kl": 0.759765625,
-      "learning_rate": 2.6741662405779796e-07,
-      "loss": 0.0677,
-      "reward": 2.660447597503662,
-      "reward_std": 0.3648398518562317,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.027052627876400948,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1489
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 303.0833435058594,
-      "epoch": 0.745,
-      "grad_norm": 11.211102602501663,
-      "kl": 1.7421875,
-      "learning_rate": 2.6680582402757324e-07,
-      "loss": -0.006,
-      "reward": 2.27160906791687,
-      "reward_std": 0.5131259560585022,
-      "rewards/accuracy_reward": 0.4375000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.0322106322273612,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1490
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 310.7916717529297,
-      "epoch": 0.7455,
-      "grad_norm": 7.269196197513535,
-      "kl": 1.5234375,
-      "learning_rate": 2.661958866559213e-07,
-      "loss": 0.0242,
-      "reward": 2.570857882499695,
-      "reward_std": 0.2515888065099716,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.035044897347688675,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1491
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 267.81250762939453,
-      "epoch": 0.746,
-      "grad_norm": 16.92104888480676,
-      "kl": 4.099609375,
-      "learning_rate": 2.655868138008171e-07,
-      "loss": -0.074,
-      "reward": 2.5825823545455933,
-      "reward_std": 0.6137717366218567,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.032001130282878876,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1492
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 275.7916717529297,
-      "epoch": 0.7465,
-      "grad_norm": 6.220590527633046,
-      "kl": 1.08984375,
-      "learning_rate": 2.649786073176025e-07,
-      "loss": -0.0146,
-      "reward": 2.8706815242767334,
-      "reward_std": 0.18304454255849123,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.019943561404943466,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1493
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.0416717529297,
-      "epoch": 0.747,
-      "grad_norm": 8.80186866611191,
-      "kl": 1.95703125,
-      "learning_rate": 2.6437126905897967e-07,
-      "loss": 0.0754,
-      "reward": 2.5168925523757935,
-      "reward_std": 0.46842535585165024,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.029982510022819042,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1494
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 250.89584350585938,
-      "epoch": 0.7475,
-      "grad_norm": 11.509437222020193,
-      "kl": 3.453125,
-      "learning_rate": 2.637648008750062e-07,
-      "loss": -0.0703,
-      "reward": 2.5987823009490967,
-      "reward_std": 0.7667766213417053,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.0227454686537385,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1495
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.5208435058594,
-      "epoch": 0.748,
-      "grad_norm": 11.744253799204682,
-      "kl": 2.890625,
-      "learning_rate": 2.631592046130896e-07,
-      "loss": 0.0104,
-      "reward": 2.1920148134231567,
-      "reward_std": 0.5672837495803833,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.02847137115895748,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1496
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 305.6458435058594,
-      "epoch": 0.7485,
-      "grad_norm": 14.637527744293745,
-      "kl": 3.61328125,
-      "learning_rate": 2.6255448211798103e-07,
-      "loss": -0.0551,
-      "reward": 2.6001073122024536,
-      "reward_std": 0.43944015353918076,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03878166899085045,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1497
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 272.4583435058594,
-      "epoch": 0.749,
-      "grad_norm": 4.858094415340834,
-      "kl": 0.740234375,
-      "learning_rate": 2.6195063523177e-07,
-      "loss": 0.0534,
-      "reward": 2.713899612426758,
-      "reward_std": 0.0610094303265214,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.020475570112466812,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1498
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.0833435058594,
-      "epoch": 0.7495,
-      "grad_norm": 5.449268107276577,
-      "kl": 1.134765625,
-      "learning_rate": 2.613476657938789e-07,
-      "loss": 0.0716,
-      "reward": 2.6610913276672363,
-      "reward_std": 0.27378853410482407,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.021200459450483322,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1499
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 272.5416717529297,
-      "epoch": 0.75,
-      "grad_norm": 5.9488407024205685,
-      "kl": 1.52734375,
-      "learning_rate": 2.6074557564105724e-07,
-      "loss": 0.0979,
-      "reward": 2.62813401222229,
-      "reward_std": 0.37979737704154104,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.015963357756845653,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1500
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 267.95833587646484,
-      "epoch": 0.7505,
-      "grad_norm": 4.3632751002774315,
-      "kl": 1.6484375,
-      "learning_rate": 2.6014436660737605e-07,
-      "loss": -0.0364,
-      "reward": 2.6962149143218994,
-      "reward_std": 0.5003593862056732,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02253533434122801,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1501
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.2708435058594,
-      "epoch": 0.751,
-      "grad_norm": 8.236462804572298,
-      "kl": 1.58984375,
-      "learning_rate": 2.595440405242222e-07,
-      "loss": -0.0203,
-      "reward": 2.7835288047790527,
-      "reward_std": 0.4721106141805649,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.013346214778721333,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1502
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 251.625,
-      "epoch": 0.7515,
-      "grad_norm": 6.981131847692658,
-      "kl": 1.91015625,
-      "learning_rate": 2.589445992202931e-07,
-      "loss": -0.0142,
-      "reward": 2.6148020029067993,
-      "reward_std": 0.5384411364793777,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.020614707842469215,
-      "rewards/tag_count_reward": 0.9062500298023224,
-      "step": 1503
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.31251525878906,
-      "epoch": 0.752,
-      "grad_norm": 6.52821102623756,
-      "kl": 1.8125,
-      "learning_rate": 2.583460445215911e-07,
-      "loss": -0.0262,
-      "reward": 2.4926270246505737,
-      "reward_std": 0.7499818503856659,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.0334148071706295,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1504
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 295.93751525878906,
-      "epoch": 0.7525,
-      "grad_norm": 33.49372224861189,
-      "kl": 1.78125,
-      "learning_rate": 2.5774837825141736e-07,
-      "loss": 0.1068,
-      "reward": 2.8040874004364014,
-      "reward_std": 0.3838850110769272,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.034454355016350746,
-      "rewards/tag_count_reward": 0.9427083730697632,
-      "step": 1505
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.62501525878906,
-      "epoch": 0.753,
-      "grad_norm": 4.115301737132047,
-      "kl": 0.611328125,
-      "learning_rate": 2.571516022303671e-07,
-      "loss": 0.0313,
-      "reward": 2.837872266769409,
-      "reward_std": 0.33879856765270233,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02150270715355873,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1506
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 322.7708435058594,
-      "epoch": 0.7535,
-      "grad_norm": 6.925696299115607,
-      "kl": 1.39453125,
-      "learning_rate": 2.565557182763235e-07,
-      "loss": 0.0259,
-      "reward": 2.422218918800354,
-      "reward_std": 0.5452222675085068,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.027433859184384346,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1507
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 298.5,
-      "epoch": 0.754,
-      "grad_norm": 5.78599950453997,
-      "kl": 1.595703125,
-      "learning_rate": 2.5596072820445254e-07,
-      "loss": 0.0677,
-      "reward": 2.514102339744568,
-      "reward_std": 0.51523557305336,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.01714779995381832,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1508
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.6875,
-      "epoch": 0.7545,
-      "grad_norm": 23.247679880499817,
-      "kl": 1.98828125,
-      "learning_rate": 2.5536663382719713e-07,
-      "loss": 0.1553,
-      "reward": 2.4761857986450195,
-      "reward_std": 0.5169162601232529,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.034231009893119335,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1509
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.41668701171875,
-      "epoch": 0.755,
-      "grad_norm": 4.780358683601452,
-      "kl": 1.453125,
-      "learning_rate": 2.547734369542718e-07,
-      "loss": -0.006,
-      "reward": 2.5231523513793945,
-      "reward_std": 0.5849803388118744,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.023722639307379723,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1510
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 287.54168701171875,
-      "epoch": 0.7555,
-      "grad_norm": 54.12276638774576,
-      "kl": 2.9609375,
-      "learning_rate": 2.5418113939265686e-07,
-      "loss": 0.0877,
-      "reward": 2.6192400455474854,
-      "reward_std": 0.6453405022621155,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.023121179081499577,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1511
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 263.85418701171875,
-      "epoch": 0.756,
-      "grad_norm": 19.449042044921896,
-      "kl": 2.671875,
-      "learning_rate": 2.5358974294659373e-07,
-      "loss": -0.0146,
-      "reward": 2.5455033779144287,
-      "reward_std": 0.7476102709770203,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.020468920469284058,
-      "rewards/tag_count_reward": 0.9270833730697632,
-      "step": 1512
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.97918701171875,
-      "epoch": 0.7565,
-      "grad_norm": 10.92392466120309,
-      "kl": 1.876953125,
-      "learning_rate": 2.5299924941757843e-07,
-      "loss": 0.1007,
-      "reward": 2.4055851697921753,
-      "reward_std": 0.5663338005542755,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.04233153909444809,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1513
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.5416793823242,
-      "epoch": 0.757,
-      "grad_norm": 44.00142117460777,
-      "kl": 4.20703125,
-      "learning_rate": 2.5240966060435674e-07,
-      "loss": -0.0122,
-      "reward": 2.163232743740082,
-      "reward_std": 0.4055490791797638,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.7986111044883728,
-      "rewards/repetition_penalty_reward": -0.020795070566236973,
-      "rewards/tag_count_reward": 0.8229166865348816,
-      "step": 1514
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 275.5625,
-      "epoch": 0.7575,
-      "grad_norm": 6.548140605154211,
-      "kl": 2.34375,
-      "learning_rate": 2.5182097830291824e-07,
-      "loss": -0.1129,
-      "reward": 2.405154585838318,
-      "reward_std": 0.7896367907524109,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.020192706026136875,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1515
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 287.4791717529297,
-      "epoch": 0.758,
-      "grad_norm": 16.21577117974573,
-      "kl": 1.146484375,
-      "learning_rate": 2.512332043064913e-07,
-      "loss": 0.1167,
-      "reward": 2.509866714477539,
-      "reward_std": 0.5259620547294617,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.03527211956679821,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1516
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 259.1875,
-      "epoch": 0.7585,
-      "grad_norm": 6.825195538822801,
-      "kl": 1.1484375,
-      "learning_rate": 2.5064634040553767e-07,
-      "loss": 0.0764,
-      "reward": 2.596480369567871,
-      "reward_std": 0.37036192417144775,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.023311403580009937,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1517
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 259.39583587646484,
-      "epoch": 0.759,
-      "grad_norm": 7.531211105112099,
-      "kl": 2.37890625,
-      "learning_rate": 2.5006038838774647e-07,
-      "loss": 0.0148,
-      "reward": 2.2257198095321655,
-      "reward_std": 0.731947273015976,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.022544228471815586,
-      "rewards/tag_count_reward": 0.8593750298023224,
-      "step": 1518
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.9791717529297,
-      "epoch": 0.7595,
-      "grad_norm": 12.630414631027104,
-      "kl": 1.7578125,
-      "learning_rate": 2.494753500380291e-07,
-      "loss": 0.0332,
-      "reward": 2.614049792289734,
-      "reward_std": 0.6869710385799408,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.05608919635415077,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1519
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 288.54168701171875,
-      "epoch": 0.76,
-      "grad_norm": 5.390351956211983,
-      "kl": 1.11328125,
-      "learning_rate": 2.488912271385139e-07,
-      "loss": 0.0027,
-      "reward": 2.871764063835144,
-      "reward_std": 0.32710327208042145,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02059698849916458,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1520
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.1041717529297,
-      "epoch": 0.7605,
-      "grad_norm": 15.294086423040786,
-      "kl": 2.3125,
-      "learning_rate": 2.483080214685404e-07,
-      "loss": 0.0703,
-      "reward": 2.6500085592269897,
-      "reward_std": 0.6067156195640564,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.021866421215236187,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1521
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.5833435058594,
-      "epoch": 0.761,
-      "grad_norm": 7.991198731135982,
-      "kl": 1.4140625,
-      "learning_rate": 2.4772573480465445e-07,
-      "loss": 0.0322,
-      "reward": 2.7214081287384033,
-      "reward_std": 0.42735913395881653,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.021647341549396515,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1522
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 259.81251525878906,
-      "epoch": 0.7615,
-      "grad_norm": 7.133883392763306,
-      "kl": 1.2734375,
-      "learning_rate": 2.471443689206021e-07,
-      "loss": 0.0274,
-      "reward": 2.5906002521514893,
-      "reward_std": 0.45796915888786316,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.030927601736038923,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1523
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.87501525878906,
-      "epoch": 0.762,
-      "grad_norm": 9.686910468630904,
-      "kl": 2.16015625,
-      "learning_rate": 2.465639255873246e-07,
-      "loss": 0.3267,
-      "reward": 2.679943323135376,
-      "reward_std": 0.5434834957122803,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.030126115307211876,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1524
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.2708435058594,
-      "epoch": 0.7625,
-      "grad_norm": 5.1490011118154655,
-      "kl": 2.33203125,
-      "learning_rate": 2.4598440657295286e-07,
-      "loss": 0.0067,
-      "reward": 2.389386534690857,
-      "reward_std": 0.5596683621406555,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.01686352863907814,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1525
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 252.52083587646484,
-      "epoch": 0.763,
-      "grad_norm": 34.19051071296814,
-      "kl": 3.17578125,
-      "learning_rate": 2.454058136428027e-07,
-      "loss": 0.2352,
-      "reward": 2.393932580947876,
-      "reward_std": 0.526284646242857,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.017525773961097002,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1526
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.8125,
-      "epoch": 0.7635,
-      "grad_norm": 17.54640194645924,
-      "kl": 1.44140625,
-      "learning_rate": 2.4482814855936834e-07,
-      "loss": 0.0779,
-      "reward": 2.7223398685455322,
-      "reward_std": 0.46589484065771103,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.018979622051119804,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1527
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 263.0208435058594,
-      "epoch": 0.764,
-      "grad_norm": 9.08850475587058,
-      "kl": 2.18359375,
-      "learning_rate": 2.4425141308231765e-07,
-      "loss": 0.0748,
-      "reward": 2.8009958267211914,
-      "reward_std": 0.44475598144344985,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.009768242482095957,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1528
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 352.81251525878906,
-      "epoch": 0.7645,
-      "grad_norm": 19.330244578947458,
-      "kl": 2.6796875,
-      "learning_rate": 2.43675608968487e-07,
-      "loss": 0.1724,
-      "reward": 1.9503087401390076,
-      "reward_std": 0.43879881501197815,
-      "rewards/accuracy_reward": 0.1666666679084301,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03580245561897755,
-      "rewards/tag_count_reward": 0.8750000298023224,
-      "step": 1529
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.8125,
-      "epoch": 0.765,
-      "grad_norm": 10.153421840080243,
-      "kl": 1.87890625,
-      "learning_rate": 2.4310073797187573e-07,
-      "loss": 0.0312,
-      "reward": 2.5163590908050537,
-      "reward_std": 0.5512074381113052,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.0322520462796092,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1530
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 239.02083587646484,
-      "epoch": 0.7655,
-      "grad_norm": 6.7813462328053635,
-      "kl": 1.6484375,
-      "learning_rate": 2.4252680184364045e-07,
-      "loss": -0.043,
-      "reward": 2.6130350828170776,
-      "reward_std": 0.6324526071548462,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.017173412023112178,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1531
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 266.4166717529297,
-      "epoch": 0.766,
-      "grad_norm": 8.265844118560226,
-      "kl": 1.4765625,
-      "learning_rate": 2.4195380233209006e-07,
-      "loss": -0.0266,
-      "reward": 2.7328121662139893,
-      "reward_std": 0.6724408268928528,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.02413230948150158,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1532
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.9375,
-      "epoch": 0.7665,
-      "grad_norm": 3.9331602535210513,
-      "kl": 1.0859375,
-      "learning_rate": 2.413817411826807e-07,
-      "loss": -0.1036,
-      "reward": 2.5074063539505005,
-      "reward_std": 0.5442797392606735,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.029052074998617172,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1533
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 240.77084350585938,
-      "epoch": 0.767,
-      "grad_norm": 9.973948039444034,
-      "kl": 2.41796875,
-      "learning_rate": 2.408106201380097e-07,
-      "loss": 0.0,
-      "reward": 2.4841666221618652,
-      "reward_std": 0.5229880660772324,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.021041802130639553,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1534
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 316.625,
-      "epoch": 0.7675,
-      "grad_norm": 11.813541271263112,
-      "kl": 2.3046875,
-      "learning_rate": 2.4024044093781063e-07,
-      "loss": 0.1092,
-      "reward": 2.418421983718872,
-      "reward_std": 0.761476993560791,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.031230845488607883,
-      "rewards/tag_count_reward": 0.8593750298023224,
-      "step": 1535
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.9583435058594,
-      "epoch": 0.768,
-      "grad_norm": 13.907263883986914,
-      "kl": 1.25390625,
-      "learning_rate": 2.3967120531894857e-07,
-      "loss": 0.0569,
-      "reward": 2.579371452331543,
-      "reward_std": 0.3498530462384224,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02132294327020645,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1536
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 260.4166717529297,
-      "epoch": 0.7685,
-      "grad_norm": 12.302399407816415,
-      "kl": 3.2890625,
-      "learning_rate": 2.391029150154137e-07,
-      "loss": 0.0624,
-      "reward": 2.3881059885025024,
-      "reward_std": 0.6679995059967041,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.014672036748379469,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1537
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.5833435058594,
-      "epoch": 0.769,
-      "grad_norm": 12.935252444247103,
-      "kl": 2.51953125,
-      "learning_rate": 2.38535571758317e-07,
-      "loss": 0.0609,
-      "reward": 2.621963858604431,
-      "reward_std": 0.6098971962928772,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.027341697365045547,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1538
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.5833435058594,
-      "epoch": 0.7695,
-      "grad_norm": 6.135311130568607,
-      "kl": 1.037109375,
-      "learning_rate": 2.3796917727588412e-07,
-      "loss": 0.0857,
-      "reward": 2.657423496246338,
-      "reward_std": 0.2529868111014366,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03007663320749998,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1539
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 287.8333435058594,
-      "epoch": 0.77,
-      "grad_norm": 10.519026184776623,
-      "kl": 2.1875,
-      "learning_rate": 2.374037332934512e-07,
-      "loss": 0.037,
-      "reward": 2.3503577709198,
-      "reward_std": 0.5039149820804596,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.029850583523511887,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1540
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 233.3541717529297,
-      "epoch": 0.7705,
-      "grad_norm": 7.260626069337147,
-      "kl": 1.4296875,
-      "learning_rate": 2.3683924153345854e-07,
-      "loss": 0.0345,
-      "reward": 2.9000203609466553,
-      "reward_std": 0.28021588921546936,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.020118530839681625,
-      "rewards/tag_count_reward": 0.9895833730697632,
-      "step": 1541
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.72918701171875,
-      "epoch": 0.771,
-      "grad_norm": 4.314407100492501,
-      "kl": 1.2578125,
-      "learning_rate": 2.36275703715446e-07,
-      "loss": -0.0121,
-      "reward": 2.534322142601013,
-      "reward_std": 0.3907851278781891,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.022969634272158146,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1542
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 271.81251525878906,
-      "epoch": 0.7715,
-      "grad_norm": 5.670151769824431,
-      "kl": 1.0703125,
-      "learning_rate": 2.357131215560474e-07,
-      "loss": 0.0037,
-      "reward": 2.828339695930481,
-      "reward_std": 0.2872830927371979,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03277149237692356,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1543
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.5,
-      "epoch": 0.772,
-      "grad_norm": 7.6282657037651695,
-      "kl": 2.09375,
-      "learning_rate": 2.3515149676898552e-07,
-      "loss": 0.0448,
-      "reward": 2.5357162952423096,
-      "reward_std": 0.5322327762842178,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.037200456485152245,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1544
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 296.93751525878906,
-      "epoch": 0.7725,
-      "grad_norm": 4.352945225717926,
-      "kl": 0.837890625,
-      "learning_rate": 2.3459083106506712e-07,
-      "loss": 0.221,
-      "reward": 2.649806499481201,
-      "reward_std": 0.2627423256635666,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.027276871260255575,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1545
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 311.8541717529297,
-      "epoch": 0.773,
-      "grad_norm": 5.842490680004781,
-      "kl": 1.6875,
-      "learning_rate": 2.3403112615217693e-07,
-      "loss": 0.1197,
-      "reward": 2.5485793352127075,
-      "reward_std": 0.4063766598701477,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.024337463080883026,
-      "rewards/tag_count_reward": 0.9270833730697632,
-      "step": 1546
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.43751525878906,
-      "epoch": 0.7735,
-      "grad_norm": 6.003285903115502,
-      "kl": 1.828125,
-      "learning_rate": 2.334723837352733e-07,
-      "loss": 0.1055,
-      "reward": 2.6460882425308228,
-      "reward_std": 0.5506278276443481,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.013634048402309418,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1547
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.5833435058594,
-      "epoch": 0.774,
-      "grad_norm": 11.249985053869272,
-      "kl": 3.328125,
-      "learning_rate": 2.3291460551638237e-07,
-      "loss": 0.2142,
-      "reward": 2.2939001321792603,
-      "reward_std": 0.8971810340881348,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.875,
-      "rewards/repetition_penalty_reward": -0.018599930219352245,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1548
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.37501525878906,
-      "epoch": 0.7745,
-      "grad_norm": 11.075594302485063,
-      "kl": 1.55859375,
-      "learning_rate": 2.3235779319459355e-07,
-      "loss": 0.0602,
-      "reward": 2.5785093307495117,
-      "reward_std": 0.29725973308086395,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.037810200825333595,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1549
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 317.93751525878906,
-      "epoch": 0.775,
-      "grad_norm": 11.673776782665986,
-      "kl": 1.67578125,
-      "learning_rate": 2.3180194846605364e-07,
-      "loss": 0.1151,
-      "reward": 2.7235286235809326,
-      "reward_std": 0.585949033498764,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9375000894069672,
-      "rewards/repetition_penalty_reward": -0.026471680030226707,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1550
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 257.4583435058594,
-      "epoch": 0.7755,
-      "grad_norm": 6.3252296705969115,
-      "kl": 1.35546875,
-      "learning_rate": 2.312470730239621e-07,
-      "loss": -0.0488,
-      "reward": 2.4448201656341553,
-      "reward_std": 0.48708635568618774,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.016985515132546425,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1551
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 294.2083435058594,
-      "epoch": 0.776,
-      "grad_norm": 12.954209363640562,
-      "kl": 2.06640625,
-      "learning_rate": 2.306931685585657e-07,
-      "loss": 0.1214,
-      "reward": 2.228946566581726,
-      "reward_std": 0.35232171416282654,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.026261983439326286,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1552
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 259.8125,
-      "epoch": 0.7765,
-      "grad_norm": 3.9761424833250136,
-      "kl": 1.26953125,
-      "learning_rate": 2.3014023675715339e-07,
-      "loss": 0.0292,
-      "reward": 2.886070728302002,
-      "reward_std": 0.23379188776016235,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.018443217035382986,
-      "rewards/tag_count_reward": 0.9739583730697632,
-      "step": 1553
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.18751525878906,
-      "epoch": 0.777,
-      "grad_norm": 9.05056417179947,
-      "kl": 1.35546875,
-      "learning_rate": 2.2958827930405162e-07,
-      "loss": 0.1063,
-      "reward": 2.5847833156585693,
-      "reward_std": 0.4528532326221466,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.035008576698601246,
-      "rewards/tag_count_reward": 0.9114583730697632,
-      "step": 1554
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.9791793823242,
-      "epoch": 0.7775,
-      "grad_norm": 104.85246338097696,
-      "kl": 2.3125,
-      "learning_rate": 2.2903729788061834e-07,
-      "loss": 0.1352,
-      "reward": 2.5495121479034424,
-      "reward_std": 0.7037906050682068,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.01993226632475853,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1555
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 299.1458435058594,
-      "epoch": 0.778,
-      "grad_norm": 6.890435145460005,
-      "kl": 1.11328125,
-      "learning_rate": 2.2848729416523859e-07,
-      "loss": 0.0421,
-      "reward": 2.3158843517303467,
-      "reward_std": 0.47459036111831665,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.024393508210778236,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1556
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 302.3541717529297,
-      "epoch": 0.7785,
-      "grad_norm": 9.282545995378012,
-      "kl": 1.044921875,
-      "learning_rate": 2.2793826983331886e-07,
-      "loss": 0.1611,
-      "reward": 2.3017712831497192,
-      "reward_std": 0.3790929764509201,
-      "rewards/accuracy_reward": 0.3958333544433117,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03156219515949488,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1557
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 285.87501525878906,
-      "epoch": 0.779,
-      "grad_norm": 3.6904386519177583,
-      "kl": 0.564453125,
-      "learning_rate": 2.2739022655728277e-07,
-      "loss": 0.0184,
-      "reward": 2.7911198139190674,
-      "reward_std": 0.22485119104385376,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.04915817081928253,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1558
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 257.875,
-      "epoch": 0.7795,
-      "grad_norm": 9.948120856303264,
-      "kl": 1.69921875,
-      "learning_rate": 2.268431660065651e-07,
-      "loss": 0.1686,
-      "reward": 2.5424914360046387,
-      "reward_std": 0.6018918454647064,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.881944477558136,
-      "rewards/repetition_penalty_reward": -0.021744604222476482,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1559
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.29168701171875,
-      "epoch": 0.78,
-      "grad_norm": 5.310065668788173,
-      "kl": 2.4140625,
-      "learning_rate": 2.2629708984760706e-07,
-      "loss": 0.1289,
-      "reward": 2.24657142162323,
-      "reward_std": 0.9247779548168182,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.8263889253139496,
-      "rewards/repetition_penalty_reward": -0.02252592984586954,
-      "rewards/tag_count_reward": 0.859375,
-      "step": 1560
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.75001525878906,
-      "epoch": 0.7805,
-      "grad_norm": 8.564129818034443,
-      "kl": 1.359375,
-      "learning_rate": 2.2575199974385144e-07,
-      "loss": 0.1631,
-      "reward": 2.4449636936187744,
-      "reward_std": 0.49174782633781433,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.022050250321626663,
-      "rewards/tag_count_reward": 0.9739583730697632,
-      "step": 1561
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 230.7291717529297,
-      "epoch": 0.781,
-      "grad_norm": 5.561119420119422,
-      "kl": 2.189453125,
-      "learning_rate": 2.2520789735573704e-07,
-      "loss": 0.0542,
-      "reward": 2.534723997116089,
-      "reward_std": 0.5092030912637711,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.012151051312685013,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1562
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.93751525878906,
-      "epoch": 0.7815,
-      "grad_norm": 5.117268929695284,
-      "kl": 0.931640625,
-      "learning_rate": 2.2466478434069435e-07,
-      "loss": 0.0107,
-      "reward": 2.3754416704177856,
-      "reward_std": 0.39969532936811447,
-      "rewards/accuracy_reward": 0.4375000111758709,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.025599990040063858,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1563
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 350.6041717529297,
-      "epoch": 0.782,
-      "grad_norm": 9.440710428522506,
-      "kl": 1.81640625,
-      "learning_rate": 2.2412266235313973e-07,
-      "loss": 0.3979,
-      "reward": 2.50728178024292,
-      "reward_std": 0.6064448654651642,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03959329519420862,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1564
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 380.7083435058594,
-      "epoch": 0.7825,
-      "grad_norm": 24.815520443713027,
-      "kl": 2.8515625,
-      "learning_rate": 2.2358153304447066e-07,
-      "loss": 0.4005,
-      "reward": 2.2530555725097656,
-      "reward_std": 0.5099890530109406,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.02298619970679283,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1565
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.00001525878906,
-      "epoch": 0.783,
-      "grad_norm": 12.635922668896523,
-      "kl": 2.2734375,
-      "learning_rate": 2.230413980630609e-07,
-      "loss": 0.0445,
-      "reward": 2.488055467605591,
-      "reward_std": 0.5981208235025406,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.032778057269752026,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1566
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 370.56251525878906,
-      "epoch": 0.7835,
-      "grad_norm": 14.898019687710494,
-      "kl": 2.625,
-      "learning_rate": 2.2250225905425532e-07,
-      "loss": 0.2279,
-      "reward": 2.41832172870636,
-      "reward_std": 0.6433684527873993,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.8680556118488312,
-      "rewards/repetition_penalty_reward": -0.0226507056504488,
-      "rewards/tag_count_reward": 0.8437500298023224,
-      "step": 1567
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 332.1458435058594,
-      "epoch": 0.784,
-      "grad_norm": 8.069928988207886,
-      "kl": 2.375,
-      "learning_rate": 2.2196411766036487e-07,
-      "loss": 0.2497,
-      "reward": 2.5703223943710327,
-      "reward_std": 0.686181902885437,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.026900025084614754,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1568
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.8958435058594,
-      "epoch": 0.7845,
-      "grad_norm": 10.489749526563086,
-      "kl": 2.8671875,
-      "learning_rate": 2.2142697552066142e-07,
-      "loss": 0.2871,
-      "reward": 2.377824902534485,
-      "reward_std": 0.7266697287559509,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.019744650460779667,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1569
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.3958435058594,
-      "epoch": 0.785,
-      "grad_norm": 4.268659681870845,
-      "kl": 1.625,
-      "learning_rate": 2.2089083427137329e-07,
-      "loss": -0.0771,
-      "reward": 2.36256742477417,
-      "reward_std": 0.4559687077999115,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.031529780477285385,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1570
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.5416717529297,
-      "epoch": 0.7855,
-      "grad_norm": 8.822752169087817,
-      "kl": 1.3984375,
-      "learning_rate": 2.203556955456796e-07,
-      "loss": -0.0131,
-      "reward": 2.594992756843567,
-      "reward_std": 0.6085972636938095,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.030007286928594112,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1571
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.95833587646484,
-      "epoch": 0.786,
-      "grad_norm": 31.096559251399594,
-      "kl": 1.474609375,
-      "learning_rate": 2.1982156097370557e-07,
-      "loss": 0.2107,
-      "reward": 2.1280053853988647,
-      "reward_std": 0.2961831293068826,
-      "rewards/accuracy_reward": 0.2291666716337204,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.012619667453691363,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1572
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 303.5208435058594,
-      "epoch": 0.7865,
-      "grad_norm": 7.590109325873461,
-      "kl": 2.75390625,
-      "learning_rate": 2.1928843218251803e-07,
-      "loss": 0.0717,
-      "reward": 2.455071449279785,
-      "reward_std": 0.6115701645612717,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.826388955116272,
-      "rewards/repetition_penalty_reward": -0.02756764553487301,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1573
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.1458435058594,
-      "epoch": 0.787,
-      "grad_norm": 10.349493504338458,
-      "kl": 1.09765625,
-      "learning_rate": 2.1875631079611956e-07,
-      "loss": 0.1317,
-      "reward": 2.6623623371124268,
-      "reward_std": 0.5247603058815002,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.026873953640460968,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1574
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 304.43751525878906,
-      "epoch": 0.7875,
-      "grad_norm": 10.846195351334975,
-      "kl": 1.388671875,
-      "learning_rate": 2.1822519843544422e-07,
-      "loss": 0.0464,
-      "reward": 2.253710389137268,
-      "reward_std": 0.6600132286548615,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9097222983837128,
-      "rewards/repetition_penalty_reward": -0.025803642347455025,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1575
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 316.5416717529297,
-      "epoch": 0.788,
-      "grad_norm": 11.7016761594706,
-      "kl": 1.296875,
-      "learning_rate": 2.1769509671835223e-07,
-      "loss": 0.0149,
-      "reward": 2.3044776916503906,
-      "reward_std": 0.6875050067901611,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.881944477558136,
-      "rewards/repetition_penalty_reward": -0.041008614003658295,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1576
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 305.0,
-      "epoch": 0.7885,
-      "grad_norm": 23.225955314196877,
-      "kl": 1.875,
-      "learning_rate": 2.1716600725962558e-07,
-      "loss": 0.3445,
-      "reward": 2.3711761236190796,
-      "reward_std": 0.7729770541191101,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.02118516620248556,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1577
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 271.04168701171875,
-      "epoch": 0.789,
-      "grad_norm": 9.258843562543557,
-      "kl": 1.7578125,
-      "learning_rate": 2.166379316709625e-07,
-      "loss": -0.0326,
-      "reward": 2.26195228099823,
-      "reward_std": 0.7921708822250366,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.02797840256243944,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1578
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.75,
-      "epoch": 0.7895,
-      "grad_norm": 10.626888168484715,
-      "kl": 1.875,
-      "learning_rate": 2.1611087156097267e-07,
-      "loss": -0.0186,
-      "reward": 2.7739405632019043,
-      "reward_std": 0.3001384465023875,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.029878957197070122,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1579
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 297.72918701171875,
-      "epoch": 0.79,
-      "grad_norm": 7.09473650785355,
-      "kl": 1.38671875,
-      "learning_rate": 2.1558482853517253e-07,
-      "loss": 0.1454,
-      "reward": 2.6300599575042725,
-      "reward_std": 0.4111658036708832,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.024454043712466955,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1580
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.8333435058594,
-      "epoch": 0.7905,
-      "grad_norm": 5.85391538917019,
-      "kl": 1.34375,
-      "learning_rate": 2.1505980419598063e-07,
-      "loss": 0.0935,
-      "reward": 2.8416703939437866,
-      "reward_std": 0.30897435545921326,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.029857425950467587,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1581
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.6666717529297,
-      "epoch": 0.791,
-      "grad_norm": 5.122296677365158,
-      "kl": 1.146484375,
-      "learning_rate": 2.1453580014271203e-07,
-      "loss": 0.0385,
-      "reward": 2.530571699142456,
-      "reward_std": 0.24665961414575577,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.02324793115258217,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1582
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 271.31251525878906,
-      "epoch": 0.7915,
-      "grad_norm": 19.824116779052915,
-      "kl": 3.8125,
-      "learning_rate": 2.1401281797157395e-07,
-      "loss": 0.1603,
-      "reward": 2.473771572113037,
-      "reward_std": 0.672837495803833,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.8333334028720856,
-      "rewards/repetition_penalty_reward": -0.015811904333531857,
-      "rewards/tag_count_reward": 0.9062500298023224,
-      "step": 1583
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 274.91668701171875,
-      "epoch": 0.792,
-      "grad_norm": 6.585486937770688,
-      "kl": 1.6484375,
-      "learning_rate": 2.134908592756607e-07,
-      "loss": 0.1439,
-      "reward": 2.618052840232849,
-      "reward_std": 0.6666180491447449,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.015627761371433735,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1584
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 340.12501525878906,
-      "epoch": 0.7925,
-      "grad_norm": 18.241947160047147,
-      "kl": 2.865234375,
-      "learning_rate": 2.1296992564494904e-07,
-      "loss": 0.1482,
-      "reward": 2.4161217212677,
-      "reward_std": 0.7258022725582123,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.881944477558136,
-      "rewards/repetition_penalty_reward": -0.028322923928499222,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1585
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 262.2291793823242,
-      "epoch": 0.793,
-      "grad_norm": 4.017024733526017,
-      "kl": 0.64453125,
-      "learning_rate": 2.124500186662932e-07,
-      "loss": 0.0263,
-      "reward": 2.8568403720855713,
-      "reward_std": 0.22998722037300467,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.01815977320075035,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1586
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 261.6458435058594,
-      "epoch": 0.7935,
-      "grad_norm": 5.17341645646987,
-      "kl": 1.130859375,
-      "learning_rate": 2.1193113992342001e-07,
-      "loss": 0.0359,
-      "reward": 2.874253273010254,
-      "reward_std": 0.3271254301071167,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02505233883857727,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1587
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 326.6041717529297,
-      "epoch": 0.794,
-      "grad_norm": 15.607330298676484,
-      "kl": 2.05078125,
-      "learning_rate": 2.1141329099692406e-07,
-      "loss": 0.2062,
-      "reward": 2.5750577449798584,
-      "reward_std": 0.32292182743549347,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.042997824028134346,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1588
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 339.93751525878906,
-      "epoch": 0.7945,
-      "grad_norm": 10.81146440795989,
-      "kl": 1.345703125,
-      "learning_rate": 2.1089647346426303e-07,
-      "loss": 0.3202,
-      "reward": 2.6132642030715942,
-      "reward_std": 0.2669622115790844,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.022152533754706383,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1589
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 377.9583435058594,
-      "epoch": 0.795,
-      "grad_norm": 5.637731152589917,
-      "kl": 1.8984375,
-      "learning_rate": 2.1038068889975259e-07,
-      "loss": 0.3067,
-      "reward": 2.5194292068481445,
-      "reward_std": 0.6721850037574768,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9027778506278992,
-      "rewards/repetition_penalty_reward": -0.029181976802647114,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1590
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.0833435058594,
-      "epoch": 0.7955,
-      "grad_norm": 12.21283214309097,
-      "kl": 0.978515625,
-      "learning_rate": 2.0986593887456223e-07,
-      "loss": 0.233,
-      "reward": 2.7278926372528076,
-      "reward_std": 0.5767909586429596,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.023843545466661453,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1591
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.22918701171875,
-      "epoch": 0.796,
-      "grad_norm": 5.466559112755202,
-      "kl": 1.630859375,
-      "learning_rate": 2.0935222495670968e-07,
-      "loss": 0.1362,
-      "reward": 2.65623676776886,
-      "reward_std": 0.6166912019252777,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9444444179534912,
-      "rewards/repetition_penalty_reward": -0.02779117412865162,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1592
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 297.2916717529297,
-      "epoch": 0.7965,
-      "grad_norm": 6.094615509828546,
-      "kl": 1.22265625,
-      "learning_rate": 2.088395487110566e-07,
-      "loss": 0.078,
-      "reward": 2.733526110649109,
-      "reward_std": 0.44847723841667175,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.02515467908233404,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1593
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 282.56251525878906,
-      "epoch": 0.797,
-      "grad_norm": 4.218497044118198,
-      "kl": 1.359375,
-      "learning_rate": 2.0832791169930363e-07,
-      "loss": 0.2248,
-      "reward": 2.6115695238113403,
-      "reward_std": 0.34022286534309387,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.018638767302036285,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1594
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 353.7916717529297,
-      "epoch": 0.7975,
-      "grad_norm": 4.25463358775561,
-      "kl": 0.748046875,
-      "learning_rate": 2.078173154799861e-07,
-      "loss": 0.1418,
-      "reward": 2.7314101457595825,
-      "reward_std": 0.33814239501953125,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.03768732026219368,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1595
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 311.1666717529297,
-      "epoch": 0.798,
-      "grad_norm": 7.987189771627374,
-      "kl": 1.658203125,
-      "learning_rate": 2.0730776160846853e-07,
-      "loss": 0.1429,
-      "reward": 2.6225337982177734,
-      "reward_std": 0.3525502234697342,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.023299389518797398,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1596
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 350.0833435058594,
-      "epoch": 0.7985,
-      "grad_norm": 4.859278250656306,
-      "kl": 1.57421875,
-      "learning_rate": 2.0679925163694033e-07,
-      "loss": 0.3676,
-      "reward": 2.552080273628235,
-      "reward_std": 0.8139557242393494,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.031253148801624775,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1597
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.68751525878906,
-      "epoch": 0.799,
-      "grad_norm": 7.356529004359635,
-      "kl": 0.640625,
-      "learning_rate": 2.0629178711441115e-07,
-      "loss": 0.0221,
-      "reward": 2.4863110780715942,
-      "reward_std": 0.23228544741868973,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.013688962906599045,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1598
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.2083435058594,
-      "epoch": 0.7995,
-      "grad_norm": 3.7867120654273236,
-      "kl": 0.576171875,
-      "learning_rate": 2.0578536958670574e-07,
-      "loss": 0.0753,
-      "reward": 2.936859369277954,
-      "reward_std": 0.15612836927175522,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.021473943255841732,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1599
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 296.41668701171875,
-      "epoch": 0.8,
-      "grad_norm": 6.667486304605809,
-      "kl": 0.890625,
-      "learning_rate": 2.0528000059645995e-07,
-      "loss": 0.0294,
-      "reward": 2.498704433441162,
-      "reward_std": 0.3463284894824028,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.023865243420004845,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1600
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 283.0208435058594,
-      "epoch": 0.8005,
-      "grad_norm": 5.392405663450308,
-      "kl": 1.0859375,
-      "learning_rate": 2.0477568168311525e-07,
-      "loss": 0.1415,
-      "reward": 2.3850942850112915,
-      "reward_std": 0.3655809760093689,
-      "rewards/accuracy_reward": 0.4583333358168602,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.015947438776493073,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1601
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 281.0,
-      "epoch": 0.801,
-      "grad_norm": 10.683966440840944,
-      "kl": 0.97265625,
-      "learning_rate": 2.042724143829146e-07,
-      "loss": 0.1412,
-      "reward": 2.4589797258377075,
-      "reward_std": 0.5436213612556458,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.016714807134121656,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1602
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 264.875,
-      "epoch": 0.8015,
-      "grad_norm": 3.118222730823267,
-      "kl": 0.625,
-      "learning_rate": 2.037702002288973e-07,
-      "loss": 0.0022,
-      "reward": 2.7855957746505737,
-      "reward_std": 0.193808451294899,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.026904198341071606,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1603
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 339.50001525878906,
-      "epoch": 0.802,
-      "grad_norm": 4.604018186494893,
-      "kl": 0.7734375,
-      "learning_rate": 2.032690407508949e-07,
-      "loss": 0.1366,
-      "reward": 2.8414154052734375,
-      "reward_std": 0.21933773159980774,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.04400132969021797,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1604
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.93751525878906,
-      "epoch": 0.8025,
-      "grad_norm": 21.004216450205973,
-      "kl": 1.06640625,
-      "learning_rate": 2.027689374755261e-07,
-      "loss": 0.0028,
-      "reward": 2.575451135635376,
-      "reward_std": 0.37137471139431,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.028715766966342926,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1605
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.37501525878906,
-      "epoch": 0.803,
-      "grad_norm": 6.2354379721667526,
-      "kl": 0.53125,
-      "learning_rate": 2.0226989192619204e-07,
-      "loss": 0.0291,
-      "reward": 2.5753469467163086,
-      "reward_std": 0.19728727638721466,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02881983108818531,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1606
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.0833435058594,
-      "epoch": 0.8035,
-      "grad_norm": 8.229728899859898,
-      "kl": 0.8642578125,
-      "learning_rate": 2.0177190562307224e-07,
-      "loss": 0.0185,
-      "reward": 2.852303981781006,
-      "reward_std": 0.3710853382945061,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.024431976955384016,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1607
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 309.3125,
-      "epoch": 0.804,
-      "grad_norm": 10.300857336577062,
-      "kl": 1.041015625,
-      "learning_rate": 2.0127498008311922e-07,
-      "loss": 0.2301,
-      "reward": 2.592196464538574,
-      "reward_std": 0.41349270567297935,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.018914744723588228,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1608
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 316.75,
-      "epoch": 0.8045,
-      "grad_norm": 7.563778647893601,
-      "kl": 1.94921875,
-      "learning_rate": 2.0077911682005428e-07,
-      "loss": 0.1949,
-      "reward": 2.3974047899246216,
-      "reward_std": 0.6470229029655457,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.03141475468873978,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1609
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.9166717529297,
-      "epoch": 0.805,
-      "grad_norm": 7.811338730077243,
-      "kl": 1.5078125,
-      "learning_rate": 2.0028431734436308e-07,
-      "loss": 0.2798,
-      "reward": 2.4768539667129517,
-      "reward_std": 0.4787053167819977,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.028354503214359283,
-      "rewards/tag_count_reward": 0.9427083730697632,
-      "step": 1610
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 292.25001525878906,
-      "epoch": 0.8055,
-      "grad_norm": 8.594070426030529,
-      "kl": 2.0,
-      "learning_rate": 1.9979058316329055e-07,
-      "loss": 0.3485,
-      "reward": 2.784187912940979,
-      "reward_std": 0.45950163900852203,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.026576073840260506,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1611
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.1875,
-      "epoch": 0.806,
-      "grad_norm": 4.2199364202164,
-      "kl": 0.599609375,
-      "learning_rate": 1.9929791578083655e-07,
-      "loss": 0.0667,
-      "reward": 2.9232022762298584,
-      "reward_std": 0.15263231098651886,
-      "rewards/accuracy_reward": 0.9583333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03513127192854881,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1612
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 308.875,
-      "epoch": 0.8065,
-      "grad_norm": 8.990639470337845,
-      "kl": 0.84765625,
-      "learning_rate": 1.9880631669775162e-07,
-      "loss": 0.2945,
-      "reward": 2.668937563896179,
-      "reward_std": 0.4244493693113327,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666567325592,
-      "rewards/repetition_penalty_reward": -0.023770801723003387,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1613
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.00001525878906,
-      "epoch": 0.807,
-      "grad_norm": 8.09121179675446,
-      "kl": 0.935546875,
-      "learning_rate": 1.9831578741153155e-07,
-      "loss": 0.0507,
-      "reward": 2.8520257472991943,
-      "reward_std": 0.32762178778648376,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.03512696735560894,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1614
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 296.1458435058594,
-      "epoch": 0.8075,
-      "grad_norm": 9.454399169013804,
-      "kl": 0.595703125,
-      "learning_rate": 1.9782632941641375e-07,
-      "loss": 0.0606,
-      "reward": 2.6736570596694946,
-      "reward_std": 0.13973642978817225,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.019051472656428814,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1615
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 251.06250762939453,
-      "epoch": 0.808,
-      "grad_norm": 4.329960507797107,
-      "kl": 0.650390625,
-      "learning_rate": 1.9733794420337213e-07,
-      "loss": -0.0227,
-      "reward": 2.630091071128845,
-      "reward_std": 0.29190193116664886,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.015742299146950245,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1616
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 336.7291717529297,
-      "epoch": 0.8085,
-      "grad_norm": 6.82490142880819,
-      "kl": 1.55078125,
-      "learning_rate": 1.9685063326011263e-07,
-      "loss": 0.3148,
-      "reward": 2.5862770080566406,
-      "reward_std": 0.7006584405899048,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.04219539649784565,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1617
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.9166717529297,
-      "epoch": 0.809,
-      "grad_norm": 7.151058516859466,
-      "kl": 1.71484375,
-      "learning_rate": 1.9636439807106912e-07,
-      "loss": 0.2832,
-      "reward": 2.503158688545227,
-      "reward_std": 0.4477211833000183,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.01941095246002078,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1618
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 245.93750762939453,
-      "epoch": 0.8095,
-      "grad_norm": 4.443081763622589,
-      "kl": 0.625,
-      "learning_rate": 1.9587924011739826e-07,
-      "loss": 0.0627,
-      "reward": 2.9678823947906494,
-      "reward_std": 0.01614804659038782,
-      "rewards/accuracy_reward": 1.0,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03211780823767185,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1619
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 323.87500762939453,
-      "epoch": 0.81,
-      "grad_norm": 9.980771833809246,
-      "kl": 1.87109375,
-      "learning_rate": 1.9539516087697517e-07,
-      "loss": 0.2491,
-      "reward": 2.570975422859192,
-      "reward_std": 0.36428187415003777,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.022774542681872845,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1620
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 337.4375,
-      "epoch": 0.8105,
-      "grad_norm": 5.299585054431229,
-      "kl": 1.01171875,
-      "learning_rate": 1.9491216182438926e-07,
-      "loss": 0.0517,
-      "reward": 2.593162417411804,
-      "reward_std": 0.40712933242321014,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.04399042949080467,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1621
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 284.9791717529297,
-      "epoch": 0.811,
-      "grad_norm": 6.996029293693946,
-      "kl": 0.671875,
-      "learning_rate": 1.944302444309393e-07,
-      "loss": 0.0078,
-      "reward": 2.6557544469833374,
-      "reward_std": 0.2550486624240875,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.024801287800073624,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1622
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 295.66668701171875,
-      "epoch": 0.8115,
-      "grad_norm": 3.696905547483718,
-      "kl": 1.087890625,
-      "learning_rate": 1.9394941016462947e-07,
-      "loss": 0.0938,
-      "reward": 2.5640480518341064,
-      "reward_std": 0.3755566477775574,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.036646610125899315,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1623
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 314.22918701171875,
-      "epoch": 0.812,
-      "grad_norm": 10.073124148755838,
-      "kl": 1.7578125,
-      "learning_rate": 1.934696604901642e-07,
-      "loss": 0.2146,
-      "reward": 2.8040868043899536,
-      "reward_std": 0.5022929012775421,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.03271871618926525,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1624
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 281.5,
-      "epoch": 0.8125,
-      "grad_norm": 4.120406566625248,
-      "kl": 0.9375,
-      "learning_rate": 1.929909968689442e-07,
-      "loss": 0.057,
-      "reward": 2.469716787338257,
-      "reward_std": 0.394562803208828,
-      "rewards/accuracy_reward": 0.5416666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.035491637885570526,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1625
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.5625,
-      "epoch": 0.813,
-      "grad_norm": 6.662465778476507,
-      "kl": 1.498046875,
-      "learning_rate": 1.9251342075906179e-07,
-      "loss": 0.1782,
-      "reward": 2.5808849334716797,
-      "reward_std": 0.3251846134662628,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.033698457293212414,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1626
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 344.1458435058594,
-      "epoch": 0.8135,
-      "grad_norm": 18.710995596257547,
-      "kl": 2.18359375,
-      "learning_rate": 1.9203693361529687e-07,
-      "loss": 0.2733,
-      "reward": 2.6579350233078003,
-      "reward_std": 0.6114742159843445,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.01914846431463957,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1627
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.29168701171875,
-      "epoch": 0.814,
-      "grad_norm": 4.508553972215575,
-      "kl": 0.888671875,
-      "learning_rate": 1.915615368891117e-07,
-      "loss": 0.0428,
-      "reward": 2.79397451877594,
-      "reward_std": 0.3388333395123482,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.023733829148113728,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1628
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 267.5416717529297,
-      "epoch": 0.8145,
-      "grad_norm": 5.521089193451119,
-      "kl": 0.595703125,
-      "learning_rate": 1.9108723202864723e-07,
-      "loss": 0.0554,
-      "reward": 2.9251835346221924,
-      "reward_std": 0.1714300513267517,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.012316623236984015,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1629
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 371.39583587646484,
-      "epoch": 0.815,
-      "grad_norm": 7.336042303384628,
-      "kl": 1.06640625,
-      "learning_rate": 1.9061402047871833e-07,
-      "loss": 0.2051,
-      "reward": 2.7813527584075928,
-      "reward_std": 0.33912873174995184,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.02420270536094904,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1630
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 431.54168701171875,
-      "epoch": 0.8155,
-      "grad_norm": 9.604124750722942,
-      "kl": 1.875,
-      "learning_rate": 1.9014190368080924e-07,
-      "loss": 0.5587,
-      "reward": 2.37904691696167,
-      "reward_std": 0.7319284677505493,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.023730785585939884,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1631
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 319.25,
-      "epoch": 0.816,
-      "grad_norm": 9.391423961724705,
-      "kl": 1.513671875,
-      "learning_rate": 1.8967088307307e-07,
-      "loss": 0.2808,
-      "reward": 2.566171407699585,
-      "reward_std": 0.5563443601131439,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.029314829036593437,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1632
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 324.5416717529297,
-      "epoch": 0.8165,
-      "grad_norm": 6.896452210575316,
-      "kl": 1.6875,
-      "learning_rate": 1.8920096009031072e-07,
-      "loss": 0.2943,
-      "reward": 2.5484179258346558,
-      "reward_std": 0.5188319385051727,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02449881285429001,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1633
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 287.00001525878906,
-      "epoch": 0.817,
-      "grad_norm": 6.919405126450731,
-      "kl": 0.716796875,
-      "learning_rate": 1.887321361639985e-07,
-      "loss": 0.0629,
-      "reward": 2.8598101139068604,
-      "reward_std": 0.2988024652004242,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.03428714908659458,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1634
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 295.60418701171875,
-      "epoch": 0.8175,
-      "grad_norm": 10.231296261630002,
-      "kl": 1.177734375,
-      "learning_rate": 1.8826441272225225e-07,
-      "loss": 0.2059,
-      "reward": 2.720053195953369,
-      "reward_std": 0.5625387728214264,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03168301936239004,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1635
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 336.7083435058594,
-      "epoch": 0.818,
-      "grad_norm": 10.632802931373286,
-      "kl": 1.51171875,
-      "learning_rate": 1.8779779118983867e-07,
-      "loss": 0.5578,
-      "reward": 2.639328956604004,
-      "reward_std": 0.6874139904975891,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.01865724567323923,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1636
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 299.6458435058594,
-      "epoch": 0.8185,
-      "grad_norm": 10.048893605843471,
-      "kl": 1.33203125,
-      "learning_rate": 1.8733227298816794e-07,
-      "loss": 0.3385,
-      "reward": 2.6121253967285156,
-      "reward_std": 0.5836938470602036,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.025027431547641754,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1637
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 314.7708435058594,
-      "epoch": 0.819,
-      "grad_norm": 6.465062212154395,
-      "kl": 0.65625,
-      "learning_rate": 1.8686785953528922e-07,
-      "loss": 0.1366,
-      "reward": 2.602375626564026,
-      "reward_std": 0.4529639333486557,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.026096642017364502,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1638
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 466.66668701171875,
-      "epoch": 0.8195,
-      "grad_norm": 30.96092236002016,
-      "kl": 3.671875,
-      "learning_rate": 1.8640455224588636e-07,
-      "loss": 0.4841,
-      "reward": 2.4283162355422974,
-      "reward_std": 0.6781846880912781,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.8680555820465088,
-      "rewards/repetition_penalty_reward": -0.017864545807242393,
-      "rewards/tag_count_reward": 0.8489583730697632,
-      "step": 1639
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.00001525878906,
-      "epoch": 0.82,
-      "grad_norm": 11.249771941826626,
-      "kl": 2.7109375,
-      "learning_rate": 1.8594235253127372e-07,
-      "loss": 0.2243,
-      "reward": 2.520586609840393,
-      "reward_std": 0.6222244799137115,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.019344151951372623,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1640
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.81251525878906,
-      "epoch": 0.8205,
-      "grad_norm": 4.567943396166058,
-      "kl": 0.7119140625,
-      "learning_rate": 1.8548126179939188e-07,
-      "loss": 0.0507,
-      "reward": 2.6988391876220703,
-      "reward_std": 0.5334462970495224,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.037272000685334206,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1641
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 260.87500762939453,
-      "epoch": 0.821,
-      "grad_norm": 5.377391931963283,
-      "kl": 0.59375,
-      "learning_rate": 1.850212814548031e-07,
-      "loss": 0.0612,
-      "reward": 2.5510483980178833,
-      "reward_std": 0.32321809232234955,
-      "rewards/accuracy_reward": 0.5833333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.021868368610739708,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1642
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 383.87501525878906,
-      "epoch": 0.8215,
-      "grad_norm": 10.395746122624809,
-      "kl": 2.015625,
-      "learning_rate": 1.8456241289868718e-07,
-      "loss": 0.3281,
-      "reward": 2.2994015216827393,
-      "reward_std": 0.4463878870010376,
-      "rewards/accuracy_reward": 0.4166666679084301,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.023515181615948677,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1643
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 309.7083435058594,
-      "epoch": 0.822,
-      "grad_norm": 9.658762972884702,
-      "kl": 0.984375,
-      "learning_rate": 1.8410465752883758e-07,
-      "loss": 0.3969,
-      "reward": 2.853973150253296,
-      "reward_std": 0.33096832036972046,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.017554799327626824,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1644
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 295.3958435058594,
-      "epoch": 0.8225,
-      "grad_norm": 40.51819002173804,
-      "kl": 1.42578125,
-      "learning_rate": 1.8364801673965642e-07,
-      "loss": 0.287,
-      "reward": 2.553430914878845,
-      "reward_std": 0.580101728439331,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.022958120796829462,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1645
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 342.06251525878906,
-      "epoch": 0.823,
-      "grad_norm": 7.09616651885635,
-      "kl": 1.55859375,
-      "learning_rate": 1.8319249192215055e-07,
-      "loss": 0.5539,
-      "reward": 2.7683907747268677,
-      "reward_std": 0.487443208694458,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.035428643226623535,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1646
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 525.1875305175781,
-      "epoch": 0.8235,
-      "grad_norm": 22.444784133823088,
-      "kl": 3.859375,
-      "learning_rate": 1.8273808446392785e-07,
-      "loss": 0.5689,
-      "reward": 2.390328526496887,
-      "reward_std": 0.5453556627035141,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.8611111640930176,
-      "rewards/repetition_penalty_reward": -0.0072408574633300304,
-      "rewards/tag_count_reward": 0.8281250298023224,
-      "step": 1647
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 402.1875,
-      "epoch": 0.824,
-      "grad_norm": 7.4531870630991515,
-      "kl": 2.71875,
-      "learning_rate": 1.822847957491922e-07,
-      "loss": 0.65,
-      "reward": 2.406116247177124,
-      "reward_std": 0.7253749072551727,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9097221791744232,
-      "rewards/repetition_penalty_reward": -0.019231081008911133,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1648
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 375.25001525878906,
-      "epoch": 0.8245,
-      "grad_norm": 4.1340736903663595,
-      "kl": 1.33984375,
-      "learning_rate": 1.8183262715873938e-07,
-      "loss": 0.3177,
-      "reward": 2.4100518226623535,
-      "reward_std": 0.6681110262870789,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.023975889198482037,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1649
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.4583435058594,
-      "epoch": 0.825,
-      "grad_norm": 7.486120901127916,
-      "kl": 0.978515625,
-      "learning_rate": 1.8138158006995363e-07,
-      "loss": 0.1757,
-      "reward": 2.8634815216064453,
-      "reward_std": 0.3373248726129532,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.042768435552716255,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1650
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 345.66668701171875,
-      "epoch": 0.8255,
-      "grad_norm": 9.259229368359508,
-      "kl": 1.505859375,
-      "learning_rate": 1.8093165585680253e-07,
-      "loss": 0.3075,
-      "reward": 2.573695659637451,
-      "reward_std": 0.47858020663261414,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.021790657192468643,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1651
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 308.62501525878906,
-      "epoch": 0.826,
-      "grad_norm": 5.948718639971257,
-      "kl": 0.59765625,
-      "learning_rate": 1.804828558898332e-07,
-      "loss": -0.0333,
-      "reward": 2.6328206062316895,
-      "reward_std": 0.3835385888814926,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.032110003754496574,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1652
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 416.81251525878906,
-      "epoch": 0.8265,
-      "grad_norm": 5.733286623959369,
-      "kl": 1.5546875,
-      "learning_rate": 1.800351815361682e-07,
-      "loss": 0.4485,
-      "reward": 2.4559801816940308,
-      "reward_std": 0.6161761581897736,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.021450520493090153,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1653
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 379.1458435058594,
-      "epoch": 0.827,
-      "grad_norm": 5.107287414386508,
-      "kl": 1.21484375,
-      "learning_rate": 1.7958863415950112e-07,
-      "loss": 0.1107,
-      "reward": 2.421965479850769,
-      "reward_std": 0.3980814069509506,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.029423545114696026,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1654
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 273.18751525878906,
-      "epoch": 0.8275,
-      "grad_norm": 6.952303501359962,
-      "kl": 0.76171875,
-      "learning_rate": 1.7914321512009296e-07,
-      "loss": 0.0656,
-      "reward": 2.8843663930892944,
-      "reward_std": 0.22652451507747173,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.02014744747430086,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1655
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 476.1666717529297,
-      "epoch": 0.828,
-      "grad_norm": 10.341849236868242,
-      "kl": 2.90234375,
-      "learning_rate": 1.7869892577476722e-07,
-      "loss": 0.4727,
-      "reward": 2.3343173265457153,
-      "reward_std": 0.7950380742549896,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.8472222983837128,
-      "rewards/repetition_penalty_reward": -0.033738273195922375,
-      "rewards/tag_count_reward": 0.8333333432674408,
-      "step": 1656
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 339.7083435058594,
-      "epoch": 0.8285,
-      "grad_norm": 7.640794732443528,
-      "kl": 1.568359375,
-      "learning_rate": 1.782557674769063e-07,
-      "loss": 0.2939,
-      "reward": 2.689374566078186,
-      "reward_std": 0.424824059009552,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.022430949844419956,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1657
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 525.875,
-      "epoch": 0.829,
-      "grad_norm": 11.914470370020899,
-      "kl": 2.82421875,
-      "learning_rate": 1.7781374157644713e-07,
-      "loss": 0.6357,
-      "reward": 2.147131085395813,
-      "reward_std": 0.5802744626998901,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.016063490882515907,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1658
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 406.5416717529297,
-      "epoch": 0.8295,
-      "grad_norm": 10.946757964721602,
-      "kl": 3.1015625,
-      "learning_rate": 1.773728494198775e-07,
-      "loss": 0.4053,
-      "reward": 2.3653860092163086,
-      "reward_std": 0.5210855007171631,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.021766817197203636,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1659
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 405.5208435058594,
-      "epoch": 0.83,
-      "grad_norm": 15.491914941420152,
-      "kl": 0.91796875,
-      "learning_rate": 1.7693309235023127e-07,
-      "loss": 0.2427,
-      "reward": 2.8351590633392334,
-      "reward_std": 0.33579762279987335,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03463265113532543,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1660
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 342.60418701171875,
-      "epoch": 0.8305,
-      "grad_norm": 13.255170819740858,
-      "kl": 1.369140625,
-      "learning_rate": 1.7649447170708466e-07,
-      "loss": 0.5412,
-      "reward": 2.8557145595550537,
-      "reward_std": 0.31544718984514475,
-      "rewards/accuracy_reward": 0.9375,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02796613797545433,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1661
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 392.9166717529297,
-      "epoch": 0.831,
-      "grad_norm": 10.898791772241301,
-      "kl": 2.2890625,
-      "learning_rate": 1.7605698882655233e-07,
-      "loss": 0.4671,
-      "reward": 2.5021458864212036,
-      "reward_std": 0.6049044132232666,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.027368071489036083,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1662
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 318.0833435058594,
-      "epoch": 0.8315,
-      "grad_norm": 7.104099769758903,
-      "kl": 1.33203125,
-      "learning_rate": 1.7562064504128281e-07,
-      "loss": 0.4717,
-      "reward": 2.5585243701934814,
-      "reward_std": 0.5537194460630417,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.017864540684968233,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1663
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.4583435058594,
-      "epoch": 0.832,
-      "grad_norm": 7.006000014838191,
-      "kl": 1.06640625,
-      "learning_rate": 1.7518544168045524e-07,
-      "loss": 0.3078,
-      "reward": 2.647615075111389,
-      "reward_std": 0.2714964300394058,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.025996237061917782,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1664
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 381.5625,
-      "epoch": 0.8325,
-      "grad_norm": 25.862084169657674,
-      "kl": 2.109375,
-      "learning_rate": 1.7475138006977437e-07,
-      "loss": 0.6256,
-      "reward": 2.650961399078369,
-      "reward_std": 0.5018740892410278,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.012233282905071974,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1665
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.9583435058594,
-      "epoch": 0.833,
-      "grad_norm": 7.442304533677901,
-      "kl": 1.189453125,
-      "learning_rate": 1.743184615314671e-07,
-      "loss": 0.1916,
-      "reward": 2.9172674417495728,
-      "reward_std": 0.1536797545850277,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.023704865016043186,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1666
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 488.93751525878906,
-      "epoch": 0.8335,
-      "grad_norm": 17.015693320793893,
-      "kl": 2.3828125,
-      "learning_rate": 1.7388668738427847e-07,
-      "loss": 0.5714,
-      "reward": 2.4601612091064453,
-      "reward_std": 0.6804801672697067,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.020741629414260387,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1667
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 343.0833435058594,
-      "epoch": 0.834,
-      "grad_norm": 6.622283982214126,
-      "kl": 1.80078125,
-      "learning_rate": 1.7345605894346726e-07,
-      "loss": 0.2748,
-      "reward": 2.1607359647750854,
-      "reward_std": 0.5849722027778625,
-      "rewards/accuracy_reward": 0.3541666716337204,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.02676413208246231,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1668
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 435.8125,
-      "epoch": 0.8345,
-      "grad_norm": 10.366061275777671,
-      "kl": 1.87890625,
-      "learning_rate": 1.7302657752080258e-07,
-      "loss": 0.5968,
-      "reward": 2.4938762187957764,
-      "reward_std": 0.6266940236091614,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.023485003039240837,
-      "rewards/tag_count_reward": 0.9062500298023224,
-      "step": 1669
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.9791717529297,
-      "epoch": 0.835,
-      "grad_norm": 6.471286087528944,
-      "kl": 0.912109375,
-      "learning_rate": 1.7259824442455923e-07,
-      "loss": 0.1973,
-      "reward": 2.6409337520599365,
-      "reward_std": 0.41041404008865356,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.023996802046895027,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1670
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 344.3958435058594,
-      "epoch": 0.8355,
-      "grad_norm": 8.18949050435243,
-      "kl": 2.07421875,
-      "learning_rate": 1.7217106095951412e-07,
-      "loss": 0.4581,
-      "reward": 2.5663615465164185,
-      "reward_std": 0.6968798041343689,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.015235766302794218,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1671
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 440.8958435058594,
-      "epoch": 0.836,
-      "grad_norm": 11.296052099828927,
-      "kl": 2.265625,
-      "learning_rate": 1.7174502842694212e-07,
-      "loss": 0.5144,
-      "reward": 2.2743382453918457,
-      "reward_std": 0.6736903786659241,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.01038410421460867,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1672
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 432.4583435058594,
-      "epoch": 0.8365,
-      "grad_norm": 11.962173628260595,
-      "kl": 2.888671875,
-      "learning_rate": 1.7132014812461227e-07,
-      "loss": 0.3413,
-      "reward": 2.4873476028442383,
-      "reward_std": 0.47372131049633026,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.021332964301109314,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1673
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 399.37501525878906,
-      "epoch": 0.837,
-      "grad_norm": 4.56941687729545,
-      "kl": 1.314453125,
-      "learning_rate": 1.7089642134678364e-07,
-      "loss": 0.165,
-      "reward": 2.6062146425247192,
-      "reward_std": 0.4681692570447922,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0344105139374733,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1674
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 418.12501525878906,
-      "epoch": 0.8375,
-      "grad_norm": 16.236737665323922,
-      "kl": 1.578125,
-      "learning_rate": 1.704738493842015e-07,
-      "loss": 0.5058,
-      "reward": 2.3385233879089355,
-      "reward_std": 0.7678199410438538,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9097222983837128,
-      "rewards/repetition_penalty_reward": -0.013907157350331545,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1675
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 344.7916717529297,
-      "epoch": 0.838,
-      "grad_norm": 8.549333095195593,
-      "kl": 2.1328125,
-      "learning_rate": 1.7005243352409333e-07,
-      "loss": 0.175,
-      "reward": 2.302179217338562,
-      "reward_std": 0.8448854684829712,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.8819444477558136,
-      "rewards/repetition_penalty_reward": -0.03289027698338032,
-      "rewards/tag_count_reward": 0.8697916865348816,
-      "step": 1676
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.9791717529297,
-      "epoch": 0.8385,
-      "grad_norm": 4.575278870826187,
-      "kl": 1.41015625,
-      "learning_rate": 1.6963217505016475e-07,
-      "loss": 0.1386,
-      "reward": 2.2787574529647827,
-      "reward_std": 0.3729303479194641,
-      "rewards/accuracy_reward": 0.3750000111758709,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.016381369438022375,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1677
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 343.5208435058594,
-      "epoch": 0.839,
-      "grad_norm": 4.195422017395303,
-      "kl": 1.482421875,
-      "learning_rate": 1.6921307524259625e-07,
-      "loss": 0.1819,
-      "reward": 2.7099480628967285,
-      "reward_std": 0.41559091210365295,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.022690830752253532,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1678
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 359.0208435058594,
-      "epoch": 0.8395,
-      "grad_norm": 11.950641286729567,
-      "kl": 0.943359375,
-      "learning_rate": 1.6879513537803839e-07,
-      "loss": 0.453,
-      "reward": 2.5649707317352295,
-      "reward_std": 0.39247044920921326,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.02183501608669758,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1679
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 447.4166717529297,
-      "epoch": 0.84,
-      "grad_norm": 8.687575451435944,
-      "kl": 1.419921875,
-      "learning_rate": 1.6837835672960831e-07,
-      "loss": 0.5576,
-      "reward": 2.619246244430542,
-      "reward_std": 0.6550075113773346,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.028323073871433735,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1680
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 277.83333587646484,
-      "epoch": 0.8405,
-      "grad_norm": 7.023805921675465,
-      "kl": 1.224609375,
-      "learning_rate": 1.6796274056688637e-07,
-      "loss": 0.0823,
-      "reward": 2.508470058441162,
-      "reward_std": 0.3732000142335892,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.014099352061748505,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1681
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 349.25001525878906,
-      "epoch": 0.841,
-      "grad_norm": 6.786127817511959,
-      "kl": 1.1328125,
-      "learning_rate": 1.6754828815591131e-07,
-      "loss": 0.29,
-      "reward": 2.645016670227051,
-      "reward_std": 0.5615668296813965,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.018177741672843695,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1682
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 533.6458435058594,
-      "epoch": 0.8415,
-      "grad_norm": 37.07630929388199,
-      "kl": 5.0625,
-      "learning_rate": 1.6713500075917694e-07,
-      "loss": 0.5224,
-      "reward": 1.9782096147537231,
-      "reward_std": 0.7190957963466644,
-      "rewards/accuracy_reward": 0.291666679084301,
-      "rewards/reasoning_steps_reward": 0.8750000596046448,
-      "rewards/repetition_penalty_reward": -0.026998871937394142,
-      "rewards/tag_count_reward": 0.8385416865348816,
-      "step": 1683
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 509.54168701171875,
-      "epoch": 0.842,
-      "grad_norm": 25.945658463095125,
-      "kl": 2.25390625,
-      "learning_rate": 1.6672287963562852e-07,
-      "loss": 0.5761,
-      "reward": 2.5873239040374756,
-      "reward_std": 0.6155489385128021,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.8888890147209167,
-      "rewards/repetition_penalty_reward": -0.030731705483049154,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1684
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 443.7916717529297,
-      "epoch": 0.8425,
-      "grad_norm": 12.106839765407578,
-      "kl": 1.5078125,
-      "learning_rate": 1.6631192604065852e-07,
-      "loss": 0.4876,
-      "reward": 2.326740026473999,
-      "reward_std": 0.4968672841787338,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.02395441848784685,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1685
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.0833435058594,
-      "epoch": 0.843,
-      "grad_norm": 40.28917535782033,
-      "kl": 1.04296875,
-      "learning_rate": 1.659021412261026e-07,
-      "loss": 0.3504,
-      "reward": 2.5606080293655396,
-      "reward_std": 0.3592444807291031,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.014044871088117361,
-      "rewards/tag_count_reward": 0.9843750298023224,
-      "step": 1686
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 361.2708435058594,
-      "epoch": 0.8435,
-      "grad_norm": 6.73864611491594,
-      "kl": 1.017578125,
-      "learning_rate": 1.6549352644023668e-07,
-      "loss": 0.2952,
-      "reward": 2.494922637939453,
-      "reward_std": 0.2953641563653946,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.02764677256345749,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1687
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 417.3333435058594,
-      "epoch": 0.844,
-      "grad_norm": 8.47333082669667,
-      "kl": 1.14453125,
-      "learning_rate": 1.6508608292777203e-07,
-      "loss": 0.3733,
-      "reward": 2.648282527923584,
-      "reward_std": 0.3749905973672867,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.025328767485916615,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1688
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.3125,
-      "epoch": 0.8445,
-      "grad_norm": 10.455138386711887,
-      "kl": 1.40234375,
-      "learning_rate": 1.646798119298523e-07,
-      "loss": 0.2977,
-      "reward": 2.5954939126968384,
-      "reward_std": 0.37971626222133636,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.026033984497189522,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1689
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 399.25001525878906,
-      "epoch": 0.845,
-      "grad_norm": 10.80867448506658,
-      "kl": 1.30078125,
-      "learning_rate": 1.6427471468404952e-07,
-      "loss": 0.3745,
-      "reward": 2.5844664573669434,
-      "reward_std": 0.5553542077541351,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.03532520309090614,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1690
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 328.75,
-      "epoch": 0.8455,
-      "grad_norm": 10.515772073918267,
-      "kl": 1.103515625,
-      "learning_rate": 1.6387079242435995e-07,
-      "loss": 0.4825,
-      "reward": 2.847057342529297,
-      "reward_std": 0.3490803837776184,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.010581327602267265,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1691
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 380.50001525878906,
-      "epoch": 0.846,
-      "grad_norm": 9.354849527674562,
-      "kl": 1.859375,
-      "learning_rate": 1.6346804638120098e-07,
-      "loss": 0.3717,
-      "reward": 2.734411835670471,
-      "reward_std": 0.4372542053461075,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.010379912098869681,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1692
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 461.54168701171875,
-      "epoch": 0.8465,
-      "grad_norm": 10.81389100794866,
-      "kl": 1.71875,
-      "learning_rate": 1.6306647778140697e-07,
-      "loss": 0.8252,
-      "reward": 2.553888440132141,
-      "reward_std": 0.7343409359455109,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.022500536404550076,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1693
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 650.8333435058594,
-      "epoch": 0.847,
-      "grad_norm": 18.03694586453546,
-      "kl": 2.8359375,
-      "learning_rate": 1.6266608784822542e-07,
-      "loss": 0.5358,
-      "reward": 1.9123651385307312,
-      "reward_std": 0.5860169529914856,
-      "rewards/accuracy_reward": 0.18750000558793545,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.02166277915239334,
-      "rewards/tag_count_reward": 0.8437500298023224,
-      "step": 1694
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 634.6041870117188,
-      "epoch": 0.8475,
-      "grad_norm": 13.570448263572654,
-      "kl": 3.578125,
-      "learning_rate": 1.6226687780131337e-07,
-      "loss": 0.9188,
-      "reward": 2.1532905101776123,
-      "reward_std": 0.8254519104957581,
-      "rewards/accuracy_reward": 0.4791666716337204,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.01684834063053131,
-      "rewards/tag_count_reward": 0.8020833432674408,
-      "step": 1695
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 366.7708435058594,
-      "epoch": 0.848,
-      "grad_norm": 9.145183407264888,
-      "kl": 0.953125,
-      "learning_rate": 1.6186884885673413e-07,
-      "loss": 0.443,
-      "reward": 2.3256582021713257,
-      "reward_std": 0.47854430973529816,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.016355796717107296,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1696
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 324.1458435058594,
-      "epoch": 0.8485,
-      "grad_norm": 13.420921446394319,
-      "kl": 1.810546875,
-      "learning_rate": 1.6147200222695275e-07,
-      "loss": 0.2714,
-      "reward": 2.748153805732727,
-      "reward_std": 0.5222579091787338,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.026151607744395733,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1697
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 379.4791717529297,
-      "epoch": 0.849,
-      "grad_norm": 16.712319193882028,
-      "kl": 1.3515625,
-      "learning_rate": 1.610763391208329e-07,
-      "loss": 0.4492,
-      "reward": 2.480373501777649,
-      "reward_std": 0.4376864656805992,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.019626670517027378,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1698
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 335.68751525878906,
-      "epoch": 0.8495,
-      "grad_norm": 8.460670702699383,
-      "kl": 1.15234375,
-      "learning_rate": 1.6068186074363307e-07,
-      "loss": 0.4626,
-      "reward": 2.559247851371765,
-      "reward_std": 0.5322316884994507,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.01887742755934596,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1699
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 600.6875305175781,
-      "epoch": 0.85,
-      "grad_norm": 15.150759771270096,
-      "kl": 2.6953125,
-      "learning_rate": 1.6028856829700258e-07,
-      "loss": 0.5681,
-      "reward": 2.267993927001953,
-      "reward_std": 0.7472598850727081,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.8958334028720856,
-      "rewards/repetition_penalty_reward": -0.018464550375938416,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1700
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 429.2916717529297,
-      "epoch": 0.8505,
-      "grad_norm": 13.06168321828285,
-      "kl": 1.9921875,
-      "learning_rate": 1.5989646297897876e-07,
-      "loss": 0.3076,
-      "reward": 2.5890194177627563,
-      "reward_std": 0.5929211974143982,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.030772419180721045,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1701
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 471.2916717529297,
-      "epoch": 0.851,
-      "grad_norm": 5.600339328654864,
-      "kl": 1.7421875,
-      "learning_rate": 1.5950554598398228e-07,
-      "loss": 0.523,
-      "reward": 2.2353298664093018,
-      "reward_std": 0.478582501411438,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.026822968386113644,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1702
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 443.70835876464844,
-      "epoch": 0.8515,
-      "grad_norm": 10.128996657974916,
-      "kl": 1.298828125,
-      "learning_rate": 1.59115818502814e-07,
-      "loss": 0.6875,
-      "reward": 2.5388582944869995,
-      "reward_std": 0.3540804013609886,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.04273904860019684,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1703
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 291.5833435058594,
-      "epoch": 0.852,
-      "grad_norm": 8.164831996051532,
-      "kl": 1.609375,
-      "learning_rate": 1.5872728172265146e-07,
-      "loss": 0.0751,
-      "reward": 2.435483932495117,
-      "reward_std": 0.7406750321388245,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.02111327089369297,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1704
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 278.9375,
-      "epoch": 0.8525,
-      "grad_norm": 10.858353319143736,
-      "kl": 0.80859375,
-      "learning_rate": 1.5833993682704515e-07,
-      "loss": 0.2179,
-      "reward": 2.5048502683639526,
-      "reward_std": 0.344282865524292,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.02119144331663847,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1705
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 446.3541717529297,
-      "epoch": 0.853,
-      "grad_norm": 5.175917884900346,
-      "kl": 1.5703125,
-      "learning_rate": 1.579537849959148e-07,
-      "loss": 0.3352,
-      "reward": 2.296080231666565,
-      "reward_std": 0.6603887677192688,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.03378090541809797,
-      "rewards/tag_count_reward": 0.9270833730697632,
-      "step": 1706
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 358.0625,
-      "epoch": 0.8535,
-      "grad_norm": 5.15758064164511,
-      "kl": 1.333984375,
-      "learning_rate": 1.5756882740554578e-07,
-      "loss": 0.3919,
-      "reward": 2.4720072746276855,
-      "reward_std": 0.41646583657711744,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.02972903847694397,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1707
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 458.00001525878906,
-      "epoch": 0.854,
-      "grad_norm": 17.280373579635196,
-      "kl": 1.3203125,
-      "learning_rate": 1.5718506522858572e-07,
-      "loss": 0.5052,
-      "reward": 2.531672954559326,
-      "reward_std": 0.6426400542259216,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.029090996831655502,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1708
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 551.5833435058594,
-      "epoch": 0.8545,
-      "grad_norm": 7.826892273231986,
-      "kl": 2.5625,
-      "learning_rate": 1.5680249963404065e-07,
-      "loss": 0.8511,
-      "reward": 2.2978310585021973,
-      "reward_std": 0.8033435940742493,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.03897454775869846,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1709
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 312.68751525878906,
-      "epoch": 0.855,
-      "grad_norm": 5.338178479303831,
-      "kl": 0.853515625,
-      "learning_rate": 1.5642113178727193e-07,
-      "loss": 0.2184,
-      "reward": 2.568590521812439,
-      "reward_std": 0.4426009804010391,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.01821515103802085,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1710
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 431.75001525878906,
-      "epoch": 0.8555,
-      "grad_norm": 5.124987048089,
-      "kl": 1.8359375,
-      "learning_rate": 1.56040962849992e-07,
-      "loss": 0.4555,
-      "reward": 2.6776022911071777,
-      "reward_std": 0.5898395925760269,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.01684217620640993,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1711
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 439.25001525878906,
-      "epoch": 0.856,
-      "grad_norm": 7.502268383392246,
-      "kl": 2.271484375,
-      "learning_rate": 1.5566199398026147e-07,
-      "loss": 0.2842,
-      "reward": 2.5188140869140625,
-      "reward_std": 0.5468065068125725,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.02285270020365715,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1712
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 527.1458587646484,
-      "epoch": 0.8565,
-      "grad_norm": 8.654666055300138,
-      "kl": 1.9453125,
-      "learning_rate": 1.5528422633248516e-07,
-      "loss": 0.3654,
-      "reward": 2.467902421951294,
-      "reward_std": 0.7317368686199188,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.0407780222594738,
-      "rewards/tag_count_reward": 0.8697916865348816,
-      "step": 1713
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 520.5208587646484,
-      "epoch": 0.857,
-      "grad_norm": 5.651385244412516,
-      "kl": 2.1875,
-      "learning_rate": 1.5490766105740876e-07,
-      "loss": 0.6816,
-      "reward": 2.492395281791687,
-      "reward_std": 0.4476168677210808,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.01454922091215849,
-      "rewards/tag_count_reward": 0.8750000298023224,
-      "step": 1714
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 411.875,
-      "epoch": 0.8575,
-      "grad_norm": 9.849249493770895,
-      "kl": 1.8671875,
-      "learning_rate": 1.5453229930211563e-07,
-      "loss": 0.6325,
-      "reward": 2.4678452014923096,
-      "reward_std": 0.4792132079601288,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02173815481364727,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1715
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 421.7708435058594,
-      "epoch": 0.858,
-      "grad_norm": 15.301189903888302,
-      "kl": 2.1796875,
-      "learning_rate": 1.5415814221002265e-07,
-      "loss": 0.2572,
-      "reward": 2.3374699354171753,
-      "reward_std": 0.4645020067691803,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.023641261272132397,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1716
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 325.18750762939453,
-      "epoch": 0.8585,
-      "grad_norm": 6.930860696826815,
-      "kl": 1.078125,
-      "learning_rate": 1.5378519092087712e-07,
-      "loss": 0.246,
-      "reward": 2.599347233772278,
-      "reward_std": 0.4288046956062317,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.013500066474080086,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1717
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 296.0208435058594,
-      "epoch": 0.859,
-      "grad_norm": 6.893289627917303,
-      "kl": 0.708984375,
-      "learning_rate": 1.5341344657075354e-07,
-      "loss": 0.0453,
-      "reward": 2.7252657413482666,
-      "reward_std": 0.38875049352645874,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.0212620310485363,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1718
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 377.62501525878906,
-      "epoch": 0.8595,
-      "grad_norm": 5.587920983816194,
-      "kl": 1.4921875,
-      "learning_rate": 1.5304291029204954e-07,
-      "loss": 0.4535,
-      "reward": 2.5673869848251343,
-      "reward_std": 0.7304165959358215,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.022890993393957615,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1719
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 476.1041717529297,
-      "epoch": 0.86,
-      "grad_norm": 5.569410661498516,
-      "kl": 1.2109375,
-      "learning_rate": 1.5267358321348285e-07,
-      "loss": 0.4086,
-      "reward": 2.5152324438095093,
-      "reward_std": 0.5040201544761658,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.035114867612719536,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1720
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 509.18751525878906,
-      "epoch": 0.8605,
-      "grad_norm": 9.547003786726727,
-      "kl": 2.05078125,
-      "learning_rate": 1.5230546646008792e-07,
-      "loss": 0.3872,
-      "reward": 2.3030202388763428,
-      "reward_std": 0.302436888217926,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9166667461395264,
-      "rewards/repetition_penalty_reward": -0.030313138850033283,
-      "rewards/tag_count_reward": 0.8958333730697632,
-      "step": 1721
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 349.2708435058594,
-      "epoch": 0.861,
-      "grad_norm": 4.655955530469267,
-      "kl": 1.0625,
-      "learning_rate": 1.5193856115321224e-07,
-      "loss": 0.2487,
-      "reward": 2.71955668926239,
-      "reward_std": 0.43974626809358597,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.02349890023469925,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1722
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 318.7083435058594,
-      "epoch": 0.8615,
-      "grad_norm": 3.532375552852986,
-      "kl": 0.6015625,
-      "learning_rate": 1.5157286841051285e-07,
-      "loss": 0.0244,
-      "reward": 2.9468058347702026,
-      "reward_std": 0.07718131458386779,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.032360827550292015,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1723
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.9166717529297,
-      "epoch": 0.862,
-      "grad_norm": 11.354635521002548,
-      "kl": 0.9140625,
-      "learning_rate": 1.5120838934595337e-07,
-      "loss": 0.2791,
-      "reward": 2.9219456911087036,
-      "reward_std": 0.1730342721566558,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.01381842652335763,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1724
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 328.5833435058594,
-      "epoch": 0.8625,
-      "grad_norm": 6.092509316447617,
-      "kl": 1.162109375,
-      "learning_rate": 1.5084512506980023e-07,
-      "loss": 0.1386,
-      "reward": 2.519277572631836,
-      "reward_std": 0.3455023765563965,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.027597556822001934,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1725
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 442.3125305175781,
-      "epoch": 0.863,
-      "grad_norm": 6.529119686425871,
-      "kl": 1.9296875,
-      "learning_rate": 1.5048307668861947e-07,
-      "loss": 0.451,
-      "reward": 2.341726541519165,
-      "reward_std": 0.5323204696178436,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.02632923796772957,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1726
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 502.6458435058594,
-      "epoch": 0.8635,
-      "grad_norm": 11.398809580135172,
-      "kl": 1.892578125,
-      "learning_rate": 1.5012224530527297e-07,
-      "loss": 0.2973,
-      "reward": 2.4390887022018433,
-      "reward_std": 0.264788331463933,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.029661373235285282,
-      "rewards/tag_count_reward": 0.90625,
-      "step": 1727
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 328.5208435058594,
-      "epoch": 0.864,
-      "grad_norm": 7.130945265677619,
-      "kl": 1.052734375,
-      "learning_rate": 1.4976263201891613e-07,
-      "loss": 0.2046,
-      "reward": 2.761821746826172,
-      "reward_std": 0.5065120309591293,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.017692207358777523,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1728
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 373.8333435058594,
-      "epoch": 0.8645,
-      "grad_norm": 7.459954968059489,
-      "kl": 1.54296875,
-      "learning_rate": 1.4940423792499306e-07,
-      "loss": 0.4104,
-      "reward": 2.648692011833191,
-      "reward_std": 0.5437482595443726,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02318317536264658,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1729
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 354.7083435058594,
-      "epoch": 0.865,
-      "grad_norm": 8.31639308568495,
-      "kl": 1.419921875,
-      "learning_rate": 1.4904706411523448e-07,
-      "loss": 0.277,
-      "reward": 2.6593313217163086,
-      "reward_std": 0.50356225669384,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02122433064505458,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1730
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 424.2708435058594,
-      "epoch": 0.8655,
-      "grad_norm": 6.80725176888497,
-      "kl": 1.158203125,
-      "learning_rate": 1.4869111167765372e-07,
-      "loss": 0.4757,
-      "reward": 2.588240623474121,
-      "reward_std": 0.5882539600133896,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.019398383796215057,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1731
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 403.8541717529297,
-      "epoch": 0.866,
-      "grad_norm": 10.635761448282858,
-      "kl": 1.3984375,
-      "learning_rate": 1.483363816965435e-07,
-      "loss": 0.5591,
-      "reward": 2.674522638320923,
-      "reward_std": 0.6385620087385178,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.016449684277176857,
-      "rewards/tag_count_reward": 0.9270833730697632,
-      "step": 1732
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 430.35418701171875,
-      "epoch": 0.8665,
-      "grad_norm": 14.223874714304245,
-      "kl": 1.41015625,
-      "learning_rate": 1.479828752524731e-07,
-      "loss": 0.3242,
-      "reward": 2.7146769762039185,
-      "reward_std": 0.4512895792722702,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.021434213500469923,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1733
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 399.75001525878906,
-      "epoch": 0.867,
-      "grad_norm": 8.449702624326806,
-      "kl": 1.3359375,
-      "learning_rate": 1.4763059342228434e-07,
-      "loss": 0.4984,
-      "reward": 2.7380974292755127,
-      "reward_std": 0.6073452234268188,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.030999962240457535,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1734
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 333.4166717529297,
-      "epoch": 0.8675,
-      "grad_norm": 4.452898713963573,
-      "kl": 0.64453125,
-      "learning_rate": 1.4727953727908877e-07,
-      "loss": 0.1877,
-      "reward": 2.59316086769104,
-      "reward_std": 0.3150123804807663,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.030102994292974472,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1735
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 376.7291717529297,
-      "epoch": 0.868,
-      "grad_norm": 6.27878798387463,
-      "kl": 1.08203125,
-      "learning_rate": 1.469297078922642e-07,
-      "loss": 0.4336,
-      "reward": 2.635421872138977,
-      "reward_std": 0.31346043944358826,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.04166135564446449,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1736
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 377.8541717529297,
-      "epoch": 0.8685,
-      "grad_norm": 4.719740434148159,
-      "kl": 1.3046875,
-      "learning_rate": 1.4658110632745174e-07,
-      "loss": 0.2813,
-      "reward": 2.764721632003784,
-      "reward_std": 0.43931836541742086,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.025209171697497368,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1737
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 343.62501525878906,
-      "epoch": 0.869,
-      "grad_norm": 5.45166053562493,
-      "kl": 1.02734375,
-      "learning_rate": 1.4623373364655223e-07,
-      "loss": 0.3308,
-      "reward": 2.8263684511184692,
-      "reward_std": 0.26489363610744476,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.027798308990895748,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1738
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.4375,
-      "epoch": 0.8695,
-      "grad_norm": 11.37070470078536,
-      "kl": 1.609375,
-      "learning_rate": 1.45887590907723e-07,
-      "loss": 0.3803,
-      "reward": 2.567717671394348,
-      "reward_std": 0.7005654871463776,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.019088009372353554,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1739
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 534.7291717529297,
-      "epoch": 0.87,
-      "grad_norm": 15.389689880178889,
-      "kl": 2.359375,
-      "learning_rate": 1.4554267916537495e-07,
-      "loss": 0.8358,
-      "reward": 2.2046847343444824,
-      "reward_std": 0.6854039132595062,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.909722238779068,
-      "rewards/repetition_penalty_reward": -0.017537596635520458,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1740
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 422.6041717529297,
-      "epoch": 0.8705,
-      "grad_norm": 13.823047244979128,
-      "kl": 1.76953125,
-      "learning_rate": 1.4519899947016888e-07,
-      "loss": 0.5483,
-      "reward": 2.4729528427124023,
-      "reward_std": 0.536044716835022,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.014894509688019753,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1741
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 407.02085876464844,
-      "epoch": 0.871,
-      "grad_norm": 10.689522653892224,
-      "kl": 1.3583984375,
-      "learning_rate": 1.448565528690129e-07,
-      "loss": 0.4994,
-      "reward": 2.4924492835998535,
-      "reward_std": 0.46057581901550293,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.02838408574461937,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1742
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 329.5208435058594,
-      "epoch": 0.8715,
-      "grad_norm": 4.741298253263598,
-      "kl": 0.931640625,
-      "learning_rate": 1.4451534040505881e-07,
-      "loss": 0.1265,
-      "reward": 2.8301846981048584,
-      "reward_std": 0.25126277655363083,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03613481484353542,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1743
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 393.8541717529297,
-      "epoch": 0.872,
-      "grad_norm": 17.650431883419923,
-      "kl": 2.62890625,
-      "learning_rate": 1.4417536311769885e-07,
-      "loss": 0.4878,
-      "reward": 2.3627763986587524,
-      "reward_std": 0.4748759865760803,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.029584777541458607,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1744
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 368.0833435058594,
-      "epoch": 0.8725,
-      "grad_norm": 4.887810570436975,
-      "kl": 1.171875,
-      "learning_rate": 1.438366220425628e-07,
-      "loss": 0.4411,
-      "reward": 2.735856294631958,
-      "reward_std": 0.47497308254241943,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.03671339526772499,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1745
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 356.5416717529297,
-      "epoch": 0.873,
-      "grad_norm": 5.959026182042601,
-      "kl": 1.115234375,
-      "learning_rate": 1.4349911821151462e-07,
-      "loss": 0.4461,
-      "reward": 2.7494075298309326,
-      "reward_std": 0.3780593601986766,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.03010638989508152,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1746
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 505.04168701171875,
-      "epoch": 0.8735,
-      "grad_norm": 9.461995383287107,
-      "kl": 2.03125,
-      "learning_rate": 1.4316285265264978e-07,
-      "loss": 0.6131,
-      "reward": 2.443665385246277,
-      "reward_std": 0.32284732908010483,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.021612409502267838,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1747
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 505.41668701171875,
-      "epoch": 0.874,
-      "grad_norm": 5.960798471551781,
-      "kl": 1.921875,
-      "learning_rate": 1.4282782639029128e-07,
-      "loss": 0.6131,
-      "reward": 2.305721640586853,
-      "reward_std": 0.7335332632064819,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.018931284546852112,
-      "rewards/tag_count_reward": 0.8802083730697632,
-      "step": 1748
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 230.1666717529297,
-      "epoch": 0.8745,
-      "grad_norm": 5.536492769825701,
-      "kl": 0.98046875,
-      "learning_rate": 1.4249404044498727e-07,
-      "loss": 0.1038,
-      "reward": 2.941461443901062,
-      "reward_std": 0.18287718016654253,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.008191618835553527,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1749
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 355.0208435058594,
-      "epoch": 0.875,
-      "grad_norm": 12.021308076552485,
-      "kl": 0.67578125,
-      "learning_rate": 1.4216149583350755e-07,
-      "loss": 0.2597,
-      "reward": 2.925000309944153,
-      "reward_std": 0.15377740375697613,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03506927099078894,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1750
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 332.375,
-      "epoch": 0.8755,
-      "grad_norm": 18.87149191181025,
-      "kl": 0.92578125,
-      "learning_rate": 1.418301935688408e-07,
-      "loss": 0.2581,
-      "reward": 2.644270658493042,
-      "reward_std": 0.24090787768363953,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.022396131418645382,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1751
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 285.0416793823242,
-      "epoch": 0.876,
-      "grad_norm": 4.302085628117804,
-      "kl": 0.828125,
-      "learning_rate": 1.4150013466019114e-07,
-      "loss": 0.16,
-      "reward": 2.77993905544281,
-      "reward_std": 0.36863449215888977,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.015199816785752773,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1752
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 327.93751525878906,
-      "epoch": 0.8765,
-      "grad_norm": 10.151412864739319,
-      "kl": 1.16796875,
-      "learning_rate": 1.4117132011297528e-07,
-      "loss": 0.4048,
-      "reward": 2.7850375175476074,
-      "reward_std": 0.502088338136673,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.015309692360460758,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1753
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.8333435058594,
-      "epoch": 0.877,
-      "grad_norm": 6.5516024659716425,
-      "kl": 0.76953125,
-      "learning_rate": 1.4084375092881917e-07,
-      "loss": 0.294,
-      "reward": 2.7152035236358643,
-      "reward_std": 0.4315020889043808,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.02611603494733572,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1754
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 480.45835876464844,
-      "epoch": 0.8775,
-      "grad_norm": 11.39389155107235,
-      "kl": 1.8203125,
-      "learning_rate": 1.405174281055556e-07,
-      "loss": 0.4952,
-      "reward": 2.452518105506897,
-      "reward_std": 0.5552013963460922,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.011023662984371185,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1755
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 323.8333435058594,
-      "epoch": 0.878,
-      "grad_norm": 4.28402802913973,
-      "kl": 0.873046875,
-      "learning_rate": 1.4019235263722034e-07,
-      "loss": 0.1875,
-      "reward": 2.5597667694091797,
-      "reward_std": 0.40155889838933945,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.030511243268847466,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1756
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 483.0208435058594,
-      "epoch": 0.8785,
-      "grad_norm": 13.359830394312729,
-      "kl": 2.0078125,
-      "learning_rate": 1.3986852551404962e-07,
-      "loss": 0.499,
-      "reward": 2.397765874862671,
-      "reward_std": 0.4639376848936081,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.024109240621328354,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1757
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 434.4375,
-      "epoch": 0.879,
-      "grad_norm": 7.144462129204785,
-      "kl": 1.4609375,
-      "learning_rate": 1.395459477224772e-07,
-      "loss": 0.3825,
-      "reward": 2.5313947200775146,
-      "reward_std": 0.4858998954296112,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0311053404584527,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1758
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 309.25001525878906,
-      "epoch": 0.8795,
-      "grad_norm": 5.497608019794996,
-      "kl": 0.890625,
-      "learning_rate": 1.3922462024513075e-07,
-      "loss": 0.3099,
-      "reward": 2.6326241493225098,
-      "reward_std": 0.32827917486429214,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.009737157728523016,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1759
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 383.22918701171875,
-      "epoch": 0.88,
-      "grad_norm": 7.950064862238582,
-      "kl": 1.3828125,
-      "learning_rate": 1.3890454406082956e-07,
-      "loss": 0.4321,
-      "reward": 2.515586256980896,
-      "reward_std": 0.5082004070281982,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666567325592,
-      "rewards/repetition_penalty_reward": -0.020872057415544987,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1760
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 337.18751525878906,
-      "epoch": 0.8805,
-      "grad_norm": 4.154164825967078,
-      "kl": 0.740234375,
-      "learning_rate": 1.385857201445813e-07,
-      "loss": 0.2849,
-      "reward": 2.466183662414551,
-      "reward_std": 0.2627424318343401,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.030344081111252308,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1761
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 357.7916717529297,
-      "epoch": 0.881,
-      "grad_norm": 8.822719078728802,
-      "kl": 1.125,
-      "learning_rate": 1.3826814946757888e-07,
-      "loss": 0.1549,
-      "reward": 2.106475353240967,
-      "reward_std": 0.4267265051603317,
-      "rewards/accuracy_reward": 0.2083333358168602,
-      "rewards/reasoning_steps_reward": 0.9791666269302368,
-      "rewards/repetition_penalty_reward": -0.03935814555734396,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1762
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 341.6041717529297,
-      "epoch": 0.8815,
-      "grad_norm": 4.2275590882335266,
-      "kl": 0.904296875,
-      "learning_rate": 1.3795183299719753e-07,
-      "loss": 0.1513,
-      "reward": 2.4813464879989624,
-      "reward_std": 0.5057013630867004,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03601475339382887,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1763
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.9583435058594,
-      "epoch": 0.882,
-      "grad_norm": 5.592735227584482,
-      "kl": 0.982421875,
-      "learning_rate": 1.3763677169699217e-07,
-      "loss": -0.0045,
-      "reward": 2.6361879110336304,
-      "reward_std": 0.3717052489519119,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.021798397414386272,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1764
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 379.3541717529297,
-      "epoch": 0.8825,
-      "grad_norm": 4.766850312236698,
-      "kl": 1.126953125,
-      "learning_rate": 1.3732296652669417e-07,
-      "loss": 0.2914,
-      "reward": 2.6185107231140137,
-      "reward_std": 0.407680407166481,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03253097087144852,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1765
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 348.00001525878906,
-      "epoch": 0.883,
-      "grad_norm": 4.908003911372998,
-      "kl": 1.236328125,
-      "learning_rate": 1.370104184422085e-07,
-      "loss": 0.4774,
-      "reward": 2.7331286668777466,
-      "reward_std": 0.5909359902143478,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.03423246555030346,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1766
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 424.31251525878906,
-      "epoch": 0.8835,
-      "grad_norm": 4.218081542001781,
-      "kl": 1.5625,
-      "learning_rate": 1.3669912839561083e-07,
-      "loss": 0.4539,
-      "reward": 2.497738838195801,
-      "reward_std": 0.3815242201089859,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.028302965685725212,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1767
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 355.7708435058594,
-      "epoch": 0.884,
-      "grad_norm": 11.659886994958134,
-      "kl": 1.17578125,
-      "learning_rate": 1.3638909733514452e-07,
-      "loss": 0.3457,
-      "reward": 2.616908311843872,
-      "reward_std": 0.5863338112831116,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.021980691701173782,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1768
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 435.93751525878906,
-      "epoch": 0.8845,
-      "grad_norm": 10.949518936212161,
-      "kl": 1.16015625,
-      "learning_rate": 1.3608032620521803e-07,
-      "loss": 0.5473,
-      "reward": 2.750458240509033,
-      "reward_std": 0.5212399363517761,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.025583509355783463,
-      "rewards/tag_count_reward": 0.9427083730697632,
-      "step": 1769
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 354.81251525878906,
-      "epoch": 0.885,
-      "grad_norm": 10.36571400939137,
-      "kl": 1.19921875,
-      "learning_rate": 1.3577281594640182e-07,
-      "loss": 0.7841,
-      "reward": 2.636287212371826,
-      "reward_std": 0.4996710419654846,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.023435143288224936,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1770
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 452.375,
-      "epoch": 0.8855,
-      "grad_norm": 9.00198300414043,
-      "kl": 1.53125,
-      "learning_rate": 1.354665674954255e-07,
-      "loss": 0.4026,
-      "reward": 2.6022530794143677,
-      "reward_std": 0.33922192733734846,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.027955124154686928,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1771
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 364.68750762939453,
-      "epoch": 0.886,
-      "grad_norm": 7.279570069897522,
-      "kl": 0.958984375,
-      "learning_rate": 1.351615817851748e-07,
-      "loss": 0.297,
-      "reward": 2.481359362602234,
-      "reward_std": 0.33179375529289246,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.02732121106237173,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1772
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 390.12501525878906,
-      "epoch": 0.8865,
-      "grad_norm": 10.916967026611704,
-      "kl": 1.41015625,
-      "learning_rate": 1.3485785974468913e-07,
-      "loss": 0.3221,
-      "reward": 2.6607974767684937,
-      "reward_std": 0.38768453896045685,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.035383082926273346,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1773
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 440.12501525878906,
-      "epoch": 0.887,
-      "grad_norm": 12.121221337164327,
-      "kl": 2.30078125,
-      "learning_rate": 1.345554022991586e-07,
-      "loss": 0.5623,
-      "reward": 2.4204729795455933,
-      "reward_std": 0.6897162795066833,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.03265202045440674,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1774
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 318.7083435058594,
-      "epoch": 0.8875,
-      "grad_norm": 10.982971637870204,
-      "kl": 1.44140625,
-      "learning_rate": 1.3425421036992097e-07,
-      "loss": 0.3624,
-      "reward": 2.7605329751968384,
-      "reward_std": 0.5273626148700714,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.020717153325676918,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1775
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 468.8958435058594,
-      "epoch": 0.888,
-      "grad_norm": 10.54577580044071,
-      "kl": 1.63671875,
-      "learning_rate": 1.3395428487445914e-07,
-      "loss": 0.39,
-      "reward": 2.5657081604003906,
-      "reward_std": 0.4877399206161499,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0332502406090498,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1776
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.4791717529297,
-      "epoch": 0.8885,
-      "grad_norm": 5.822202062218948,
-      "kl": 0.548828125,
-      "learning_rate": 1.3365562672639807e-07,
-      "loss": 0.0764,
-      "reward": 2.9392874240875244,
-      "reward_std": 0.10572412749752402,
-      "rewards/accuracy_reward": 0.9583333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.019045927096158266,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1777
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 367.0208435058594,
-      "epoch": 0.889,
-      "grad_norm": 12.670512447704958,
-      "kl": 1.421875,
-      "learning_rate": 1.3335823683550237e-07,
-      "loss": 0.7225,
-      "reward": 2.640958547592163,
-      "reward_std": 0.7428161203861237,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.017027711495757103,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1778
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 403.1458435058594,
-      "epoch": 0.8895,
-      "grad_norm": 9.688022329481187,
-      "kl": 1.75,
-      "learning_rate": 1.3306211610767327e-07,
-      "loss": 0.8464,
-      "reward": 2.530915379524231,
-      "reward_std": 0.6522108912467957,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.021168189123272896,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1779
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 362.0208435058594,
-      "epoch": 0.89,
-      "grad_norm": 13.017237996007623,
-      "kl": 1.33984375,
-      "learning_rate": 1.3276726544494571e-07,
-      "loss": 0.4707,
-      "reward": 2.7710498571395874,
-      "reward_std": 0.40325474739074707,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.025825275108218193,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1780
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 389.7291717529297,
-      "epoch": 0.8905,
-      "grad_norm": 5.387878254985672,
-      "kl": 1.51171875,
-      "learning_rate": 1.3247368574548605e-07,
-      "loss": 0.4883,
-      "reward": 2.2095279693603516,
-      "reward_std": 0.547009214758873,
-      "rewards/accuracy_reward": 0.3750000223517418,
-      "rewards/reasoning_steps_reward": 0.9236110746860504,
-      "rewards/repetition_penalty_reward": -0.02137490874156356,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1781
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 348.8541717529297,
-      "epoch": 0.891,
-      "grad_norm": 4.93435481117121,
-      "kl": 1.052734375,
-      "learning_rate": 1.3218137790358892e-07,
-      "loss": 0.356,
-      "reward": 2.8138599395751953,
-      "reward_std": 0.295873099938035,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.029890276491642,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1782
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 503.6250305175781,
-      "epoch": 0.8915,
-      "grad_norm": 18.667124890654204,
-      "kl": 1.90625,
-      "learning_rate": 1.3189034280967474e-07,
-      "loss": 0.4897,
-      "reward": 2.317874312400818,
-      "reward_std": 0.3144010305404663,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9166667461395264,
-      "rewards/repetition_penalty_reward": -0.051917336881160736,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1783
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 509.16668701171875,
-      "epoch": 0.892,
-      "grad_norm": 137.39498749282393,
-      "kl": 6.7734375,
-      "learning_rate": 1.316005813502869e-07,
-      "loss": 0.6333,
-      "reward": 2.432840585708618,
-      "reward_std": 0.6739647388458252,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.025492852553725243,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1784
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 349.2291717529297,
-      "epoch": 0.8925,
-      "grad_norm": 5.858027527176804,
-      "kl": 1.3203125,
-      "learning_rate": 1.31312094408089e-07,
-      "loss": 0.3111,
-      "reward": 2.6231387853622437,
-      "reward_std": 0.44334521889686584,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.0192225007340312,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1785
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 402.58335876464844,
-      "epoch": 0.893,
-      "grad_norm": 4.541492575563727,
-      "kl": 1.345703125,
-      "learning_rate": 1.3102488286186234e-07,
-      "loss": 0.4852,
-      "reward": 2.777048349380493,
-      "reward_std": 0.41408103704452515,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.028507346287369728,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1786
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 483.72918701171875,
-      "epoch": 0.8935,
-      "grad_norm": 6.934337961180237,
-      "kl": 2.015625,
-      "learning_rate": 1.30738947586503e-07,
-      "loss": 0.6592,
-      "reward": 2.56930148601532,
-      "reward_std": 0.6575948297977448,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.031392961740493774,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1787
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 290.25,
-      "epoch": 0.894,
-      "grad_norm": 6.966975877164384,
-      "kl": 1.09765625,
-      "learning_rate": 1.3045428945301953e-07,
-      "loss": 0.3265,
-      "reward": 2.8180272579193115,
-      "reward_std": 0.34140200912952423,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.017042224761098623,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1788
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 304.2708435058594,
-      "epoch": 0.8945,
-      "grad_norm": 6.272772314297587,
-      "kl": 1.0859375,
-      "learning_rate": 1.3017090932852998e-07,
-      "loss": 0.1709,
-      "reward": 2.655430555343628,
-      "reward_std": 0.332093209028244,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.014708399772644043,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1789
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 458.9375305175781,
-      "epoch": 0.895,
-      "grad_norm": 8.12356036354293,
-      "kl": 1.83203125,
-      "learning_rate": 1.2988880807625927e-07,
-      "loss": 0.6271,
-      "reward": 2.6602718830108643,
-      "reward_std": 0.5047450065612793,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03070042561739683,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1790
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 418.4166717529297,
-      "epoch": 0.8955,
-      "grad_norm": 8.535870766876632,
-      "kl": 1.236328125,
-      "learning_rate": 1.2960798655553673e-07,
-      "loss": 0.3997,
-      "reward": 2.491165280342102,
-      "reward_std": 0.27948543429374695,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222089767456,
-      "rewards/repetition_penalty_reward": -0.017515364568680525,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1791
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 321.7708435058594,
-      "epoch": 0.896,
-      "grad_norm": 6.5441149884787,
-      "kl": 1.076171875,
-      "learning_rate": 1.2932844562179352e-07,
-      "loss": 0.3451,
-      "reward": 2.7869484424591064,
-      "reward_std": 0.531157523393631,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.023815508000552654,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1792
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 296.8958435058594,
-      "epoch": 0.8965,
-      "grad_norm": 8.808586232096019,
-      "kl": 0.890625,
-      "learning_rate": 1.2905018612655974e-07,
-      "loss": 0.0777,
-      "reward": 2.684244394302368,
-      "reward_std": 0.2914978265762329,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.029297261498868465,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1793
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 589.0208435058594,
-      "epoch": 0.897,
-      "grad_norm": 5.648691995344081,
-      "kl": 2.07421875,
-      "learning_rate": 1.2877320891746201e-07,
-      "loss": 0.7666,
-      "reward": 2.3528552055358887,
-      "reward_std": 0.4950469881296158,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.0290891882032156,
-      "rewards/tag_count_reward": 0.8750000298023224,
-      "step": 1794
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 479.2708435058594,
-      "epoch": 0.8975,
-      "grad_norm": 5.153259121443274,
-      "kl": 1.52734375,
-      "learning_rate": 1.284975148382211e-07,
-      "loss": 0.4386,
-      "reward": 2.5888208150863647,
-      "reward_std": 0.37291720509529114,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.036179195158183575,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1795
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 330.6041717529297,
-      "epoch": 0.898,
-      "grad_norm": 9.368121569370517,
-      "kl": 1.115234375,
-      "learning_rate": 1.2822310472864885e-07,
-      "loss": 0.2721,
-      "reward": 2.7130978107452393,
-      "reward_std": 0.25604604184627533,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.023013423196971416,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1796
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 347.7083435058594,
-      "epoch": 0.8985,
-      "grad_norm": 12.211005971271671,
-      "kl": 1.15234375,
-      "learning_rate": 1.2794997942464603e-07,
-      "loss": 0.3333,
-      "reward": 2.739255905151367,
-      "reward_std": 0.45043814182281494,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.026369189843535423,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1797
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 422.35418701171875,
-      "epoch": 0.899,
-      "grad_norm": 10.548113579660656,
-      "kl": 2.203125,
-      "learning_rate": 1.2767813975819983e-07,
-      "loss": 0.3646,
-      "reward": 2.240885376930237,
-      "reward_std": 0.4887467324733734,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.8888889253139496,
-      "rewards/repetition_penalty_reward": -0.02300364524126053,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1798
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 417.1666717529297,
-      "epoch": 0.8995,
-      "grad_norm": 4.435343161658372,
-      "kl": 1.275390625,
-      "learning_rate": 1.274075865573809e-07,
-      "loss": 0.3645,
-      "reward": 2.541459321975708,
-      "reward_std": 0.3853719085454941,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.03666570037603378,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1799
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 572.6666870117188,
-      "epoch": 0.9,
-      "grad_norm": 12.274646361156972,
-      "kl": 2.36328125,
-      "learning_rate": 1.2713832064634125e-07,
-      "loss": 0.5502,
-      "reward": 2.4783600568771362,
-      "reward_std": 0.6872712820768356,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.014695549616590142,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1800
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 435.7083435058594,
-      "epoch": 0.9005,
-      "grad_norm": 6.174999936072762,
-      "kl": 1.251953125,
-      "learning_rate": 1.2687034284531145e-07,
-      "loss": 0.219,
-      "reward": 2.5370699167251587,
-      "reward_std": 0.4170294851064682,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.027166323270648718,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1801
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 423.16668701171875,
-      "epoch": 0.901,
-      "grad_norm": 8.371287383648244,
-      "kl": 1.984375,
-      "learning_rate": 1.2660365397059856e-07,
-      "loss": 0.6964,
-      "reward": 2.5543148517608643,
-      "reward_std": 0.6248021870851517,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.02728235349059105,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1802
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 443.08335876464844,
-      "epoch": 0.9015,
-      "grad_norm": 4.999316997210919,
-      "kl": 1.60546875,
-      "learning_rate": 1.263382548345829e-07,
-      "loss": 0.4042,
-      "reward": 2.5936447381973267,
-      "reward_std": 0.49106191098690033,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0313554760068655,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1803
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 438.00001525878906,
-      "epoch": 0.902,
-      "grad_norm": 13.183151595537693,
-      "kl": 2.0703125,
-      "learning_rate": 1.260741462457165e-07,
-      "loss": 0.3495,
-      "reward": 2.561880946159363,
-      "reward_std": 0.6570396423339844,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.011035696603357792,
-      "rewards/tag_count_reward": 0.8645833432674408,
-      "step": 1804
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 480.4375,
-      "epoch": 0.9025,
-      "grad_norm": 7.229161374154403,
-      "kl": 2.3125,
-      "learning_rate": 1.258113290085197e-07,
-      "loss": 0.405,
-      "reward": 2.4197758436203003,
-      "reward_std": 0.7334087789058685,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.03161316737532616,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1805
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 374.2291717529297,
-      "epoch": 0.903,
-      "grad_norm": 8.888192201627456,
-      "kl": 1.01171875,
-      "learning_rate": 1.2554980392357956e-07,
-      "loss": 0.5509,
-      "reward": 2.8383933305740356,
-      "reward_std": 0.3369765877723694,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.027926414273679256,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1806
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 305.31251525878906,
-      "epoch": 0.9035,
-      "grad_norm": 7.34813847799913,
-      "kl": 0.875,
-      "learning_rate": 1.2528957178754676e-07,
-      "loss": 0.1249,
-      "reward": 2.66613507270813,
-      "reward_std": 0.42864419519901276,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.026573394425213337,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1807
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.7291717529297,
-      "epoch": 0.904,
-      "grad_norm": 6.090013410671144,
-      "kl": 0.939453125,
-      "learning_rate": 1.2503063339313356e-07,
-      "loss": 0.4151,
-      "reward": 2.8806700706481934,
-      "reward_std": 0.2488960325717926,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.025580264627933502,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1808
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 430.2083435058594,
-      "epoch": 0.9045,
-      "grad_norm": 13.573272613458863,
-      "kl": 1.37890625,
-      "learning_rate": 1.2477298952911116e-07,
-      "loss": 0.5799,
-      "reward": 2.1159850358963013,
-      "reward_std": 0.4026012271642685,
-      "rewards/accuracy_reward": 0.2291666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.014223407953977585,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1809
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 404.0833435058594,
-      "epoch": 0.905,
-      "grad_norm": 8.300631259188407,
-      "kl": 2.8203125,
-      "learning_rate": 1.2451664098030743e-07,
-      "loss": 0.5028,
-      "reward": 2.1978728771209717,
-      "reward_std": 0.8104668259620667,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.8333333432674408,
-      "rewards/repetition_penalty_reward": -0.026085459627211094,
-      "rewards/tag_count_reward": 0.8697916865348816,
-      "step": 1810
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.7291717529297,
-      "epoch": 0.9055,
-      "grad_norm": 16.892046533776394,
-      "kl": 1.1953125,
-      "learning_rate": 1.242615885276046e-07,
-      "loss": 0.5455,
-      "reward": 2.822051763534546,
-      "reward_std": 0.5525839030742645,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.01822614297270775,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1811
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 369.9583435058594,
-      "epoch": 0.906,
-      "grad_norm": 6.741532569071179,
-      "kl": 0.923828125,
-      "learning_rate": 1.2400783294793668e-07,
-      "loss": 0.3853,
-      "reward": 2.762416362762451,
-      "reward_std": 0.38367322087287903,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.025778336450457573,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1812
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 438.8333435058594,
-      "epoch": 0.9065,
-      "grad_norm": 7.797105914296452,
-      "kl": 1.375,
-      "learning_rate": 1.2375537501428706e-07,
-      "loss": 0.3492,
-      "reward": 2.350590944290161,
-      "reward_std": 0.4562319219112396,
-      "rewards/accuracy_reward": 0.4375,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.015728731639683247,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1813
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 515.3958435058594,
-      "epoch": 0.907,
-      "grad_norm": 16.218331905338545,
-      "kl": 1.94921875,
-      "learning_rate": 1.235042154956865e-07,
-      "loss": 0.4092,
-      "reward": 2.4498504400253296,
-      "reward_std": 0.2465880587697029,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.024108044803142548,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1814
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 463.27085876464844,
-      "epoch": 0.9075,
-      "grad_norm": 4.573817188249182,
-      "kl": 1.50390625,
-      "learning_rate": 1.232543551572103e-07,
-      "loss": 0.6756,
-      "reward": 2.6501909494400024,
-      "reward_std": 0.4004078805446625,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.025156395509839058,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1815
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 484.3333435058594,
-      "epoch": 0.908,
-      "grad_norm": 21.11225799549021,
-      "kl": 2.875,
-      "learning_rate": 1.2300579475997657e-07,
-      "loss": 0.6141,
-      "reward": 2.0554409623146057,
-      "reward_std": 0.6282560527324677,
-      "rewards/accuracy_reward": 0.354166679084301,
-      "rewards/reasoning_steps_reward": 0.854166716337204,
-      "rewards/repetition_penalty_reward": -0.022684063762426376,
-      "rewards/tag_count_reward": 0.8697916865348816,
-      "step": 1816
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 390.3958435058594,
-      "epoch": 0.9085,
-      "grad_norm": 4.270688484326959,
-      "kl": 1.458984375,
-      "learning_rate": 1.227585350611433e-07,
-      "loss": 0.4887,
-      "reward": 2.5446548461914062,
-      "reward_std": 0.4144492670893669,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.026525692082941532,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1817
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 510.0833435058594,
-      "epoch": 0.909,
-      "grad_norm": 10.195671953035172,
-      "kl": 1.78125,
-      "learning_rate": 1.2251257681390645e-07,
-      "loss": 0.5759,
-      "reward": 2.590057134628296,
-      "reward_std": 0.579290121793747,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02799857221543789,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1818
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 365.5208435058594,
-      "epoch": 0.9095,
-      "grad_norm": 14.858149785129092,
-      "kl": 1.1015625,
-      "learning_rate": 1.2226792076749734e-07,
-      "loss": 0.3952,
-      "reward": 2.7983046770095825,
-      "reward_std": 0.5069041550159454,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.031556460075080395,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1819
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 498.27085876464844,
-      "epoch": 0.91,
-      "grad_norm": 13.474699117275431,
-      "kl": 2.5390625,
-      "learning_rate": 1.220245676671809e-07,
-      "loss": 0.6901,
-      "reward": 2.2409090995788574,
-      "reward_std": 0.5821706056594849,
-      "rewards/accuracy_reward": 0.3958333358168602,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.01777158584445715,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1820
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 321.2083435058594,
-      "epoch": 0.9105,
-      "grad_norm": 5.583742600416253,
-      "kl": 1.087890625,
-      "learning_rate": 1.2178251825425282e-07,
-      "loss": 0.3231,
-      "reward": 2.433494746685028,
-      "reward_std": 0.37168148159980774,
-      "rewards/accuracy_reward": 0.5208333544433117,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.01963021163828671,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1821
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 437.35418701171875,
-      "epoch": 0.911,
-      "grad_norm": 15.808710038962724,
-      "kl": 1.85546875,
-      "learning_rate": 1.2154177326603763e-07,
-      "loss": 0.3345,
-      "reward": 1.9915515780448914,
-      "reward_std": 0.4922345131635666,
-      "rewards/accuracy_reward": 0.1666666716337204,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.017128958366811275,
-      "rewards/tag_count_reward": 0.9114583730697632,
-      "step": 1822
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 461.66668701171875,
-      "epoch": 0.9115,
-      "grad_norm": 4.487639145726479,
-      "kl": 1.5859375,
-      "learning_rate": 1.2130233343588623e-07,
-      "loss": 0.6766,
-      "reward": 2.4462087154388428,
-      "reward_std": 0.48641470074653625,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.013860756065696478,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1823
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 427.5208435058594,
-      "epoch": 0.912,
-      "grad_norm": 5.206907795171928,
-      "kl": 1.11328125,
-      "learning_rate": 1.2106419949317388e-07,
-      "loss": 0.298,
-      "reward": 2.293039083480835,
-      "reward_std": 0.4323887377977371,
-      "rewards/accuracy_reward": 0.3958333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222983837128,
-      "rewards/repetition_penalty_reward": -0.022933254949748516,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1824
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 455.7916717529297,
-      "epoch": 0.9125,
-      "grad_norm": 3.5810924881234034,
-      "kl": 1.447265625,
-      "learning_rate": 1.2082737216329792e-07,
-      "loss": 0.4868,
-      "reward": 2.722281336784363,
-      "reward_std": 0.5233409157954156,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.02424659300595522,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1825
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 366.6875,
-      "epoch": 0.913,
-      "grad_norm": 10.549190317425618,
-      "kl": 1.34765625,
-      "learning_rate": 1.2059185216767543e-07,
-      "loss": 0.6111,
-      "reward": 2.620617389678955,
-      "reward_std": 0.4774337261915207,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.018271582201123238,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1826
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.50001525878906,
-      "epoch": 0.9135,
-      "grad_norm": 8.459023548215319,
-      "kl": 0.80859375,
-      "learning_rate": 1.203576402237412e-07,
-      "loss": 0.186,
-      "reward": 2.81669545173645,
-      "reward_std": 0.3177480548620224,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.046151867136359215,
-      "rewards/tag_count_reward": 0.9947916865348816,
-      "step": 1827
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 435.4791717529297,
-      "epoch": 0.914,
-      "grad_norm": 10.059114870695714,
-      "kl": 1.42578125,
-      "learning_rate": 1.2012473704494537e-07,
-      "loss": 0.8145,
-      "reward": 2.4705541133880615,
-      "reward_std": 0.6846470832824707,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.024237760342657566,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1828
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 396.3541717529297,
-      "epoch": 0.9145,
-      "grad_norm": 7.729647467876799,
-      "kl": 1.3515625,
-      "learning_rate": 1.1989314334075144e-07,
-      "loss": 0.3771,
-      "reward": 2.610179305076599,
-      "reward_std": 0.4845607876777649,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.025237280875444412,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1829
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 404.16668701171875,
-      "epoch": 0.915,
-      "grad_norm": 6.446666593330831,
-      "kl": 1.466796875,
-      "learning_rate": 1.1966285981663407e-07,
-      "loss": 0.735,
-      "reward": 2.597218871116638,
-      "reward_std": 0.3849441111087799,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.01562830712646246,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1830
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 400.66668701171875,
-      "epoch": 0.9155,
-      "grad_norm": 7.699253526367492,
-      "kl": 1.23046875,
-      "learning_rate": 1.1943388717407668e-07,
-      "loss": 0.5849,
-      "reward": 2.241459369659424,
-      "reward_std": 0.3354404419660568,
-      "rewards/accuracy_reward": 0.35416667722165585,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.02069345023483038,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1831
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 341.31251525878906,
-      "epoch": 0.916,
-      "grad_norm": 3.9150353521261585,
-      "kl": 1.09375,
-      "learning_rate": 1.1920622611056974e-07,
-      "loss": 0.5796,
-      "reward": 2.800022602081299,
-      "reward_std": 0.3668653219938278,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.02810249850153923,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1832
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 333.31251525878906,
-      "epoch": 0.9165,
-      "grad_norm": 6.331026738180072,
-      "kl": 1.453125,
-      "learning_rate": 1.1897987731960835e-07,
-      "loss": 0.5084,
-      "reward": 2.8525108098983765,
-      "reward_std": 0.3399234637618065,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.01901690987870097,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1833
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 427.2708435058594,
-      "epoch": 0.917,
-      "grad_norm": 7.909012344076658,
-      "kl": 1.515625,
-      "learning_rate": 1.1875484149069004e-07,
-      "loss": 0.9793,
-      "reward": 2.418446898460388,
-      "reward_std": 0.4566657245159149,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.013844884466379881,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1834
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 326.4375,
-      "epoch": 0.9175,
-      "grad_norm": 15.090270389095783,
-      "kl": 1.81640625,
-      "learning_rate": 1.1853111930931312e-07,
-      "loss": 0.3326,
-      "reward": 2.7400245666503906,
-      "reward_std": 0.5180048495531082,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.01692010648548603,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1835
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.33333587646484,
-      "epoch": 0.918,
-      "grad_norm": 14.385789840879672,
-      "kl": 1.265625,
-      "learning_rate": 1.1830871145697412e-07,
-      "loss": 0.276,
-      "reward": 2.505857825279236,
-      "reward_std": 0.44202379882335663,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.018447946291416883,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1836
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 474.4583435058594,
-      "epoch": 0.9185,
-      "grad_norm": 22.396059856717127,
-      "kl": 1.96484375,
-      "learning_rate": 1.1808761861116589e-07,
-      "loss": 0.9942,
-      "reward": 2.2753371000289917,
-      "reward_std": 0.6203365921974182,
-      "rewards/accuracy_reward": 0.4375000149011612,
-      "rewards/reasoning_steps_reward": 0.9374999701976776,
-      "rewards/repetition_penalty_reward": -0.016329674050211906,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1837
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 442.62501525878906,
-      "epoch": 0.919,
-      "grad_norm": 15.472496124027192,
-      "kl": 1.697265625,
-      "learning_rate": 1.1786784144537563e-07,
-      "loss": 0.6291,
-      "reward": 2.5869717597961426,
-      "reward_std": 0.6588756740093231,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9444444179534912,
-      "rewards/repetition_penalty_reward": -0.034556107595562935,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1838
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 360.6666717529297,
-      "epoch": 0.9195,
-      "grad_norm": 6.6879952807989715,
-      "kl": 1.015625,
-      "learning_rate": 1.1764938062908261e-07,
-      "loss": 0.3457,
-      "reward": 2.6010701656341553,
-      "reward_std": 0.44879356026649475,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02740222029387951,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1839
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 565.2083587646484,
-      "epoch": 0.92,
-      "grad_norm": 14.940386937141579,
-      "kl": 2.140625,
-      "learning_rate": 1.1743223682775649e-07,
-      "loss": 0.7608,
-      "reward": 2.381098985671997,
-      "reward_std": 0.6445316672325134,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9236111640930176,
-      "rewards/repetition_penalty_reward": -0.021678834222257137,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1840
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 427.81251525878906,
-      "epoch": 0.9205,
-      "grad_norm": 7.0097527574764635,
-      "kl": 1.4765625,
-      "learning_rate": 1.172164107028549e-07,
-      "loss": 0.5432,
-      "reward": 2.608567476272583,
-      "reward_std": 0.7569788694381714,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.019904857501387596,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1841
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 314.10418701171875,
-      "epoch": 0.921,
-      "grad_norm": 5.8284852901692314,
-      "kl": 0.796875,
-      "learning_rate": 1.1700190291182158e-07,
-      "loss": 0.2706,
-      "reward": 2.492654800415039,
-      "reward_std": 0.44027116894721985,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.028178581036627293,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1842
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 383.10418701171875,
-      "epoch": 0.9215,
-      "grad_norm": 11.442490301965112,
-      "kl": 0.736328125,
-      "learning_rate": 1.1678871410808454e-07,
-      "loss": 0.2935,
-      "reward": 2.5915920734405518,
-      "reward_std": 0.4983036518096924,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03340807091444731,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1843
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 519.125,
-      "epoch": 0.922,
-      "grad_norm": 14.031885386954286,
-      "kl": 1.98046875,
-      "learning_rate": 1.1657684494105386e-07,
-      "loss": 0.2441,
-      "reward": 2.374902606010437,
-      "reward_std": 0.2330544777214527,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.019194713328033686,
-      "rewards/tag_count_reward": 0.8802083432674408,
-      "step": 1844
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 438.875,
-      "epoch": 0.9225,
-      "grad_norm": 5.420069805796557,
-      "kl": 1.453125,
-      "learning_rate": 1.1636629605611966e-07,
-      "loss": 0.7929,
-      "reward": 2.498497247695923,
-      "reward_std": 0.4927578568458557,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.013655558926984668,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1845
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 339.35418701171875,
-      "epoch": 0.923,
-      "grad_norm": 12.990900222582072,
-      "kl": 1.109375,
-      "learning_rate": 1.1615706809465051e-07,
-      "loss": 0.4619,
-      "reward": 2.6084574460983276,
-      "reward_std": 0.43079179525375366,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.02175095770508051,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1846
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 318.1041717529297,
-      "epoch": 0.9235,
-      "grad_norm": 3.6306004992091196,
-      "kl": 0.671875,
-      "learning_rate": 1.1594916169399087e-07,
-      "loss": 0.0754,
-      "reward": 2.619461178779602,
-      "reward_std": 0.2529575452208519,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.01942774746567011,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1847
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.2083435058594,
-      "epoch": 0.924,
-      "grad_norm": 12.262592006970328,
-      "kl": 1.064453125,
-      "learning_rate": 1.1574257748745986e-07,
-      "loss": 0.0744,
-      "reward": 2.376179814338684,
-      "reward_std": 0.5322179198265076,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.028334129601716995,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1848
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 389.12501525878906,
-      "epoch": 0.9245,
-      "grad_norm": 4.963783636537933,
-      "kl": 1.248046875,
-      "learning_rate": 1.1553731610434876e-07,
-      "loss": 0.308,
-      "reward": 2.5988192558288574,
-      "reward_std": 0.4921792149543762,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.031389085575938225,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1849
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 416.8125,
-      "epoch": 0.925,
-      "grad_norm": 11.2545524933753,
-      "kl": 1.724609375,
-      "learning_rate": 1.1533337816991931e-07,
-      "loss": 0.1345,
-      "reward": 2.312873065471649,
-      "reward_std": 0.45963311195373535,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.018724264577031136,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1850
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 400.43751525878906,
-      "epoch": 0.9255,
-      "grad_norm": 6.837253831426617,
-      "kl": 1.1015625,
-      "learning_rate": 1.1513076430540177e-07,
-      "loss": 0.6187,
-      "reward": 2.7513691186904907,
-      "reward_std": 0.4550359845161438,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.035089388489723206,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1851
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 349.2708435058594,
-      "epoch": 0.926,
-      "grad_norm": 11.15586838979647,
-      "kl": 0.6845703125,
-      "learning_rate": 1.1492947512799328e-07,
-      "loss": 0.3386,
-      "reward": 2.8566954135894775,
-      "reward_std": 0.34863437712192535,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.02872132882475853,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1852
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.2291717529297,
-      "epoch": 0.9265,
-      "grad_norm": 7.058419371924635,
-      "kl": 1.044921875,
-      "learning_rate": 1.1472951125085547e-07,
-      "loss": 0.2017,
-      "reward": 2.3934552669525146,
-      "reward_std": 0.22491255030035973,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02668381668627262,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1853
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 335.3958435058594,
-      "epoch": 0.927,
-      "grad_norm": 8.473916574225584,
-      "kl": 1.1015625,
-      "learning_rate": 1.1453087328311299e-07,
-      "loss": 0.3028,
-      "reward": 2.344975471496582,
-      "reward_std": 0.41645242273807526,
-      "rewards/accuracy_reward": 0.4583333544433117,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.026552507653832436,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1854
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 267.3541717529297,
-      "epoch": 0.9275,
-      "grad_norm": 4.44552019323035,
-      "kl": 0.564453125,
-      "learning_rate": 1.1433356182985158e-07,
-      "loss": 0.0992,
-      "reward": 2.769820213317871,
-      "reward_std": 0.2516600340604782,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02184649184346199,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1855
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 496.75,
-      "epoch": 0.928,
-      "grad_norm": 6.704669428410124,
-      "kl": 1.333984375,
-      "learning_rate": 1.1413757749211602e-07,
-      "loss": 0.494,
-      "reward": 2.636578679084778,
-      "reward_std": 0.5088631808757782,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.03008817508816719,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1856
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 361.9166793823242,
-      "epoch": 0.9285,
-      "grad_norm": 5.283796075893927,
-      "kl": 1.150390625,
-      "learning_rate": 1.1394292086690874e-07,
-      "loss": 0.5762,
-      "reward": 2.6141971349716187,
-      "reward_std": 0.36808090656995773,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.019483450800180435,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1857
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.7708435058594,
-      "epoch": 0.929,
-      "grad_norm": 13.090857743748684,
-      "kl": 0.96875,
-      "learning_rate": 1.137495925471875e-07,
-      "loss": 0.2827,
-      "reward": 2.789952039718628,
-      "reward_std": 0.39836449921131134,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.019075598567724228,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1858
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.7708435058594,
-      "epoch": 0.9295,
-      "grad_norm": 12.791650212488964,
-      "kl": 1.384765625,
-      "learning_rate": 1.1355759312186396e-07,
-      "loss": 0.0501,
-      "reward": 2.5625548362731934,
-      "reward_std": 0.6163710951805115,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.027723138220608234,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1859
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 343.18751525878906,
-      "epoch": 0.93,
-      "grad_norm": 3.6089686265116567,
-      "kl": 1.65234375,
-      "learning_rate": 1.1336692317580158e-07,
-      "loss": 0.4677,
-      "reward": 2.5494874715805054,
-      "reward_std": 0.5432776808738708,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.013012669514864683,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1860
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 363.47918701171875,
-      "epoch": 0.9305,
-      "grad_norm": 4.537501307347617,
-      "kl": 1.193359375,
-      "learning_rate": 1.1317758328981414e-07,
-      "loss": 0.4101,
-      "reward": 2.4980164766311646,
-      "reward_std": 0.415087066590786,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.01760861463844776,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1861
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 552.3541870117188,
-      "epoch": 0.931,
-      "grad_norm": 26.096314917799425,
-      "kl": 3.484375,
-      "learning_rate": 1.1298957404066381e-07,
-      "loss": 0.5845,
-      "reward": 2.1797789335250854,
-      "reward_std": 0.6568257510662079,
-      "rewards/accuracy_reward": 0.5833333730697632,
-      "rewards/reasoning_steps_reward": 0.7986111044883728,
-      "rewards/repetition_penalty_reward": -0.014665620867162943,
-      "rewards/tag_count_reward": 0.8125,
-      "step": 1862
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 424.1875,
-      "epoch": 0.9315,
-      "grad_norm": 8.73387409565459,
-      "kl": 1.814453125,
-      "learning_rate": 1.1280289600105928e-07,
-      "loss": 0.415,
-      "reward": 2.678765296936035,
-      "reward_std": 0.4467965252697468,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.03130429983139038,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1863
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 415.8750305175781,
-      "epoch": 0.932,
-      "grad_norm": 8.913281266427834,
-      "kl": 1.458984375,
-      "learning_rate": 1.1261754973965422e-07,
-      "loss": 0.2109,
-      "reward": 2.7937296628952026,
-      "reward_std": 0.3128529414534569,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.02918718010187149,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1864
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 433.8333435058594,
-      "epoch": 0.9325,
-      "grad_norm": 6.364728489318106,
-      "kl": 1.65625,
-      "learning_rate": 1.1243353582104555e-07,
-      "loss": 0.4969,
-      "reward": 2.676972270011902,
-      "reward_std": 0.4657895863056183,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.029625079594552517,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1865
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 387.31251525878906,
-      "epoch": 0.933,
-      "grad_norm": 13.019299595053573,
-      "kl": 1.962890625,
-      "learning_rate": 1.1225085480577158e-07,
-      "loss": 0.4171,
-      "reward": 2.349880337715149,
-      "reward_std": 0.5604653209447861,
-      "rewards/accuracy_reward": 0.5625000298023224,
-      "rewards/reasoning_steps_reward": 0.881944477558136,
-      "rewards/repetition_penalty_reward": -0.021647500805556774,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1866
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 293.06251525878906,
-      "epoch": 0.9335,
-      "grad_norm": 8.091047902175246,
-      "kl": 0.810546875,
-      "learning_rate": 1.1206950725031034e-07,
-      "loss": 0.2837,
-      "reward": 2.5777370929718018,
-      "reward_std": 0.35544297099113464,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.022957434877753258,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 1867
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 235.00000762939453,
-      "epoch": 0.934,
-      "grad_norm": 6.992390350124804,
-      "kl": 0.6953125,
-      "learning_rate": 1.1188949370707787e-07,
-      "loss": 0.0188,
-      "reward": 2.7592689990997314,
-      "reward_std": 0.17366931587457657,
-      "rewards/accuracy_reward": 0.7708333730697632,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.011564383283257484,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1868
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 571.7708435058594,
-      "epoch": 0.9345,
-      "grad_norm": 21.933887010235615,
-      "kl": 2.62109375,
-      "learning_rate": 1.117108147244268e-07,
-      "loss": 1.082,
-      "reward": 2.3994613885879517,
-      "reward_std": 0.9821091592311859,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.8333333432674408,
-      "rewards/repetition_penalty_reward": -0.01720538828521967,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1869
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 377.81251525878906,
-      "epoch": 0.935,
-      "grad_norm": 12.81237348732685,
-      "kl": 1.54296875,
-      "learning_rate": 1.1153347084664419e-07,
-      "loss": 0.5125,
-      "reward": 2.731147050857544,
-      "reward_std": 0.4906059801578522,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.02058906713500619,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1870
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 328.7916717529297,
-      "epoch": 0.9355,
-      "grad_norm": 13.632759689287054,
-      "kl": 1.46875,
-      "learning_rate": 1.1135746261395021e-07,
-      "loss": 0.456,
-      "reward": 2.5591378211975098,
-      "reward_std": 0.518625944852829,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.0224593966268003,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1871
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 470.2708435058594,
-      "epoch": 0.936,
-      "grad_norm": 7.995683940604791,
-      "kl": 1.75390625,
-      "learning_rate": 1.1118279056249653e-07,
-      "loss": 0.5945,
-      "reward": 2.374450922012329,
-      "reward_std": 0.7306532114744186,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.028326891362667084,
-      "rewards/tag_count_reward": 0.8958333730697632,
-      "step": 1872
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 379.47918701171875,
-      "epoch": 0.9365,
-      "grad_norm": 8.269844718099108,
-      "kl": 1.5546875,
-      "learning_rate": 1.1100945522436453e-07,
-      "loss": 0.5047,
-      "reward": 2.2810773849487305,
-      "reward_std": 0.45627573132514954,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333134651184,
-      "rewards/repetition_penalty_reward": -0.021005945280194283,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1873
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 247.1041717529297,
-      "epoch": 0.937,
-      "grad_norm": 4.879841129317827,
-      "kl": 0.658203125,
-      "learning_rate": 1.1083745712756364e-07,
-      "loss": 0.0382,
-      "reward": 2.8617427349090576,
-      "reward_std": 0.1286549223586917,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.013257297687232494,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1874
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.62501525878906,
-      "epoch": 0.9375,
-      "grad_norm": 5.772943696708483,
-      "kl": 1.052734375,
-      "learning_rate": 1.1066679679602998e-07,
-      "loss": 0.1094,
-      "reward": 2.2595136165618896,
-      "reward_std": 0.6155846416950226,
-      "rewards/accuracy_reward": 0.375,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.02000036695972085,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1875
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 562.0625152587891,
-      "epoch": 0.938,
-      "grad_norm": 12.685880213504184,
-      "kl": 2.75,
-      "learning_rate": 1.1049747474962444e-07,
-      "loss": 0.3528,
-      "reward": 2.470315456390381,
-      "reward_std": 0.3357051908969879,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.01926790364086628,
-      "rewards/tag_count_reward": 0.8645833730697632,
-      "step": 1876
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 399.00001525878906,
-      "epoch": 0.9385,
-      "grad_norm": 10.487921547989083,
-      "kl": 1.80078125,
-      "learning_rate": 1.1032949150413137e-07,
-      "loss": 0.2994,
-      "reward": 2.3582355976104736,
-      "reward_std": 0.48615631461143494,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.025445050559937954,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1877
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 305.2708435058594,
-      "epoch": 0.939,
-      "grad_norm": 13.345702679349012,
-      "kl": 0.615234375,
-      "learning_rate": 1.1016284757125685e-07,
-      "loss": 0.0566,
-      "reward": 2.74407958984375,
-      "reward_std": 0.42066872119903564,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.023281564470380545,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1878
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 381.2291717529297,
-      "epoch": 0.9395,
-      "grad_norm": 5.3082591079335915,
-      "kl": 1.546875,
-      "learning_rate": 1.099975434586272e-07,
-      "loss": 0.4069,
-      "reward": 2.447960615158081,
-      "reward_std": 0.7231379747390747,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.022525550797581673,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1879
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.3541717529297,
-      "epoch": 0.94,
-      "grad_norm": 6.836011499419833,
-      "kl": 1.158203125,
-      "learning_rate": 1.0983357966978745e-07,
-      "loss": 0.2872,
-      "reward": 2.6273016929626465,
-      "reward_std": 0.5883876979351044,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.013323335442692041,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1880
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 385.75001525878906,
-      "epoch": 0.9405,
-      "grad_norm": 5.637240680811261,
-      "kl": 1.46875,
-      "learning_rate": 1.096709567041997e-07,
-      "loss": 0.3754,
-      "reward": 2.4940316677093506,
-      "reward_std": 0.5485326498746872,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.02332939486950636,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1881
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 521.2083587646484,
-      "epoch": 0.941,
-      "grad_norm": 12.973036573210113,
-      "kl": 2.0078125,
-      "learning_rate": 1.0950967505724175e-07,
-      "loss": 0.3535,
-      "reward": 2.4711567163467407,
-      "reward_std": 0.4558318704366684,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.018426863476634026,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1882
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 384.2291717529297,
-      "epoch": 0.9415,
-      "grad_norm": 13.634252652179764,
-      "kl": 1.35546875,
-      "learning_rate": 1.0934973522020537e-07,
-      "loss": 0.5317,
-      "reward": 2.6534253358840942,
-      "reward_std": 0.546121746301651,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.020185869187116623,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1883
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 415.3541717529297,
-      "epoch": 0.942,
-      "grad_norm": 7.550722470094486,
-      "kl": 1.59375,
-      "learning_rate": 1.0919113768029517e-07,
-      "loss": 0.5054,
-      "reward": 2.2631616592407227,
-      "reward_std": 0.5261791199445724,
-      "rewards/accuracy_reward": 0.416666679084301,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.021560687571763992,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1884
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 407.9375,
-      "epoch": 0.9425,
-      "grad_norm": 5.164750350944079,
-      "kl": 1.28515625,
-      "learning_rate": 1.0903388292062668e-07,
-      "loss": 0.6485,
-      "reward": 2.5368224382400513,
-      "reward_std": 0.6539618074893951,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.016997200436890125,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1885
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 282.2916717529297,
-      "epoch": 0.943,
-      "grad_norm": 3.8431346982306622,
-      "kl": 0.546875,
-      "learning_rate": 1.0887797142022521e-07,
-      "loss": 0.0839,
-      "reward": 2.8730608224868774,
-      "reward_std": 0.1409488208591938,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.02277265675365925,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1886
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 459.41668701171875,
-      "epoch": 0.9435,
-      "grad_norm": 10.504402038451365,
-      "kl": 1.92578125,
-      "learning_rate": 1.0872340365402415e-07,
-      "loss": 0.7645,
-      "reward": 2.4082196950912476,
-      "reward_std": 0.7337851822376251,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.902777761220932,
-      "rewards/repetition_penalty_reward": -0.020599967800080776,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1887
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 287.29168701171875,
-      "epoch": 0.944,
-      "grad_norm": 12.459861460775484,
-      "kl": 1.25,
-      "learning_rate": 1.0857018009286381e-07,
-      "loss": 0.1306,
-      "reward": 2.6860339641571045,
-      "reward_std": 0.3863665908575058,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.029244041070342064,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1888
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 351.0833435058594,
-      "epoch": 0.9445,
-      "grad_norm": 6.926656405954893,
-      "kl": 1.1328125,
-      "learning_rate": 1.0841830120348969e-07,
-      "loss": 0.3466,
-      "reward": 2.717449426651001,
-      "reward_std": 0.533571720123291,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.020397868007421494,
-      "rewards/tag_count_reward": 0.9739583730697632,
-      "step": 1889
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 362.81250762939453,
-      "epoch": 0.945,
-      "grad_norm": 7.389820923834504,
-      "kl": 1.1484375,
-      "learning_rate": 1.0826776744855121e-07,
-      "loss": 0.22,
-      "reward": 2.472840905189514,
-      "reward_std": 0.3649376714602113,
-      "rewards/accuracy_reward": 0.5625,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.018478597048670053,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1890
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 264.6041793823242,
-      "epoch": 0.9455,
-      "grad_norm": 6.258707268362366,
-      "kl": 0.951171875,
-      "learning_rate": 1.0811857928660037e-07,
-      "loss": 0.2564,
-      "reward": 2.780505061149597,
-      "reward_std": 0.317706068046391,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.01116166659630835,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1891
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 467.6458435058594,
-      "epoch": 0.946,
-      "grad_norm": 6.7122965752871995,
-      "kl": 1.60546875,
-      "learning_rate": 1.0797073717209013e-07,
-      "loss": 0.432,
-      "reward": 2.605563759803772,
-      "reward_std": 0.6417441666126251,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.015964028425514698,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1892
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.9791717529297,
-      "epoch": 0.9465,
-      "grad_norm": 6.7300045965088735,
-      "kl": 0.9375,
-      "learning_rate": 1.0782424155537314e-07,
-      "loss": 0.2671,
-      "reward": 2.7784035205841064,
-      "reward_std": 0.41331613063812256,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.020207691006362438,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1893
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 548.9166717529297,
-      "epoch": 0.947,
-      "grad_norm": 11.551989318050323,
-      "kl": 1.875,
-      "learning_rate": 1.0767909288270063e-07,
-      "loss": 0.5684,
-      "reward": 2.411288857460022,
-      "reward_std": 0.6332357153296471,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.01753074210137129,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1894
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 663.4375305175781,
-      "epoch": 0.9475,
-      "grad_norm": 11.540534185730696,
-      "kl": 2.625,
-      "learning_rate": 1.0753529159622047e-07,
-      "loss": 0.8717,
-      "reward": 2.090899109840393,
-      "reward_std": 0.831304669380188,
-      "rewards/accuracy_reward": 0.3958333358168602,
-      "rewards/reasoning_steps_reward": 0.8958333432674408,
-      "rewards/repetition_penalty_reward": -0.018475967459380627,
-      "rewards/tag_count_reward": 0.8177083730697632,
-      "step": 1895
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 409.9791717529297,
-      "epoch": 0.948,
-      "grad_norm": 4.503871661371665,
-      "kl": 1.1015625,
-      "learning_rate": 1.0739283813397639e-07,
-      "loss": 0.3769,
-      "reward": 2.603825807571411,
-      "reward_std": 0.39157669246196747,
-      "rewards/accuracy_reward": 0.7083333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.026382511481642723,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1896
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 481.1875305175781,
-      "epoch": 0.9485,
-      "grad_norm": 14.294347009213048,
-      "kl": 1.68359375,
-      "learning_rate": 1.0725173292990626e-07,
-      "loss": 1.1626,
-      "reward": 2.711683988571167,
-      "reward_std": 0.6804588735103607,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.008802221855148673,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1897
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 573.5208435058594,
-      "epoch": 0.949,
-      "grad_norm": 7.82241175608747,
-      "kl": 2.578125,
-      "learning_rate": 1.0711197641384115e-07,
-      "loss": 0.8068,
-      "reward": 2.370753049850464,
-      "reward_std": 0.9385839700698853,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.847222238779068,
-      "rewards/repetition_penalty_reward": -0.01813590247184038,
-      "rewards/tag_count_reward": 0.8333333730697632,
-      "step": 1898
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 467.0833435058594,
-      "epoch": 0.9495,
-      "grad_norm": 10.691850459801657,
-      "kl": 1.5625,
-      "learning_rate": 1.0697356901150353e-07,
-      "loss": 0.7529,
-      "reward": 2.5153530836105347,
-      "reward_std": 0.8187885880470276,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222089767456,
-      "rewards/repetition_penalty_reward": -0.02457757294178009,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1899
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 548.8958435058594,
-      "epoch": 0.95,
-      "grad_norm": 6.406869092852505,
-      "kl": 2.15234375,
-      "learning_rate": 1.068365111445064e-07,
-      "loss": 0.6496,
-      "reward": 2.331941604614258,
-      "reward_std": 0.6170355081558228,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.0291697159409523,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1900
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 595.0000228881836,
-      "epoch": 0.9505,
-      "grad_norm": 17.669263047736123,
-      "kl": 2.453125,
-      "learning_rate": 1.0670080323035176e-07,
-      "loss": 0.3439,
-      "reward": 2.2904654145240784,
-      "reward_std": 0.47801604866981506,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.01509033516049385,
-      "rewards/tag_count_reward": 0.875,
-      "step": 1901
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 541.0208435058594,
-      "epoch": 0.951,
-      "grad_norm": 4.730967706498896,
-      "kl": 2.078125,
-      "learning_rate": 1.0656644568242946e-07,
-      "loss": 0.5377,
-      "reward": 2.2303082942962646,
-      "reward_std": 0.7414398193359375,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.8888888955116272,
-      "rewards/repetition_penalty_reward": -0.028372248634696007,
-      "rewards/tag_count_reward": 0.890625,
-      "step": 1902
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 455.4583435058594,
-      "epoch": 0.9515,
-      "grad_norm": 10.877460950090613,
-      "kl": 1.27734375,
-      "learning_rate": 1.0643343891001591e-07,
-      "loss": 0.7656,
-      "reward": 2.5471227169036865,
-      "reward_std": 0.412681981921196,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.024057872593402863,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1903
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 361.4583435058594,
-      "epoch": 0.952,
-      "grad_norm": 12.3885461588749,
-      "kl": 1.26953125,
-      "learning_rate": 1.063017833182728e-07,
-      "loss": 0.7706,
-      "reward": 2.5880606174468994,
-      "reward_std": 0.756420761346817,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.01610612729564309,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1904
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 311.9166717529297,
-      "epoch": 0.9525,
-      "grad_norm": 10.093151031262789,
-      "kl": 1.091796875,
-      "learning_rate": 1.0617147930824586e-07,
-      "loss": 0.237,
-      "reward": 2.755587577819824,
-      "reward_std": 0.5843307077884674,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.016982081811875105,
-      "rewards/tag_count_reward": 0.9531250298023224,
-      "step": 1905
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 426.7708435058594,
-      "epoch": 0.953,
-      "grad_norm": 8.18441727922782,
-      "kl": 1.35546875,
-      "learning_rate": 1.0604252727686379e-07,
-      "loss": 0.6793,
-      "reward": 2.3721930980682373,
-      "reward_std": 0.6670109927654266,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.023640274070203304,
-      "rewards/tag_count_reward": 0.9375000298023224,
-      "step": 1906
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 332.4583435058594,
-      "epoch": 0.9535,
-      "grad_norm": 5.6481670754710835,
-      "kl": 0.818359375,
-      "learning_rate": 1.0591492761693674e-07,
-      "loss": 0.2792,
-      "reward": 2.5908457040786743,
-      "reward_std": 0.29737700521945953,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.022001695819199085,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1907
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 324.2083435058594,
-      "epoch": 0.954,
-      "grad_norm": 16.28687030981918,
-      "kl": 1.1875,
-      "learning_rate": 1.0578868071715544e-07,
-      "loss": 0.4517,
-      "reward": 2.8130040168762207,
-      "reward_std": 0.47449105978012085,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.01859321352094412,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1908
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 443.3333435058594,
-      "epoch": 0.9545,
-      "grad_norm": 6.091387449777901,
-      "kl": 1.541015625,
-      "learning_rate": 1.0566378696208987e-07,
-      "loss": 0.6145,
-      "reward": 2.5944347381591797,
-      "reward_std": 0.6039746999740601,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.020148571580648422,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1909
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 468.6666717529297,
-      "epoch": 0.955,
-      "grad_norm": 5.333170833207152,
-      "kl": 1.3046875,
-      "learning_rate": 1.0554024673218806e-07,
-      "loss": 0.5553,
-      "reward": 2.528602719306946,
-      "reward_std": 0.48105429112911224,
-      "rewards/accuracy_reward": 0.6458333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03910571709275246,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1910
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 298.7083435058594,
-      "epoch": 0.9555,
-      "grad_norm": 5.486537631035801,
-      "kl": 1.017578125,
-      "learning_rate": 1.054180604037749e-07,
-      "loss": 0.1708,
-      "reward": 2.73952579498291,
-      "reward_std": 0.3539083171635866,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03130759112536907,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1911
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 327.4791717529297,
-      "epoch": 0.956,
-      "grad_norm": 9.305310519927465,
-      "kl": 0.92578125,
-      "learning_rate": 1.0529722834905125e-07,
-      "loss": 0.2203,
-      "reward": 2.675445556640625,
-      "reward_std": 0.3721562922000885,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.031151846051216125,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1912
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 364.5416717529297,
-      "epoch": 0.9565,
-      "grad_norm": 4.1629931880553315,
-      "kl": 1.1962890625,
-      "learning_rate": 1.0517775093609241e-07,
-      "loss": 0.5035,
-      "reward": 2.6332170963287354,
-      "reward_std": 0.21848932653665543,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03865810390561819,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1913
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 388.91668701171875,
-      "epoch": 0.957,
-      "grad_norm": 6.405039325043405,
-      "kl": 1.72265625,
-      "learning_rate": 1.0505962852884739e-07,
-      "loss": 0.5846,
-      "reward": 2.712180018424988,
-      "reward_std": 0.5378515720367432,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02045894879847765,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1914
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 412.83335876464844,
-      "epoch": 0.9575,
-      "grad_norm": 16.248265342729503,
-      "kl": 1.7421875,
-      "learning_rate": 1.0494286148713744e-07,
-      "loss": 0.9792,
-      "reward": 2.438920497894287,
-      "reward_std": 0.568135529756546,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.014204645762220025,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1915
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 490.60418701171875,
-      "epoch": 0.958,
-      "grad_norm": 13.583903329253506,
-      "kl": 1.8203125,
-      "learning_rate": 1.0482745016665526e-07,
-      "loss": 0.7488,
-      "reward": 2.5179425477981567,
-      "reward_std": 0.6293874979019165,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555522441864,
-      "rewards/repetition_penalty_reward": -0.037613097578287125,
-      "rewards/tag_count_reward": 0.9166666865348816,
-      "step": 1916
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 268.9375,
-      "epoch": 0.9585,
-      "grad_norm": 3.8538643099347962,
-      "kl": 0.916015625,
-      "learning_rate": 1.0471339491896373e-07,
-      "loss": 0.3297,
-      "reward": 2.9169150590896606,
-      "reward_std": 0.2011337815783918,
-      "rewards/accuracy_reward": 0.9791666865348816,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.011904461309313774,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1917
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 373.7083435058594,
-      "epoch": 0.959,
-      "grad_norm": 8.19149127254569,
-      "kl": 1.080078125,
-      "learning_rate": 1.0460069609149496e-07,
-      "loss": 0.3442,
-      "reward": 2.6776570081710815,
-      "reward_std": 0.4415852725505829,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02546807937324047,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1918
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 425.1041717529297,
-      "epoch": 0.9595,
-      "grad_norm": 7.078016567150192,
-      "kl": 1.62109375,
-      "learning_rate": 1.044893540275491e-07,
-      "loss": 0.5886,
-      "reward": 2.3200796842575073,
-      "reward_std": 0.72013059258461,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.02193425875157118,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1919
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 376.0416717529297,
-      "epoch": 0.96,
-      "grad_norm": 3.7664864308299464,
-      "kl": 1.33203125,
-      "learning_rate": 1.0437936906629334e-07,
-      "loss": 0.6744,
-      "reward": 2.767207145690918,
-      "reward_std": 0.5426684468984604,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.01925129722803831,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1920
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 493.375,
-      "epoch": 0.9605,
-      "grad_norm": 8.937614698943863,
-      "kl": 2.099609375,
-      "learning_rate": 1.0427074154276104e-07,
-      "loss": 0.5657,
-      "reward": 2.1462767124176025,
-      "reward_std": 0.6453874707221985,
-      "rewards/accuracy_reward": 0.3750000149011612,
-      "rewards/reasoning_steps_reward": 0.916666716337204,
-      "rewards/repetition_penalty_reward": -0.020390215329825878,
-      "rewards/tag_count_reward": 0.8750000298023224,
-      "step": 1921
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 473.91668701171875,
-      "epoch": 0.961,
-      "grad_norm": 13.323431549636778,
-      "kl": 2.11328125,
-      "learning_rate": 1.0416347178785039e-07,
-      "loss": 0.846,
-      "reward": 2.5011810064315796,
-      "reward_std": 0.6241348683834076,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9236111342906952,
-      "rewards/repetition_penalty_reward": -0.02138859312981367,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1922
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 350.37501525878906,
-      "epoch": 0.9615,
-      "grad_norm": 7.917549405794224,
-      "kl": 1.013671875,
-      "learning_rate": 1.0405756012832367e-07,
-      "loss": 0.4971,
-      "reward": 2.590930223464966,
-      "reward_std": 0.4288761019706726,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02191714197397232,
-      "rewards/tag_count_reward": 0.9739583730697632,
-      "step": 1923
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 309.7916717529297,
-      "epoch": 0.962,
-      "grad_norm": 9.512873967750881,
-      "kl": 1.076171875,
-      "learning_rate": 1.0395300688680625e-07,
-      "loss": 0.5754,
-      "reward": 2.356972813606262,
-      "reward_std": 0.4319635033607483,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.011082816403359175,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1924
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 451.14585876464844,
-      "epoch": 0.9625,
-      "grad_norm": 7.649494528326308,
-      "kl": 1.37890625,
-      "learning_rate": 1.0384981238178533e-07,
-      "loss": 0.7388,
-      "reward": 2.306758999824524,
-      "reward_std": 0.5872194170951843,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.019629981368780136,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1925
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.37501525878906,
-      "epoch": 0.963,
-      "grad_norm": 7.3664247239012175,
-      "kl": 0.87109375,
-      "learning_rate": 1.0374797692760933e-07,
-      "loss": 0.29,
-      "reward": 2.7261266708374023,
-      "reward_std": 0.4131031781435013,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02040126919746399,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1926
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 457.72918701171875,
-      "epoch": 0.9635,
-      "grad_norm": 9.740860339646286,
-      "kl": 1.5390625,
-      "learning_rate": 1.036475008344867e-07,
-      "loss": 0.8369,
-      "reward": 2.6725724935531616,
-      "reward_std": 0.5475434064865112,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.02360812947154045,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1927
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 526.0208435058594,
-      "epoch": 0.964,
-      "grad_norm": 7.32137984381808,
-      "kl": 2.19140625,
-      "learning_rate": 1.0354838440848501e-07,
-      "loss": 0.8225,
-      "reward": 2.199436902999878,
-      "reward_std": 0.6961483359336853,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.008896507322788239,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1928
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 312.00001525878906,
-      "epoch": 0.9645,
-      "grad_norm": 7.548627408249209,
-      "kl": 1.587890625,
-      "learning_rate": 1.0345062795153009e-07,
-      "loss": 0.22,
-      "reward": 2.5896737575531006,
-      "reward_std": 0.4959706515073776,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.024909449741244316,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1929
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 540.4375152587891,
-      "epoch": 0.965,
-      "grad_norm": 4.690334600576642,
-      "kl": 1.890625,
-      "learning_rate": 1.0335423176140511e-07,
-      "loss": 0.6585,
-      "reward": 2.1660616397857666,
-      "reward_std": 0.6110673546791077,
-      "rewards/accuracy_reward": 0.3750000149011612,
-      "rewards/reasoning_steps_reward": 0.9236111044883728,
-      "rewards/repetition_penalty_reward": -0.01796635054051876,
-      "rewards/tag_count_reward": 0.8854166865348816,
-      "step": 1930
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 483.3958435058594,
-      "epoch": 0.9655,
-      "grad_norm": 4.681975241875133,
-      "kl": 1.26953125,
-      "learning_rate": 1.0325919613174951e-07,
-      "loss": 0.6228,
-      "reward": 2.6714521646499634,
-      "reward_std": 0.6622795760631561,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9583334028720856,
-      "rewards/repetition_penalty_reward": -0.02125630248337984,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1931
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 317.0208435058594,
-      "epoch": 0.966,
-      "grad_norm": 5.82480472157766,
-      "kl": 1.294921875,
-      "learning_rate": 1.0316552135205837e-07,
-      "loss": 0.2464,
-      "reward": 2.7479259967803955,
-      "reward_std": 0.4953030524775386,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.010754720773547888,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1932
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 331.5416717529297,
-      "epoch": 0.9665,
-      "grad_norm": 6.724427674491569,
-      "kl": 1.34765625,
-      "learning_rate": 1.0307320770768129e-07,
-      "loss": 0.0875,
-      "reward": 2.34666109085083,
-      "reward_std": 0.47824424505233765,
-      "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.02660275436937809,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1933
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 532.9583435058594,
-      "epoch": 0.967,
-      "grad_norm": 12.406632178922738,
-      "kl": 2.44140625,
-      "learning_rate": 1.029822554798216e-07,
-      "loss": 0.7136,
-      "reward": 2.3831958770751953,
-      "reward_std": 0.7278265357017517,
-      "rewards/accuracy_reward": 0.625,
-      "rewards/reasoning_steps_reward": 0.902777761220932,
-      "rewards/repetition_penalty_reward": -0.014373642392456532,
-      "rewards/tag_count_reward": 0.8697916865348816,
-      "step": 1934
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 274.7083435058594,
-      "epoch": 0.9675,
-      "grad_norm": 10.363127459700797,
-      "kl": 0.884765625,
-      "learning_rate": 1.0289266494553565e-07,
-      "loss": 0.1206,
-      "reward": 2.2719321250915527,
-      "reward_std": 0.19579820428043604,
-      "rewards/accuracy_reward": 0.2916666865348816,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.019734575413167477,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1935
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 292.5208435058594,
-      "epoch": 0.968,
-      "grad_norm": 3.7229224037837403,
-      "kl": 1.138671875,
-      "learning_rate": 1.0280443637773163e-07,
-      "loss": 0.1786,
-      "reward": 2.8120529651641846,
-      "reward_std": 0.497484490275383,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445371627808,
-      "rewards/repetition_penalty_reward": -0.01780821569263935,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1936
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 419.14585876464844,
-      "epoch": 0.9685,
-      "grad_norm": 6.842482946515753,
-      "kl": 1.5859375,
-      "learning_rate": 1.0271757004516918e-07,
-      "loss": 0.9308,
-      "reward": 2.6955126523971558,
-      "reward_std": 0.6962899565696716,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.016293123364448547,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1937
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 431.81251525878906,
-      "epoch": 0.969,
-      "grad_norm": 4.528182947858323,
-      "kl": 1.62890625,
-      "learning_rate": 1.0263206621245807e-07,
-      "loss": 0.5407,
-      "reward": 2.654048204421997,
-      "reward_std": 0.5423067063093185,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9305555820465088,
-      "rewards/repetition_penalty_reward": -0.016090850345790386,
-      "rewards/tag_count_reward": 0.9062500298023224,
-      "step": 1938
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 419.2916717529297,
-      "epoch": 0.9695,
-      "grad_norm": 10.72838395202056,
-      "kl": 1.0546875,
-      "learning_rate": 1.0254792514005792e-07,
-      "loss": 0.661,
-      "reward": 2.7793266773223877,
-      "reward_std": 0.44574533961713314,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.0418538823723793,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1939
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 409.1875,
-      "epoch": 0.97,
-      "grad_norm": 5.836202176867066,
-      "kl": 1.3515625,
-      "learning_rate": 1.0246514708427701e-07,
-      "loss": 0.6253,
-      "reward": 2.5530662536621094,
-      "reward_std": 0.36100663244724274,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.021586645394563675,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1940
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 352.56251525878906,
-      "epoch": 0.9705,
-      "grad_norm": 4.689568620130673,
-      "kl": 1.009765625,
-      "learning_rate": 1.0238373229727166e-07,
-      "loss": 0.2688,
-      "reward": 2.7452911138534546,
-      "reward_std": 0.22191456332802773,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.013389479368925095,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1941
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.7083435058594,
-      "epoch": 0.971,
-      "grad_norm": 6.599491959106032,
-      "kl": 0.931640625,
-      "learning_rate": 1.0230368102704531e-07,
-      "loss": 0.3311,
-      "reward": 2.8716362714767456,
-      "reward_std": 0.38382330536842346,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.018988667987287045,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1942
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 561.4375305175781,
-      "epoch": 0.9715,
-      "grad_norm": 8.295763130048279,
-      "kl": 2.08203125,
-      "learning_rate": 1.022249935174482e-07,
-      "loss": 1.1474,
-      "reward": 2.3098472356796265,
-      "reward_std": 0.7834429144859314,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.8611111640930176,
-      "rewards/repetition_penalty_reward": -0.020014054141938686,
-      "rewards/tag_count_reward": 0.8645833432674408,
-      "step": 1943
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 446.3125305175781,
-      "epoch": 0.972,
-      "grad_norm": 8.663254346647918,
-      "kl": 1.36328125,
-      "learning_rate": 1.0214767000817596e-07,
-      "loss": 0.5033,
-      "reward": 2.553582787513733,
-      "reward_std": 0.5564675778150558,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.03322279639542103,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1944
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 355.62501525878906,
-      "epoch": 0.9725,
-      "grad_norm": 4.153430704410522,
-      "kl": 1.0390625,
-      "learning_rate": 1.0207171073476951e-07,
-      "loss": 0.247,
-      "reward": 2.5982961654663086,
-      "reward_std": 0.31510170828551054,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03712050523608923,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1945
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 365.6458435058594,
-      "epoch": 0.973,
-      "grad_norm": 6.995041095518159,
-      "kl": 1.1484375,
-      "learning_rate": 1.01997115928614e-07,
-      "loss": 0.5551,
-      "reward": 2.7796308994293213,
-      "reward_std": 0.35975193604826927,
-      "rewards/accuracy_reward": 0.875,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.018980273976922035,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1946
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 431.12501525878906,
-      "epoch": 0.9735,
-      "grad_norm": 4.410695064600253,
-      "kl": 1.57421875,
-      "learning_rate": 1.0192388581693806e-07,
-      "loss": 0.6488,
-      "reward": 2.5324418544769287,
-      "reward_std": 0.6425078958272934,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.033530326560139656,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1947
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 421.6041717529297,
-      "epoch": 0.974,
-      "grad_norm": 10.096856330968942,
-      "kl": 1.796875,
-      "learning_rate": 1.0185202062281336e-07,
-      "loss": 0.3495,
-      "reward": 2.2948466539382935,
-      "reward_std": 0.3842976242303848,
-      "rewards/accuracy_reward": 0.5000000204890966,
-      "rewards/reasoning_steps_reward": 0.9027777910232544,
-      "rewards/repetition_penalty_reward": -0.019389580003917217,
-      "rewards/tag_count_reward": 0.9114583432674408,
-      "step": 1948
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 413.22918701171875,
-      "epoch": 0.9745,
-      "grad_norm": 4.028820810607798,
-      "kl": 1.22265625,
-      "learning_rate": 1.0178152056515371e-07,
-      "loss": 0.7743,
-      "reward": 2.539444088935852,
-      "reward_std": 0.5672547519207001,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.0161115531809628,
-      "rewards/tag_count_reward": 0.9375,
-      "step": 1949
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 301.3958435058594,
-      "epoch": 0.975,
-      "grad_norm": 7.863861707517645,
-      "kl": 1.05859375,
-      "learning_rate": 1.017123858587145e-07,
-      "loss": 0.1674,
-      "reward": 2.773741364479065,
-      "reward_std": 0.4449689909815788,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.023133596405386925,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1950
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 621.6041870117188,
-      "epoch": 0.9755,
-      "grad_norm": 496.05634241089564,
-      "kl": 2.5625,
-      "learning_rate": 1.0164461671409212e-07,
-      "loss": 1.1447,
-      "reward": 2.413469076156616,
-      "reward_std": 0.8790780007839203,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.854166716337204,
-      "rewards/repetition_penalty_reward": -0.018822629936039448,
-      "rewards/tag_count_reward": 0.8489583730697632,
-      "step": 1951
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 449.4166717529297,
-      "epoch": 0.976,
-      "grad_norm": 4.37873588820322,
-      "kl": 1.5078125,
-      "learning_rate": 1.0157821333772304e-07,
-      "loss": 0.6414,
-      "reward": 2.761192560195923,
-      "reward_std": 0.3843380808830261,
-      "rewards/accuracy_reward": 0.8958333730697632,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.025265809148550034,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1952
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 313.8958435058594,
-      "epoch": 0.9765,
-      "grad_norm": 7.709851287682846,
-      "kl": 1.125,
-      "learning_rate": 1.0151317593188354e-07,
-      "loss": 0.4473,
-      "reward": 2.742506980895996,
-      "reward_std": 0.28937215672340244,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.009229286457411945,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1953
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 585.6041717529297,
-      "epoch": 0.977,
-      "grad_norm": 7.1975720249775526,
-      "kl": 2.0546875,
-      "learning_rate": 1.014495046946888e-07,
-      "loss": 0.6728,
-      "reward": 2.314143478870392,
-      "reward_std": 0.5873344540596008,
-      "rewards/accuracy_reward": 0.5208333432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.026134257204830647,
-      "rewards/tag_count_reward": 0.8541666865348816,
-      "step": 1954
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 461.8958435058594,
-      "epoch": 0.9775,
-      "grad_norm": 4.880043762137739,
-      "kl": 1.34765625,
-      "learning_rate": 1.0138719982009242e-07,
-      "loss": 0.6723,
-      "reward": 2.327051043510437,
-      "reward_std": 0.6554215252399445,
-      "rewards/accuracy_reward": 0.4791666865348816,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.021907367277890444,
-      "rewards/tag_count_reward": 0.9322916865348816,
-      "step": 1955
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 450.6041717529297,
-      "epoch": 0.978,
-      "grad_norm": 4.714021383660871,
-      "kl": 1.515625,
-      "learning_rate": 1.013262614978859e-07,
-      "loss": 0.3862,
-      "reward": 2.6686251163482666,
-      "reward_std": 0.49254344403743744,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111640930176,
-      "rewards/repetition_penalty_reward": -0.03102776501327753,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1956
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 374.9166717529297,
-      "epoch": 0.9785,
-      "grad_norm": 4.593658438724619,
-      "kl": 1.19140625,
-      "learning_rate": 1.0126668991369792e-07,
-      "loss": 0.3453,
-      "reward": 2.5224099159240723,
-      "reward_std": 0.4157126843929291,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.024465198628604412,
-      "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1957
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 270.00001525878906,
-      "epoch": 0.979,
-      "grad_norm": 8.529770354299277,
-      "kl": 0.966796875,
-      "learning_rate": 1.0120848524899386e-07,
-      "loss": 0.3444,
-      "reward": 2.6569780111312866,
-      "reward_std": 0.3028900623321533,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.006216405134182423,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1958
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 473.10418701171875,
-      "epoch": 0.9795,
-      "grad_norm": 5.589279353041215,
-      "kl": 1.9375,
-      "learning_rate": 1.0115164768107522e-07,
-      "loss": 0.7369,
-      "reward": 2.5905479192733765,
-      "reward_std": 0.7043185234069824,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.92361119389534,
-      "rewards/repetition_penalty_reward": -0.025771519169211388,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1959
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 253.41667938232422,
-      "epoch": 0.98,
-      "grad_norm": 4.817368128682914,
-      "kl": 0.62109375,
-      "learning_rate": 1.0109617738307911e-07,
-      "loss": 0.0064,
-      "reward": 2.6383495330810547,
-      "reward_std": 0.2589970678091049,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555820465088,
-      "rewards/repetition_penalty_reward": -0.0213725995272398,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1960
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 366.6041717529297,
-      "epoch": 0.9805,
-      "grad_norm": 10.352217018184477,
-      "kl": 1.03125,
-      "learning_rate": 1.0104207452397761e-07,
-      "loss": 0.6742,
-      "reward": 2.5156456232070923,
-      "reward_std": 0.5356017798185349,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.979166716337204,
-      "rewards/repetition_penalty_reward": -0.015604355372488499,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1961
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 340.18750762939453,
-      "epoch": 0.981,
-      "grad_norm": 5.328236970495506,
-      "kl": 0.94921875,
-      "learning_rate": 1.0098933926857752e-07,
-      "loss": 0.3793,
-      "reward": 2.6204140186309814,
-      "reward_std": 0.24081332981586456,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9375000596046448,
-      "rewards/repetition_penalty_reward": -0.02541936282068491,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1962
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 710.3125305175781,
-      "epoch": 0.9815,
-      "grad_norm": 17.365217085343485,
-      "kl": 2.859375,
-      "learning_rate": 1.0093797177751944e-07,
-      "loss": 1.1361,
-      "reward": 2.3238528966903687,
-      "reward_std": 0.8956755101680756,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.8472222685813904,
-      "rewards/repetition_penalty_reward": -0.018161091022193432,
-      "rewards/tag_count_reward": 0.8281250298023224,
-      "step": 1963
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.7916717529297,
-      "epoch": 0.982,
-      "grad_norm": 5.0392308029500725,
-      "kl": 0.810546875,
-      "learning_rate": 1.0088797220727779e-07,
-      "loss": 0.3007,
-      "reward": 2.6658294200897217,
-      "reward_std": 0.208114517852664,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.026879037730395794,
+      "completion_length": 499.375,
+      "epoch": 0.9926686217008798,
+      "grad_norm": 11.655766844116405,
+      "kl": 1.046875,
+      "learning_rate": 1.0014749232188132e-07,
+      "loss": 0.2876,
+      "reward": 1.95725417137146,
+      "reward_std": 0.0797755979001522,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.02712089940905571,
       "rewards/tag_count_reward": 0.984375,
-      "step": 1964
+      "step": 1354
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 291.56251525878906,
-      "epoch": 0.9825,
-      "grad_norm": 7.335928965442494,
-      "kl": 0.9375,
-      "learning_rate": 1.0083934071015988e-07,
-      "loss": 0.0943,
-      "reward": 2.629801034927368,
-      "reward_std": 0.2985463812947273,
-      "rewards/accuracy_reward": 0.6875000298023224,
+      "completion_length": 499.35418701171875,
+      "epoch": 0.9934017595307918,
+      "grad_norm": 8.054933338089828,
+      "kl": 1.009765625,
+      "learning_rate": 1.0011947002078743e-07,
+      "loss": 0.432,
+      "reward": 2.3805216550827026,
+      "reward_std": 0.3503710813820362,
+      "rewards/accuracy_reward": 0.4583333432674408,
       "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02297679055482149,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1965
+      "rewards/repetition_penalty_reward": -0.03267285693436861,
+      "rewards/tag_count_reward": 0.96875,
+      "step": 1355
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 289.5416793823242,
-      "epoch": 0.983,
-      "grad_norm": 8.189186451005964,
-      "kl": 1.376953125,
-      "learning_rate": 1.007920774343056e-07,
-      "loss": 0.051,
-      "reward": 2.853655695915222,
-      "reward_std": 0.26282477006316185,
-      "rewards/accuracy_reward": 0.9375,
+      "completion_length": 457.0833435058594,
+      "epoch": 0.9941348973607038,
+      "grad_norm": 14.538818455565952,
+      "kl": 1.00390625,
+      "learning_rate": 1.000943969424804e-07,
+      "loss": 0.2383,
+      "reward": 2.6256481409072876,
+      "reward_std": 0.301572248339653,
+      "rewards/accuracy_reward": 0.6875000298023224,
       "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.04391396418213844,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1966
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 345.4583435058594,
-      "epoch": 0.9835,
-      "grad_norm": 8.561365760313354,
-      "kl": 2.14453125,
-      "learning_rate": 1.0074618252368726e-07,
-      "loss": 0.5123,
-      "reward": 2.6916539669036865,
-      "reward_std": 0.6342622339725494,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.02015175297856331,
-      "rewards/tag_count_reward": 0.9270833432674408,
-      "step": 1967
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 316.7291717529297,
-      "epoch": 0.984,
-      "grad_norm": 5.9460907756296475,
-      "kl": 1.0078125,
-      "learning_rate": 1.0070165611810855e-07,
-      "loss": 0.3107,
-      "reward": 2.4366408586502075,
-      "reward_std": 0.44192972034215927,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.016484168358147144,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1968
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 359.85418701171875,
-      "epoch": 0.9845,
-      "grad_norm": 3.5890920698204845,
-      "kl": 1.2109375,
-      "learning_rate": 1.0065849835320473e-07,
-      "loss": 0.3065,
-      "reward": 2.7752894163131714,
-      "reward_std": 0.41077224910259247,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.03721063770353794,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1969
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 339.6041717529297,
-      "epoch": 0.985,
-      "grad_norm": 4.603168506552496,
-      "kl": 0.732421875,
-      "learning_rate": 1.0061670936044178e-07,
-      "loss": 0.1274,
-      "reward": 2.7143149375915527,
-      "reward_std": 0.3336441293358803,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.020060266833752394,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1970
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 320.125,
-      "epoch": 0.9855,
-      "grad_norm": 8.307150756656938,
-      "kl": 0.787109375,
-      "learning_rate": 1.0057628926711624e-07,
-      "loss": 0.308,
-      "reward": 2.7315473556518555,
-      "reward_std": 0.42569366097450256,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.888888955116272,
-      "rewards/repetition_penalty_reward": -0.016716606449335814,
+      "rewards/repetition_penalty_reward": -0.03233811724931002,
       "rewards/tag_count_reward": 0.984375,
-      "step": 1971
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 348.2291717529297,
-      "epoch": 0.986,
-      "grad_norm": 8.306320282400852,
-      "kl": 1.294921875,
-      "learning_rate": 1.005372381963547e-07,
-      "loss": 0.2106,
-      "reward": 2.2555699348449707,
-      "reward_std": 0.2516388399526477,
-      "rewards/accuracy_reward": 0.3333333358168602,
-      "rewards/reasoning_steps_reward": 0.9791666269302368,
-      "rewards/repetition_penalty_reward": -0.01526356441900134,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1972
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 338.18751525878906,
-      "epoch": 0.9865,
-      "grad_norm": 5.448252350820911,
-      "kl": 1.0390625,
-      "learning_rate": 1.0049955626711354e-07,
-      "loss": 0.2096,
-      "reward": 2.6255258321762085,
-      "reward_std": 0.24584404285997152,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9722222089767456,
-      "rewards/repetition_penalty_reward": -0.013363123405724764,
-      "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1973
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 401.6458435058594,
-      "epoch": 0.987,
-      "grad_norm": 6.478360593950035,
-      "kl": 1.6171875,
-      "learning_rate": 1.0046324359417842e-07,
-      "loss": 0.3997,
-      "reward": 2.263159990310669,
-      "reward_std": 0.6182901561260223,
-      "rewards/accuracy_reward": 0.4166666716337204,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.026770692318677902,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1974
+      "step": 1356
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 285.00001525878906,
-      "epoch": 0.9875,
-      "grad_norm": 9.459666746367304,
-      "kl": 0.9453125,
-      "learning_rate": 1.0042830028816399e-07,
-      "loss": 0.1263,
-      "reward": 2.572731137275696,
-      "reward_std": 0.37718044966459274,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.014074573758989573,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1975
+      "completion_length": 565.1666870117188,
+      "epoch": 0.9948680351906158,
+      "grad_norm": 22.732330191271593,
+      "kl": 2.26171875,
+      "learning_rate": 1.0007227325132845e-07,
+      "loss": 0.3831,
+      "reward": 2.1746811270713806,
+      "reward_std": 0.5294123976491392,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.049277255311608315,
+      "rewards/tag_count_reward": 0.9114583432674408,
+      "step": 1357
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.2708435058594,
-      "epoch": 0.988,
-      "grad_norm": 4.3871213558384845,
-      "kl": 0.861328125,
-      "learning_rate": 1.0039472645551372e-07,
-      "loss": 0.0517,
-      "reward": 2.809394598007202,
-      "reward_std": 0.18590081203728914,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.010049775708466768,
+      "completion_length": 470.5416717529297,
+      "epoch": 0.9956011730205279,
+      "grad_norm": 16.24419619781198,
+      "kl": 0.76953125,
+      "learning_rate": 1.00053099092365e-07,
+      "loss": 0.199,
+      "reward": 1.9626244902610779,
+      "reward_std": 0.10940095037221909,
+      "rewards/accuracy_reward": 0.02083333395421505,
+      "rewards/reasoning_steps_reward": 0.9861111044883728,
+      "rewards/repetition_penalty_reward": -0.023486592806875706,
       "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1976
+      "step": 1358
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.52084350585938,
-      "epoch": 0.9885,
-      "grad_norm": 8.470772145588477,
-      "kl": 0.68359375,
-      "learning_rate": 1.0036252219849932e-07,
-      "loss": 0.0676,
-      "reward": 2.9624515771865845,
-      "reward_std": 0.08178183203563094,
-      "rewards/accuracy_reward": 0.9791666865348816,
+      "completion_length": 547.3125305175781,
+      "epoch": 0.9963343108504399,
+      "grad_norm": 17.350196853804658,
+      "kl": 0.9150390625,
+      "learning_rate": 1.0003687459128753e-07,
+      "loss": 0.2186,
+      "reward": 2.4492987990379333,
+      "reward_std": 0.07192742079496384,
+      "rewards/accuracy_reward": 0.5,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.01671524066478014,
-      "rewards/tag_count_reward": 1.0,
-      "step": 1977
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 424.5208435058594,
-      "epoch": 0.989,
-      "grad_norm": 5.674149225074641,
-      "kl": 1.59375,
-      "learning_rate": 1.0033168761522048e-07,
-      "loss": 0.499,
-      "reward": 2.5746582746505737,
-      "reward_std": 0.4873664379119873,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.951388955116272,
-      "rewards/repetition_penalty_reward": -0.02777231764048338,
-      "rewards/tag_count_reward": 0.921875,
-      "step": 1978
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 412.8958435058594,
-      "epoch": 0.9895,
-      "grad_norm": 5.813467245598919,
-      "kl": 1.2734375,
-      "learning_rate": 1.0030222279960469e-07,
-      "loss": 0.6803,
-      "reward": 2.581472635269165,
-      "reward_std": 0.5482227504253387,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.02790247928351164,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1979
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 454.9375,
-      "epoch": 0.99,
-      "grad_norm": 6.839115137637116,
-      "kl": 1.765625,
-      "learning_rate": 1.002741278414069e-07,
-      "loss": 0.643,
-      "reward": 2.5423187017440796,
-      "reward_std": 0.4872732013463974,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.021917639300227165,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1980
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 426.7083435058594,
-      "epoch": 0.9905,
-      "grad_norm": 12.357127431821414,
-      "kl": 1.1328125,
-      "learning_rate": 1.002474028262093e-07,
-      "loss": 0.6164,
-      "reward": 2.5697481632232666,
-      "reward_std": 0.3590293526649475,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.0205296752974391,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1981
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 442.4583435058594,
-      "epoch": 0.991,
-      "grad_norm": 8.104455391245587,
-      "kl": 1.765625,
-      "learning_rate": 1.0022204783542078e-07,
-      "loss": 1.1146,
-      "reward": 2.4505070447921753,
-      "reward_std": 0.7328682243824005,
-      "rewards/accuracy_reward": 0.6666666716337204,
-      "rewards/reasoning_steps_reward": 0.9097222685813904,
-      "rewards/repetition_penalty_reward": -0.02692350000143051,
-      "rewards/tag_count_reward": 0.9010416865348816,
-      "step": 1982
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 360.2083435058594,
-      "epoch": 0.9915,
-      "grad_norm": 7.862692984107953,
-      "kl": 0.900390625,
-      "learning_rate": 1.001980629462772e-07,
-      "loss": 0.4929,
-      "reward": 2.743220090866089,
-      "reward_std": 0.480159193277359,
-      "rewards/accuracy_reward": 0.8125000298023224,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02414090372622013,
-      "rewards/tag_count_reward": 0.9687500298023224,
-      "step": 1983
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 435.0,
-      "epoch": 0.992,
-      "grad_norm": 8.155193647156521,
-      "kl": 1.6015625,
-      "learning_rate": 1.0017544823184055e-07,
-      "loss": 0.4418,
-      "reward": 2.546668291091919,
-      "reward_std": 0.5175595879554749,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9375,
-      "rewards/repetition_penalty_reward": -0.0210402044467628,
-      "rewards/tag_count_reward": 0.9218750298023224,
-      "step": 1984
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 307.6458435058594,
-      "epoch": 0.9925,
-      "grad_norm": 11.349064132553734,
-      "kl": 1.390625,
-      "learning_rate": 1.0015420376099923e-07,
-      "loss": 0.395,
-      "reward": 2.6141462326049805,
-      "reward_std": 0.3557308465242386,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.01953439600765705,
-      "rewards/tag_count_reward": 0.9739583432674408,
-      "step": 1985
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 390.625,
-      "epoch": 0.993,
-      "grad_norm": 3.8219642488097927,
-      "kl": 1.1328125,
-      "learning_rate": 1.001343295984676e-07,
-      "loss": 0.4817,
-      "reward": 2.7117778062820435,
-      "reward_std": 0.5155874937772751,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.034749857150018215,
-      "rewards/tag_count_reward": 0.9479166865348816,
-      "step": 1986
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 606.7916870117188,
-      "epoch": 0.9935,
-      "grad_norm": 14.173929864366983,
-      "kl": 2.625,
-      "learning_rate": 1.0011582580478576e-07,
-      "loss": 0.6239,
-      "reward": 2.241394519805908,
-      "reward_std": 0.7578141689300537,
-      "rewards/accuracy_reward": 0.5000000298023224,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.025966664776206017,
-      "rewards/tag_count_reward": 0.8645833432674408,
-      "step": 1987
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 324.3541793823242,
-      "epoch": 0.994,
-      "grad_norm": 5.893395799651384,
-      "kl": 1.6328125,
-      "learning_rate": 1.0009869243631952e-07,
-      "loss": 0.4473,
-      "reward": 2.572134852409363,
-      "reward_std": 0.43454277515411377,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.016406969632953405,
-      "rewards/tag_count_reward": 0.9427083432674408,
-      "step": 1988
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 365.5416793823242,
-      "epoch": 0.9945,
-      "grad_norm": 10.350146304014267,
-      "kl": 0.990234375,
-      "learning_rate": 1.000829295452601e-07,
-      "loss": 0.4707,
-      "reward": 2.8346047401428223,
-      "reward_std": 0.31515760254114866,
-      "rewards/accuracy_reward": 0.8958333432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.02650655061006546,
+      "rewards/repetition_penalty_reward": -0.029867922887206078,
       "rewards/tag_count_reward": 0.9791666865348816,
-      "step": 1989
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 510.5208435058594,
-      "epoch": 0.995,
-      "grad_norm": 10.609712135513492,
-      "kl": 1.94140625,
-      "learning_rate": 1.0006853717962393e-07,
-      "loss": 0.4845,
-      "reward": 2.408261299133301,
-      "reward_std": 0.6599603295326233,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.010141530307009816,
-      "rewards/tag_count_reward": 0.8906250298023224,
-      "step": 1990
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 329.87501525878906,
-      "epoch": 0.9955,
-      "grad_norm": 8.570082105600441,
-      "kl": 1.505859375,
-      "learning_rate": 1.0005551538325274e-07,
-      "loss": 0.2282,
-      "reward": 2.8254886865615845,
-      "reward_std": 0.2351871496066451,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02173378225415945,
-      "rewards/tag_count_reward": 0.9583333432674408,
-      "step": 1991
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 315.1666717529297,
-      "epoch": 0.996,
-      "grad_norm": 6.189976928471374,
-      "kl": 0.90234375,
-      "learning_rate": 1.000438641958131e-07,
-      "loss": 0.2172,
-      "reward": 2.61415696144104,
-      "reward_std": 0.2505191368982196,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.022995917359367013,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1992
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 506.27085876464844,
-      "epoch": 0.9965,
-      "grad_norm": 9.237622275005121,
-      "kl": 4.1015625,
-      "learning_rate": 1.0003358365279661e-07,
-      "loss": 0.5888,
-      "reward": 2.3739354014396667,
-      "reward_std": 0.7014772593975067,
-      "rewards/accuracy_reward": 0.6041666716337204,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.020161897875368595,
-      "rewards/tag_count_reward": 0.8593750298023224,
-      "step": 1993
+      "step": 1359
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 502.6458435058594,
-      "epoch": 0.997,
-      "grad_norm": 7.126787307275001,
-      "kl": 1.69140625,
-      "learning_rate": 1.0002467378551954e-07,
-      "loss": 0.7538,
-      "reward": 2.45101535320282,
-      "reward_std": 0.8071577250957489,
-      "rewards/accuracy_reward": 0.6458333730697632,
-      "rewards/reasoning_steps_reward": 0.9305556118488312,
-      "rewards/repetition_penalty_reward": -0.021206957288086414,
-      "rewards/tag_count_reward": 0.8958333432674408,
-      "step": 1994
+      "completion_length": 580.7083435058594,
+      "epoch": 0.9970674486803519,
+      "grad_norm": 19.53300669702914,
+      "kl": 2.453125,
+      "learning_rate": 1.0002359985445691e-07,
+      "loss": 0.6501,
+      "reward": 2.0493897199630737,
+      "reward_std": 0.4308444410562515,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.04088811669498682,
+      "rewards/tag_count_reward": 0.9166666865348816,
+      "step": 1360
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 306.50001525878906,
-      "epoch": 0.9975,
-      "grad_norm": 4.0754860395849875,
-      "kl": 1.087890625,
-      "learning_rate": 1.000171346211229e-07,
-      "loss": 0.2516,
-      "reward": 2.844114303588867,
-      "reward_std": 0.32640238106250763,
-      "rewards/accuracy_reward": 0.9375000298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.027413712814450264,
-      "rewards/tag_count_reward": 0.96875,
-      "step": 1995
+      "completion_length": 470.02085876464844,
+      "epoch": 0.9978005865102639,
+      "grad_norm": 13.39377168275178,
+      "kl": 0.537109375,
+      "learning_rate": 1.0001327496889658e-07,
+      "loss": 0.2151,
+      "reward": 2.9133403301239014,
+      "reward_std": 0.23964431881904602,
+      "rewards/accuracy_reward": 0.9583333730697632,
+      "rewards/reasoning_steps_reward": 0.9930555820465088,
+      "rewards/repetition_penalty_reward": -0.02242350485175848,
+      "rewards/tag_count_reward": 0.9843750298023224,
+      "step": 1361
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 275.5208435058594,
-      "epoch": 0.998,
-      "grad_norm": 10.126201588856906,
-      "kl": 0.859375,
-      "learning_rate": 1.0001096618257236e-07,
-      "loss": 0.3494,
-      "reward": 2.716609239578247,
-      "reward_std": 0.06195330573245883,
-      "rewards/accuracy_reward": 0.75,
+      "completion_length": 433.8958435058594,
+      "epoch": 0.998533724340176,
+      "grad_norm": 136.78654651795395,
+      "kl": 0.955078125,
+      "learning_rate": 1.0000590000229203e-07,
+      "loss": 0.2355,
+      "reward": 2.4190428256988525,
+      "reward_std": 0.2147923707962036,
+      "rewards/accuracy_reward": 0.4791666865348816,
       "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.017765806522220373,
-      "rewards/tag_count_reward": 0.984375,
-      "step": 1996
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 413.4791717529297,
-      "epoch": 0.9985,
-      "grad_norm": 8.06318792454859,
-      "kl": 1.3515625,
-      "learning_rate": 1.0000616848865797e-07,
-      "loss": 0.4413,
-      "reward": 2.815260648727417,
-      "reward_std": 0.36746685206890106,
-      "rewards/accuracy_reward": 0.9166666865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02675328589975834,
-      "rewards/tag_count_reward": 0.953125,
-      "step": 1997
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 338.9583435058594,
-      "epoch": 0.999,
-      "grad_norm": 5.2700476094611615,
-      "kl": 1.13671875,
-      "learning_rate": 1.0000274155399433e-07,
-      "loss": 0.3144,
-      "reward": 2.762750267982483,
-      "reward_std": 0.3325686603784561,
-      "rewards/accuracy_reward": 0.8333333730697632,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.020235874690115452,
+      "rewards/repetition_penalty_reward": -0.02366560883820057,
       "rewards/tag_count_reward": 0.9635416865348816,
-      "step": 1998
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 535.2083435058594,
-      "epoch": 0.9995,
-      "grad_norm": 3.755049968060971,
-      "kl": 1.91015625,
-      "learning_rate": 1.0000068538902053e-07,
-      "loss": 0.7273,
-      "reward": 2.472402811050415,
-      "reward_std": 0.8260309398174286,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.92361119389534,
-      "rewards/repetition_penalty_reward": -0.013708289712667465,
-      "rewards/tag_count_reward": 0.8750000298023224,
-      "step": 1999
+      "step": 1362
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 969.0625,
-      "epoch": 1.0,
-      "grad_norm": 41.67279675930041,
-      "kl": 2.5078125,
-      "learning_rate": 1e-07,
-      "loss": 0.6262,
-      "reward": 2.2097694873809814,
-      "reward_std": 0.4844767898321152,
-      "rewards/accuracy_reward": 0.4166666865348816,
-      "rewards/reasoning_steps_reward": 0.944444477558136,
-      "rewards/repetition_penalty_reward": -0.010716728633269668,
-      "rewards/tag_count_reward": 0.8593750298023224,
-      "step": 2000
+      "completion_length": 563.8571624755859,
+      "epoch": 0.999266862170088,
+      "grad_norm": 19.87535727669407,
+      "kl": 1.158203125,
+      "learning_rate": 1.000014750029904e-07,
+      "loss": 0.2502,
+      "reward": 2.7152678966522217,
+      "reward_std": 0.07797089219093323,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.013898835051804781,
+      "rewards/tag_count_reward": 0.9791666865348816,
+      "step": 1363
     },
     {
-      "epoch": 1.0,
-      "step": 2000,
+      "epoch": 0.999266862170088,
+      "step": 1363,
       "total_flos": 0.0,
-      "train_loss": 1.366488031092214,
-      "train_runtime": 85280.8428,
-      "train_samples_per_second": 0.094,
-      "train_steps_per_second": 0.023
+      "train_loss": 2.0727225511886656,
+      "train_runtime": 64632.8349,
+      "train_samples_per_second": 0.084,
+      "train_steps_per_second": 0.021
     }
   ],
   "logging_steps": 1,
-  "max_steps": 2000,
+  "max_steps": 1364,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
@@ -32030,7 +21838,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
+        "should_training_stop": false
       },
       "attributes": {}
     }