diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -12,7 +12,7 @@
       "clip_ratio": 0.0,
       "completion_length": 150.88541984558105,
       "epoch": 0.0014998125234345708,
-      "grad_norm": 2.014207151760731,
+      "grad_norm": 2.0143966719522566,
       "kl": 0.0,
       "learning_rate": 2.9850746268656716e-07,
       "loss": -0.123,
@@ -28,7 +28,7 @@
       "clip_ratio": 0.0,
       "completion_length": 139.43750381469727,
       "epoch": 0.0029996250468691415,
-      "grad_norm": 2.2602676300267803,
+      "grad_norm": 2.260545366465926,
       "kl": 0.0,
       "learning_rate": 5.970149253731343e-07,
       "loss": -0.0563,
@@ -42,10636 +42,10636 @@
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 153.2708396911621,
+      "completion_length": 143.8854217529297,
       "epoch": 0.0044994375703037125,
-      "grad_norm": 2.1173606964196554,
-      "kl": 0.000335693359375,
+      "grad_norm": 2.04474730883385,
+      "kl": 0.0003943443298339844,
       "learning_rate": 8.955223880597015e-07,
-      "loss": -0.1131,
-      "reward": 0.4513879381120205,
-      "reward_std": 0.6719020158052444,
-      "rewards/accuracy_reward": 0.14583333721384406,
-      "rewards/reasoning_steps_reward": 0.07986111380159855,
-      "rewards/repetition_penalty_reward": -0.047744009643793106,
-      "rewards/tag_count_reward": 0.2734375037252903,
+      "loss": -0.128,
+      "reward": 0.41914862394332886,
+      "reward_std": 0.6219020187854767,
+      "rewards/accuracy_reward": 0.13020833861082792,
+      "rewards/reasoning_steps_reward": 0.06423611287027597,
+      "rewards/repetition_penalty_reward": -0.05524375103414059,
+      "rewards/tag_count_reward": 0.2799479216337204,
       "step": 3
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 143.56250381469727,
+      "completion_length": 143.52605056762695,
       "epoch": 0.005999250093738283,
-      "grad_norm": 2.1085551568397918,
-      "kl": 0.00038623809814453125,
+      "grad_norm": 2.088074149444087,
+      "kl": 0.0003809928894042969,
       "learning_rate": 1.1940298507462686e-06,
-      "loss": -0.0492,
-      "reward": 0.2926744148135185,
-      "reward_std": 0.5166807025671005,
-      "rewards/accuracy_reward": 0.07812500046566129,
-      "rewards/reasoning_steps_reward": 0.0451388917863369,
-      "rewards/repetition_penalty_reward": -0.04933948162943125,
-      "rewards/tag_count_reward": 0.2187500037252903,
+      "loss": -0.055,
+      "reward": 0.32894811406731606,
+      "reward_std": 0.5705550760030746,
+      "rewards/accuracy_reward": 0.08333333628252149,
+      "rewards/reasoning_steps_reward": 0.05381944729015231,
+      "rewards/repetition_penalty_reward": -0.03997551556676626,
+      "rewards/tag_count_reward": 0.2317708395421505,
       "step": 4
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 139.6354217529297,
+      "completion_length": 131.28125381469727,
       "epoch": 0.0074990626171728535,
-      "grad_norm": 2.0783939318892255,
-      "kl": 0.0004963874816894531,
+      "grad_norm": 2.0380845412513424,
+      "kl": 0.0005826950073242188,
       "learning_rate": 1.4925373134328358e-06,
-      "loss": -0.0786,
-      "reward": 0.33502432703971863,
-      "reward_std": 0.5550277233123779,
-      "rewards/accuracy_reward": 0.08854166977107525,
-      "rewards/reasoning_steps_reward": 0.055555559694767,
-      "rewards/repetition_penalty_reward": -0.044749997556209564,
-      "rewards/tag_count_reward": 0.2356770858168602,
+      "loss": -0.066,
+      "reward": 0.2540438659489155,
+      "reward_std": 0.45853011310100555,
+      "rewards/accuracy_reward": 0.05208333395421505,
+      "rewards/reasoning_steps_reward": 0.04687500232830644,
+      "rewards/repetition_penalty_reward": -0.04413322079926729,
+      "rewards/tag_count_reward": 0.19921875651925802,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 141.94271087646484,
+      "completion_length": 154.97917556762695,
       "epoch": 0.008998875140607425,
-      "grad_norm": 2.140600840808783,
-      "kl": 0.001529693603515625,
+      "grad_norm": 1.891201241821577,
+      "kl": 0.0010385513305664062,
       "learning_rate": 1.791044776119403e-06,
-      "loss": -0.1144,
-      "reward": 0.3174091763794422,
-      "reward_std": 0.5731675401329994,
-      "rewards/accuracy_reward": 0.08854166697710752,
-      "rewards/reasoning_steps_reward": 0.04513889132067561,
-      "rewards/repetition_penalty_reward": -0.05325053818523884,
-      "rewards/tag_count_reward": 0.2369791753590107,
+      "loss": -0.0654,
+      "reward": 0.45939914882183075,
+      "reward_std": 0.5917806774377823,
+      "rewards/accuracy_reward": 0.1093750037252903,
+      "rewards/reasoning_steps_reward": 0.059027780778706074,
+      "rewards/repetition_penalty_reward": -0.05145154893398285,
+      "rewards/tag_count_reward": 0.3424479216337204,
       "step": 6
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 139.45833778381348,
+      "completion_length": 135.93229484558105,
       "epoch": 0.010498687664041995,
-      "grad_norm": 2.0946221841916577,
-      "kl": 0.012420654296875,
+      "grad_norm": 2.1855192003244244,
+      "kl": 0.00994873046875,
       "learning_rate": 2.08955223880597e-06,
-      "loss": -0.0705,
-      "reward": 0.4593450725078583,
-      "reward_std": 0.5785461291670799,
-      "rewards/accuracy_reward": 0.09895833488553762,
-      "rewards/reasoning_steps_reward": 0.032986113568767905,
-      "rewards/repetition_penalty_reward": -0.05020354688167572,
-      "rewards/tag_count_reward": 0.377604179084301,
+      "loss": -0.0289,
+      "reward": 0.47621314972639084,
+      "reward_std": 0.6438451856374741,
+      "rewards/accuracy_reward": 0.13020833861082792,
+      "rewards/reasoning_steps_reward": 0.03819444729015231,
+      "rewards/repetition_penalty_reward": -0.05026257690042257,
+      "rewards/tag_count_reward": 0.358072929084301,
       "step": 7
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 160.0104217529297,
+      "completion_length": 149.20313262939453,
       "epoch": 0.011998500187476566,
-      "grad_norm": 1.610019846974552,
-      "kl": 0.0306396484375,
+      "grad_norm": 1.5337300270924847,
+      "kl": 0.027801513671875,
       "learning_rate": 2.3880597014925373e-06,
-      "loss": -0.0826,
-      "reward": 0.5668669790029526,
-      "reward_std": 0.695038303732872,
-      "rewards/accuracy_reward": 0.1458333358168602,
-      "rewards/reasoning_steps_reward": 0.08506944868713617,
-      "rewards/repetition_penalty_reward": -0.053358727134764194,
-      "rewards/tag_count_reward": 0.3893229216337204,
+      "loss": -0.0828,
+      "reward": 0.5498909652233124,
+      "reward_std": 0.6071374714374542,
+      "rewards/accuracy_reward": 0.1354166716337204,
+      "rewards/reasoning_steps_reward": 0.0763888917863369,
+      "rewards/repetition_penalty_reward": -0.05123751983046532,
+      "rewards/tag_count_reward": 0.3893229365348816,
       "step": 8
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 171.60937881469727,
+      "completion_length": 163.7291717529297,
       "epoch": 0.013498312710911136,
-      "grad_norm": 19.671391688045556,
-      "kl": 0.759765625,
+      "grad_norm": 27.976622447462567,
+      "kl": 0.797607421875,
       "learning_rate": 2.686567164179105e-06,
-      "loss": -0.1139,
-      "reward": 0.9202403426170349,
-      "reward_std": 0.7923817485570908,
-      "rewards/accuracy_reward": 0.3020833432674408,
-      "rewards/reasoning_steps_reward": 0.1649305671453476,
-      "rewards/repetition_penalty_reward": -0.07541941851377487,
-      "rewards/tag_count_reward": 0.5286458432674408,
+      "loss": -0.0138,
+      "reward": 0.8464770168066025,
+      "reward_std": 0.7221487462520599,
+      "rewards/accuracy_reward": 0.2708333469927311,
+      "rewards/reasoning_steps_reward": 0.09895833767950535,
+      "rewards/repetition_penalty_reward": -0.06498134508728981,
+      "rewards/tag_count_reward": 0.541666679084301,
       "step": 9
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 173.39062881469727,
+      "completion_length": 166.1145896911621,
       "epoch": 0.014998125234345707,
-      "grad_norm": 116.39843362025961,
-      "kl": 3.4140625,
+      "grad_norm": 173.04994011488648,
+      "kl": 4.0771484375,
       "learning_rate": 2.9850746268656716e-06,
-      "loss": 0.0701,
-      "reward": 0.9044180512428284,
-      "reward_std": 0.7367634326219559,
-      "rewards/accuracy_reward": 0.2968750074505806,
-      "rewards/reasoning_steps_reward": 0.06423611333593726,
-      "rewards/repetition_penalty_reward": -0.06867224909365177,
-      "rewards/tag_count_reward": 0.6119791716337204,
+      "loss": 0.0723,
+      "reward": 0.9919786900281906,
+      "reward_std": 0.7005721777677536,
+      "rewards/accuracy_reward": 0.3593750074505806,
+      "rewards/reasoning_steps_reward": 0.07291667279787362,
+      "rewards/repetition_penalty_reward": -0.08093799650669098,
+      "rewards/tag_count_reward": 0.6406250149011612,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 165.9322967529297,
+      "completion_length": 163.34375381469727,
       "epoch": 0.016497937757780277,
-      "grad_norm": 16.02276467950822,
-      "kl": 0.72412109375,
+      "grad_norm": 745.8172627492539,
+      "kl": 13.115234375,
       "learning_rate": 3.283582089552239e-06,
-      "loss": 0.0225,
-      "reward": 1.0981639921665192,
-      "reward_std": 0.7406069040298462,
-      "rewards/accuracy_reward": 0.416666679084301,
-      "rewards/reasoning_steps_reward": 0.07812500465661287,
-      "rewards/repetition_penalty_reward": -0.06459642946720123,
-      "rewards/tag_count_reward": 0.6679687649011612,
+      "loss": 0.2316,
+      "reward": 1.0233316719532013,
+      "reward_std": 0.7426625639200211,
+      "rewards/accuracy_reward": 0.385416679084301,
+      "rewards/reasoning_steps_reward": 0.045138892251998186,
+      "rewards/repetition_penalty_reward": -0.07649472542107105,
+      "rewards/tag_count_reward": 0.669270858168602,
       "step": 11
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 188.2135467529297,
+      "completion_length": 168.0729217529297,
       "epoch": 0.01799775028121485,
-      "grad_norm": 5.745682328164949,
-      "kl": 0.293212890625,
+      "grad_norm": 9.77279564737439,
+      "kl": 0.47802734375,
       "learning_rate": 3.582089552238806e-06,
-      "loss": 0.0254,
-      "reward": 1.068365916609764,
-      "reward_std": 0.7423798739910126,
-      "rewards/accuracy_reward": 0.3593750149011612,
-      "rewards/reasoning_steps_reward": 0.1111111156642437,
-      "rewards/repetition_penalty_reward": -0.0635785311460495,
-      "rewards/tag_count_reward": 0.661458358168602,
+      "loss": -0.0793,
+      "reward": 1.0776500403881073,
+      "reward_std": 0.6928116679191589,
+      "rewards/accuracy_reward": 0.354166679084301,
+      "rewards/reasoning_steps_reward": 0.10243056155741215,
+      "rewards/repetition_penalty_reward": -0.06774928979575634,
+      "rewards/tag_count_reward": 0.688802108168602,
       "step": 12
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 160.97916793823242,
+      "completion_length": 150.58855056762695,
       "epoch": 0.01949756280464942,
-      "grad_norm": 4.696162571842331,
-      "kl": 0.228271484375,
+      "grad_norm": 1.9563170638007599,
+      "kl": 0.1324462890625,
       "learning_rate": 3.8805970149253735e-06,
-      "loss": -0.0185,
-      "reward": 1.1401186883449554,
-      "reward_std": 0.7335168719291687,
-      "rewards/accuracy_reward": 0.3645833395421505,
-      "rewards/reasoning_steps_reward": 0.10416667349636555,
-      "rewards/repetition_penalty_reward": -0.05519386660307646,
-      "rewards/tag_count_reward": 0.7265625149011612,
+      "loss": -0.005,
+      "reward": 1.2495136260986328,
+      "reward_std": 0.6537359356880188,
+      "rewards/accuracy_reward": 0.4270833432674408,
+      "rewards/reasoning_steps_reward": 0.0538194477558136,
+      "rewards/repetition_penalty_reward": -0.051701731979846954,
+      "rewards/tag_count_reward": 0.8203125149011612,
       "step": 13
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 149.4947967529297,
+      "completion_length": 144.01042366027832,
       "epoch": 0.02099737532808399,
-      "grad_norm": 4.440887208265822,
-      "kl": 0.205322265625,
+      "grad_norm": 7.69562170272425,
+      "kl": 0.294189453125,
       "learning_rate": 4.17910447761194e-06,
-      "loss": 0.0925,
-      "reward": 1.1221649795770645,
-      "reward_std": 0.6743175089359283,
-      "rewards/accuracy_reward": 0.3958333469927311,
-      "rewards/reasoning_steps_reward": 0.039930558763444424,
-      "rewards/repetition_penalty_reward": -0.06490109767764807,
-      "rewards/tag_count_reward": 0.7513020932674408,
+      "loss": 0.0198,
+      "reward": 1.16742305457592,
+      "reward_std": 0.6400385946035385,
+      "rewards/accuracy_reward": 0.354166679084301,
+      "rewards/reasoning_steps_reward": 0.05902778171002865,
+      "rewards/repetition_penalty_reward": -0.062177615240216255,
+      "rewards/tag_count_reward": 0.8164062798023224,
       "step": 14
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 164.8072967529297,
+      "completion_length": 156.21875762939453,
       "epoch": 0.02249718785151856,
-      "grad_norm": 4.632359176117392,
-      "kl": 0.2489013671875,
+      "grad_norm": 2.534410431741499,
+      "kl": 0.146728515625,
       "learning_rate": 4.477611940298508e-06,
-      "loss": 0.0844,
-      "reward": 1.2497529983520508,
-      "reward_std": 0.6609881520271301,
-      "rewards/accuracy_reward": 0.432291679084301,
-      "rewards/reasoning_steps_reward": 0.09027777938172221,
-      "rewards/repetition_penalty_reward": -0.0488581582903862,
-      "rewards/tag_count_reward": 0.7760416865348816,
+      "loss": 0.0501,
+      "reward": 1.4073261320590973,
+      "reward_std": 0.645281046628952,
+      "rewards/accuracy_reward": 0.494791679084301,
+      "rewards/reasoning_steps_reward": 0.1354166716337204,
+      "rewards/repetition_penalty_reward": -0.044496800750494,
+      "rewards/tag_count_reward": 0.8216145932674408,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 159.5104217529297,
+      "completion_length": 142.89062881469727,
       "epoch": 0.023997000374953132,
-      "grad_norm": 1.5383616347232285,
-      "kl": 0.078369140625,
+      "grad_norm": 1.6522024022194932,
+      "kl": 0.08740234375,
       "learning_rate": 4.7761194029850745e-06,
-      "loss": 0.016,
-      "reward": 1.3225627541542053,
-      "reward_std": 0.6928769499063492,
-      "rewards/accuracy_reward": 0.5156250149011612,
-      "rewards/reasoning_steps_reward": 0.0642361156642437,
-      "rewards/repetition_penalty_reward": -0.04896502383053303,
-      "rewards/tag_count_reward": 0.7916667014360428,
+      "loss": 0.004,
+      "reward": 1.378474086523056,
+      "reward_std": 0.6564009487628937,
+      "rewards/accuracy_reward": 0.4687500298023224,
+      "rewards/reasoning_steps_reward": 0.1215277798473835,
+      "rewards/repetition_penalty_reward": -0.04513707011938095,
+      "rewards/tag_count_reward": 0.8333333432674408,
       "step": 16
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 163.390625,
+      "completion_length": 160.17708587646484,
       "epoch": 0.0254968128983877,
-      "grad_norm": 1.3506574427021751,
-      "kl": 0.06396484375,
+      "grad_norm": 1.2954290652113556,
+      "kl": 0.07891845703125,
       "learning_rate": 5.074626865671642e-06,
       "loss": 0.0088,
-      "reward": 1.286087691783905,
-      "reward_std": 0.7203228771686554,
-      "rewards/accuracy_reward": 0.4531250223517418,
-      "rewards/reasoning_steps_reward": 0.12500000558793545,
-      "rewards/repetition_penalty_reward": -0.055058157071471214,
-      "rewards/tag_count_reward": 0.7630208432674408,
+      "reward": 1.3321838080883026,
+      "reward_std": 0.6731031388044357,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/reasoning_steps_reward": 0.1371527872979641,
+      "rewards/repetition_penalty_reward": -0.04976071882992983,
+      "rewards/tag_count_reward": 0.8229166865348816,
       "step": 17
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 178.83854293823242,
+      "completion_length": 156.93750381469727,
       "epoch": 0.02699662542182227,
-      "grad_norm": 1.2350533486266992,
-      "kl": 0.0546875,
+      "grad_norm": 1.3681933966105373,
+      "kl": 0.05126953125,
       "learning_rate": 5.37313432835821e-06,
-      "loss": -0.0441,
-      "reward": 1.1719821691513062,
-      "reward_std": 0.7089956551790237,
-      "rewards/accuracy_reward": 0.354166679084301,
-      "rewards/reasoning_steps_reward": 0.1684027947485447,
-      "rewards/repetition_penalty_reward": -0.06282693240791559,
-      "rewards/tag_count_reward": 0.7122395932674408,
+      "loss": -0.0754,
+      "reward": 1.3372644186019897,
+      "reward_std": 0.6545021533966064,
+      "rewards/accuracy_reward": 0.401041679084301,
+      "rewards/reasoning_steps_reward": 0.2013889029622078,
+      "rewards/repetition_penalty_reward": -0.062041101045906544,
+      "rewards/tag_count_reward": 0.7968750149011612,
       "step": 18
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.53125762939453,
+      "completion_length": 175.35937881469727,
       "epoch": 0.028496437945256844,
-      "grad_norm": 1.121999866578993,
-      "kl": 0.059814453125,
+      "grad_norm": 1.1392001469038255,
+      "kl": 0.05596923828125,
       "learning_rate": 5.671641791044776e-06,
-      "loss": -0.0504,
-      "reward": 1.23805570602417,
-      "reward_std": 0.6833942234516144,
-      "rewards/accuracy_reward": 0.3333333507180214,
-      "rewards/reasoning_steps_reward": 0.2274305708706379,
-      "rewards/repetition_penalty_reward": -0.07401033584028482,
-      "rewards/tag_count_reward": 0.7513020932674408,
+      "loss": -0.0216,
+      "reward": 1.352351814508438,
+      "reward_std": 0.6970622688531876,
+      "rewards/accuracy_reward": 0.4375000074505806,
+      "rewards/reasoning_steps_reward": 0.2031250074505806,
+      "rewards/repetition_penalty_reward": -0.06561699230223894,
+      "rewards/tag_count_reward": 0.7773437649011612,
       "step": 19
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.5833396911621,
+      "completion_length": 194.78646087646484,
       "epoch": 0.029996250468691414,
-      "grad_norm": 2.277302963689603,
-      "kl": 0.07037353515625,
+      "grad_norm": 1.4083775545206836,
+      "kl": 0.0611572265625,
       "learning_rate": 5.970149253731343e-06,
-      "loss": 0.0108,
-      "reward": 1.2767416834831238,
-      "reward_std": 0.7041554003953934,
-      "rewards/accuracy_reward": 0.3645833432674408,
-      "rewards/reasoning_steps_reward": 0.2361111268401146,
-      "rewards/repetition_penalty_reward": -0.06483818404376507,
-      "rewards/tag_count_reward": 0.7408854365348816,
+      "loss": -0.1554,
+      "reward": 1.4778603315353394,
+      "reward_std": 0.6467646211385727,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.2829861342906952,
+      "rewards/repetition_penalty_reward": -0.06684454903006554,
+      "rewards/tag_count_reward": 0.8242187798023224,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.15625381469727,
+      "completion_length": 221.3541717529297,
       "epoch": 0.031496062992125984,
-      "grad_norm": 1.051251380495841,
-      "kl": 0.10986328125,
+      "grad_norm": 0.9468941237796497,
+      "kl": 0.050048828125,
       "learning_rate": 6.2686567164179116e-06,
-      "loss": -0.0285,
-      "reward": 1.291599839925766,
-      "reward_std": 0.6519357860088348,
-      "rewards/accuracy_reward": 0.3229166828095913,
-      "rewards/reasoning_steps_reward": 0.2812500260770321,
-      "rewards/repetition_penalty_reward": -0.07298353686928749,
-      "rewards/tag_count_reward": 0.7604166865348816,
+      "loss": -0.1031,
+      "reward": 1.576261043548584,
+      "reward_std": 0.7107058763504028,
+      "rewards/accuracy_reward": 0.4427083432674408,
+      "rewards/reasoning_steps_reward": 0.4444444701075554,
+      "rewards/repetition_penalty_reward": -0.0830271951854229,
+      "rewards/tag_count_reward": 0.7721354365348816,
       "step": 21
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.79687881469727,
+      "completion_length": 253.48438262939453,
       "epoch": 0.032995875515560553,
-      "grad_norm": 0.9759846536663065,
-      "kl": 0.0806884765625,
+      "grad_norm": 0.8523009396371123,
+      "kl": 0.05426025390625,
       "learning_rate": 6.567164179104478e-06,
-      "loss": -0.0597,
-      "reward": 1.6020659506320953,
-      "reward_std": 0.7493701279163361,
-      "rewards/accuracy_reward": 0.4322916865348816,
-      "rewards/reasoning_steps_reward": 0.5225694701075554,
-      "rewards/repetition_penalty_reward": -0.07805563136935234,
-      "rewards/tag_count_reward": 0.7252604365348816,
+      "loss": -0.0433,
+      "reward": 1.9110043048858643,
+      "reward_std": 0.7316416054964066,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.6388888955116272,
+      "rewards/repetition_penalty_reward": -0.08595757372677326,
+      "rewards/tag_count_reward": 0.8164062798023224,
       "step": 22
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.93750762939453,
+      "completion_length": 282.4323043823242,
       "epoch": 0.03449568803899512,
-      "grad_norm": 0.8719127454418464,
-      "kl": 0.0849609375,
+      "grad_norm": 0.8161516191732155,
+      "kl": 0.07037353515625,
       "learning_rate": 6.865671641791045e-06,
-      "loss": -0.0692,
-      "reward": 1.6442042291164398,
-      "reward_std": 0.6580450236797333,
-      "rewards/accuracy_reward": 0.3645833432674408,
-      "rewards/reasoning_steps_reward": 0.614583395421505,
-      "rewards/repetition_penalty_reward": -0.09017078392207623,
-      "rewards/tag_count_reward": 0.755208358168602,
+      "loss": -0.0343,
+      "reward": 2.085984379053116,
+      "reward_std": 0.670979842543602,
+      "rewards/accuracy_reward": 0.5625000298023224,
+      "rewards/reasoning_steps_reward": 0.7743056118488312,
+      "rewards/repetition_penalty_reward": -0.10238376632332802,
+      "rewards/tag_count_reward": 0.8515625149011612,
       "step": 23
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 255.6718864440918,
+      "completion_length": 277.39064025878906,
       "epoch": 0.0359955005624297,
-      "grad_norm": 1.7487963120056436,
-      "kl": 0.219970703125,
+      "grad_norm": 0.88714678428363,
+      "kl": 0.08349609375,
       "learning_rate": 7.164179104477612e-06,
-      "loss": -0.0599,
-      "reward": 1.8432446718215942,
-      "reward_std": 0.7495845705270767,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.6840277910232544,
-      "rewards/repetition_penalty_reward": -0.08817902393639088,
-      "rewards/tag_count_reward": 0.7473958432674408,
+      "loss": -0.0093,
+      "reward": 2.1416602730751038,
+      "reward_std": 0.6270937323570251,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.8420138955116272,
+      "rewards/repetition_penalty_reward": -0.10530160553753376,
+      "rewards/tag_count_reward": 0.8632812798023224,
       "step": 24
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.53125762939453,
+      "completion_length": 303.7708435058594,
       "epoch": 0.03749531308586427,
-      "grad_norm": 0.9847582761123604,
-      "kl": 0.1385498046875,
+      "grad_norm": 0.7677870229716102,
+      "kl": 0.0814208984375,
       "learning_rate": 7.46268656716418e-06,
-      "loss": -0.0537,
-      "reward": 1.8635078966617584,
-      "reward_std": 0.6817265152931213,
-      "rewards/accuracy_reward": 0.3958333358168602,
-      "rewards/reasoning_steps_reward": 0.7881944626569748,
-      "rewards/repetition_penalty_reward": -0.10697820782661438,
-      "rewards/tag_count_reward": 0.7864583432674408,
+      "loss": -0.0311,
+      "reward": 2.169845759868622,
+      "reward_std": 0.5908740907907486,
+      "rewards/accuracy_reward": 0.4843750149011612,
+      "rewards/reasoning_steps_reward": 0.8958334028720856,
+      "rewards/repetition_penalty_reward": -0.119216812774539,
+      "rewards/tag_count_reward": 0.9088542014360428,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 291.9322967529297,
+      "completion_length": 300.0052185058594,
       "epoch": 0.03899512560929884,
-      "grad_norm": 0.8461790712043904,
-      "kl": 0.1474609375,
+      "grad_norm": 0.751193936667339,
+      "kl": 0.084228515625,
       "learning_rate": 7.761194029850747e-06,
-      "loss": 0.0,
-      "reward": 1.9677788615226746,
-      "reward_std": 0.653272807598114,
-      "rewards/accuracy_reward": 0.4739583432674408,
-      "rewards/reasoning_steps_reward": 0.8489583730697632,
-      "rewards/repetition_penalty_reward": -0.10774205438792706,
-      "rewards/tag_count_reward": 0.7526041865348816,
+      "loss": 0.0118,
+      "reward": 2.2213982343673706,
+      "reward_std": 0.5355894565582275,
+      "rewards/accuracy_reward": 0.5000000298023224,
+      "rewards/reasoning_steps_reward": 0.9461806118488312,
+      "rewards/repetition_penalty_reward": -0.1258239597082138,
+      "rewards/tag_count_reward": 0.9010416716337204,
       "step": 26
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 271.35939025878906,
+      "completion_length": 294.46875762939453,
       "epoch": 0.04049493813273341,
-      "grad_norm": 6.973505953549008,
-      "kl": 0.4765625,
+      "grad_norm": 0.817822463608519,
+      "kl": 0.0811767578125,
       "learning_rate": 8.059701492537314e-06,
-      "loss": 0.0103,
-      "reward": 2.150063157081604,
-      "reward_std": 0.5991375297307968,
-      "rewards/accuracy_reward": 0.5260416865348816,
-      "rewards/reasoning_steps_reward": 0.8958333730697632,
-      "rewards/repetition_penalty_reward": -0.10123893804848194,
-      "rewards/tag_count_reward": 0.829427108168602,
+      "loss": 0.0218,
+      "reward": 2.4470449686050415,
+      "reward_std": 0.5053400099277496,
+      "rewards/accuracy_reward": 0.6145833432674408,
+      "rewards/reasoning_steps_reward": 0.9843750298023224,
+      "rewards/repetition_penalty_reward": -0.11154878698289394,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 27
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 261.28125762939453,
+      "completion_length": 285.4166717529297,
       "epoch": 0.04199475065616798,
-      "grad_norm": 3.850773043534155,
-      "kl": 0.293212890625,
+      "grad_norm": 0.8329974091920429,
+      "kl": 0.101806640625,
       "learning_rate": 8.35820895522388e-06,
-      "loss": -0.0304,
-      "reward": 2.154005229473114,
-      "reward_std": 0.621285080909729,
-      "rewards/accuracy_reward": 0.5312500298023224,
-      "rewards/reasoning_steps_reward": 0.859375,
-      "rewards/repetition_penalty_reward": -0.1012031976133585,
-      "rewards/tag_count_reward": 0.8645833730697632,
+      "loss": 0.0405,
+      "reward": 2.4431938529014587,
+      "reward_std": 0.46228019893169403,
+      "rewards/accuracy_reward": 0.614583358168602,
+      "rewards/reasoning_steps_reward": 0.9930555671453476,
+      "rewards/repetition_penalty_reward": -0.10975776612758636,
+      "rewards/tag_count_reward": 0.9453125298023224,
       "step": 28
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.0260467529297,
+      "completion_length": 251.47396850585938,
       "epoch": 0.04349456317960255,
-      "grad_norm": 1.4645034098283287,
-      "kl": 0.23095703125,
+      "grad_norm": 2.1092410850036143,
+      "kl": 0.1441650390625,
       "learning_rate": 8.656716417910447e-06,
-      "loss": 0.0797,
-      "reward": 2.0209468007087708,
-      "reward_std": 0.6779871582984924,
-      "rewards/accuracy_reward": 0.5885416865348816,
-      "rewards/reasoning_steps_reward": 0.7534722685813904,
-      "rewards/repetition_penalty_reward": -0.10622344352304935,
-      "rewards/tag_count_reward": 0.7851562798023224,
+      "loss": 0.0865,
+      "reward": 2.475065588951111,
+      "reward_std": 0.47668417543172836,
+      "rewards/accuracy_reward": 0.661458358168602,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.1121740210801363,
+      "rewards/tag_count_reward": 0.9309895932674408,
       "step": 29
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.93229293823242,
+      "completion_length": 263.27083587646484,
       "epoch": 0.04499437570303712,
-      "grad_norm": 1.247184264877055,
-      "kl": 0.162841796875,
+      "grad_norm": 0.8134902475342992,
+      "kl": 0.140380859375,
       "learning_rate": 8.955223880597016e-06,
-      "loss": -0.0625,
-      "reward": 2.040347546339035,
-      "reward_std": 0.6728687584400177,
-      "rewards/accuracy_reward": 0.5729166865348816,
-      "rewards/reasoning_steps_reward": 0.7795138955116272,
-      "rewards/repetition_penalty_reward": -0.10374973341822624,
-      "rewards/tag_count_reward": 0.7916666865348816,
+      "loss": 0.0415,
+      "reward": 2.441520571708679,
+      "reward_std": 0.3973531872034073,
+      "rewards/accuracy_reward": 0.6093750223517418,
+      "rewards/reasoning_steps_reward": 0.9982638955116272,
+      "rewards/repetition_penalty_reward": -0.1179413478821516,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.26562881469727,
+      "completion_length": 230.7916717529297,
       "epoch": 0.046494188226471694,
-      "grad_norm": 0.8484087335607122,
-      "kl": 0.172607421875,
+      "grad_norm": 0.8575684864473243,
+      "kl": 0.1580810546875,
       "learning_rate": 9.253731343283582e-06,
-      "loss": 0.0142,
-      "reward": 2.083979547023773,
-      "reward_std": 0.5710583031177521,
-      "rewards/accuracy_reward": 0.4687500074505806,
-      "rewards/reasoning_steps_reward": 0.9479167014360428,
-      "rewards/repetition_penalty_reward": -0.10221851244568825,
-      "rewards/tag_count_reward": 0.7695312649011612,
+      "loss": 0.0852,
+      "reward": 2.5657079219818115,
+      "reward_std": 0.4555797800421715,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.09314640611410141,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 31
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.73959350585938,
+      "completion_length": 208.65625762939453,
       "epoch": 0.047994000749906264,
-      "grad_norm": 1.1744348492144583,
-      "kl": 0.1875,
+      "grad_norm": 1.2887250609562435,
+      "kl": 0.23876953125,
       "learning_rate": 9.552238805970149e-06,
-      "loss": 0.0776,
-      "reward": 2.3965033292770386,
-      "reward_std": 0.5822078287601471,
-      "rewards/accuracy_reward": 0.6718750149011612,
-      "rewards/reasoning_steps_reward": 0.9930555671453476,
-      "rewards/repetition_penalty_reward": -0.09785447083413601,
-      "rewards/tag_count_reward": 0.8294270932674408,
+      "loss": 0.0936,
+      "reward": 2.6088263988494873,
+      "reward_std": 0.3428891524672508,
+      "rewards/accuracy_reward": 0.755208358168602,
+      "rewards/reasoning_steps_reward": 0.9982638955116272,
+      "rewards/repetition_penalty_reward": -0.06912498734891415,
+      "rewards/tag_count_reward": 0.9244791865348816,
       "step": 32
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 250.71875762939453,
+      "completion_length": 195.6197967529297,
       "epoch": 0.049493813273340834,
-      "grad_norm": 0.9115161284883908,
-      "kl": 0.181884765625,
+      "grad_norm": 0.998549892430521,
+      "kl": 0.164306640625,
       "learning_rate": 9.850746268656717e-06,
-      "loss": 0.038,
-      "reward": 2.35109943151474,
-      "reward_std": 0.5347126573324203,
-      "rewards/accuracy_reward": 0.5625000223517418,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.09681737795472145,
-      "rewards/tag_count_reward": 0.8906250298023224,
+      "loss": 0.0716,
+      "reward": 2.281342178583145,
+      "reward_std": 0.3404741808772087,
+      "rewards/accuracy_reward": 0.4062500186264515,
+      "rewards/reasoning_steps_reward": 0.9965277910232544,
+      "rewards/repetition_penalty_reward": -0.06414407771080732,
+      "rewards/tag_count_reward": 0.942708358168602,
       "step": 33
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.7604217529297,
+      "completion_length": 173.95312881469727,
       "epoch": 0.0509936257967754,
-      "grad_norm": 0.9316669826597189,
-      "kl": 0.2060546875,
+      "grad_norm": 1.317082973370953,
+      "kl": 0.213134765625,
       "learning_rate": 1.0149253731343284e-05,
-      "loss": 0.1298,
-      "reward": 2.2372400164604187,
-      "reward_std": 0.5037485882639885,
-      "rewards/accuracy_reward": 0.4427083432674408,
-      "rewards/reasoning_steps_reward": 0.989583358168602,
-      "rewards/repetition_penalty_reward": -0.09348933398723602,
-      "rewards/tag_count_reward": 0.8984375149011612,
+      "loss": 0.1399,
+      "reward": 2.370617628097534,
+      "reward_std": 0.4167383909225464,
+      "rewards/accuracy_reward": 0.5260416716337204,
+      "rewards/reasoning_steps_reward": 0.9878472536802292,
+      "rewards/repetition_penalty_reward": -0.0443130349740386,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 34
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.1458396911621,
+      "completion_length": 172.42187881469727,
       "epoch": 0.05249343832020997,
-      "grad_norm": 0.978595163631655,
-      "kl": 0.194580078125,
+      "grad_norm": 1.1847166733741281,
+      "kl": 0.202392578125,
       "learning_rate": 1.0447761194029851e-05,
-      "loss": 0.0872,
-      "reward": 2.379105567932129,
-      "reward_std": 0.48672880232334137,
-      "rewards/accuracy_reward": 0.5781250223517418,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.07315144501626492,
-      "rewards/tag_count_reward": 0.9036458432674408,
+      "loss": 0.1261,
+      "reward": 2.3955256938934326,
+      "reward_std": 0.328448873013258,
+      "rewards/accuracy_reward": 0.5312500149011612,
+      "rewards/reasoning_steps_reward": 0.97743059694767,
+      "rewards/repetition_penalty_reward": -0.04284239187836647,
+      "rewards/tag_count_reward": 0.9296875149011612,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.8645896911621,
+      "completion_length": 193.6458396911621,
       "epoch": 0.05399325084364454,
-      "grad_norm": 1.001370277577607,
-      "kl": 0.2109375,
+      "grad_norm": 1.4752348010664043,
+      "kl": 0.24560546875,
       "learning_rate": 1.074626865671642e-05,
-      "loss": -0.0238,
-      "reward": 2.4131481647491455,
-      "reward_std": 0.5277487263083458,
-      "rewards/accuracy_reward": 0.5937500149011612,
-      "rewards/reasoning_steps_reward": 0.9531250298023224,
-      "rewards/repetition_penalty_reward": -0.07122688181698322,
-      "rewards/tag_count_reward": 0.9375000149011612,
+      "loss": 0.4191,
+      "reward": 2.3304308652877808,
+      "reward_std": 0.5351479351520538,
+      "rewards/accuracy_reward": 0.5520833507180214,
+      "rewards/reasoning_steps_reward": 0.9340278208255768,
+      "rewards/repetition_penalty_reward": -0.0515137268230319,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 36
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 204.64583587646484,
+      "completion_length": 182.2135467529297,
       "epoch": 0.05549306336707911,
-      "grad_norm": 0.9668083665156728,
-      "kl": 0.22216796875,
+      "grad_norm": 1.7682892736323388,
+      "kl": 0.32080078125,
       "learning_rate": 1.1044776119402986e-05,
-      "loss": -0.017,
-      "reward": 2.486513674259186,
-      "reward_std": 0.5187593251466751,
-      "rewards/accuracy_reward": 0.7031250298023224,
-      "rewards/reasoning_steps_reward": 0.9166666865348816,
-      "rewards/repetition_penalty_reward": -0.06166350655257702,
-      "rewards/tag_count_reward": 0.9283854514360428,
+      "loss": 0.402,
+      "reward": 2.4258365631103516,
+      "reward_std": 0.5576556175947189,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.89930559694767,
+      "rewards/repetition_penalty_reward": -0.038573198951780796,
+      "rewards/tag_count_reward": 0.9088541716337204,
       "step": 37
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.57812881469727,
+      "completion_length": 240.62500381469727,
       "epoch": 0.05699287589051369,
-      "grad_norm": 0.9933532091220145,
-      "kl": 0.27978515625,
+      "grad_norm": 1.8853983944936439,
+      "kl": 0.3203125,
       "learning_rate": 1.1343283582089553e-05,
-      "loss": 0.0533,
-      "reward": 2.315297782421112,
-      "reward_std": 0.467474602162838,
-      "rewards/accuracy_reward": 0.5156250111758709,
-      "rewards/reasoning_steps_reward": 0.9461806118488312,
-      "rewards/repetition_penalty_reward": -0.05796616990119219,
-      "rewards/tag_count_reward": 0.911458358168602,
+      "loss": 0.655,
+      "reward": 2.015189290046692,
+      "reward_std": 0.6033422723412514,
+      "rewards/accuracy_reward": 0.3697916716337204,
+      "rewards/reasoning_steps_reward": 0.8541667312383652,
+      "rewards/repetition_penalty_reward": -0.055123341269791126,
+      "rewards/tag_count_reward": 0.8463541865348816,
       "step": 38
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.67708587646484,
+      "completion_length": 295.5833396911621,
       "epoch": 0.05849268841394826,
-      "grad_norm": 1.1014497191190673,
-      "kl": 0.24658203125,
+      "grad_norm": 3.2310358216677733,
+      "kl": 0.3486328125,
       "learning_rate": 1.1641791044776121e-05,
-      "loss": -0.0132,
-      "reward": 2.4762988686561584,
-      "reward_std": 0.4729772359132767,
-      "rewards/accuracy_reward": 0.7343750298023224,
-      "rewards/reasoning_steps_reward": 0.871527835726738,
-      "rewards/repetition_penalty_reward": -0.07231233641505241,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "loss": 0.7056,
+      "reward": 2.03124737739563,
+      "reward_std": 0.8326994776725769,
+      "rewards/accuracy_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.7847221940755844,
+      "rewards/repetition_penalty_reward": -0.052954130340367556,
+      "rewards/tag_count_reward": 0.794270858168602,
       "step": 39
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 255.4895896911621,
+      "completion_length": 344.5208511352539,
       "epoch": 0.05999250093738283,
-      "grad_norm": 0.876579700760602,
-      "kl": 0.27001953125,
+      "grad_norm": 38.31384293221201,
+      "kl": 0.46484375,
       "learning_rate": 1.1940298507462686e-05,
-      "loss": 0.05,
-      "reward": 2.4912882447242737,
-      "reward_std": 0.5008950978517532,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9253472834825516,
-      "rewards/repetition_penalty_reward": -0.07598620746284723,
-      "rewards/tag_count_reward": 0.9752604365348816,
+      "loss": 0.6778,
+      "reward": 1.9736978709697723,
+      "reward_std": 0.8218565732240677,
+      "rewards/accuracy_reward": 0.4843750149011612,
+      "rewards/reasoning_steps_reward": 0.7552083283662796,
+      "rewards/repetition_penalty_reward": -0.013281408930197358,
+      "rewards/tag_count_reward": 0.747395858168602,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.0885543823242,
+      "completion_length": 443.59375762939453,
       "epoch": 0.0614923134608174,
-      "grad_norm": 1.5357965494048256,
-      "kl": 0.3916015625,
+      "grad_norm": 10963112.509325096,
+      "kl": 38711.625,
       "learning_rate": 1.2238805970149255e-05,
-      "loss": 0.1043,
-      "reward": 2.368771195411682,
-      "reward_std": 0.578594297170639,
-      "rewards/accuracy_reward": 0.5833333507180214,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.08912823535501957,
-      "rewards/tag_count_reward": 0.9231770932674408,
+      "loss": 3011.3784,
+      "reward": 1.5866824984550476,
+      "reward_std": 0.7351708710193634,
+      "rewards/accuracy_reward": 0.3020833395421505,
+      "rewards/reasoning_steps_reward": 0.6545138955116272,
+      "rewards/repetition_penalty_reward": -0.01444607856683433,
+      "rewards/tag_count_reward": 0.6445312798023224,
       "step": 41
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 320.3645935058594,
+      "completion_length": 571.9479370117188,
       "epoch": 0.06299212598425197,
-      "grad_norm": 1.015169753494364,
-      "kl": 0.4111328125,
+      "grad_norm": 1562.2702573171862,
+      "kl": 13.8759765625,
       "learning_rate": 1.2537313432835823e-05,
-      "loss": 0.0663,
-      "reward": 2.4001752734184265,
-      "reward_std": 0.6187782883644104,
-      "rewards/accuracy_reward": 0.661458358168602,
-      "rewards/reasoning_steps_reward": 0.9392361640930176,
-      "rewards/repetition_penalty_reward": -0.10286298580467701,
-      "rewards/tag_count_reward": 0.9023437649011612,
+      "loss": 1.2646,
+      "reward": 1.396679848432541,
+      "reward_std": 0.764959841966629,
+      "rewards/accuracy_reward": 0.2604166753590107,
+      "rewards/reasoning_steps_reward": 0.5763889253139496,
+      "rewards/repetition_penalty_reward": -0.006532001192681491,
+      "rewards/tag_count_reward": 0.5664062649011612,
       "step": 42
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 327.3854293823242,
+      "completion_length": 818.1614837646484,
       "epoch": 0.06449193850768654,
-      "grad_norm": 1.6703329299260001,
-      "kl": 0.4345703125,
+      "grad_norm": 36.12141290169206,
+      "kl": 1.1787109375,
       "learning_rate": 1.2835820895522388e-05,
-      "loss": 0.1761,
-      "reward": 2.34128737449646,
-      "reward_std": 0.6598222628235817,
-      "rewards/accuracy_reward": 0.5937500298023224,
-      "rewards/reasoning_steps_reward": 0.9392361044883728,
-      "rewards/repetition_penalty_reward": -0.09274039790034294,
-      "rewards/tag_count_reward": 0.9010416716337204,
+      "loss": 0.1815,
+      "reward": 1.0434824973344803,
+      "reward_std": 0.6087194085121155,
+      "rewards/accuracy_reward": 0.07812500279396772,
+      "rewards/reasoning_steps_reward": 0.5711805820465088,
+      "rewards/repetition_penalty_reward": -0.002958516124635935,
+      "rewards/tag_count_reward": 0.397135429084301,
       "step": 43
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 308.81250762939453,
+      "completion_length": 883.0052185058594,
       "epoch": 0.06599175103112111,
-      "grad_norm": 1.8118029753094556,
-      "kl": 0.40234375,
+      "grad_norm": 12.05770882883392,
+      "kl": 1.087890625,
       "learning_rate": 1.3134328358208957e-05,
-      "loss": 0.2046,
-      "reward": 2.240744113922119,
-      "reward_std": 0.6155901998281479,
-      "rewards/accuracy_reward": 0.5520833432674408,
-      "rewards/reasoning_steps_reward": 0.8923611044883728,
-      "rewards/repetition_penalty_reward": -0.08260660991072655,
-      "rewards/tag_count_reward": 0.8789062649011612,
+      "loss": 0.1592,
+      "reward": 0.8965069055557251,
+      "reward_std": 0.5693257004022598,
+      "rewards/accuracy_reward": 0.057291668839752674,
+      "rewards/reasoning_steps_reward": 0.508680559694767,
+      "rewards/repetition_penalty_reward": -0.0014966219605412334,
+      "rewards/tag_count_reward": 0.3320312574505806,
       "step": 44
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 364.7135467529297,
+      "completion_length": 978.4687805175781,
       "epoch": 0.06749156355455568,
-      "grad_norm": 5.936213660745324,
-      "kl": 0.47021484375,
+      "grad_norm": 7.679672597113327,
+      "kl": 1.017578125,
       "learning_rate": 1.3432835820895525e-05,
-      "loss": 0.425,
-      "reward": 1.964487075805664,
-      "reward_std": 0.7735159993171692,
-      "rewards/accuracy_reward": 0.4583333507180214,
-      "rewards/reasoning_steps_reward": 0.8750000149011612,
-      "rewards/repetition_penalty_reward": -0.08629421889781952,
-      "rewards/tag_count_reward": 0.7174479365348816,
+      "loss": 0.0491,
+      "reward": 0.7406667172908783,
+      "reward_std": 0.41688016057014465,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4843750223517418,
+      "rewards/repetition_penalty_reward": -0.0002187521276937332,
+      "rewards/tag_count_reward": 0.2565104253590107,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 377.81251525878906,
+      "completion_length": 992.9739837646484,
       "epoch": 0.06899137607799025,
-      "grad_norm": 68.04443222745681,
-      "kl": 3.87890625,
+      "grad_norm": 3776.078403846416,
+      "kl": 122.390625,
       "learning_rate": 1.373134328358209e-05,
-      "loss": 0.5361,
-      "reward": 1.82472363114357,
-      "reward_std": 0.8007150739431381,
-      "rewards/accuracy_reward": 0.4479166716337204,
-      "rewards/reasoning_steps_reward": 0.8715278059244156,
-      "rewards/repetition_penalty_reward": -0.07545002363622189,
-      "rewards/tag_count_reward": 0.5807291716337204,
+      "loss": 5.2459,
+      "reward": 0.6156022548675537,
+      "reward_std": 0.45898766070604324,
+      "rewards/accuracy_reward": 0.0052083334885537624,
+      "rewards/reasoning_steps_reward": 0.3975694626569748,
+      "rewards/repetition_penalty_reward": -0.0007172302284743637,
+      "rewards/tag_count_reward": 0.2135416716337204,
       "step": 46
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.68750762939453,
+      "completion_length": 1021.09375,
       "epoch": 0.07049118860142482,
-      "grad_norm": 383.1306772268743,
-      "kl": 10.515625,
+      "grad_norm": 53.535086229947574,
+      "kl": 2.7412109375,
       "learning_rate": 1.4029850746268658e-05,
-      "loss": 0.602,
-      "reward": 1.422120749950409,
-      "reward_std": 0.7384027689695358,
-      "rewards/accuracy_reward": 0.2135416716337204,
-      "rewards/reasoning_steps_reward": 0.777777835726738,
-      "rewards/repetition_penalty_reward": -0.049667539075016975,
-      "rewards/tag_count_reward": 0.4804687649011612,
+      "loss": 0.1119,
+      "reward": 0.6543789356946945,
+      "reward_std": 0.39667317271232605,
+      "rewards/accuracy_reward": 0.0052083334885537624,
+      "rewards/reasoning_steps_reward": 0.4670139029622078,
+      "rewards/repetition_penalty_reward": -0.00013500768363883253,
+      "rewards/tag_count_reward": 0.1822916716337204,
       "step": 47
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 383.4479293823242,
+      "completion_length": 1006.2812652587891,
       "epoch": 0.0719910011248594,
-      "grad_norm": 127.08044008975428,
-      "kl": 78.771484375,
+      "grad_norm": 9.182715345455021,
+      "kl": 0.677734375,
       "learning_rate": 1.4328358208955224e-05,
-      "loss": 0.5014,
-      "reward": 1.5611045956611633,
-      "reward_std": 0.8897948116064072,
-      "rewards/accuracy_reward": 0.3072916716337204,
-      "rewards/reasoning_steps_reward": 0.751736119389534,
-      "rewards/repetition_penalty_reward": -0.05781908147037029,
-      "rewards/tag_count_reward": 0.559895858168602,
+      "loss": 0.0131,
+      "reward": 0.5155243277549744,
+      "reward_std": 0.3933122977614403,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.3645833507180214,
+      "rewards/repetition_penalty_reward": -0.00010070096323033795,
+      "rewards/tag_count_reward": 0.1510416716337204,
       "step": 48
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 343.1770935058594,
+      "completion_length": 1017.1927185058594,
       "epoch": 0.07349081364829396,
-      "grad_norm": 8.004059356580026,
-      "kl": 1.6875,
+      "grad_norm": 2.136051505149193,
+      "kl": 0.76416015625,
       "learning_rate": 1.4626865671641792e-05,
-      "loss": 0.2767,
-      "reward": 1.384813278913498,
-      "reward_std": 0.8601708263158798,
-      "rewards/accuracy_reward": 0.2187500037252903,
-      "rewards/reasoning_steps_reward": 0.7118055671453476,
-      "rewards/repetition_penalty_reward": -0.06787777040153742,
-      "rewards/tag_count_reward": 0.5221354439854622,
+      "loss": 0.0258,
+      "reward": 0.5431747883558273,
+      "reward_std": 0.3834214210510254,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.3871527835726738,
+      "rewards/repetition_penalty_reward": -0.0002280306780448882,
+      "rewards/tag_count_reward": 0.1562500037252903,
       "step": 49
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 351.7135543823242,
+      "completion_length": 1005.1770935058594,
       "epoch": 0.07499062617172854,
-      "grad_norm": 1.7830772174928224,
-      "kl": 1.0224609375,
+      "grad_norm": 233.5775916802967,
+      "kl": 15.7265625,
       "learning_rate": 1.492537313432836e-05,
-      "loss": 0.1119,
-      "reward": 1.2045287191867828,
-      "reward_std": 0.8166554719209671,
-      "rewards/accuracy_reward": 0.1666666716337204,
-      "rewards/reasoning_steps_reward": 0.6302083432674408,
-      "rewards/repetition_penalty_reward": -0.06630465760827065,
-      "rewards/tag_count_reward": 0.4739583432674408,
+      "loss": 0.6288,
+      "reward": 0.5613471269607544,
+      "reward_std": 0.40113527327775955,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.418402798473835,
+      "rewards/repetition_penalty_reward": -0.0002848635776899755,
+      "rewards/tag_count_reward": 0.1432291716337204,
       "step": 50
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 410.0677185058594,
+      "completion_length": 994.8333435058594,
       "epoch": 0.0764904386951631,
-      "grad_norm": 1.780458421762445,
-      "kl": 1.1845703125,
+      "grad_norm": 10.304724683124707,
+      "kl": 1.4677734375,
       "learning_rate": 1.5223880597014925e-05,
-      "loss": -0.0193,
-      "reward": 1.3819158375263214,
-      "reward_std": 0.8455617725849152,
-      "rewards/accuracy_reward": 0.2708333395421505,
-      "rewards/reasoning_steps_reward": 0.7777777910232544,
-      "rewards/repetition_penalty_reward": -0.13153912127017975,
-      "rewards/tag_count_reward": 0.4648437649011612,
+      "loss": 0.0407,
+      "reward": 0.5884975641965866,
+      "reward_std": 0.4051181599497795,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4427083507180214,
+      "rewards/repetition_penalty_reward": -4.4144707317173015e-05,
+      "rewards/tag_count_reward": 0.1458333395421505,
       "step": 51
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 583.6302185058594,
+      "completion_length": 983.5208435058594,
       "epoch": 0.07799025121859768,
-      "grad_norm": 0.8595799417367336,
-      "kl": 0.94970703125,
+      "grad_norm": 56.749232087158944,
+      "kl": 6.04296875,
       "learning_rate": 1.5522388059701494e-05,
-      "loss": -0.1912,
-      "reward": 1.392962396144867,
-      "reward_std": 0.8328078836202621,
-      "rewards/accuracy_reward": 0.31250000558793545,
-      "rewards/reasoning_steps_reward": 0.8055555820465088,
-      "rewards/repetition_penalty_reward": -0.19254108518362045,
-      "rewards/tag_count_reward": 0.4674479365348816,
+      "loss": 0.2016,
+      "reward": 0.6742116063833237,
+      "reward_std": 0.4244392439723015,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.5104166716337204,
+      "rewards/repetition_penalty_reward": -0.0002676011572475545,
+      "rewards/tag_count_reward": 0.1640625037252903,
       "step": 52
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 761.7812805175781,
+      "completion_length": 972.0052185058594,
       "epoch": 0.07949006374203224,
-      "grad_norm": 1.9426702160291227,
-      "kl": 0.73828125,
+      "grad_norm": 5.494493067960978,
+      "kl": 2.2734375,
       "learning_rate": 1.582089552238806e-05,
-      "loss": -0.0632,
-      "reward": 1.2566802203655243,
-      "reward_std": 0.7984166294336319,
-      "rewards/accuracy_reward": 0.2864583395421505,
-      "rewards/reasoning_steps_reward": 0.8125000149011612,
-      "rewards/repetition_penalty_reward": -0.2914969325065613,
-      "rewards/tag_count_reward": 0.4492187574505806,
+      "loss": 0.0395,
+      "reward": 0.6165060997009277,
+      "reward_std": 0.412445493042469,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.4565972536802292,
+      "rewards/repetition_penalty_reward": -0.00024740799563005567,
+      "rewards/tag_count_reward": 0.1601562537252903,
       "step": 53
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 769.3333587646484,
+      "completion_length": 997.3750152587891,
       "epoch": 0.08098987626546682,
-      "grad_norm": 0.606126420750735,
-      "kl": 0.58154296875,
+      "grad_norm": 8.732055316405138,
+      "kl": 0.92333984375,
       "learning_rate": 1.6119402985074627e-05,
-      "loss": -0.0516,
-      "reward": 1.2068730890750885,
-      "reward_std": 0.5995621234178543,
-      "rewards/accuracy_reward": 0.17708333861082792,
-      "rewards/reasoning_steps_reward": 0.8819444924592972,
-      "rewards/repetition_penalty_reward": -0.34304021298885345,
-      "rewards/tag_count_reward": 0.490885429084301,
+      "loss": 0.0115,
+      "reward": 0.8314266949892044,
+      "reward_std": 0.3945605829358101,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.6649305820465088,
+      "rewards/repetition_penalty_reward": -0.00017056526121450588,
+      "rewards/tag_count_reward": 0.1666666716337204,
       "step": 54
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.9479370117188,
+      "completion_length": 961.9583587646484,
       "epoch": 0.0824896887889014,
-      "grad_norm": 141.4492030747302,
-      "kl": 1.0986328125,
+      "grad_norm": 14.31298550812026,
+      "kl": 1.4169921875,
       "learning_rate": 1.6417910447761197e-05,
-      "loss": -0.0583,
-      "reward": 1.5605631172657013,
-      "reward_std": 0.6802570223808289,
-      "rewards/accuracy_reward": 0.4010416716337204,
-      "rewards/reasoning_steps_reward": 0.88368059694767,
-      "rewards/repetition_penalty_reward": -0.2957737147808075,
-      "rewards/tag_count_reward": 0.5716145932674408,
+      "loss": -0.0265,
+      "reward": 0.8787982016801834,
+      "reward_std": 0.3934568166732788,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.7152778208255768,
+      "rewards/repetition_penalty_reward": -0.0005421093846962322,
+      "rewards/tag_count_reward": 0.1640625037252903,
       "step": 55
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 510.9791793823242,
+      "completion_length": 974.8125152587891,
       "epoch": 0.08398950131233596,
-      "grad_norm": 0.9471168937555826,
-      "kl": 0.603515625,
+      "grad_norm": 262.24387888017645,
+      "kl": 24.07275390625,
       "learning_rate": 1.671641791044776e-05,
-      "loss": -0.0603,
-      "reward": 1.6753197610378265,
-      "reward_std": 0.5637442171573639,
-      "rewards/accuracy_reward": 0.3958333507180214,
-      "rewards/reasoning_steps_reward": 0.9253472238779068,
-      "rewards/repetition_penalty_reward": -0.22789209336042404,
-      "rewards/tag_count_reward": 0.5820312798023224,
+      "loss": 0.9471,
+      "reward": 0.975603461265564,
+      "reward_std": 0.3715866580605507,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.7951389253139496,
+      "rewards/repetition_penalty_reward": -0.0005250562171568163,
+      "rewards/tag_count_reward": 0.1809895895421505,
       "step": 56
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 433.4479293823242,
+      "completion_length": 975.3854370117188,
       "epoch": 0.08548931383577053,
-      "grad_norm": 12471.246658659455,
-      "kl": 123.4453125,
+      "grad_norm": 38.16302080966472,
+      "kl": 6.939453125,
       "learning_rate": 1.701492537313433e-05,
-      "loss": 7.2604,
-      "reward": 1.5392451286315918,
-      "reward_std": 0.656680166721344,
-      "rewards/accuracy_reward": 0.3645833469927311,
-      "rewards/reasoning_steps_reward": 0.84375,
-      "rewards/repetition_penalty_reward": -0.2185674048960209,
-      "rewards/tag_count_reward": 0.5494791865348816,
+      "loss": 0.1715,
+      "reward": 1.1071399450302124,
+      "reward_std": 0.2679474614560604,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9114583730697632,
+      "rewards/repetition_penalty_reward": -0.0009330366592621431,
+      "rewards/tag_count_reward": 0.1966145858168602,
       "step": 57
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 334.6198043823242,
+      "completion_length": 981.3020935058594,
       "epoch": 0.0869891263592051,
-      "grad_norm": 169.80984697224983,
-      "kl": 123.8564453125,
+      "grad_norm": 2.325182725021432,
+      "kl": 0.68359375,
       "learning_rate": 1.7313432835820894e-05,
-      "loss": 0.1593,
-      "reward": 1.3166283071041107,
-      "reward_std": 0.6126263588666916,
-      "rewards/accuracy_reward": 0.1979166716337204,
-      "rewards/reasoning_steps_reward": 0.819444477558136,
-      "rewards/repetition_penalty_reward": -0.1720869541168213,
-      "rewards/tag_count_reward": 0.471354179084301,
+      "loss": -0.0424,
+      "reward": 1.130223572254181,
+      "reward_std": 0.20110024139285088,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9496527910232544,
+      "rewards/repetition_penalty_reward": -0.003022975695785135,
+      "rewards/tag_count_reward": 0.1835937574505806,
       "step": 58
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 297.93750762939453,
+      "completion_length": 1004.2187652587891,
       "epoch": 0.08848893888263967,
-      "grad_norm": 9.047081897906422,
-      "kl": 2.00390625,
+      "grad_norm": 2.918231849637039,
+      "kl": 1.49267578125,
       "learning_rate": 1.7611940298507464e-05,
-      "loss": -0.1778,
-      "reward": 1.1133750975131989,
-      "reward_std": 0.5235892608761787,
-      "rewards/accuracy_reward": 0.06770833488553762,
-      "rewards/reasoning_steps_reward": 0.8072916865348816,
-      "rewards/repetition_penalty_reward": -0.13141660019755363,
-      "rewards/tag_count_reward": 0.369791679084301,
+      "loss": 0.0337,
+      "reward": 1.1544174253940582,
+      "reward_std": 0.20146211609244347,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9565972536802292,
+      "rewards/repetition_penalty_reward": -0.014419377315789461,
+      "rewards/tag_count_reward": 0.2122395895421505,
       "step": 59
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 355.6614761352539,
+      "completion_length": 1005.3697967529297,
       "epoch": 0.08998875140607424,
-      "grad_norm": 8.682581929106801,
-      "kl": 1.0380859375,
+      "grad_norm": 1.073898600293748,
+      "kl": 0.59765625,
       "learning_rate": 1.791044776119403e-05,
-      "loss": -0.1428,
-      "reward": 1.3278673589229584,
-      "reward_std": 0.5868176072835922,
-      "rewards/accuracy_reward": 0.2031250074505806,
-      "rewards/reasoning_steps_reward": 0.824652835726738,
-      "rewards/repetition_penalty_reward": -0.19079595804214478,
-      "rewards/tag_count_reward": 0.490885429084301,
+      "loss": -0.0304,
+      "reward": 1.1241816580295563,
+      "reward_std": 0.17474635317921638,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.06592248193919659,
+      "rewards/tag_count_reward": 0.2161458358168602,
       "step": 60
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 389.0104217529297,
+      "completion_length": 1009.3020935058594,
       "epoch": 0.09148856392950881,
-      "grad_norm": 2.638836671205147,
-      "kl": 0.8349609375,
+      "grad_norm": 139.56708057657698,
+      "kl": 16.713623046875,
       "learning_rate": 1.8208955223880598e-05,
-      "loss": -0.0578,
-      "reward": 1.3582229912281036,
-      "reward_std": 0.5021841153502464,
-      "rewards/accuracy_reward": 0.2187500074505806,
-      "rewards/reasoning_steps_reward": 0.862847238779068,
-      "rewards/repetition_penalty_reward": -0.26764511317014694,
-      "rewards/tag_count_reward": 0.5442708432674408,
+      "loss": 0.64,
+      "reward": 1.0292470455169678,
+      "reward_std": 0.155818872153759,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.17908628657460213,
+      "rewards/tag_count_reward": 0.2291666753590107,
       "step": 61
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.09376525878906,
+      "completion_length": 1006.1718902587891,
       "epoch": 0.09298837645294339,
-      "grad_norm": 3.079165996915571,
-      "kl": 0.822265625,
+      "grad_norm": 0.6239077670049449,
+      "kl": 0.2763671875,
       "learning_rate": 1.8507462686567165e-05,
-      "loss": -0.0992,
-      "reward": 1.3493062555789948,
-      "reward_std": 0.4447471499443054,
-      "rewards/accuracy_reward": 0.15104167303070426,
-      "rewards/reasoning_steps_reward": 0.8923611491918564,
-      "rewards/repetition_penalty_reward": -0.22144031897187233,
-      "rewards/tag_count_reward": 0.5273437649011612,
+      "loss": -0.0267,
+      "reward": 0.9351680278778076,
+      "reward_std": 0.12725192122161388,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.2918284982442856,
+      "rewards/tag_count_reward": 0.2408854179084301,
       "step": 62
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 354.5,
+      "completion_length": 996.7395935058594,
       "epoch": 0.09448818897637795,
-      "grad_norm": 4.4024040515363145,
-      "kl": 0.748046875,
+      "grad_norm": 0.7355348323994314,
+      "kl": 0.30078125,
       "learning_rate": 1.8805970149253735e-05,
-      "loss": -0.0358,
-      "reward": 1.5263647735118866,
-      "reward_std": 0.6498845219612122,
-      "rewards/accuracy_reward": 0.3229166753590107,
-      "rewards/reasoning_steps_reward": 0.888888955116272,
-      "rewards/repetition_penalty_reward": -0.2323157861828804,
-      "rewards/tag_count_reward": 0.5468750149011612,
+      "loss": 0.0326,
+      "reward": 1.057679921388626,
+      "reward_std": 0.15489091351628304,
+      "rewards/accuracy_reward": 0.0052083334885537624,
+      "rewards/reasoning_steps_reward": 0.9878472238779068,
+      "rewards/repetition_penalty_reward": -0.21271947026252747,
+      "rewards/tag_count_reward": 0.2773437574505806,
       "step": 63
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 343.4166717529297,
+      "completion_length": 917.3229370117188,
       "epoch": 0.09598800149981253,
-      "grad_norm": 14.853099160994677,
-      "kl": 0.8349609375,
+      "grad_norm": 0.5135310040841573,
+      "kl": 0.3583984375,
       "learning_rate": 1.9104477611940298e-05,
-      "loss": -0.1063,
-      "reward": 1.2628207504749298,
-      "reward_std": 0.58592738956213,
-      "rewards/accuracy_reward": 0.17187500651925802,
-      "rewards/reasoning_steps_reward": 0.8315972536802292,
-      "rewards/repetition_penalty_reward": -0.20809948071837425,
-      "rewards/tag_count_reward": 0.4674479216337204,
+      "loss": 0.0146,
+      "reward": 1.2951524555683136,
+      "reward_std": 0.2529895007610321,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/reasoning_steps_reward": 0.9340278059244156,
+      "rewards/repetition_penalty_reward": -0.051635801792144775,
+      "rewards/tag_count_reward": 0.4023437574505806,
       "step": 64
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 316.5364685058594,
+      "completion_length": 826.890625,
       "epoch": 0.09748781402324709,
-      "grad_norm": 2.3731241908019913,
-      "kl": 0.974609375,
+      "grad_norm": 336.6953521537797,
+      "kl": 19.52685546875,
       "learning_rate": 1.9402985074626868e-05,
-      "loss": -0.1689,
-      "reward": 1.2171970903873444,
-      "reward_std": 0.6599665582180023,
-      "rewards/accuracy_reward": 0.18750000931322575,
-      "rewards/reasoning_steps_reward": 0.8020833730697632,
-      "rewards/repetition_penalty_reward": -0.21509456261992455,
-      "rewards/tag_count_reward": 0.4427083432674408,
+      "loss": 0.7842,
+      "reward": 1.3793235123157501,
+      "reward_std": 0.32739875465631485,
+      "rewards/accuracy_reward": 0.04687500139698386,
+      "rewards/reasoning_steps_reward": 0.852430522441864,
+      "rewards/repetition_penalty_reward": -0.02258623158559203,
+      "rewards/tag_count_reward": 0.5026041865348816,
       "step": 65
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.17708587646484,
+      "completion_length": 658.5781402587891,
       "epoch": 0.09898762654668167,
-      "grad_norm": 1.1098635397425487,
-      "kl": 0.8447265625,
+      "grad_norm": 6.106229371377812,
+      "kl": 0.70361328125,
       "learning_rate": 1.9701492537313435e-05,
-      "loss": -0.0102,
-      "reward": 1.2291882634162903,
-      "reward_std": 0.40925049781799316,
-      "rewards/accuracy_reward": 0.06770833395421505,
-      "rewards/reasoning_steps_reward": 0.942708358168602,
-      "rewards/repetition_penalty_reward": -0.2408638447523117,
-      "rewards/tag_count_reward": 0.459635429084301,
+      "loss": 0.1711,
+      "reward": 1.5613079369068146,
+      "reward_std": 0.4881432354450226,
+      "rewards/accuracy_reward": 0.1822916716337204,
+      "rewards/reasoning_steps_reward": 0.7309027910232544,
+      "rewards/repetition_penalty_reward": -0.013344902312383056,
+      "rewards/tag_count_reward": 0.6614583432674408,
       "step": 66
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 352.6770935058594,
+      "completion_length": 599.6562805175781,
       "epoch": 0.10048743907011623,
-      "grad_norm": 0.9724287484197509,
-      "kl": 0.814453125,
+      "grad_norm": 3.5990895260846902,
+      "kl": 0.43603515625,
       "learning_rate": 2e-05,
-      "loss": -0.068,
-      "reward": 1.5917953252792358,
-      "reward_std": 0.6212150007486343,
-      "rewards/accuracy_reward": 0.3645833469927311,
-      "rewards/reasoning_steps_reward": 0.9583333432674408,
-      "rewards/repetition_penalty_reward": -0.24153802171349525,
-      "rewards/tag_count_reward": 0.5104166865348816,
+      "loss": 0.0834,
+      "reward": 1.4973010122776031,
+      "reward_std": 0.4555082842707634,
+      "rewards/accuracy_reward": 0.1718750074505806,
+      "rewards/reasoning_steps_reward": 0.630208358168602,
+      "rewards/repetition_penalty_reward": -0.01051152846775949,
+      "rewards/tag_count_reward": 0.7057291865348816,
       "step": 67
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 379.45314025878906,
+      "completion_length": 480.21876525878906,
       "epoch": 0.1019872515935508,
-      "grad_norm": 0.8395794709698925,
-      "kl": 0.4814453125,
+      "grad_norm": 1.317667285117624,
+      "kl": 0.41748046875,
       "learning_rate": 1.9999862464405377e-05,
-      "loss": -0.0332,
-      "reward": 1.6506008505821228,
-      "reward_std": 0.4853805750608444,
-      "rewards/accuracy_reward": 0.3489583358168602,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.29254162311553955,
-      "rewards/tag_count_reward": 0.6080729365348816,
+      "loss": 0.1277,
+      "reward": 1.6170935332775116,
+      "reward_std": 0.5107096880674362,
+      "rewards/accuracy_reward": 0.276041679084301,
+      "rewards/reasoning_steps_reward": 0.5694444477558136,
+      "rewards/repetition_penalty_reward": -0.013548914226703346,
+      "rewards/tag_count_reward": 0.78515625,
       "step": 68
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 406.4166793823242,
+      "completion_length": 345.32813262939453,
       "epoch": 0.10348706411698538,
-      "grad_norm": 1.5362392749572744,
-      "kl": 0.56005859375,
+      "grad_norm": 1.7734343075276982,
+      "kl": 0.39208984375,
       "learning_rate": 1.9999449861404716e-05,
-      "loss": -0.0482,
-      "reward": 1.6696705520153046,
-      "reward_std": 0.5340171456336975,
-      "rewards/accuracy_reward": 0.416666679084301,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.3342357203364372,
-      "rewards/tag_count_reward": 0.602864608168602,
+      "loss": 0.1866,
+      "reward": 1.814243733882904,
+      "reward_std": 0.5948401093482971,
+      "rewards/accuracy_reward": 0.354166679084301,
+      "rewards/reasoning_steps_reward": 0.6111111044883728,
+      "rewards/repetition_penalty_reward": -0.01691950182430446,
+      "rewards/tag_count_reward": 0.8658854365348816,
       "step": 69
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.52083587646484,
+      "completion_length": 346.2291717529297,
       "epoch": 0.10498687664041995,
-      "grad_norm": 1.5205558305374207,
-      "kl": 0.63134765625,
+      "grad_norm": 3.2645219448529943,
+      "kl": 0.3359375,
       "learning_rate": 1.999876220234753e-05,
-      "loss": -0.0912,
-      "reward": 1.6751901507377625,
-      "reward_std": 0.4232308343052864,
-      "rewards/accuracy_reward": 0.36458334140479565,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.26100781559944153,
-      "rewards/tag_count_reward": 0.5872395932674408,
+      "loss": 0.3835,
+      "reward": 2.1113045811653137,
+      "reward_std": 0.6916591078042984,
+      "rewards/accuracy_reward": 0.5312500074505806,
+      "rewards/reasoning_steps_reward": 0.7447917312383652,
+      "rewards/repetition_penalty_reward": -0.02281005564145744,
+      "rewards/tag_count_reward": 0.8580729514360428,
       "step": 70
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.9062805175781,
+      "completion_length": 396.17708587646484,
       "epoch": 0.10648668916385452,
-      "grad_norm": 0.41857006484500325,
-      "kl": 0.51123046875,
+      "grad_norm": 3.618615404780119,
+      "kl": 0.33447265625,
       "learning_rate": 1.999779950614934e-05,
-      "loss": -0.0632,
-      "reward": 1.9554068744182587,
-      "reward_std": 0.36940491758286953,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.3766243904829025,
-      "rewards/tag_count_reward": 0.696614608168602,
+      "loss": 0.4845,
+      "reward": 2.033944606781006,
+      "reward_std": 0.7569809406995773,
+      "rewards/accuracy_reward": 0.4843750149011612,
+      "rewards/reasoning_steps_reward": 0.763888880610466,
+      "rewards/repetition_penalty_reward": -0.02421517251059413,
+      "rewards/tag_count_reward": 0.809895858168602,
       "step": 71
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 740.0573120117188,
+      "completion_length": 469.48438262939453,
       "epoch": 0.10798650168728909,
-      "grad_norm": 0.9159052896835216,
-      "kl": 1.2783203125,
+      "grad_norm": 296.41565415069374,
+      "kl": 6.908203125,
       "learning_rate": 1.999656179929115e-05,
-      "loss": -0.0142,
-      "reward": 1.6608175337314606,
-      "reward_std": 0.33733372390270233,
-      "rewards/accuracy_reward": 0.338541679084301,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.3639221265912056,
-      "rewards/tag_count_reward": 0.696614608168602,
+      "loss": 0.9572,
+      "reward": 1.6951223015785217,
+      "reward_std": 0.7641638964414597,
+      "rewards/accuracy_reward": 0.2500000111758709,
+      "rewards/reasoning_steps_reward": 0.8385416716337204,
+      "rewards/repetition_penalty_reward": -0.017117327079176903,
+      "rewards/tag_count_reward": 0.6236979365348816,
       "step": 72
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 640.7708435058594,
+      "completion_length": 533.2343978881836,
       "epoch": 0.10948631421072366,
-      "grad_norm": 0.6371368439400827,
-      "kl": 0.52587890625,
+      "grad_norm": 2.6480944796648282,
+      "kl": 0.9912109375,
       "learning_rate": 1.9995049115818706e-05,
-      "loss": -0.0003,
-      "reward": 2.032588928937912,
-      "reward_std": 0.3413342162966728,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.2942340075969696,
-      "rewards/tag_count_reward": 0.7330729365348816,
+      "loss": 0.3052,
+      "reward": 1.2268942147493362,
+      "reward_std": 0.9322899430990219,
+      "rewards/accuracy_reward": 0.20312500558793545,
+      "rewards/reasoning_steps_reward": 0.6597222536802292,
+      "rewards/repetition_penalty_reward": -0.013557222904637456,
+      "rewards/tag_count_reward": 0.3776041716337204,
       "step": 73
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 540.7708435058594,
+      "completion_length": 329.98439025878906,
       "epoch": 0.11098612673415822,
-      "grad_norm": 0.48623664555771756,
-      "kl": 0.60498046875,
+      "grad_norm": 399.79727881978687,
+      "kl": 12.41015625,
       "learning_rate": 1.9993261497341575e-05,
-      "loss": -0.0128,
-      "reward": 2.286080002784729,
-      "reward_std": 0.3919960707426071,
-      "rewards/accuracy_reward": 0.8020833730697632,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.2516804449260235,
-      "rewards/tag_count_reward": 0.7408854365348816,
+      "loss": 1.299,
+      "reward": 0.8436856269836426,
+      "reward_std": 0.9532901048660278,
+      "rewards/accuracy_reward": 0.1406250037252903,
+      "rewards/reasoning_steps_reward": 0.49305559694767,
+      "rewards/repetition_penalty_reward": -0.0087449811398983,
+      "rewards/tag_count_reward": 0.2187500037252903,
       "step": 74
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 480.89064025878906,
+      "completion_length": 197.5885467529297,
       "epoch": 0.1124859392575928,
-      "grad_norm": 0.596999402158007,
-      "kl": 0.3017578125,
+      "grad_norm": 11.601181346751435,
+      "kl": 4.046875,
       "learning_rate": 1.9991198993031992e-05,
-      "loss": -0.0083,
-      "reward": 2.0890829265117645,
-      "reward_std": 0.5263374149799347,
-      "rewards/accuracy_reward": 0.5781250074505806,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.20649003237485886,
-      "rewards/tag_count_reward": 0.7330729216337204,
+      "loss": 0.1052,
+      "reward": 0.5184430181980133,
+      "reward_std": 0.8223861902952194,
+      "rewards/accuracy_reward": 0.08333333535119891,
+      "rewards/reasoning_steps_reward": 0.3211805745959282,
+      "rewards/repetition_penalty_reward": -0.005862575490027666,
+      "rewards/tag_count_reward": 0.11979166977107525,
       "step": 75
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 388.0833511352539,
+      "completion_length": 169.49480056762695,
       "epoch": 0.11398575178102738,
-      "grad_norm": 7.4143713553392665,
-      "kl": 1.03271484375,
+      "grad_norm": 4.174677375261219,
+      "kl": 2.41796875,
       "learning_rate": 1.99888616596235e-05,
-      "loss": -0.019,
-      "reward": 2.0290270149707794,
-      "reward_std": 0.5157302021980286,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.16845569387078285,
-      "rewards/tag_count_reward": 0.7096354365348816,
+      "loss": -0.0061,
+      "reward": 0.7175929397344589,
+      "reward_std": 1.0486825108528137,
+      "rewards/accuracy_reward": 0.14583334140479565,
+      "rewards/reasoning_steps_reward": 0.3246527947485447,
+      "rewards/repetition_penalty_reward": -0.008101542014628649,
+      "rewards/tag_count_reward": 0.2552083395421505,
       "step": 76
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 372.8698043823242,
+      "completion_length": 175.0677146911621,
       "epoch": 0.11548556430446194,
-      "grad_norm": 1.6227089625901896,
-      "kl": 0.443359375,
+      "grad_norm": 3.753658615227732,
+      "kl": 2.3984375,
       "learning_rate": 1.9986249561409415e-05,
-      "loss": -0.1403,
-      "reward": 2.0930177569389343,
-      "reward_std": 0.5763500481843948,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.14135734736919403,
-      "rewards/tag_count_reward": 0.6666666716337204,
+      "loss": -0.0758,
+      "reward": 0.7132928371429443,
+      "reward_std": 0.9969339072704315,
+      "rewards/accuracy_reward": 0.1614583395421505,
+      "rewards/reasoning_steps_reward": 0.3628472313284874,
+      "rewards/repetition_penalty_reward": -0.012835650937631726,
+      "rewards/tag_count_reward": 0.2018229216337204,
       "step": 77
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 461.5208435058594,
+      "completion_length": 189.9114646911621,
       "epoch": 0.11698537682789652,
-      "grad_norm": 0.510885474337652,
-      "kl": 0.268310546875,
+      "grad_norm": 31.158238324524778,
+      "kl": 4.71484375,
       "learning_rate": 1.998336277024103e-05,
-      "loss": -0.0721,
-      "reward": 2.0055829286575317,
-      "reward_std": 0.4140588045120239,
-      "rewards/accuracy_reward": 0.5260416828095913,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.22531990334391594,
-      "rewards/tag_count_reward": 0.7239583432674408,
+      "loss": -0.0148,
+      "reward": 1.2587463855743408,
+      "reward_std": 1.1734082400798798,
+      "rewards/accuracy_reward": 0.3125000074505806,
+      "rewards/reasoning_steps_reward": 0.5677083730697632,
+      "rewards/repetition_penalty_reward": -0.029014051891863346,
+      "rewards/tag_count_reward": 0.4075521007180214,
       "step": 78
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 501.5573043823242,
+      "completion_length": 226.31250381469727,
       "epoch": 0.11848518935133108,
-      "grad_norm": 0.47404049136724163,
-      "kl": 0.241943359375,
+      "grad_norm": 59.19488601013592,
+      "kl": 7.015625,
       "learning_rate": 1.998020136552566e-05,
-      "loss": 0.001,
-      "reward": 2.024559497833252,
-      "reward_std": 0.4507194012403488,
-      "rewards/accuracy_reward": 0.5572916716337204,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.2545204684138298,
-      "rewards/tag_count_reward": 0.7408854365348816,
+      "loss": 0.0999,
+      "reward": 1.4918034672737122,
+      "reward_std": 1.0446466207504272,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 0.7187500298023224,
+      "rewards/repetition_penalty_reward": -0.07199861854314804,
+      "rewards/tag_count_reward": 0.5117187649011612,
       "step": 79
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 470.04688262939453,
+      "completion_length": 298.35939025878906,
       "epoch": 0.11998500187476566,
-      "grad_norm": 0.6494805682984701,
-      "kl": 0.2578125,
+      "grad_norm": 77.22679135587332,
+      "kl": 1.4228515625,
       "learning_rate": 1.9976765434224426e-05,
-      "loss": 0.0393,
-      "reward": 2.306118667125702,
-      "reward_std": 0.3345252051949501,
-      "rewards/accuracy_reward": 0.7812500149011612,
-      "rewards/reasoning_steps_reward": 0.9826389253139496,
-      "rewards/repetition_penalty_reward": -0.2064681462943554,
-      "rewards/tag_count_reward": 0.7486979365348816,
+      "loss": 0.1166,
+      "reward": 2.0578636527061462,
+      "reward_std": 1.055399090051651,
+      "rewards/accuracy_reward": 0.583333358168602,
+      "rewards/reasoning_steps_reward": 0.8281250298023224,
+      "rewards/repetition_penalty_reward": -0.06974058039486408,
+      "rewards/tag_count_reward": 0.716145858168602,
       "step": 80
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 371.0416717529297,
+      "completion_length": 343.8645935058594,
       "epoch": 0.12148481439820022,
-      "grad_norm": 0.6158896116207796,
-      "kl": 0.27783203125,
+      "grad_norm": 492.7397963149802,
+      "kl": 4.455078125,
       "learning_rate": 1.9973055070849912e-05,
-      "loss": -0.0077,
-      "reward": 2.2738314270973206,
-      "reward_std": 0.3718957081437111,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9652778059244156,
-      "rewards/repetition_penalty_reward": -0.1354569736868143,
-      "rewards/tag_count_reward": 0.7513020932674408,
+      "loss": 0.5194,
+      "reward": 2.197775959968567,
+      "reward_std": 0.8521990180015564,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/reasoning_steps_reward": 0.913194477558136,
+      "rewards/repetition_penalty_reward": -0.12166857533156872,
+      "rewards/tag_count_reward": 0.8125000298023224,
       "step": 81
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 331.3958435058594,
+      "completion_length": 370.52083587646484,
       "epoch": 0.1229846269216348,
-      "grad_norm": 0.681584270450499,
-      "kl": 0.27490234375,
+      "grad_norm": 4.669423434787285,
+      "kl": 1.5625,
       "learning_rate": 1.996907037746352e-05,
-      "loss": -0.0158,
-      "reward": 2.2777538299560547,
-      "reward_std": 0.45179731398820877,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9565972685813904,
-      "rewards/repetition_penalty_reward": -0.07597886584699154,
-      "rewards/tag_count_reward": 0.7981770932674408,
+      "loss": 0.2641,
+      "reward": 2.129128336906433,
+      "reward_std": 0.7840546369552612,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/reasoning_steps_reward": 0.9461805522441864,
+      "rewards/repetition_penalty_reward": -0.14647945389151573,
+      "rewards/tag_count_reward": 0.8294270932674408,
       "step": 82
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 326.64063262939453,
+      "completion_length": 353.7447967529297,
       "epoch": 0.12448443944506937,
-      "grad_norm": 0.6980728390227965,
-      "kl": 0.236083984375,
+      "grad_norm": 20.98608213741596,
+      "kl": 0.47705078125,
       "learning_rate": 1.9964811463672685e-05,
-      "loss": -0.0154,
-      "reward": 2.332102954387665,
-      "reward_std": 0.472077339887619,
-      "rewards/accuracy_reward": 0.5468750149011612,
-      "rewards/reasoning_steps_reward": 0.9427083730697632,
-      "rewards/repetition_penalty_reward": -0.07024090643972158,
-      "rewards/tag_count_reward": 0.9127604365348816,
+      "loss": 0.2863,
+      "reward": 2.022731065750122,
+      "reward_std": 0.637829914689064,
+      "rewards/accuracy_reward": 0.3645833432674408,
+      "rewards/reasoning_steps_reward": 0.9583333432674408,
+      "rewards/repetition_penalty_reward": -0.16476891934871674,
+      "rewards/tag_count_reward": 0.864583358168602,
       "step": 83
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 345.2291793823242,
+      "completion_length": 330.2395935058594,
       "epoch": 0.12598425196850394,
-      "grad_norm": 0.6918666028590195,
-      "kl": 0.29150390625,
+      "grad_norm": 5.548707042279948,
+      "kl": 0.576171875,
       "learning_rate": 1.996027844662785e-05,
-      "loss": -0.0238,
-      "reward": 2.347783863544464,
-      "reward_std": 0.497940331697464,
-      "rewards/accuracy_reward": 0.479166679084301,
-      "rewards/reasoning_steps_reward": 0.9878472536802292,
-      "rewards/repetition_penalty_reward": -0.06454263348132372,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.3677,
+      "reward": 2.218412935733795,
+      "reward_std": 0.7215779423713684,
+      "rewards/accuracy_reward": 0.557291679084301,
+      "rewards/reasoning_steps_reward": 0.9548611491918564,
+      "rewards/repetition_penalty_reward": -0.17525040730834007,
+      "rewards/tag_count_reward": 0.8815104365348816,
       "step": 84
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 352.5729293823242,
+      "completion_length": 347.31251525878906,
       "epoch": 0.1274840644919385,
-      "grad_norm": 0.662339973250043,
-      "kl": 0.207763671875,
+      "grad_norm": 35.58826029321981,
+      "kl": 1.0712890625,
       "learning_rate": 1.9955471451019264e-05,
-      "loss": 0.0105,
-      "reward": 2.5184255242347717,
-      "reward_std": 0.423542745411396,
-      "rewards/accuracy_reward": 0.645833358168602,
-      "rewards/reasoning_steps_reward": 0.9756944477558136,
-      "rewards/repetition_penalty_reward": -0.06534186284989119,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 0.4448,
+      "reward": 2.138911247253418,
+      "reward_std": 0.6522012650966644,
+      "rewards/accuracy_reward": 0.4687500074505806,
+      "rewards/reasoning_steps_reward": 0.9357638955116272,
+      "rewards/repetition_penalty_reward": -0.1510193683207035,
+      "rewards/tag_count_reward": 0.8854166716337204,
       "step": 85
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 373.8958435058594,
+      "completion_length": 331.0833435058594,
       "epoch": 0.1289838770153731,
-      "grad_norm": 1.1704532474263813,
-      "kl": 0.46435546875,
+      "grad_norm": 10.955955280940925,
+      "kl": 1.5302734375,
       "learning_rate": 1.995039060907352e-05,
-      "loss": -0.0028,
-      "reward": 2.421631157398224,
-      "reward_std": 0.5489099845290184,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.96875,
-      "rewards/repetition_penalty_reward": -0.05753568932414055,
-      "rewards/tag_count_reward": 0.911458358168602,
+      "loss": 0.4797,
+      "reward": 2.054484724998474,
+      "reward_std": 0.8432440906763077,
+      "rewards/accuracy_reward": 0.463541679084301,
+      "rewards/reasoning_steps_reward": 0.8645833730697632,
+      "rewards/repetition_penalty_reward": -0.10436956211924553,
+      "rewards/tag_count_reward": 0.8307292014360428,
       "step": 86
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 353.6979217529297,
+      "completion_length": 310.32813262939453,
       "epoch": 0.13048368953880765,
-      "grad_norm": 3.3058755481715214,
-      "kl": 1.44921875,
+      "grad_norm": 64784.39467186327,
+      "kl": 333.48828125,
       "learning_rate": 1.994503606054994e-05,
-      "loss": -0.0166,
-      "reward": 2.3031901717185974,
-      "reward_std": 0.5215350016951561,
-      "rewards/accuracy_reward": 0.510416679084301,
-      "rewards/reasoning_steps_reward": 0.9618055820465088,
-      "rewards/repetition_penalty_reward": -0.0635634008795023,
-      "rewards/tag_count_reward": 0.8945312798023224,
+      "loss": 27.6513,
+      "reward": 2.2711276412010193,
+      "reward_std": 0.7795832455158234,
+      "rewards/accuracy_reward": 0.5885416865348816,
+      "rewards/reasoning_steps_reward": 0.9166666716337204,
+      "rewards/repetition_penalty_reward": -0.11559123173356056,
+      "rewards/tag_count_reward": 0.8815104514360428,
       "step": 87
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 340.1927185058594,
+      "completion_length": 311.98438262939453,
       "epoch": 0.13198350206224221,
-      "grad_norm": 1.3397859193343156,
-      "kl": 0.47265625,
+      "grad_norm": 36649.02893473602,
+      "kl": 143.029296875,
       "learning_rate": 1.9939407952736737e-05,
-      "loss": -0.0518,
-      "reward": 2.3962929248809814,
-      "reward_std": 0.5894087105989456,
-      "rewards/accuracy_reward": 0.598958358168602,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.07028705440461636,
-      "rewards/tag_count_reward": 0.8867187649011612,
+      "loss": 15.8982,
+      "reward": 1.9791134297847748,
+      "reward_std": 0.6517055183649063,
+      "rewards/accuracy_reward": 0.3489583432674408,
+      "rewards/reasoning_steps_reward": 0.9045139402151108,
+      "rewards/repetition_penalty_reward": -0.13503596186637878,
+      "rewards/tag_count_reward": 0.860677108168602,
       "step": 88
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 319.2916793823242,
+      "completion_length": 329.5052185058594,
       "epoch": 0.13348331458567678,
-      "grad_norm": 1.6274329590710197,
-      "kl": 0.83447265625,
+      "grad_norm": 892.1216234188144,
+      "kl": 7.07421875,
       "learning_rate": 1.9933506440446932e-05,
-      "loss": -0.0982,
-      "reward": 2.4367164373397827,
-      "reward_std": 0.6716105788946152,
-      "rewards/accuracy_reward": 0.6458333507180214,
-      "rewards/reasoning_steps_reward": 0.9548611789941788,
-      "rewards/repetition_penalty_reward": -0.051998937502503395,
-      "rewards/tag_count_reward": 0.888020858168602,
+      "loss": 0.984,
+      "reward": 1.9748746156692505,
+      "reward_std": 0.6786476969718933,
+      "rewards/accuracy_reward": 0.3541666716337204,
+      "rewards/reasoning_steps_reward": 0.9079861491918564,
+      "rewards/repetition_penalty_reward": -0.11670541763305664,
+      "rewards/tag_count_reward": 0.829427108168602,
       "step": 89
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 329.4791717529297,
+      "completion_length": 291.7604293823242,
       "epoch": 0.13498312710911137,
-      "grad_norm": 0.7057852059401287,
-      "kl": 0.335693359375,
+      "grad_norm": 49.617196414779116,
+      "kl": 2.85791015625,
       "learning_rate": 1.992733168601413e-05,
-      "loss": -0.069,
-      "reward": 2.477515757083893,
-      "reward_std": 0.4706941097974777,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.07369956281036139,
-      "rewards/tag_count_reward": 0.9244791865348816,
+      "loss": 0.3242,
+      "reward": 1.9374914765357971,
+      "reward_std": 0.5130168125033379,
+      "rewards/accuracy_reward": 0.27604167349636555,
+      "rewards/reasoning_steps_reward": 0.954861119389534,
+      "rewards/repetition_penalty_reward": -0.1592968888580799,
+      "rewards/tag_count_reward": 0.8658854365348816,
       "step": 90
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 321.5677185058594,
+      "completion_length": 293.4739685058594,
       "epoch": 0.13648293963254593,
-      "grad_norm": 0.7018868149602894,
-      "kl": 0.37060546875,
+      "grad_norm": 11.069036826310084,
+      "kl": 0.42626953125,
       "learning_rate": 1.9920883859288035e-05,
-      "loss": -0.0407,
-      "reward": 2.4766435027122498,
-      "reward_std": 0.5056409984827042,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.07326984778046608,
-      "rewards/tag_count_reward": 0.9231770932674408,
+      "loss": 0.3009,
+      "reward": 1.941705048084259,
+      "reward_std": 0.5944435596466064,
+      "rewards/accuracy_reward": 0.3177083395421505,
+      "rewards/reasoning_steps_reward": 0.9322917014360428,
+      "rewards/repetition_penalty_reward": -0.14032622054219246,
+      "rewards/tag_count_reward": 0.8320312649011612,
       "step": 91
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 309.5208435058594,
+      "completion_length": 302.9948043823242,
       "epoch": 0.1379827521559805,
-      "grad_norm": 1.1625720671949755,
-      "kl": 0.3447265625,
+      "grad_norm": 70.67912729974059,
+      "kl": 2.607421875,
       "learning_rate": 1.991416313762978e-05,
-      "loss": -0.0604,
-      "reward": 2.4806445837020874,
-      "reward_std": 0.46803582459688187,
-      "rewards/accuracy_reward": 0.677083358168602,
-      "rewards/reasoning_steps_reward": 0.9531250447034836,
-      "rewards/repetition_penalty_reward": -0.08445966802537441,
-      "rewards/tag_count_reward": 0.9348958432674408,
+      "loss": 0.3458,
+      "reward": 1.9879169762134552,
+      "reward_std": 0.5511599630117416,
+      "rewards/accuracy_reward": 0.3385416753590107,
+      "rewards/reasoning_steps_reward": 0.9270833134651184,
+      "rewards/repetition_penalty_reward": -0.14489559456706047,
+      "rewards/tag_count_reward": 0.8671875149011612,
       "step": 92
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 333.87500762939453,
+      "completion_length": 327.0052185058594,
       "epoch": 0.13948256467941508,
-      "grad_norm": 0.7197532890419,
-      "kl": 0.40478515625,
+      "grad_norm": 18.812219164179464,
+      "kl": 1.408203125,
       "learning_rate": 1.990716970590706e-05,
-      "loss": -0.0581,
-      "reward": 2.5884640216827393,
-      "reward_std": 0.3948858380317688,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.08688333258032799,
-      "rewards/tag_count_reward": 0.9531250149011612,
+      "loss": 0.3788,
+      "reward": 2.0359848737716675,
+      "reward_std": 0.5520138740539551,
+      "rewards/accuracy_reward": 0.36979167675599456,
+      "rewards/reasoning_steps_reward": 0.9322917461395264,
+      "rewards/repetition_penalty_reward": -0.1345881223678589,
+      "rewards/tag_count_reward": 0.8684896230697632,
       "step": 93
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 331.9166793823242,
+      "completion_length": 359.4010543823242,
       "epoch": 0.14098237720284965,
-      "grad_norm": 3.2153625010582005,
-      "kl": 5.23779296875,
+      "grad_norm": 14.184878742271176,
+      "kl": 0.765625,
       "learning_rate": 1.989990375648903e-05,
-      "loss": -0.0484,
-      "reward": 2.4388928413391113,
-      "reward_std": 0.33317605406045914,
-      "rewards/accuracy_reward": 0.6093750149011612,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.09322533197700977,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.324,
+      "reward": 2.120865046977997,
+      "reward_std": 0.6140560433268547,
+      "rewards/accuracy_reward": 0.427083358168602,
+      "rewards/reasoning_steps_reward": 0.9531250298023224,
+      "rewards/repetition_penalty_reward": -0.12653085589408875,
+      "rewards/tag_count_reward": 0.8671875149011612,
       "step": 94
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 354.98439025878906,
+      "completion_length": 372.76564025878906,
       "epoch": 0.1424821897262842,
-      "grad_norm": 1.7303354539555662,
-      "kl": 0.7705078125,
+      "grad_norm": 33.74529208746235,
+      "kl": 5.03515625,
       "learning_rate": 1.9892365489241023e-05,
-      "loss": -0.0393,
-      "reward": 2.3029019832611084,
-      "reward_std": 0.4447196274995804,
-      "rewards/accuracy_reward": 0.4843750149011612,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.10855649225413799,
-      "rewards/tag_count_reward": 0.9479166716337204,
+      "loss": 0.4259,
+      "reward": 2.2041754722595215,
+      "reward_std": 0.6197474002838135,
+      "rewards/accuracy_reward": 0.5260416939854622,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.1499912552535534,
+      "rewards/tag_count_reward": 0.8697916865348816,
       "step": 95
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 365.9635467529297,
+      "completion_length": 409.7604293823242,
       "epoch": 0.1439820022497188,
-      "grad_norm": 0.6730986080559331,
-      "kl": 0.39892578125,
+      "grad_norm": 60.09340508863677,
+      "kl": 0.78662109375,
       "learning_rate": 1.988455511151906e-05,
-      "loss": -0.0247,
-      "reward": 2.3117390871047974,
-      "reward_std": 0.43109431117773056,
-      "rewards/accuracy_reward": 0.4687500111758709,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.11968471482396126,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.1251,
+      "reward": 2.28587007522583,
+      "reward_std": 0.5608475357294083,
+      "rewards/accuracy_reward": 0.557291679084301,
+      "rewards/reasoning_steps_reward": 0.9600694924592972,
+      "rewards/repetition_penalty_reward": -0.1312306523323059,
+      "rewards/tag_count_reward": 0.8997395932674408,
       "step": 96
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 367.5104293823242,
+      "completion_length": 485.81250762939453,
       "epoch": 0.14548181477315336,
-      "grad_norm": 0.6453267932676297,
-      "kl": 0.283203125,
+      "grad_norm": 39.25906795250181,
+      "kl": 0.7392578125,
       "learning_rate": 1.987647283816412e-05,
-      "loss": -0.016,
-      "reward": 2.5260453820228577,
-      "reward_std": 0.3044511452317238,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.11284366995096207,
-      "rewards/tag_count_reward": 0.9947916716337204,
+      "loss": 0.2008,
+      "reward": 2.1415184140205383,
+      "reward_std": 0.593282975256443,
+      "rewards/accuracy_reward": 0.4270833432674408,
+      "rewards/reasoning_steps_reward": 0.947916716337204,
+      "rewards/repetition_penalty_reward": -0.1084816437214613,
+      "rewards/tag_count_reward": 0.8750000298023224,
       "step": 97
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.60938262939453,
+      "completion_length": 527.7396087646484,
       "epoch": 0.14698162729658792,
-      "grad_norm": 0.702216348224918,
-      "kl": 0.31689453125,
+      "grad_norm": 23.53154353337868,
+      "kl": 1.400390625,
       "learning_rate": 1.9868118891496268e-05,
-      "loss": 0.013,
-      "reward": 2.7034881114959717,
-      "reward_std": 0.254051860421896,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.09599110670387745,
-      "rewards/tag_count_reward": 0.9973958432674408,
+      "loss": 0.2105,
+      "reward": 1.9524771869182587,
+      "reward_std": 0.5782586634159088,
+      "rewards/accuracy_reward": 0.2760416716337204,
+      "rewards/reasoning_steps_reward": 0.9444444328546524,
+      "rewards/repetition_penalty_reward": -0.11045688763260841,
+      "rewards/tag_count_reward": 0.8424479514360428,
       "step": 98
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 336.6822967529297,
+      "completion_length": 567.171875,
       "epoch": 0.1484814398200225,
-      "grad_norm": 0.6294487017254564,
-      "kl": 0.28369140625,
+      "grad_norm": 32.44194296184474,
+      "kl": 3.03515625,
       "learning_rate": 1.98594935013085e-05,
-      "loss": -0.0063,
-      "reward": 2.4194209575653076,
-      "reward_std": 0.31747131049633026,
-      "rewards/accuracy_reward": 0.5312500074505806,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.09012776426970959,
-      "rewards/tag_count_reward": 0.9921875149011612,
+      "loss": 0.3744,
+      "reward": 2.2206438183784485,
+      "reward_std": 0.6493653506040573,
+      "rewards/accuracy_reward": 0.520833358168602,
+      "rewards/reasoning_steps_reward": 0.9670139253139496,
+      "rewards/repetition_penalty_reward": -0.1200681421905756,
+      "rewards/tag_count_reward": 0.852864608168602,
       "step": 99
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 336.93750762939453,
+      "completion_length": 613.2604522705078,
       "epoch": 0.14998125234345708,
-      "grad_norm": 0.7622200900254438,
-      "kl": 0.2880859375,
+      "grad_norm": 10134.408469401435,
+      "kl": 115.4140625,
       "learning_rate": 1.985059690486045e-05,
-      "loss": 0.0147,
-      "reward": 2.602359890937805,
-      "reward_std": 0.4236067906022072,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9878472536802292,
-      "rewards/repetition_penalty_reward": -0.07949773035943508,
-      "rewards/tag_count_reward": 0.985677108168602,
+      "loss": 6.0425,
+      "reward": 1.976808786392212,
+      "reward_std": 0.5220333635807037,
+      "rewards/accuracy_reward": 0.2604166716337204,
+      "rewards/reasoning_steps_reward": 0.9670139253139496,
+      "rewards/repetition_penalty_reward": -0.11390306055545807,
+      "rewards/tag_count_reward": 0.8632812649011612,
       "step": 100
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 311.07814025878906,
+      "completion_length": 638.0677337646484,
       "epoch": 0.15148106486689164,
-      "grad_norm": 0.820138039709133,
-      "kl": 0.572998046875,
+      "grad_norm": 11770.662483971002,
+      "kl": 115.66796875,
       "learning_rate": 1.9841429346871863e-05,
-      "loss": -0.023,
-      "reward": 2.39324152469635,
-      "reward_std": 0.5194854661822319,
-      "rewards/accuracy_reward": 0.5104166865348816,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0703001944348216,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 7.1104,
+      "reward": 2.012724369764328,
+      "reward_std": 0.6818199008703232,
+      "rewards/accuracy_reward": 0.3750000037252903,
+      "rewards/reasoning_steps_reward": 0.9218750447034836,
+      "rewards/repetition_penalty_reward": -0.10706735588610172,
+      "rewards/tag_count_reward": 0.8229166865348816,
       "step": 101
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.9427185058594,
+      "completion_length": 660.0156402587891,
       "epoch": 0.1529808773903262,
-      "grad_norm": 0.6430598505979571,
-      "kl": 0.318359375,
+      "grad_norm": 2359.6075026833482,
+      "kl": 29.76953125,
       "learning_rate": 1.9831991079515836e-05,
-      "loss": -0.0646,
-      "reward": 2.543990731239319,
-      "reward_std": 0.49773871898651123,
-      "rewards/accuracy_reward": 0.7239583432674408,
-      "rewards/reasoning_steps_reward": 0.91493059694767,
-      "rewards/repetition_penalty_reward": -0.07536709867417812,
-      "rewards/tag_count_reward": 0.98046875,
+      "loss": 1.7284,
+      "reward": 2.195272386074066,
+      "reward_std": 0.7458173632621765,
+      "rewards/accuracy_reward": 0.5416666939854622,
+      "rewards/reasoning_steps_reward": 0.9340277910232544,
+      "rewards/repetition_penalty_reward": -0.11635957658290863,
+      "rewards/tag_count_reward": 0.8359375298023224,
       "step": 102
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 309.2604293823242,
+      "completion_length": 690.4166870117188,
       "epoch": 0.1544806899137608,
-      "grad_norm": 0.9425563472766899,
-      "kl": 0.55615234375,
+      "grad_norm": 34.92066839587673,
+      "kl": 3.017578125,
       "learning_rate": 1.982228236241192e-05,
-      "loss": -0.063,
-      "reward": 2.535941779613495,
-      "reward_std": 0.4504154324531555,
-      "rewards/accuracy_reward": 0.6822916865348816,
-      "rewards/reasoning_steps_reward": 0.94618059694767,
-      "rewards/repetition_penalty_reward": -0.07039502263069153,
-      "rewards/tag_count_reward": 0.977864608168602,
-      "step": 103
+      "loss": 0.2735,
+      "reward": 2.1599226593971252,
+      "reward_std": 0.7309878766536713,
+      "rewards/accuracy_reward": 0.479166679084301,
+      "rewards/reasoning_steps_reward": 0.942708358168602,
+      "rewards/repetition_penalty_reward": -0.11742118000984192,
+      "rewards/tag_count_reward": 0.8554687798023224,
+      "step": 103
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 309.23439025878906,
+      "completion_length": 669.7448120117188,
       "epoch": 0.15598050243719536,
-      "grad_norm": 0.8058787849857703,
-      "kl": 0.38916015625,
+      "grad_norm": 586.5134421102061,
+      "kl": 9.271484375,
       "learning_rate": 1.9812303462618945e-05,
-      "loss": -0.0416,
-      "reward": 2.438301682472229,
-      "reward_std": 0.46069950610399246,
-      "rewards/accuracy_reward": 0.5729166939854622,
-      "rewards/reasoning_steps_reward": 0.9652778059244156,
-      "rewards/repetition_penalty_reward": -0.05692401435226202,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.5437,
+      "reward": 1.991296112537384,
+      "reward_std": 0.5067874565720558,
+      "rewards/accuracy_reward": 0.2916666818782687,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.11460676416754723,
+      "rewards/tag_count_reward": 0.848958358168602,
       "step": 104
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 318.7916717529297,
+      "completion_length": 727.6771087646484,
       "epoch": 0.15748031496062992,
-      "grad_norm": 0.8045229402138098,
-      "kl": 0.427734375,
+      "grad_norm": 398.23420182364833,
+      "kl": 10.8125,
       "learning_rate": 1.9802054654627694e-05,
-      "loss": -0.0673,
-      "reward": 2.3380337357521057,
-      "reward_std": 0.5075135007500648,
-      "rewards/accuracy_reward": 0.5,
-      "rewards/reasoning_steps_reward": 0.9670139402151108,
-      "rewards/repetition_penalty_reward": -0.06778228841722012,
-      "rewards/tag_count_reward": 0.938802108168602,
+      "loss": 0.5388,
+      "reward": 1.8793240189552307,
+      "reward_std": 0.7508310377597809,
+      "rewards/accuracy_reward": 0.3020833432674408,
+      "rewards/reasoning_steps_reward": 0.9149306267499924,
+      "rewards/repetition_penalty_reward": -0.0942003782838583,
+      "rewards/tag_count_reward": 0.7565104365348816,
       "step": 105
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 338.3854217529297,
+      "completion_length": 729.7760620117188,
       "epoch": 0.15898012748406448,
-      "grad_norm": 0.7209652038046875,
-      "kl": 0.27587890625,
+      "grad_norm": 14.580781126168798,
+      "kl": 0.92138671875,
       "learning_rate": 1.9791536220353355e-05,
-      "loss": -0.0348,
-      "reward": 2.4589534401893616,
-      "reward_std": 0.45359161496162415,
-      "rewards/accuracy_reward": 0.578125,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.06665424816310406,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.1662,
+      "reward": 1.9787148237228394,
+      "reward_std": 0.6732726097106934,
+      "rewards/accuracy_reward": 0.3437500149011612,
+      "rewards/reasoning_steps_reward": 0.9531250149011612,
+      "rewards/repetition_penalty_reward": -0.10201445035636425,
+      "rewards/tag_count_reward": 0.7838541865348816,
       "step": 106
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 311.0208511352539,
+      "completion_length": 700.3698120117188,
       "epoch": 0.16047994000749907,
-      "grad_norm": 0.6649826820375959,
-      "kl": 0.36474609375,
+      "grad_norm": 78.39112156030271,
+      "kl": 4.37890625,
       "learning_rate": 1.9780748449127745e-05,
-      "loss": -0.061,
-      "reward": 2.545065224170685,
-      "reward_std": 0.5411981120705605,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9670138955116272,
-      "rewards/repetition_penalty_reward": -0.07950077578425407,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.3547,
+      "reward": 1.8721507489681244,
+      "reward_std": 0.7452912926673889,
+      "rewards/accuracy_reward": 0.3072916753590107,
+      "rewards/reasoning_steps_reward": 0.9253472685813904,
+      "rewards/repetition_penalty_reward": -0.08184238523244858,
+      "rewards/tag_count_reward": 0.7213541865348816,
       "step": 107
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 315.9896011352539,
+      "completion_length": 751.7448120117188,
       "epoch": 0.16197975253093364,
-      "grad_norm": 0.8786847698949797,
-      "kl": 0.3779296875,
+      "grad_norm": 23.15048932086659,
+      "kl": 3.77734375,
       "learning_rate": 1.976969163769137e-05,
-      "loss": -0.083,
-      "reward": 2.484778046607971,
-      "reward_std": 0.5565851628780365,
-      "rewards/accuracy_reward": 0.6354166865348816,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.06513523031026125,
-      "rewards/tag_count_reward": 0.9440104365348816,
+      "loss": 0.3573,
+      "reward": 1.7692583501338959,
+      "reward_std": 0.6871030032634735,
+      "rewards/accuracy_reward": 0.2135416753590107,
+      "rewards/reasoning_steps_reward": 0.9375000447034836,
+      "rewards/repetition_penalty_reward": -0.0770958885550499,
+      "rewards/tag_count_reward": 0.6953125149011612,
       "step": 108
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 327.48438262939453,
+      "completion_length": 666.0625152587891,
       "epoch": 0.1634795650543682,
-      "grad_norm": 0.8374810187766324,
-      "kl": 0.47119140625,
+      "grad_norm": 13.438163054952135,
+      "kl": 0.791015625,
       "learning_rate": 1.9758366090185255e-05,
-      "loss": -0.0833,
-      "reward": 2.4872137904167175,
-      "reward_std": 0.546069398522377,
-      "rewards/accuracy_reward": 0.677083358168602,
-      "rewards/reasoning_steps_reward": 0.9600694626569748,
-      "rewards/repetition_penalty_reward": -0.07962668687105179,
-      "rewards/tag_count_reward": 0.9296875298023224,
+      "loss": 0.194,
+      "reward": 2.101614534854889,
+      "reward_std": 0.779254287481308,
+      "rewards/accuracy_reward": 0.4739583432674408,
+      "rewards/reasoning_steps_reward": 0.9357639253139496,
+      "rewards/repetition_penalty_reward": -0.08805570006370544,
+      "rewards/tag_count_reward": 0.7799479365348816,
       "step": 109
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 266.3177185058594,
+      "completion_length": 657.4218902587891,
       "epoch": 0.1649793775778028,
-      "grad_norm": 8.874417749876018,
-      "kl": 1.828125,
+      "grad_norm": 19.486727225701877,
+      "kl": 1.15625,
       "learning_rate": 1.974677211814259e-05,
-      "loss": -0.1294,
-      "reward": 1.922803819179535,
-      "reward_std": 0.5993900671601295,
-      "rewards/accuracy_reward": 0.2812500111758709,
-      "rewards/reasoning_steps_reward": 0.9583333283662796,
-      "rewards/repetition_penalty_reward": -0.0719878925010562,
-      "rewards/tag_count_reward": 0.7552083432674408,
+      "loss": 0.2437,
+      "reward": 2.0427930653095245,
+      "reward_std": 0.7101475596427917,
+      "rewards/accuracy_reward": 0.4062500149011612,
+      "rewards/reasoning_steps_reward": 0.9270833879709244,
+      "rewards/repetition_penalty_reward": -0.11345694959163666,
+      "rewards/tag_count_reward": 0.8229166865348816,
       "step": 110
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.6145935058594,
+      "completion_length": 616.7968902587891,
       "epoch": 0.16647919010123735,
-      "grad_norm": 3.0395634773886893,
-      "kl": 1.529296875,
+      "grad_norm": 43.9361877854642,
+      "kl": 5.32421875,
       "learning_rate": 1.973491004048014e-05,
-      "loss": -0.1461,
-      "reward": 2.2567337453365326,
-      "reward_std": 0.6766453832387924,
-      "rewards/accuracy_reward": 0.5364583507180214,
-      "rewards/reasoning_steps_reward": 0.9548611491918564,
-      "rewards/repetition_penalty_reward": -0.07963782362639904,
-      "rewards/tag_count_reward": 0.845052108168602,
+      "loss": 0.3651,
+      "reward": 2.290136158466339,
+      "reward_std": 0.5547062531113625,
+      "rewards/accuracy_reward": 0.5416666716337204,
+      "rewards/reasoning_steps_reward": 0.9531249850988388,
+      "rewards/repetition_penalty_reward": -0.11481184512376785,
+      "rewards/tag_count_reward": 0.9101562798023224,
       "step": 111
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 294.3958435058594,
+      "completion_length": 616.4948120117188,
       "epoch": 0.1679790026246719,
-      "grad_norm": 0.7041219895358697,
-      "kl": 0.29052734375,
+      "grad_norm": 25.513657082760023,
+      "kl": 2.0654296875,
       "learning_rate": 1.9722780183489477e-05,
-      "loss": -0.0136,
-      "reward": 2.4400432407855988,
-      "reward_std": 0.19339026510715485,
-      "rewards/accuracy_reward": 0.546875013038516,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.08990472927689552,
-      "rewards/tag_count_reward": 0.9882812649011612,
+      "loss": 0.1826,
+      "reward": 2.2123002409934998,
+      "reward_std": 0.6505413353443146,
+      "rewards/accuracy_reward": 0.4687500149011612,
+      "rewards/reasoning_steps_reward": 0.953125,
+      "rewards/repetition_penalty_reward": -0.13665815442800522,
+      "rewards/tag_count_reward": 0.927083358168602,
       "step": 112
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 285.1770935058594,
+      "completion_length": 639.6198120117188,
       "epoch": 0.16947881514810648,
-      "grad_norm": 0.8587640795737388,
-      "kl": 0.6201171875,
+      "grad_norm": 4.0215101485261595,
+      "kl": 1.24365234375,
       "learning_rate": 1.9710382880828028e-05,
-      "loss": -0.0167,
-      "reward": 2.425099015235901,
-      "reward_std": 0.20590725913643837,
-      "rewards/accuracy_reward": 0.5677083507180214,
-      "rewards/reasoning_steps_reward": 0.9687500298023224,
-      "rewards/repetition_penalty_reward": -0.09443240240216255,
-      "rewards/tag_count_reward": 0.9830729365348816,
+      "loss": 0.1482,
+      "reward": 2.214249849319458,
+      "reward_std": 0.6732968837022781,
+      "rewards/accuracy_reward": 0.5000000074505806,
+      "rewards/reasoning_steps_reward": 0.9461805522441864,
+      "rewards/repetition_penalty_reward": -0.1433890499174595,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 113
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 303.3541793823242,
+      "completion_length": 692.9062652587891,
       "epoch": 0.17097862767154107,
-      "grad_norm": 0.6234593444589465,
-      "kl": 0.29541015625,
+      "grad_norm": 78.14938942373506,
+      "kl": 5.59765625,
       "learning_rate": 1.969771847350987e-05,
-      "loss": 0.0059,
-      "reward": 2.361898422241211,
-      "reward_std": 0.21231437101960182,
-      "rewards/accuracy_reward": 0.44791667722165585,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.07560167275369167,
-      "rewards/tag_count_reward": 0.9947916716337204,
+      "loss": 0.4814,
+      "reward": 2.0078442692756653,
+      "reward_std": 0.8100399523973465,
+      "rewards/accuracy_reward": 0.4218750149011612,
+      "rewards/reasoning_steps_reward": 0.9253472238779068,
+      "rewards/repetition_penalty_reward": -0.0971906129270792,
+      "rewards/tag_count_reward": 0.7578125149011612,
       "step": 114
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 261.2395935058594,
+      "completion_length": 873.9166870117188,
       "epoch": 0.17247844019497563,
-      "grad_norm": 0.7078512660636744,
-      "kl": 0.2978515625,
+      "grad_norm": 390.6492744892592,
+      "kl": 20.15625,
       "learning_rate": 1.968478730989636e-05,
-      "loss": -0.0062,
-      "reward": 2.1943055987358093,
-      "reward_std": 0.16293694078922272,
-      "rewards/accuracy_reward": 0.2760416716337204,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.05569446366280317,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "loss": 0.931,
+      "reward": 1.3626113533973694,
+      "reward_std": 0.49340808391571045,
+      "rewards/accuracy_reward": 0.07291666930541396,
+      "rewards/reasoning_steps_reward": 0.9409722238779068,
+      "rewards/repetition_penalty_reward": -0.03799628745764494,
+      "rewards/tag_count_reward": 0.3867187574505806,
       "step": 115
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 253.6718864440918,
+      "completion_length": 889.4166870117188,
       "epoch": 0.1739782527184102,
-      "grad_norm": 0.7740364590084335,
-      "kl": 0.3125,
+      "grad_norm": 46.43260724644146,
+      "kl": 7.609375,
       "learning_rate": 1.9671589745686563e-05,
-      "loss": 0.0356,
-      "reward": 2.4594351053237915,
-      "reward_std": 0.15120337810367346,
-      "rewards/accuracy_reward": 0.5312500102445483,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.052283622324466705,
-      "rewards/tag_count_reward": 0.9960937649011612,
+      "loss": 0.3225,
+      "reward": 1.1709461510181427,
+      "reward_std": 0.3466350585222244,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/reasoning_steps_reward": 0.9201389402151108,
+      "rewards/repetition_penalty_reward": -0.023932393174618483,
+      "rewards/tag_count_reward": 0.2643229216337204,
       "step": 116
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 240.8385467529297,
+      "completion_length": 855.1302185058594,
       "epoch": 0.17547806524184478,
-      "grad_norm": 0.6815939277095767,
-      "kl": 0.5048828125,
+      "grad_norm": 19.881821438298648,
+      "kl": 2.70703125,
       "learning_rate": 1.965812614390743e-05,
-      "loss": 0.014,
-      "reward": 2.592436134815216,
-      "reward_std": 0.151106015779078,
-      "rewards/accuracy_reward": 0.6614583507180214,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.0533972904086113,
-      "rewards/tag_count_reward": 0.989583358168602,
+      "loss": 0.1427,
+      "reward": 1.1638481318950653,
+      "reward_std": 0.343635730445385,
+      "rewards/accuracy_reward": 0.010416666977107525,
+      "rewards/reasoning_steps_reward": 0.9027778059244156,
+      "rewards/repetition_penalty_reward": -0.027992176823318005,
+      "rewards/tag_count_reward": 0.2786458358168602,
       "step": 117
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.6510467529297,
+      "completion_length": 837.4010620117188,
       "epoch": 0.17697787776527935,
-      "grad_norm": 0.8414344996361253,
-      "kl": 0.3369140625,
+      "grad_norm": 10.649672323547897,
+      "kl": 1.78125,
       "learning_rate": 1.9644396874903865e-05,
-      "loss": 0.0194,
-      "reward": 2.4946166276931763,
-      "reward_std": 0.23435868322849274,
-      "rewards/accuracy_reward": 0.5416666865348816,
-      "rewards/reasoning_steps_reward": 0.998263880610466,
-      "rewards/repetition_penalty_reward": -0.04401196166872978,
-      "rewards/tag_count_reward": 0.9986979216337204,
+      "loss": 0.056,
+      "reward": 1.1770220398902893,
+      "reward_std": 0.30946608632802963,
+      "rewards/accuracy_reward": 0.0052083334885537624,
+      "rewards/reasoning_steps_reward": 0.927083358168602,
+      "rewards/repetition_penalty_reward": -0.028707201592624187,
+      "rewards/tag_count_reward": 0.2734375074505806,
       "step": 118
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.03125762939453,
+      "completion_length": 783.4479370117188,
       "epoch": 0.1784776902887139,
-      "grad_norm": 0.7595325300854338,
-      "kl": 0.33984375,
+      "grad_norm": 6.976349962907348,
+      "kl": 1.45703125,
       "learning_rate": 1.9630402316328506e-05,
-      "loss": 0.0338,
-      "reward": 2.496553957462311,
-      "reward_std": 0.13166913157328963,
-      "rewards/accuracy_reward": 0.526041679084301,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.022977421525865793,
-      "rewards/tag_count_reward": 0.993489608168602,
+      "loss": 0.0257,
+      "reward": 1.2304543852806091,
+      "reward_std": 0.30063216388225555,
+      "rewards/accuracy_reward": 0.0052083334885537624,
+      "rewards/reasoning_steps_reward": 0.9461805671453476,
+      "rewards/repetition_penalty_reward": -0.033434574957937,
+      "rewards/tag_count_reward": 0.3125000149011612,
       "step": 119
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 192.5364646911621,
+      "completion_length": 655.8281402587891,
       "epoch": 0.17997750281214847,
-      "grad_norm": 0.8887334027661878,
-      "kl": 0.33837890625,
+      "grad_norm": 4.798337799999206,
+      "kl": 0.5478515625,
       "learning_rate": 1.9616142853131342e-05,
-      "loss": 0.0245,
-      "reward": 2.5528977513313293,
-      "reward_std": 0.1918736957013607,
-      "rewards/accuracy_reward": 0.5781250176951289,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.018716785591095686,
-      "rewards/tag_count_reward": 0.9986979216337204,
+      "loss": 0.1748,
+      "reward": 2.003317028284073,
+      "reward_std": 0.682994619011879,
+      "rewards/accuracy_reward": 0.3489583432674408,
+      "rewards/reasoning_steps_reward": 0.9826389253139496,
+      "rewards/repetition_penalty_reward": -0.1004156544804573,
+      "rewards/tag_count_reward": 0.7721354514360428,
       "step": 120
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 184.10416793823242,
+      "completion_length": 596.4583587646484,
       "epoch": 0.18147731533558306,
-      "grad_norm": 0.945237692955735,
-      "kl": 0.3544921875,
+      "grad_norm": 7.178534631101688,
+      "kl": 0.65283203125,
       "learning_rate": 1.9601618877549113e-05,
-      "loss": 0.0562,
-      "reward": 2.4059919714927673,
-      "reward_std": 0.2110268771648407,
-      "rewards/accuracy_reward": 0.43229167722165585,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.01718513877131045,
-      "rewards/tag_count_reward": 0.99609375,
+      "loss": 0.1098,
+      "reward": 2.141425609588623,
+      "reward_std": 0.6803022921085358,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/reasoning_steps_reward": 0.9548611640930176,
+      "rewards/repetition_penalty_reward": -0.12593566998839378,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 121
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.5833396911621,
+      "completion_length": 585.9843902587891,
       "epoch": 0.18297712785901762,
-      "grad_norm": 0.8305782528862219,
-      "kl": 0.35009765625,
+      "grad_norm": 5.756866189784068,
+      "kl": 1.4296875,
       "learning_rate": 1.9586830789094548e-05,
-      "loss": 0.0135,
-      "reward": 2.6578049659729004,
-      "reward_std": 0.27065123803913593,
-      "rewards/accuracy_reward": 0.6927083432674408,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.023184617515653372,
-      "rewards/tag_count_reward": 0.9934895932674408,
+      "loss": 0.0643,
+      "reward": 2.145204782485962,
+      "reward_std": 0.6050543040037155,
+      "rewards/accuracy_reward": 0.4322916939854622,
+      "rewards/reasoning_steps_reward": 0.9687500298023224,
+      "rewards/repetition_penalty_reward": -0.13474315032362938,
+      "rewards/tag_count_reward": 0.8789062649011612,
       "step": 122
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 190.0885467529297,
+      "completion_length": 534.2760543823242,
       "epoch": 0.1844769403824522,
-      "grad_norm": 0.8502534823244641,
-      "kl": 0.3662109375,
+      "grad_norm": 104.47967057005842,
+      "kl": 4.3759765625,
       "learning_rate": 1.9571778994545356e-05,
-      "loss": -0.0024,
-      "reward": 2.5200935006141663,
-      "reward_std": 0.20754290046170354,
-      "rewards/accuracy_reward": 0.541666679084301,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.012458672048524022,
-      "rewards/tag_count_reward": 0.99609375,
+      "loss": 0.2084,
+      "reward": 2.2705207467079163,
+      "reward_std": 0.7510545551776886,
+      "rewards/accuracy_reward": 0.5729166865348816,
+      "rewards/reasoning_steps_reward": 0.9409722834825516,
+      "rewards/repetition_penalty_reward": -0.11706613004207611,
+      "rewards/tag_count_reward": 0.8736979365348816,
       "step": 123
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 193.5520896911621,
+      "completion_length": 534.5937652587891,
       "epoch": 0.18597675290588678,
-      "grad_norm": 0.9748005418103824,
-      "kl": 0.376953125,
+      "grad_norm": 14.350020581816006,
+      "kl": 1.861328125,
       "learning_rate": 1.9556463907933038e-05,
-      "loss": 0.0298,
-      "reward": 2.628620147705078,
-      "reward_std": 0.28626001439988613,
-      "rewards/accuracy_reward": 0.6562500298023224,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.01460911170579493,
-      "rewards/tag_count_reward": 0.9921875149011612,
+      "loss": 0.0927,
+      "reward": 2.2636232376098633,
+      "reward_std": 0.6755192577838898,
+      "rewards/accuracy_reward": 0.520833358168602,
+      "rewards/reasoning_steps_reward": 0.9600694328546524,
+      "rewards/repetition_penalty_reward": -0.12092556245625019,
+      "rewards/tag_count_reward": 0.9036458730697632,
       "step": 124
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 192.9114646911621,
+      "completion_length": 565.2968902587891,
       "epoch": 0.18747656542932134,
-      "grad_norm": 1.0358678308364058,
-      "kl": 0.47607421875,
+      "grad_norm": 3.30622411421042,
+      "kl": 1.943359375,
       "learning_rate": 1.9540885950531507e-05,
-      "loss": 0.01,
-      "reward": 2.6429734230041504,
-      "reward_std": 0.3361320048570633,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.0232592502143234,
-      "rewards/tag_count_reward": 0.9856770932674408,
+      "loss": 0.1088,
+      "reward": 2.27703320980072,
+      "reward_std": 0.6729772835969925,
+      "rewards/accuracy_reward": 0.5677083432674408,
+      "rewards/reasoning_steps_reward": 0.9392361342906952,
+      "rewards/repetition_penalty_reward": -0.13225507363677025,
+      "rewards/tag_count_reward": 0.9023437649011612,
       "step": 125
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 201.3958396911621,
+      "completion_length": 582.3177185058594,
       "epoch": 0.1889763779527559,
-      "grad_norm": 1.1639527894884278,
-      "kl": 0.4892578125,
+      "grad_norm": 13.34144394107955,
+      "kl": 40.078125,
       "learning_rate": 1.9525045550845482e-05,
-      "loss": 0.0132,
-      "reward": 2.66941100358963,
-      "reward_std": 0.25102632492780685,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.989583358168602,
-      "rewards/repetition_penalty_reward": -0.03241182304918766,
-      "rewards/tag_count_reward": 0.977864608168602,
+      "loss": 0.1878,
+      "reward": 2.363175332546234,
+      "reward_std": 0.654795840382576,
+      "rewards/accuracy_reward": 0.6510416716337204,
+      "rewards/reasoning_steps_reward": 0.9409722536802292,
+      "rewards/repetition_penalty_reward": -0.15722395852208138,
+      "rewards/tag_count_reward": 0.9283854514360428,
       "step": 126
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 204.21875762939453,
+      "completion_length": 574.8698120117188,
       "epoch": 0.19047619047619047,
-      "grad_norm": 2.368193480039129,
-      "kl": 1.4140625,
+      "grad_norm": 21.137483639050657,
+      "kl": 5.4140625,
       "learning_rate": 1.9508943144598726e-05,
-      "loss": 0.0439,
-      "reward": 2.4418792724609375,
-      "reward_std": 0.3257411792874336,
-      "rewards/accuracy_reward": 0.5260416716337204,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.020794388838112354,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.2436,
+      "reward": 2.1040448546409607,
+      "reward_std": 0.7035096734762192,
+      "rewards/accuracy_reward": 0.4062500149011612,
+      "rewards/reasoning_steps_reward": 0.9270834028720856,
+      "rewards/repetition_penalty_reward": -0.13814280182123184,
+      "rewards/tag_count_reward": 0.9088541865348816,
       "step": 127
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 183.81250762939453,
+      "completion_length": 531.4687652587891,
       "epoch": 0.19197600299962506,
-      "grad_norm": 11.16928341041206,
-      "kl": 3.96875,
+      "grad_norm": 4.455726874489183,
+      "kl": 0.81103515625,
       "learning_rate": 1.9492579174722043e-05,
-      "loss": 0.0888,
-      "reward": 2.5279927849769592,
-      "reward_std": 0.21637535840272903,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.021920496597886086,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": -0.0353,
+      "reward": 2.3104677200317383,
+      "reward_std": 0.5839991569519043,
+      "rewards/accuracy_reward": 0.5885416865348816,
+      "rewards/reasoning_steps_reward": 0.9496528059244156,
+      "rewards/repetition_penalty_reward": -0.16132058203220367,
+      "rewards/tag_count_reward": 0.9335937798023224,
       "step": 128
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.21875381469727,
+      "completion_length": 518.4531402587891,
       "epoch": 0.19347581552305962,
-      "grad_norm": 84.32921564323993,
-      "kl": 12.12060546875,
+      "grad_norm": 681.8928268072538,
+      "kl": 14.496826171875,
       "learning_rate": 1.9475954091341098e-05,
-      "loss": 0.4114,
-      "reward": 2.7423276901245117,
-      "reward_std": 0.2567145712673664,
-      "rewards/accuracy_reward": 0.8125000149011612,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.02937377756461501,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.7073,
+      "reward": 2.2904911935329437,
+      "reward_std": 0.6285631433129311,
+      "rewards/accuracy_reward": 0.5885416865348816,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.14353665709495544,
+      "rewards/tag_count_reward": 0.9218750149011612,
       "step": 129
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.53125762939453,
+      "completion_length": 495.0937728881836,
       "epoch": 0.19497562804649418,
-      "grad_norm": 0.8646472823122007,
-      "kl": 0.4267578125,
+      "grad_norm": 26.634074769249203,
+      "kl": 14.8203125,
       "learning_rate": 1.9459068351764032e-05,
-      "loss": 0.0533,
-      "reward": 2.3658406734466553,
-      "reward_std": 0.14664249867200851,
-      "rewards/accuracy_reward": 0.4114583432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.029992765747010708,
-      "rewards/tag_count_reward": 0.9843750149011612,
+      "loss": 0.1622,
+      "reward": 2.11430823802948,
+      "reward_std": 0.6787235736846924,
+      "rewards/accuracy_reward": 0.4322916865348816,
+      "rewards/reasoning_steps_reward": 0.923611119389534,
+      "rewards/repetition_penalty_reward": -0.14263629540801048,
+      "rewards/tag_count_reward": 0.9010416865348816,
       "step": 130
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 222.41666793823242,
+      "completion_length": 465.46876525878906,
       "epoch": 0.19647544056992877,
-      "grad_norm": 0.8326546294074292,
-      "kl": 0.48095703125,
+      "grad_norm": 3.2870541929839407,
+      "kl": 1.111328125,
       "learning_rate": 1.94419224204689e-05,
-      "loss": 0.0102,
-      "reward": 2.5197873711586,
-      "reward_std": 0.3018568679690361,
-      "rewards/accuracy_reward": 0.5885416828095913,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.03056000219658017,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "loss": -0.1421,
+      "reward": 2.2763773798942566,
+      "reward_std": 0.7801897525787354,
+      "rewards/accuracy_reward": 0.630208358168602,
+      "rewards/reasoning_steps_reward": 0.9131944626569748,
+      "rewards/repetition_penalty_reward": -0.14202555641531944,
+      "rewards/tag_count_reward": 0.8750000149011612,
       "step": 131
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.04687881469727,
+      "completion_length": 467.06250762939453,
       "epoch": 0.19797525309336333,
-      "grad_norm": 0.8968322010706142,
-      "kl": 0.5380859375,
+      "grad_norm": 9.180164568388207,
+      "kl": 1.109375,
       "learning_rate": 1.9424516769090863e-05,
-      "loss": -0.0605,
-      "reward": 2.4514987468719482,
-      "reward_std": 0.38813910633325577,
-      "rewards/accuracy_reward": 0.546875,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.03070627013221383,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": -0.0418,
+      "reward": 1.8292181193828583,
+      "reward_std": 1.029387205839157,
+      "rewards/accuracy_reward": 0.4114583358168602,
+      "rewards/reasoning_steps_reward": 0.82118059694767,
+      "rewards/repetition_penalty_reward": -0.1039416529238224,
+      "rewards/tag_count_reward": 0.700520858168602,
       "step": 132
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.1197967529297,
+      "completion_length": 455.7291793823242,
       "epoch": 0.1994750656167979,
-      "grad_norm": 0.720816161798331,
-      "kl": 0.40869140625,
+      "grad_norm": 2.948220887698058,
+      "kl": 1.56640625,
       "learning_rate": 1.9406851876409254e-05,
-      "loss": -0.0202,
-      "reward": 2.6190152168273926,
-      "reward_std": 0.29873134195804596,
-      "rewards/accuracy_reward": 0.7031250298023224,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.0354987857863307,
-      "rewards/tag_count_reward": 0.9843750149011612,
+      "loss": -0.1012,
+      "reward": 1.8498985171318054,
+      "reward_std": 1.0783482491970062,
+      "rewards/accuracy_reward": 0.4843750298023224,
+      "rewards/reasoning_steps_reward": 0.7986111342906952,
+      "rewards/repetition_penalty_reward": -0.08673347532749176,
+      "rewards/tag_count_reward": 0.6536458432674408,
       "step": 133
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.9479217529297,
+      "completion_length": 456.6927261352539,
       "epoch": 0.20097487814023246,
-      "grad_norm": 0.8292765779680333,
-      "kl": 0.4521484375,
+      "grad_norm": 6.426646825304548,
+      "kl": 2.6953125,
       "learning_rate": 1.938892822833437e-05,
-      "loss": -0.0563,
-      "reward": 2.720021903514862,
-      "reward_std": 0.4130494073033333,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.02650598995387554,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.0348,
+      "reward": 2.087424159049988,
+      "reward_std": 0.9264509230852127,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/reasoning_steps_reward": 0.8697917312383652,
+      "rewards/repetition_penalty_reward": -0.11830509081482887,
+      "rewards/tag_count_reward": 0.7578125149011612,
       "step": 134
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.96875381469727,
+      "completion_length": 476.8333435058594,
       "epoch": 0.20247469066366705,
-      "grad_norm": 0.751372103948477,
-      "kl": 0.578125,
+      "grad_norm": 51.991305129273876,
+      "kl": 22.15625,
       "learning_rate": 1.9370746317894135e-05,
-      "loss": -0.0156,
-      "reward": 2.5825566053390503,
-      "reward_std": 0.4179469347000122,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9791666567325592,
-      "rewards/repetition_penalty_reward": -0.03332882048562169,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.6123,
+      "reward": 1.7000366151332855,
+      "reward_std": 0.9176836758852005,
+      "rewards/accuracy_reward": 0.3072916753590107,
+      "rewards/reasoning_steps_reward": 0.8246528208255768,
+      "rewards/repetition_penalty_reward": -0.102480823174119,
+      "rewards/tag_count_reward": 0.6705729365348816,
       "step": 135
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 247.97917556762695,
+      "completion_length": 570.3385543823242,
       "epoch": 0.2039745031871016,
-      "grad_norm": 2.8917497533599517,
-      "kl": 0.42822265625,
+      "grad_norm": 8.533590166150786,
+      "kl": 7.75,
       "learning_rate": 1.9352306645220518e-05,
-      "loss": -0.0077,
-      "reward": 2.4527002573013306,
-      "reward_std": 0.44423961639404297,
-      "rewards/accuracy_reward": 0.5312500223517418,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.029070657677948475,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.2573,
+      "reward": 1.376660943031311,
+      "reward_std": 0.9236660450696945,
+      "rewards/accuracy_reward": 0.2187500074505806,
+      "rewards/reasoning_steps_reward": 0.7638889104127884,
+      "rewards/repetition_penalty_reward": -0.07603009976446629,
+      "rewards/tag_count_reward": 0.4700520932674408,
       "step": 136
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.0677146911621,
+      "completion_length": 655.1042022705078,
       "epoch": 0.20547431571053618,
-      "grad_norm": 0.7664671252381398,
-      "kl": 0.3759765625,
+      "grad_norm": 4.411821253364697,
+      "kl": 2.53515625,
       "learning_rate": 1.9333609717535788e-05,
-      "loss": 0.015,
-      "reward": 2.645112633705139,
-      "reward_std": 0.43032628297805786,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.03500907029956579,
-      "rewards/tag_count_reward": 0.98046875,
+      "loss": -0.0005,
+      "reward": 0.9961891174316406,
+      "reward_std": 0.7426871508359909,
+      "rewards/accuracy_reward": 0.06250000186264515,
+      "rewards/reasoning_steps_reward": 0.6788194477558136,
+      "rewards/repetition_penalty_reward": -0.04070331249386072,
+      "rewards/tag_count_reward": 0.295572929084301,
       "step": 137
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.29687881469727,
+      "completion_length": 592.6458435058594,
       "epoch": 0.20697412823397077,
-      "grad_norm": 0.9030694840003886,
-      "kl": 0.48681640625,
+      "grad_norm": 1.4735089906729,
+      "kl": 1.529296875,
       "learning_rate": 1.931465604913856e-05,
-      "loss": -0.0409,
-      "reward": 2.5029749870300293,
-      "reward_std": 0.49775829538702965,
-      "rewards/accuracy_reward": 0.6197916865348816,
-      "rewards/reasoning_steps_reward": 0.9565972685813904,
-      "rewards/repetition_penalty_reward": -0.03565355762839317,
-      "rewards/tag_count_reward": 0.962239608168602,
+      "loss": -0.0875,
+      "reward": 1.0002163350582123,
+      "reward_std": 0.7004366517066956,
+      "rewards/accuracy_reward": 0.052083334885537624,
+      "rewards/reasoning_steps_reward": 0.7013889253139496,
+      "rewards/repetition_penalty_reward": -0.04362048767507076,
+      "rewards/tag_count_reward": 0.2903645932674408,
       "step": 138
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.0729217529297,
+      "completion_length": 725.1979370117188,
       "epoch": 0.20847394075740533,
-      "grad_norm": 2.8562687232727018,
-      "kl": 3.19384765625,
+      "grad_norm": 2.9297077947117667,
+      "kl": 1.375,
       "learning_rate": 1.9295446161389644e-05,
-      "loss": -0.0617,
-      "reward": 2.431870937347412,
-      "reward_std": 0.6133489608764648,
-      "rewards/accuracy_reward": 0.5729166865348816,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.030802744440734386,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.1009,
+      "reward": 1.0900856852531433,
+      "reward_std": 0.5820793807506561,
+      "rewards/accuracy_reward": 0.05729166837409139,
+      "rewards/reasoning_steps_reward": 0.8350694924592972,
+      "rewards/repetition_penalty_reward": -0.07310881279408932,
+      "rewards/tag_count_reward": 0.2708333395421505,
       "step": 139
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.87500762939453,
+      "completion_length": 769.4843902587891,
       "epoch": 0.2099737532808399,
-      "grad_norm": 11.214953837004993,
-      "kl": 1.908203125,
+      "grad_norm": 2.6937963105185894,
+      "kl": 2.18359375,
       "learning_rate": 1.9275980582697707e-05,
-      "loss": -0.079,
-      "reward": 2.5050920844078064,
-      "reward_std": 0.5771966800093651,
-      "rewards/accuracy_reward": 0.6770833432674408,
-      "rewards/reasoning_steps_reward": 0.925347313284874,
-      "rewards/repetition_penalty_reward": -0.032234320882707834,
-      "rewards/tag_count_reward": 0.934895858168602,
+      "loss": 0.1039,
+      "reward": 1.2186349630355835,
+      "reward_std": 0.5874937772750854,
+      "rewards/accuracy_reward": 0.1770833395421505,
+      "rewards/reasoning_steps_reward": 0.9166667014360428,
+      "rewards/repetition_penalty_reward": -0.13422967679798603,
+      "rewards/tag_count_reward": 0.2591145932674408,
       "step": 140
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.82813262939453,
+      "completion_length": 845.2552337646484,
       "epoch": 0.21147356580427445,
-      "grad_norm": 0.8549661150364268,
-      "kl": 0.64990234375,
+      "grad_norm": 1.622095571716092,
+      "kl": 1.2060546875,
       "learning_rate": 1.9256259848504737e-05,
-      "loss": -0.0524,
-      "reward": 2.30450901389122,
-      "reward_std": 0.440264068543911,
-      "rewards/accuracy_reward": 0.432291679084301,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.03359871078282595,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.0388,
+      "reward": 1.2769785821437836,
+      "reward_std": 0.47676292806863785,
+      "rewards/accuracy_reward": 0.2968750074505806,
+      "rewards/reasoning_steps_reward": 0.9704861342906952,
+      "rewards/repetition_penalty_reward": -0.21303880959749222,
+      "rewards/tag_count_reward": 0.2226562574505806,
       "step": 141
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.68750381469727,
+      "completion_length": 826.1771087646484,
       "epoch": 0.21297337832770905,
-      "grad_norm": 1.9836172250089459,
-      "kl": 1.09423828125,
+      "grad_norm": 1.4773462554374228,
+      "kl": 0.5615234375,
       "learning_rate": 1.9236284501271317e-05,
-      "loss": -0.0897,
-      "reward": 2.265152394771576,
-      "reward_std": 0.5349541902542114,
-      "rewards/accuracy_reward": 0.4427083358168602,
-      "rewards/reasoning_steps_reward": 0.9288195073604584,
-      "rewards/repetition_penalty_reward": -0.03215676499530673,
-      "rewards/tag_count_reward": 0.9257812649011612,
+      "loss": -0.0577,
+      "reward": 1.3371992409229279,
+      "reward_std": 0.49016065895557404,
+      "rewards/accuracy_reward": 0.494791679084301,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.27738412469625473,
+      "rewards/tag_count_reward": 0.1354166716337204,
       "step": 142
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.2760467529297,
+      "completion_length": 909.7500305175781,
       "epoch": 0.2144731908511436,
-      "grad_norm": 2.657790488829322,
-      "kl": 2.5712890625,
+      "grad_norm": 0.9239369002896122,
+      "kl": 0.66259765625,
       "learning_rate": 1.9216055090461693e-05,
-      "loss": -0.1423,
-      "reward": 2.298185646533966,
-      "reward_std": 0.6972773224115372,
-      "rewards/accuracy_reward": 0.526041679084301,
-      "rewards/reasoning_steps_reward": 0.911458358168602,
-      "rewards/repetition_penalty_reward": -0.033845747821033,
-      "rewards/tag_count_reward": 0.8945312798023224,
+      "loss": -0.0375,
+      "reward": 1.4242282509803772,
+      "reward_std": 0.5077776834368706,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.97743059694767,
+      "rewards/repetition_penalty_reward": -0.32794189453125,
+      "rewards/tag_count_reward": 0.11848958767950535,
       "step": 143
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.67187881469727,
+      "completion_length": 927.3541870117188,
       "epoch": 0.21597300337457817,
-      "grad_norm": 0.8727878748564548,
-      "kl": 0.5927734375,
+      "grad_norm": 0.7490847651592132,
+      "kl": 0.4716796875,
       "learning_rate": 1.9195572172528678e-05,
-      "loss": -0.097,
-      "reward": 2.390109956264496,
-      "reward_std": 0.429065003991127,
-      "rewards/accuracy_reward": 0.557291679084301,
-      "rewards/reasoning_steps_reward": 0.9357638955116272,
-      "rewards/repetition_penalty_reward": -0.03914357628673315,
-      "rewards/tag_count_reward": 0.9361979365348816,
+      "loss": 0.0525,
+      "reward": 1.2379167079925537,
+      "reward_std": 0.5809585899114609,
+      "rewards/accuracy_reward": 0.4479166716337204,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.41616319864988327,
+      "rewards/tag_count_reward": 0.2252604216337204,
       "step": 144
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.10937881469727,
+      "completion_length": 782.5052337646484,
       "epoch": 0.21747281589801276,
-      "grad_norm": 0.7543285200149539,
-      "kl": 0.5830078125,
+      "grad_norm": 9.579120968298097,
+      "kl": 91.814208984375,
       "learning_rate": 1.9174836310898334e-05,
-      "loss": -0.0843,
-      "reward": 2.436844766139984,
-      "reward_std": 0.527190275490284,
-      "rewards/accuracy_reward": 0.604166679084301,
-      "rewards/reasoning_steps_reward": 0.9618056118488312,
-      "rewards/repetition_penalty_reward": -0.04188787518069148,
-      "rewards/tag_count_reward": 0.9127604216337204,
+      "loss": 0.1581,
+      "reward": 1.7532488107681274,
+      "reward_std": 0.6942550539970398,
+      "rewards/accuracy_reward": 0.479166679084301,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.35612622648477554,
+      "rewards/tag_count_reward": 0.645833358168602,
       "step": 145
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.2083396911621,
+      "completion_length": 806.2708587646484,
       "epoch": 0.21897262842144732,
-      "grad_norm": 0.639298152517526,
-      "kl": 0.673828125,
+      "grad_norm": 1.8428465118174489,
+      "kl": 0.408447265625,
       "learning_rate": 1.9153848075954465e-05,
-      "loss": -0.1119,
-      "reward": 2.3503913283348083,
-      "reward_std": 0.4797208532691002,
-      "rewards/accuracy_reward": 0.5416666679084301,
-      "rewards/reasoning_steps_reward": 0.954861119389534,
-      "rewards/repetition_penalty_reward": -0.06150110438466072,
-      "rewards/tag_count_reward": 0.915364608168602,
+      "loss": 0.1999,
+      "reward": 1.5887240171432495,
+      "reward_std": 0.7087294459342957,
+      "rewards/accuracy_reward": 0.3437500074505806,
+      "rewards/reasoning_steps_reward": 0.9791667014360428,
+      "rewards/repetition_penalty_reward": -0.37351563572883606,
+      "rewards/tag_count_reward": 0.6393229365348816,
       "step": 146
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.23958587646484,
+      "completion_length": 754.6458435058594,
       "epoch": 0.2204724409448819,
-      "grad_norm": 3.076436673284199,
-      "kl": 0.697265625,
+      "grad_norm": 0.7681530290808569,
+      "kl": 0.266357421875,
       "learning_rate": 1.9132608045022954e-05,
-      "loss": -0.0704,
-      "reward": 2.4564713835716248,
-      "reward_std": 0.4616401568055153,
-      "rewards/accuracy_reward": 0.6197916716337204,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.0834592841565609,
-      "rewards/tag_count_reward": 0.9375000149011612,
+      "loss": 0.2529,
+      "reward": 1.4556803405284882,
+      "reward_std": 0.7271180897951126,
+      "rewards/accuracy_reward": 0.3385416753590107,
+      "rewards/reasoning_steps_reward": 0.987847238779068,
+      "rewards/repetition_penalty_reward": -0.3368544206023216,
+      "rewards/tag_count_reward": 0.4661458432674408,
       "step": 147
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.3697967529297,
+      "completion_length": 771.1458435058594,
       "epoch": 0.22197225346831645,
-      "grad_norm": 0.7063771066104143,
-      "kl": 0.52490234375,
+      "grad_norm": 1.2907787204307715,
+      "kl": 0.51708984375,
       "learning_rate": 1.9111116802355853e-05,
-      "loss": -0.0912,
-      "reward": 2.410871744155884,
-      "reward_std": 0.5071974396705627,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.060916513204574585,
-      "rewards/tag_count_reward": 0.923177108168602,
+      "loss": 0.2698,
+      "reward": 0.9035700112581253,
+      "reward_std": 0.7091249525547028,
+      "rewards/accuracy_reward": 0.1458333395421505,
+      "rewards/reasoning_steps_reward": 0.9513889253139496,
+      "rewards/repetition_penalty_reward": -0.44104810059070587,
+      "rewards/tag_count_reward": 0.2473958432674408,
       "step": 148
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.9895896911621,
+      "completion_length": 578.7760467529297,
       "epoch": 0.22347206599175104,
-      "grad_norm": 0.759921740363777,
-      "kl": 0.7099609375,
+      "grad_norm": 1.002753301602421,
+      "kl": 0.42529296875,
       "learning_rate": 1.9089374939115335e-05,
-      "loss": -0.1306,
-      "reward": 2.3488033413887024,
-      "reward_std": 0.6183192133903503,
-      "rewards/accuracy_reward": 0.5677083507180214,
-      "rewards/reasoning_steps_reward": 0.939236119389534,
-      "rewards/repetition_penalty_reward": -0.06569322943687439,
-      "rewards/tag_count_reward": 0.907552108168602,
+      "loss": 0.3394,
+      "reward": 1.304781287908554,
+      "reward_std": 0.7868980914354324,
+      "rewards/accuracy_reward": 0.2239583395421505,
+      "rewards/reasoning_steps_reward": 0.958333358168602,
+      "rewards/repetition_penalty_reward": -0.3111041784286499,
+      "rewards/tag_count_reward": 0.4335937649011612,
       "step": 149
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.5833396911621,
+      "completion_length": 464.1771011352539,
       "epoch": 0.2249718785151856,
-      "grad_norm": 5.333380760593154,
-      "kl": 1.005859375,
+      "grad_norm": 1.5602927845713264,
+      "kl": 0.5703125,
       "learning_rate": 1.906738305335741e-05,
-      "loss": -0.1023,
-      "reward": 2.319095730781555,
-      "reward_std": 0.6061732321977615,
-      "rewards/accuracy_reward": 0.5572916865348816,
-      "rewards/reasoning_steps_reward": 0.9461806118488312,
-      "rewards/repetition_penalty_reward": -0.09062658622860909,
-      "rewards/tag_count_reward": 0.9062500149011612,
+      "loss": 0.3492,
+      "reward": 1.3854647278785706,
+      "reward_std": 0.942527711391449,
+      "rewards/accuracy_reward": 0.2656250074505806,
+      "rewards/reasoning_steps_reward": 0.9010417014360428,
+      "rewards/repetition_penalty_reward": -0.272087462246418,
+      "rewards/tag_count_reward": 0.490885429084301,
       "step": 150
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.75000762939453,
+      "completion_length": 455.96876525878906,
       "epoch": 0.22647169103862017,
-      "grad_norm": 1.2824333531797762,
-      "kl": 2.69970703125,
+      "grad_norm": 1.4291694851849999,
+      "kl": 0.609375,
       "learning_rate": 1.90451417500155e-05,
-      "loss": -0.091,
-      "reward": 2.622887670993805,
-      "reward_std": 0.5151065196841955,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.949652835726738,
-      "rewards/repetition_penalty_reward": -0.06895278673619032,
-      "rewards/tag_count_reward": 0.934895858168602,
+      "loss": 0.1916,
+      "reward": 1.4960919618606567,
+      "reward_std": 0.7673981636762619,
+      "rewards/accuracy_reward": 0.2291666753590107,
+      "rewards/reasoning_steps_reward": 0.8871527761220932,
+      "rewards/repetition_penalty_reward": -0.24392545968294144,
+      "rewards/tag_count_reward": 0.6236979365348816,
       "step": 151
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.57292556762695,
+      "completion_length": 487.4947967529297,
       "epoch": 0.22797150356205476,
-      "grad_norm": 0.7007261870507696,
-      "kl": 0.51171875,
+      "grad_norm": 3.3680398671635974,
+      "kl": 0.68359375,
       "learning_rate": 1.902265164088378e-05,
-      "loss": -0.0408,
-      "reward": 2.4209659099578857,
-      "reward_std": 0.49653469771146774,
-      "rewards/accuracy_reward": 0.5729166865348816,
-      "rewards/reasoning_steps_reward": 0.97743059694767,
-      "rewards/repetition_penalty_reward": -0.08120433799922466,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.3357,
+      "reward": 1.656085580587387,
+      "reward_std": 0.8526331186294556,
+      "rewards/accuracy_reward": 0.3333333507180214,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.27143188565969467,
+      "rewards/tag_count_reward": 0.6497395932674408,
       "step": 152
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.13541793823242,
+      "completion_length": 541.6562652587891,
       "epoch": 0.22947131608548932,
-      "grad_norm": 0.65651651084759,
-      "kl": 0.345703125,
+      "grad_norm": 21.24539554413327,
+      "kl": 6.5703125,
       "learning_rate": 1.899991334460036e-05,
-      "loss": 0.0085,
-      "reward": 2.626923680305481,
-      "reward_std": 0.23435234278440475,
-      "rewards/accuracy_reward": 0.7343750298023224,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.08835414797067642,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "loss": 0.3699,
+      "reward": 1.4813492000102997,
+      "reward_std": 1.0872852802276611,
+      "rewards/accuracy_reward": 0.385416679084301,
+      "rewards/reasoning_steps_reward": 0.866319477558136,
+      "rewards/repetition_penalty_reward": -0.3628349155187607,
+      "rewards/tag_count_reward": 0.5924479216337204,
       "step": 153
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.23437881469727,
+      "completion_length": 646.5052337646484,
       "epoch": 0.23097112860892388,
-      "grad_norm": 0.7528729019247309,
-      "kl": 0.63623046875,
+      "grad_norm": 7.586485137427004,
+      "kl": 7.958984375,
       "learning_rate": 1.8976927486630252e-05,
-      "loss": 0.013,
-      "reward": 2.2777963876724243,
-      "reward_std": 0.3943594992160797,
-      "rewards/accuracy_reward": 0.4218750149011612,
-      "rewards/reasoning_steps_reward": 0.9704861044883728,
-      "rewards/repetition_penalty_reward": -0.08722100034356117,
-      "rewards/tag_count_reward": 0.97265625,
+      "loss": 0.3929,
+      "reward": 1.2929440140724182,
+      "reward_std": 0.9547273218631744,
+      "rewards/accuracy_reward": 0.2760416716337204,
+      "rewards/reasoning_steps_reward": 0.8802083432674408,
+      "rewards/repetition_penalty_reward": -0.4609622582793236,
+      "rewards/tag_count_reward": 0.5976562649011612,
       "step": 154
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.3385467529297,
+      "completion_length": 579.0521087646484,
       "epoch": 0.23247094113235844,
-      "grad_norm": 9.645470554535006,
-      "kl": 1.740234375,
+      "grad_norm": 5.98725832415842,
+      "kl": 15.900390625,
       "learning_rate": 1.8953694699248193e-05,
-      "loss": -0.0036,
-      "reward": 2.56173574924469,
-      "reward_std": 0.3356763105839491,
-      "rewards/accuracy_reward": 0.6927083507180214,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.09060808829963207,
-      "rewards/tag_count_reward": 0.9752604365348816,
+      "loss": 0.3019,
+      "reward": 1.338868498802185,
+      "reward_std": 1.0572403371334076,
+      "rewards/accuracy_reward": 0.3541666744276881,
+      "rewards/reasoning_steps_reward": 0.8315972536802292,
+      "rewards/repetition_penalty_reward": -0.4198121204972267,
+      "rewards/tag_count_reward": 0.5729167014360428,
       "step": 155
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.6614646911621,
+      "completion_length": 464.4948043823242,
       "epoch": 0.23397075365579303,
-      "grad_norm": 0.7853069216863842,
-      "kl": 0.40625,
+      "grad_norm": 1.5100410826543946,
+      "kl": 1.6201171875,
       "learning_rate": 1.893021562152122e-05,
-      "loss": 0.0268,
-      "reward": 2.8448190689086914,
-      "reward_std": 0.22713683173060417,
-      "rewards/accuracy_reward": 0.9531250149011612,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.05405241996049881,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 0.2142,
+      "reward": 1.4770875573158264,
+      "reward_std": 1.0544297099113464,
+      "rewards/accuracy_reward": 0.3541666716337204,
+      "rewards/reasoning_steps_reward": 0.8368055671453476,
+      "rewards/repetition_penalty_reward": -0.290707603096962,
+      "rewards/tag_count_reward": 0.5768229365348816,
       "step": 156
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 181.40625762939453,
+      "completion_length": 352.2135543823242,
       "epoch": 0.2354705661792276,
-      "grad_norm": 2.706381634571779,
-      "kl": 0.9560546875,
+      "grad_norm": 2.5164021567299324,
+      "kl": 0.8330078125,
       "learning_rate": 1.8906490899291125e-05,
-      "loss": 0.0151,
-      "reward": 2.746555209159851,
-      "reward_std": 0.21183432638645172,
-      "rewards/accuracy_reward": 0.8125000149011612,
-      "rewards/reasoning_steps_reward": 0.9930555522441864,
-      "rewards/repetition_penalty_reward": -0.0498858280479908,
-      "rewards/tag_count_reward": 0.9908854365348816,
+      "loss": 0.1355,
+      "reward": 1.7763201594352722,
+      "reward_std": 0.8412696719169617,
+      "rewards/accuracy_reward": 0.4270833358168602,
+      "rewards/reasoning_steps_reward": 0.869791716337204,
+      "rewards/repetition_penalty_reward": -0.18852365016937256,
+      "rewards/tag_count_reward": 0.6679687649011612,
       "step": 157
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 176.8020896911621,
+      "completion_length": 405.21875762939453,
       "epoch": 0.23697037870266216,
-      "grad_norm": 1.1526188899297036,
-      "kl": 0.47314453125,
+      "grad_norm": 1.8327817177420191,
+      "kl": 0.39794921875,
       "learning_rate": 1.888252118515666e-05,
-      "loss": -0.0084,
-      "reward": 2.248090386390686,
-      "reward_std": 0.29650406911969185,
-      "rewards/accuracy_reward": 0.33333334140479565,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.03576376847922802,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.1901,
+      "reward": 2.067378491163254,
+      "reward_std": 0.7569487392902374,
+      "rewards/accuracy_reward": 0.5468750149011612,
+      "rewards/reasoning_steps_reward": 0.9409722536802292,
+      "rewards/repetition_penalty_reward": -0.20302094891667366,
+      "rewards/tag_count_reward": 0.7825520932674408,
       "step": 158
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 167.71875381469727,
+      "completion_length": 394.5520935058594,
       "epoch": 0.23847019122609675,
-      "grad_norm": 0.8634079765155277,
-      "kl": 0.38037109375,
+      "grad_norm": 1.1312490111142588,
+      "kl": 0.412109375,
       "learning_rate": 1.88583071384556e-05,
-      "loss": 0.015,
-      "reward": 2.783277213573456,
-      "reward_std": 0.27950316295027733,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03746931627392769,
-      "rewards/tag_count_reward": 0.99609375,
+      "loss": 0.0986,
+      "reward": 2.053210973739624,
+      "reward_std": 0.7719367817044258,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/reasoning_steps_reward": 0.9201389104127884,
+      "rewards/repetition_penalty_reward": -0.18854257836937904,
+      "rewards/tag_count_reward": 0.821614608168602,
       "step": 159
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 159.5208396911621,
+      "completion_length": 534.4843826293945,
       "epoch": 0.2399700037495313,
-      "grad_norm": 0.9199485039081772,
-      "kl": 0.43212890625,
+      "grad_norm": 5.729314262683275,
+      "kl": 0.576171875,
       "learning_rate": 1.883384942524661e-05,
-      "loss": 0.0147,
-      "reward": 2.60649836063385,
-      "reward_std": 0.3520687147974968,
-      "rewards/accuracy_reward": 0.6822916865348816,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.03456068178638816,
-      "rewards/tag_count_reward": 0.9830729365348816,
+      "loss": 0.3881,
+      "reward": 1.6979016363620758,
+      "reward_std": 1.0777118504047394,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 0.8663194626569748,
+      "rewards/repetition_penalty_reward": -0.2621678523719311,
+      "rewards/tag_count_reward": 0.7604166716337204,
       "step": 160
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 157.79687881469727,
+      "completion_length": 646.6614837646484,
       "epoch": 0.24146981627296588,
-      "grad_norm": 0.9081570917337833,
-      "kl": 0.4970703125,
+      "grad_norm": 2.928392277669671,
+      "kl": 0.74658203125,
       "learning_rate": 1.880914871829092e-05,
-      "loss": 0.003,
-      "reward": 2.5711691975593567,
-      "reward_std": 0.3647758923470974,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.034733695443719625,
-      "rewards/tag_count_reward": 0.9791666716337204,
+      "loss": 0.2085,
+      "reward": 2.010637640953064,
+      "reward_std": 0.8601251840591431,
+      "rewards/accuracy_reward": 0.526041679084301,
+      "rewards/reasoning_steps_reward": 0.8993055820465088,
+      "rewards/repetition_penalty_reward": -0.1764284037053585,
+      "rewards/tag_count_reward": 0.7617187798023224,
       "step": 161
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 160.578125,
+      "completion_length": 804.2083587646484,
       "epoch": 0.24296962879640044,
-      "grad_norm": 0.7819084575897781,
-      "kl": 0.42578125,
+      "grad_norm": 1.389994708780378,
+      "kl": 0.5537109375,
       "learning_rate": 1.8784205697033803e-05,
-      "loss": 0.0206,
-      "reward": 2.7083481550216675,
-      "reward_std": 0.23164555057883263,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9913194477558136,
-      "rewards/repetition_penalty_reward": -0.04208600614219904,
-      "rewards/tag_count_reward": 0.98828125,
+      "loss": 0.0807,
+      "reward": 1.8883300125598907,
+      "reward_std": 0.7057935371994972,
+      "rewards/accuracy_reward": 0.4479166716337204,
+      "rewards/reasoning_steps_reward": 0.8576389253139496,
+      "rewards/repetition_penalty_reward": -0.09170474670827389,
+      "rewards/tag_count_reward": 0.6744791865348816,
       "step": 162
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 152.55208587646484,
+      "completion_length": 766.2187652587891,
       "epoch": 0.24446944131983503,
-      "grad_norm": 1.4454320643452467,
-      "kl": 1.4462890625,
+      "grad_norm": 5.926627814628075,
+      "kl": 0.48681640625,
       "learning_rate": 1.875902104758592e-05,
-      "loss": -0.0319,
-      "reward": 2.8053765892982483,
-      "reward_std": 0.314240001142025,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.028824928449466825,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.0925,
+      "reward": 2.008990705013275,
+      "reward_std": 0.7761075049638748,
+      "rewards/accuracy_reward": 0.5885416828095913,
+      "rewards/reasoning_steps_reward": 0.854166716337204,
+      "rewards/repetition_penalty_reward": -0.07304057851433754,
+      "rewards/tag_count_reward": 0.6393229365348816,
       "step": 163
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 141.1666717529297,
+      "completion_length": 725.9896087646484,
       "epoch": 0.2459692538432696,
-      "grad_norm": 16.262069244582136,
-      "kl": 6.43603515625,
+      "grad_norm": 3252.328387823972,
+      "kl": 6.70703125,
       "learning_rate": 1.873359546270442e-05,
-      "loss": 0.0621,
-      "reward": 2.3994747400283813,
-      "reward_std": 0.2881123125553131,
-      "rewards/accuracy_reward": 0.4583333358168602,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.02630652580410242,
-      "rewards/tag_count_reward": 0.9830729365348816,
+      "loss": 0.4991,
+      "reward": 1.9295026063919067,
+      "reward_std": 0.8431710749864578,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/reasoning_steps_reward": 0.8489583283662796,
+      "rewards/repetition_penalty_reward": -0.0731016006320715,
+      "rewards/tag_count_reward": 0.5703125298023224,
       "step": 164
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 152.3072967529297,
+      "completion_length": 711.4948120117188,
       "epoch": 0.24746906636670415,
-      "grad_norm": 29.040919544310924,
-      "kl": 5.2421875,
+      "grad_norm": 35.24975659123428,
+      "kl": 0.7900390625,
       "learning_rate": 1.8707929641773876e-05,
-      "loss": 0.2231,
-      "reward": 2.7308311462402344,
-      "reward_std": 0.3806469663977623,
-      "rewards/accuracy_reward": 0.8125000149011612,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.02481132885441184,
-      "rewards/tag_count_reward": 0.9726562649011612,
+      "loss": 0.2004,
+      "reward": 1.7060418128967285,
+      "reward_std": 0.8163315951824188,
+      "rewards/accuracy_reward": 0.36458334140479565,
+      "rewards/reasoning_steps_reward": 0.8437500447034836,
+      "rewards/repetition_penalty_reward": -0.06739573087543249,
+      "rewards/tag_count_reward": 0.5651041865348816,
       "step": 165
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 137.9166717529297,
+      "completion_length": 631.3385772705078,
       "epoch": 0.24896887889013875,
-      "grad_norm": 4.111363572085073,
-      "kl": 1.9384765625,
+      "grad_norm": 44.81319877908832,
+      "kl": 0.48486328125,
       "learning_rate": 1.8682024290787092e-05,
-      "loss": -0.0177,
-      "reward": 2.639627754688263,
-      "reward_std": 0.49519332498311996,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.022264669416472316,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.2422,
+      "reward": 1.8670725524425507,
+      "reward_std": 0.7701267302036285,
+      "rewards/accuracy_reward": 0.5000000149011612,
+      "rewards/reasoning_steps_reward": 0.8663195073604584,
+      "rewards/repetition_penalty_reward": -0.07086153514683247,
+      "rewards/tag_count_reward": 0.571614608168602,
       "step": 166
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 143.21875762939453,
+      "completion_length": 610.9791870117188,
       "epoch": 0.2504686914135733,
-      "grad_norm": 2.038792986981373,
-      "kl": 1.0732421875,
+      "grad_norm": 48.22852108204421,
+      "kl": 1.1845703125,
       "learning_rate": 1.8655880122325633e-05,
-      "loss": -0.0366,
-      "reward": 2.5853430032730103,
-      "reward_std": 0.3307228982448578,
-      "rewards/accuracy_reward": 0.6770833432674408,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.020993857644498348,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.2746,
+      "reward": 1.8831318020820618,
+      "reward_std": 0.737670287489891,
+      "rewards/accuracy_reward": 0.4895833432674408,
+      "rewards/reasoning_steps_reward": 0.8975694924592972,
+      "rewards/repetition_penalty_reward": -0.07042735442519188,
+      "rewards/tag_count_reward": 0.5664062798023224,
       "step": 167
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 137.98438262939453,
+      "completion_length": 637.8437805175781,
       "epoch": 0.25196850393700787,
-      "grad_norm": 1.1481401231898494,
-      "kl": 1.109375,
+      "grad_norm": 127.32727674691347,
+      "kl": 2.96484375,
       "learning_rate": 1.862949785554025e-05,
-      "loss": -0.0102,
-      "reward": 2.74522465467453,
-      "reward_std": 0.24203419662080705,
-      "rewards/accuracy_reward": 0.7864583432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.013021895661950111,
-      "rewards/tag_count_reward": 0.9856770932674408,
+      "loss": 0.4427,
+      "reward": 1.6282338500022888,
+      "reward_std": 0.8880203366279602,
+      "rewards/accuracy_reward": 0.4114583432674408,
+      "rewards/reasoning_steps_reward": 0.7916667014360428,
+      "rewards/repetition_penalty_reward": -0.05535993352532387,
+      "rewards/tag_count_reward": 0.4804687649011612,
       "step": 168
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 139.8385467529297,
+      "completion_length": 593.1562652587891,
       "epoch": 0.25346831646044243,
-      "grad_norm": 0.9880924032467467,
-      "kl": 0.47119140625,
+      "grad_norm": 66.6798484485283,
+      "kl": 2.54296875,
       "learning_rate": 1.8602878216131093e-05,
-      "loss": -0.0024,
-      "reward": 2.5487694144248962,
-      "reward_std": 0.3845925033092499,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.016334847081452608,
-      "rewards/tag_count_reward": 0.9765625,
+      "loss": 0.4588,
+      "reward": 1.8000280857086182,
+      "reward_std": 0.8398674130439758,
+      "rewards/accuracy_reward": 0.4739583432674408,
+      "rewards/reasoning_steps_reward": 0.8541666865348816,
+      "rewards/repetition_penalty_reward": -0.059346938505768776,
+      "rewards/tag_count_reward": 0.5312500149011612,
       "step": 169
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 144.5000057220459,
+      "completion_length": 600.9687652587891,
       "epoch": 0.254968128983877,
-      "grad_norm": 1.1326948326278583,
-      "kl": 0.64599609375,
+      "grad_norm": 1723.0756525306333,
+      "kl": 5.98046875,
       "learning_rate": 1.8576021936327747e-05,
-      "loss": -0.0373,
-      "reward": 2.54432612657547,
-      "reward_std": 0.4256473332643509,
-      "rewards/accuracy_reward": 0.598958358168602,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.016003758762963116,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.6964,
+      "reward": 1.6876211762428284,
+      "reward_std": 0.9227285087108612,
+      "rewards/accuracy_reward": 0.479166679084301,
+      "rewards/reasoning_steps_reward": 0.7777778059244156,
+      "rewards/repetition_penalty_reward": -0.04718789644539356,
+      "rewards/tag_count_reward": 0.4778645932674408,
       "step": 170
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 141.0885467529297,
+      "completion_length": 570.3333435058594,
       "epoch": 0.25646794150731156,
-      "grad_norm": 0.907847690585872,
-      "kl": 0.45703125,
+      "grad_norm": 1469.676229468339,
+      "kl": 11.125,
       "learning_rate": 1.8548929754869095e-05,
-      "loss": -0.036,
-      "reward": 2.566925883293152,
-      "reward_std": 0.34289751946926117,
-      "rewards/accuracy_reward": 0.619791679084301,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.022049905732274055,
-      "rewards/tag_count_reward": 0.9882812649011612,
+      "loss": 1.1501,
+      "reward": 1.6916078925132751,
+      "reward_std": 0.8378966599702835,
+      "rewards/accuracy_reward": 0.4687500149011612,
+      "rewards/reasoning_steps_reward": 0.7812500298023224,
+      "rewards/repetition_penalty_reward": -0.050579698756337166,
+      "rewards/tag_count_reward": 0.4921875149011612,
       "step": 171
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 145.02605056762695,
+      "completion_length": 634.5416870117188,
       "epoch": 0.2579677540307462,
-      "grad_norm": 4.163866220713108,
-      "kl": 1.8134765625,
+      "grad_norm": 308.20087481858275,
+      "kl": 15.05859375,
       "learning_rate": 1.8521602416982998e-05,
-      "loss": -0.0077,
-      "reward": 2.6473976969718933,
-      "reward_std": 0.26540281693451107,
-      "rewards/accuracy_reward": 0.7135416716337204,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.01926900539547205,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.8609,
+      "reward": 1.5223284363746643,
+      "reward_std": 0.8932169824838638,
+      "rewards/accuracy_reward": 0.3906250149011612,
+      "rewards/reasoning_steps_reward": 0.7343750149011612,
+      "rewards/repetition_penalty_reward": -0.044077920727431774,
+      "rewards/tag_count_reward": 0.4414062649011612,
       "step": 172
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 151.84896087646484,
+      "completion_length": 575.4375228881836,
       "epoch": 0.25946756655418074,
-      "grad_norm": 0.7222410832833253,
-      "kl": 0.3779296875,
+      "grad_norm": 27.514037083049207,
+      "kl": 1.0087890625,
       "learning_rate": 1.8494040674365785e-05,
-      "loss": -0.0015,
-      "reward": 2.90548974275589,
-      "reward_std": 0.15629624016582966,
-      "rewards/accuracy_reward": 0.9375000149011612,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.01812157710082829,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "loss": 0.4806,
+      "reward": 1.7090361416339874,
+      "reward_std": 0.9580790549516678,
+      "rewards/accuracy_reward": 0.5000000223517418,
+      "rewards/reasoning_steps_reward": 0.7500000298023224,
+      "rewards/repetition_penalty_reward": -0.03966184053570032,
+      "rewards/tag_count_reward": 0.4986979365348816,
       "step": 173
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 167.0052146911621,
+      "completion_length": 540.9948043823242,
       "epoch": 0.2609673790776153,
-      "grad_norm": 0.7895271947524055,
-      "kl": 0.3896484375,
+      "grad_norm": 24.242426884849852,
+      "kl": 0.8251953125,
       "learning_rate": 1.8466245285161593e-05,
-      "loss": -0.0036,
-      "reward": 2.6482080221176147,
-      "reward_std": 0.2084397617727518,
-      "rewards/accuracy_reward": 0.6822916865348816,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.02236495795659721,
-      "rewards/tag_count_reward": 0.9934895932674408,
+      "loss": 0.4027,
+      "reward": 1.7482682466506958,
+      "reward_std": 0.8416074514389038,
+      "rewards/accuracy_reward": 0.4270833432674408,
+      "rewards/reasoning_steps_reward": 0.8246528506278992,
+      "rewards/repetition_penalty_reward": -0.04773869924247265,
+      "rewards/tag_count_reward": 0.544270858168602,
       "step": 174
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 174.53125762939453,
+      "completion_length": 527.1041717529297,
       "epoch": 0.26246719160104987,
-      "grad_norm": 0.8431262926543861,
-      "kl": 0.537109375,
+      "grad_norm": 13.61888783625401,
+      "kl": 1.12109375,
       "learning_rate": 1.8438217013941494e-05,
-      "loss": -0.0388,
-      "reward": 2.708277404308319,
-      "reward_std": 0.4050016924738884,
-      "rewards/accuracy_reward": 0.7812500149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.03130600415170193,
-      "rewards/tag_count_reward": 0.9791666716337204,
+      "loss": 0.4855,
+      "reward": 1.8302274644374847,
+      "reward_std": 0.9374262690544128,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.8263889253139496,
+      "rewards/repetition_penalty_reward": -0.05215102527290583,
+      "rewards/tag_count_reward": 0.618489608168602,
       "step": 175
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 179.11979293823242,
+      "completion_length": 509.71356201171875,
       "epoch": 0.26396700412448443,
-      "grad_norm": 0.8034495401351996,
-      "kl": 0.494140625,
+      "grad_norm": 9.502433027265221,
+      "kl": 0.9228515625,
       "learning_rate": 1.8409956631682475e-05,
-      "loss": -0.0131,
-      "reward": 2.5661210417747498,
-      "reward_std": 0.3050253167748451,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.023722857236862183,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.5068,
+      "reward": 1.8384932577610016,
+      "reward_std": 0.9605595469474792,
+      "rewards/accuracy_reward": 0.4270833507180214,
+      "rewards/reasoning_steps_reward": 0.80555559694767,
+      "rewards/repetition_penalty_reward": -0.03607274405658245,
+      "rewards/tag_count_reward": 0.641927108168602,
       "step": 176
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 201.26562881469727,
+      "completion_length": 542.1718902587891,
       "epoch": 0.265466816647919,
-      "grad_norm": 0.9139688015624915,
-      "kl": 0.6591796875,
+      "grad_norm": 12.713070926311392,
+      "kl": 1.177734375,
       "learning_rate": 1.838146491574624e-05,
-      "loss": -0.0279,
-      "reward": 2.6243019104003906,
-      "reward_std": 0.411740280687809,
-      "rewards/accuracy_reward": 0.6979166865348816,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.024569710716605186,
-      "rewards/tag_count_reward": 0.9752604216337204,
+      "loss": 0.5857,
+      "reward": 1.5894387364387512,
+      "reward_std": 1.0209160447120667,
+      "rewards/accuracy_reward": 0.4114583507180214,
+      "rewards/reasoning_steps_reward": 0.6440972313284874,
+      "rewards/repetition_penalty_reward": -0.02991898776963353,
+      "rewards/tag_count_reward": 0.5638020932674408,
       "step": 177
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.03125762939453,
+      "completion_length": 547.8333435058594,
       "epoch": 0.26696662917135355,
-      "grad_norm": 0.7129835639250315,
-      "kl": 0.44970703125,
+      "grad_norm": 16.206516622301223,
+      "kl": 1.232421875,
       "learning_rate": 1.83527426498578e-05,
-      "loss": 0.0649,
-      "reward": 2.529602825641632,
-      "reward_std": 0.2042294256389141,
-      "rewards/accuracy_reward": 0.5677083395421505,
-      "rewards/reasoning_steps_reward": 0.9965277910232544,
-      "rewards/repetition_penalty_reward": -0.030727183911949396,
-      "rewards/tag_count_reward": 0.9960937649011612,
+      "loss": 0.6041,
+      "reward": 1.6392149925231934,
+      "reward_std": 1.0323166698217392,
+      "rewards/accuracy_reward": 0.3281250037252903,
+      "rewards/reasoning_steps_reward": 0.756944477558136,
+      "rewards/repetition_penalty_reward": -0.03830242808908224,
+      "rewards/tag_count_reward": 0.5924479365348816,
       "step": 178
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.640625,
+      "completion_length": 536.1562805175781,
       "epoch": 0.26846644169478817,
-      "grad_norm": 1.3351814365191201,
-      "kl": 1.0810546875,
+      "grad_norm": 129.17932118885184,
+      "kl": 3.412109375,
       "learning_rate": 1.832379062408394e-05,
-      "loss": -0.035,
-      "reward": 2.6204107999801636,
-      "reward_std": 0.32189762964844704,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.031064926646649837,
-      "rewards/tag_count_reward": 0.9674479365348816,
+      "loss": 0.7632,
+      "reward": 1.5638504028320312,
+      "reward_std": 0.9709765613079071,
+      "rewards/accuracy_reward": 0.3229166716337204,
+      "rewards/reasoning_steps_reward": 0.6875000298023224,
+      "rewards/repetition_penalty_reward": -0.03120174235664308,
+      "rewards/tag_count_reward": 0.5846354216337204,
       "step": 179
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.95833587646484,
+      "completion_length": 536.7291870117188,
       "epoch": 0.26996625421822273,
-      "grad_norm": 0.6416068587211241,
-      "kl": 0.63525390625,
+      "grad_norm": 60.94992386504032,
+      "kl": 1.783203125,
       "learning_rate": 1.8294609634811482e-05,
-      "loss": -0.0238,
-      "reward": 2.7204131484031677,
-      "reward_std": 0.26637247391045094,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.02785079344175756,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.6702,
+      "reward": 1.7184252440929413,
+      "reward_std": 1.1222001910209656,
+      "rewards/accuracy_reward": 0.4687500223517418,
+      "rewards/reasoning_steps_reward": 0.671875,
+      "rewards/repetition_penalty_reward": -0.02636647690087557,
+      "rewards/tag_count_reward": 0.6041666716337204,
       "step": 180
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.32812881469727,
+      "completion_length": 488.0625228881836,
       "epoch": 0.2714660667416573,
-      "grad_norm": 13.370041013613847,
-      "kl": 2.455078125,
+      "grad_norm": 597.8726346831836,
+      "kl": 4.18359375,
       "learning_rate": 1.8265200484725364e-05,
-      "loss": -0.0158,
-      "reward": 2.6316198110580444,
-      "reward_std": 0.4319092929363251,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.9687500298023224,
-      "rewards/repetition_penalty_reward": -0.031140658538788557,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": 0.882,
+      "reward": 1.7504200041294098,
+      "reward_std": 1.0297911912202835,
+      "rewards/accuracy_reward": 0.4270833507180214,
+      "rewards/reasoning_steps_reward": 0.7291666865348816,
+      "rewards/repetition_penalty_reward": -0.03213207516819239,
+      "rewards/tag_count_reward": 0.626302108168602,
       "step": 181
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.8541717529297,
+      "completion_length": 577.8541870117188,
       "epoch": 0.27296587926509186,
-      "grad_norm": 6.890078416473243,
-      "kl": 4.005859375,
+      "grad_norm": 289.5259006408696,
+      "kl": 3.12109375,
       "learning_rate": 1.823556398278657e-05,
-      "loss": -0.0641,
-      "reward": 2.506425619125366,
-      "reward_std": 0.6498684138059616,
-      "rewards/accuracy_reward": 0.6614583432674408,
-      "rewards/reasoning_steps_reward": 0.9340277761220932,
-      "rewards/repetition_penalty_reward": -0.026560600381344557,
-      "rewards/tag_count_reward": 0.9375000149011612,
+      "loss": 0.7697,
+      "reward": 1.4063380062580109,
+      "reward_std": 1.146880030632019,
+      "rewards/accuracy_reward": 0.3437500037252903,
+      "rewards/reasoning_steps_reward": 0.5381944701075554,
+      "rewards/repetition_penalty_reward": -0.027689829003065825,
+      "rewards/tag_count_reward": 0.5520833507180214,
       "step": 182
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.7083396911621,
+      "completion_length": 544.1302337646484,
       "epoch": 0.2744656917885264,
-      "grad_norm": 0.8460594296171978,
-      "kl": 0.955078125,
+      "grad_norm": 18278.821342314448,
+      "kl": 62.75,
       "learning_rate": 1.820570094420989e-05,
-      "loss": -0.0508,
-      "reward": 2.5241443514823914,
-      "reward_std": 0.5859170779585838,
-      "rewards/accuracy_reward": 0.6458333507180214,
-      "rewards/reasoning_steps_reward": 0.9565972536802292,
-      "rewards/repetition_penalty_reward": -0.026202970184385777,
-      "rewards/tag_count_reward": 0.9479167014360428,
+      "loss": 5.0174,
+      "reward": 1.5145381093025208,
+      "reward_std": 1.0834265649318695,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/reasoning_steps_reward": 0.6649305820465088,
+      "rewards/repetition_penalty_reward": -0.03320494340732694,
+      "rewards/tag_count_reward": 0.5494791865348816,
       "step": 183
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.98438262939453,
+      "completion_length": 528.7239761352539,
       "epoch": 0.275965504311961,
-      "grad_norm": 2.8022393456487182,
-      "kl": 3.2421875,
+      "grad_norm": 115.68017983054848,
+      "kl": 2.783203125,
       "learning_rate": 1.817561219044148e-05,
-      "loss": -0.1265,
-      "reward": 2.574957013130188,
-      "reward_std": 0.7494899779558182,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.91493059694767,
-      "rewards/repetition_penalty_reward": -0.030077794566750526,
-      "rewards/tag_count_reward": 0.9192708432674408,
+      "loss": 0.7618,
+      "reward": 1.561537265777588,
+      "reward_std": 1.062522441148758,
+      "rewards/accuracy_reward": 0.3489583469927311,
+      "rewards/reasoning_steps_reward": 0.6597222089767456,
+      "rewards/repetition_penalty_reward": -0.033080867026001215,
+      "rewards/tag_count_reward": 0.5859375149011612,
       "step": 184
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.43750381469727,
+      "completion_length": 552.9062652587891,
       "epoch": 0.27746531683539555,
-      "grad_norm": 1.6154380778220612,
-      "kl": 1.8671875,
+      "grad_norm": 185.26777317096048,
+      "kl": 14.705078125,
       "learning_rate": 1.814529854913626e-05,
-      "loss": -0.1303,
-      "reward": 2.467576324939728,
-      "reward_std": 0.7319738119840622,
-      "rewards/accuracy_reward": 0.661458358168602,
-      "rewards/reasoning_steps_reward": 0.9184027910232544,
-      "rewards/repetition_penalty_reward": -0.027649471536278725,
-      "rewards/tag_count_reward": 0.9153645932674408,
+      "loss": 0.8482,
+      "reward": 1.5542615354061127,
+      "reward_std": 1.0569299161434174,
+      "rewards/accuracy_reward": 0.3281250074505806,
+      "rewards/reasoning_steps_reward": 0.6510417014360428,
+      "rewards/repetition_penalty_reward": -0.03297804016619921,
+      "rewards/tag_count_reward": 0.6080729365348816,
       "step": 185
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.0989646911621,
+      "completion_length": 569.4687805175781,
       "epoch": 0.27896512935883017,
-      "grad_norm": 11.447938130338011,
-      "kl": 5.7109375,
+      "grad_norm": 711.4722614182526,
+      "kl": 4.55859375,
       "learning_rate": 1.8114760854135168e-05,
-      "loss": -0.0203,
-      "reward": 2.524846374988556,
-      "reward_std": 0.6509635746479034,
-      "rewards/accuracy_reward": 0.7031250149011612,
-      "rewards/reasoning_steps_reward": 0.9392361640930176,
-      "rewards/repetition_penalty_reward": -0.025066897738724947,
-      "rewards/tag_count_reward": 0.9075520932674408,
+      "loss": 0.8749,
+      "reward": 1.4769874811172485,
+      "reward_std": 1.1705779433250427,
+      "rewards/accuracy_reward": 0.3489583469927311,
+      "rewards/reasoning_steps_reward": 0.605902835726738,
+      "rewards/repetition_penalty_reward": -0.024748651776462793,
+      "rewards/tag_count_reward": 0.5468750298023224,
       "step": 186
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 190.2239646911621,
+      "completion_length": 580.2656402587891,
       "epoch": 0.28046494188226473,
-      "grad_norm": 1.2909186023075674,
-      "kl": 2.044921875,
+      "grad_norm": 3683.741373123422,
+      "kl": 6.32421875,
       "learning_rate": 1.808399994544222e-05,
-      "loss": -0.163,
-      "reward": 2.393586277961731,
-      "reward_std": 0.7894448935985565,
-      "rewards/accuracy_reward": 0.6770833507180214,
-      "rewards/reasoning_steps_reward": 0.8593750298023224,
-      "rewards/repetition_penalty_reward": -0.01917426590807736,
-      "rewards/tag_count_reward": 0.8763021230697632,
+      "loss": 0.9344,
+      "reward": 1.4767035245895386,
+      "reward_std": 1.1781282722949982,
+      "rewards/accuracy_reward": 0.3645833432674408,
+      "rewards/reasoning_steps_reward": 0.5954861342906952,
+      "rewards/repetition_penalty_reward": -0.02503264555707574,
+      "rewards/tag_count_reward": 0.5416666939854622,
       "step": 187
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.42708587646484,
+      "completion_length": 512.8333511352539,
       "epoch": 0.2819647544056993,
-      "grad_norm": 1.5283509521120155,
-      "kl": 1.4580078125,
+      "grad_norm": 231.95111964687146,
+      "kl": 160.20703125,
       "learning_rate": 1.805301666920138e-05,
-      "loss": -0.0956,
-      "reward": 2.425880491733551,
-      "reward_std": 0.6612659990787506,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9236111491918564,
-      "rewards/repetition_penalty_reward": -0.027678666170686483,
-      "rewards/tag_count_reward": 0.9049479514360428,
+      "loss": 0.9703,
+      "reward": 1.5358233749866486,
+      "reward_std": 1.097620114684105,
+      "rewards/accuracy_reward": 0.3125000074505806,
+      "rewards/reasoning_steps_reward": 0.6510417014360428,
+      "rewards/repetition_penalty_reward": -0.03318707179278135,
+      "rewards/tag_count_reward": 0.6054687798023224,
       "step": 188
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.4895896911621,
+      "completion_length": 532.8073120117188,
       "epoch": 0.28346456692913385,
-      "grad_norm": 0.7866126552096253,
-      "kl": 0.4970703125,
+      "grad_norm": 392.6089381205205,
+      "kl": 4.78515625,
       "learning_rate": 1.802181187767332e-05,
-      "loss": -0.05,
-      "reward": 2.5987101793289185,
-      "reward_std": 0.4513225108385086,
-      "rewards/accuracy_reward": 0.697916679084301,
-      "rewards/reasoning_steps_reward": 0.973958358168602,
-      "rewards/repetition_penalty_reward": -0.03410231741145253,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.8115,
+      "reward": 1.4347640872001648,
+      "reward_std": 1.0974180102348328,
+      "rewards/accuracy_reward": 0.291666679084301,
+      "rewards/reasoning_steps_reward": 0.6093750298023224,
+      "rewards/repetition_penalty_reward": -0.028777593281120062,
+      "rewards/tag_count_reward": 0.5625000149011612,
       "step": 189
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.44271087646484,
+      "completion_length": 590.7552185058594,
       "epoch": 0.2849643794525684,
-      "grad_norm": 1.8848248356549524,
-      "kl": 0.82763671875,
+      "grad_norm": 230.8284538739948,
+      "kl": 13.0234375,
       "learning_rate": 1.7990386429211945e-05,
-      "loss": 0.0075,
-      "reward": 2.6982374787330627,
-      "reward_std": 0.35126618295907974,
-      "rewards/accuracy_reward": 0.7760416865348816,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.02789103239774704,
-      "rewards/tag_count_reward": 0.9726562798023224,
+      "loss": 1.0111,
+      "reward": 1.3888815939426422,
+      "reward_std": 1.1380842924118042,
+      "rewards/accuracy_reward": 0.2968750074505806,
+      "rewards/reasoning_steps_reward": 0.5781250298023224,
+      "rewards/repetition_penalty_reward": -0.02518094959668815,
+      "rewards/tag_count_reward": 0.5390625149011612,
       "step": 190
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 207.36980056762695,
+      "completion_length": 523.4375076293945,
       "epoch": 0.286464191976003,
-      "grad_norm": 0.709217032508712,
-      "kl": 0.396484375,
+      "grad_norm": 198.59410394134304,
+      "kl": 2.521484375,
       "learning_rate": 1.7958741188240808e-05,
-      "loss": 0.003,
-      "reward": 2.6602558493614197,
-      "reward_std": 0.3209294006228447,
-      "rewards/accuracy_reward": 0.7135416865348816,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.03635886125266552,
-      "rewards/tag_count_reward": 0.9882812649011612,
+      "loss": 0.763,
+      "reward": 1.4029823541641235,
+      "reward_std": 1.0676278173923492,
+      "rewards/accuracy_reward": 0.2864583469927311,
+      "rewards/reasoning_steps_reward": 0.5659722536802292,
+      "rewards/repetition_penalty_reward": -0.030177415814250708,
+      "rewards/tag_count_reward": 0.5807291865348816,
       "step": 191
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.33855056762695,
+      "completion_length": 533.6666793823242,
       "epoch": 0.2879640044994376,
-      "grad_norm": 0.690421758006153,
-      "kl": 0.44775390625,
+      "grad_norm": 711.4562338474254,
+      "kl": 26.0546875,
       "learning_rate": 1.7926877025229313e-05,
-      "loss": 0.0006,
-      "reward": 2.72603303194046,
-      "reward_std": 0.37794774770736694,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.03481765231117606,
-      "rewards/tag_count_reward": 0.9778645932674408,
+      "loss": 1.868,
+      "reward": 1.5179384350776672,
+      "reward_std": 1.1407716572284698,
+      "rewards/accuracy_reward": 0.3437500074505806,
+      "rewards/reasoning_steps_reward": 0.6128472536802292,
+      "rewards/repetition_penalty_reward": -0.02720050560310483,
+      "rewards/tag_count_reward": 0.5885416865348816,
       "step": 192
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 209.93750381469727,
+      "completion_length": 532.0208511352539,
       "epoch": 0.28946381702287216,
-      "grad_norm": 0.6642189099853063,
-      "kl": 0.52783203125,
+      "grad_norm": 68.3445984974822,
+      "kl": 1.984375,
       "learning_rate": 1.789479481666878e-05,
-      "loss": 0.0102,
-      "reward": 2.6431049704551697,
-      "reward_std": 0.30012810230255127,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.03528041858226061,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.7144,
+      "reward": 1.4272576868534088,
+      "reward_std": 1.1221881210803986,
+      "rewards/accuracy_reward": 0.2916666753590107,
+      "rewards/reasoning_steps_reward": 0.5798611342906952,
+      "rewards/repetition_penalty_reward": -0.021093112416565418,
+      "rewards/tag_count_reward": 0.5768229216337204,
       "step": 193
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 194.14063262939453,
+      "completion_length": 591.0364761352539,
       "epoch": 0.2909636295463067,
-      "grad_norm": 3.7403729265839174,
-      "kl": 1.55224609375,
+      "grad_norm": 50.22604651230194,
+      "kl": 2.06640625,
       "learning_rate": 1.786249544504834e-05,
-      "loss": -0.0579,
-      "reward": 2.4264142513275146,
-      "reward_std": 0.48074235022068024,
-      "rewards/accuracy_reward": 0.5104166865348816,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.03973169345408678,
-      "rewards/tag_count_reward": 0.9713542014360428,
+      "loss": 0.6381,
+      "reward": 1.2664842307567596,
+      "reward_std": 1.0500086545944214,
+      "rewards/accuracy_reward": 0.24479167722165585,
+      "rewards/reasoning_steps_reward": 0.5451388955116272,
+      "rewards/repetition_penalty_reward": -0.024748508352786303,
+      "rewards/tag_count_reward": 0.5013020932674408,
       "step": 194
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 199.9322967529297,
+      "completion_length": 491.8958435058594,
       "epoch": 0.2924634420697413,
-      "grad_norm": 5.690002700824813,
-      "kl": 16.08984375,
+      "grad_norm": 133.86316178041838,
+      "kl": 3.8955078125,
       "learning_rate": 1.7829979798830646e-05,
-      "loss": -0.0034,
-      "reward": 2.7136351466178894,
-      "reward_std": 0.36977453902363777,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.03766712639480829,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.7041,
+      "reward": 1.6353325545787811,
+      "reward_std": 1.0081156641244888,
+      "rewards/accuracy_reward": 0.3750000074505806,
+      "rewards/reasoning_steps_reward": 0.6684028208255768,
+      "rewards/repetition_penalty_reward": -0.039580670185387135,
+      "rewards/tag_count_reward": 0.631510429084301,
       "step": 195
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 185.40104293823242,
+      "completion_length": 519.8072967529297,
       "epoch": 0.29396325459317585,
-      "grad_norm": 1.0626617195260077,
-      "kl": 2.44140625,
+      "grad_norm": 44.76317495895618,
+      "kl": 3.6826171875,
       "learning_rate": 1.779724877242745e-05,
-      "loss": -0.0171,
-      "reward": 2.54072505235672,
-      "reward_std": 0.3664104826748371,
-      "rewards/accuracy_reward": 0.6406250149011612,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.046948717907071114,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.6891,
+      "reward": 1.4282979369163513,
+      "reward_std": 1.150389850139618,
+      "rewards/accuracy_reward": 0.2968750111758709,
+      "rewards/reasoning_steps_reward": 0.5972222685813904,
+      "rewards/repetition_penalty_reward": -0.051736912690103054,
+      "rewards/tag_count_reward": 0.5859375149011612,
       "step": 196
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.1822967529297,
+      "completion_length": 498.42708587646484,
       "epoch": 0.2954630671166104,
-      "grad_norm": 2.4457099387311376,
-      "kl": 4.498046875,
+      "grad_norm": 48.296982691961496,
+      "kl": 0.994140625,
       "learning_rate": 1.776430326617498e-05,
-      "loss": 0.0135,
-      "reward": 2.7412848472595215,
-      "reward_std": 0.20034414064139128,
-      "rewards/accuracy_reward": 0.796875,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.039965324103832245,
-      "rewards/tag_count_reward": 0.989583358168602,
+      "loss": 0.6805,
+      "reward": 1.6272485554218292,
+      "reward_std": 1.1874802112579346,
+      "rewards/accuracy_reward": 0.4166666716337204,
+      "rewards/reasoning_steps_reward": 0.6458333432674408,
+      "rewards/repetition_penalty_reward": -0.07327230088412762,
+      "rewards/tag_count_reward": 0.6380208432674408,
       "step": 197
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 199.6354217529297,
+      "completion_length": 516.9583435058594,
       "epoch": 0.296962879640045,
-      "grad_norm": 0.7391409818658768,
-      "kl": 0.830078125,
+      "grad_norm": 70.18509930572817,
+      "kl": 2.08203125,
       "learning_rate": 1.77311441863092e-05,
-      "loss": -0.053,
-      "reward": 2.715912103652954,
-      "reward_std": 0.4153308942914009,
-      "rewards/accuracy_reward": 0.8125000149011612,
-      "rewards/reasoning_steps_reward": 0.982638880610466,
-      "rewards/repetition_penalty_reward": -0.04927895776927471,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.7866,
+      "reward": 1.406771183013916,
+      "reward_std": 1.206770658493042,
+      "rewards/accuracy_reward": 0.3229166716337204,
+      "rewards/reasoning_steps_reward": 0.5833333730697632,
+      "rewards/repetition_penalty_reward": -0.0867184977978468,
+      "rewards/tag_count_reward": 0.587239608168602,
       "step": 198
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 185.04687881469727,
+      "completion_length": 543.0312652587891,
       "epoch": 0.2984626921634796,
-      "grad_norm": 0.7197244320446806,
-      "kl": 0.33837890625,
+      "grad_norm": 45.26003893019006,
+      "kl": 1.7421875,
       "learning_rate": 1.769777244494086e-05,
-      "loss": 0.0279,
-      "reward": 2.6263469457626343,
-      "reward_std": 0.35684073716402054,
-      "rewards/accuracy_reward": 0.6927083432674408,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.042055959813296795,
-      "rewards/tag_count_reward": 0.984375,
+      "loss": 0.6958,
+      "reward": 1.30002062022686,
+      "reward_std": 1.114796221256256,
+      "rewards/accuracy_reward": 0.2447916753590107,
+      "rewards/reasoning_steps_reward": 0.569444477558136,
+      "rewards/repetition_penalty_reward": -0.08583013713359833,
+      "rewards/tag_count_reward": 0.5716145932674408,
       "step": 199
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.06250762939453,
+      "completion_length": 517.4166793823242,
       "epoch": 0.29996250468691416,
-      "grad_norm": 0.7272305025229391,
-      "kl": 0.3505859375,
+      "grad_norm": 29.376902334980826,
+      "kl": 1.3662109375,
       "learning_rate": 1.7664188960030422e-05,
-      "loss": 0.0127,
-      "reward": 2.607051908969879,
-      "reward_std": 0.35574449226260185,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555671453476,
-      "rewards/repetition_penalty_reward": -0.03313909750431776,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.6637,
+      "reward": 1.3883242011070251,
+      "reward_std": 1.100932002067566,
+      "rewards/accuracy_reward": 0.2552083432674408,
+      "rewards/reasoning_steps_reward": 0.5937500149011612,
+      "rewards/repetition_penalty_reward": -0.04136331286281347,
+      "rewards/tag_count_reward": 0.5807291865348816,
       "step": 200
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 172.6354217529297,
+      "completion_length": 550.4062652587891,
       "epoch": 0.3014623172103487,
-      "grad_norm": 1.8628860952936386,
-      "kl": 0.56298828125,
+      "grad_norm": 17.485691153105112,
+      "kl": 1.34765625,
       "learning_rate": 1.7630394655362798e-05,
-      "loss": -0.0152,
-      "reward": 2.3712204694747925,
-      "reward_std": 0.8324102908372879,
-      "rewards/accuracy_reward": 0.6302083432674408,
-      "rewards/reasoning_steps_reward": 0.9062500596046448,
-      "rewards/repetition_penalty_reward": -0.035029674880206585,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "loss": 0.6612,
+      "reward": 1.3975980877876282,
+      "reward_std": 1.0539609044790268,
+      "rewards/accuracy_reward": 0.322916679084301,
+      "rewards/reasoning_steps_reward": 0.5434028059244156,
+      "rewards/repetition_penalty_reward": -0.031221389304846525,
+      "rewards/tag_count_reward": 0.5625000149011612,
       "step": 201
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 163.6354217529297,
+      "completion_length": 527.9635543823242,
       "epoch": 0.3029621297337833,
-      "grad_norm": 1.0953361912511788,
-      "kl": 0.48681640625,
+      "grad_norm": 90.79232868194525,
+      "kl": 1.744140625,
       "learning_rate": 1.7596390460521946e-05,
-      "loss": -0.0349,
-      "reward": 2.3163662552833557,
-      "reward_std": 0.572496585547924,
-      "rewards/accuracy_reward": 0.463541679084301,
-      "rewards/reasoning_steps_reward": 0.9496527910232544,
-      "rewards/repetition_penalty_reward": -0.025213704211637378,
-      "rewards/tag_count_reward": 0.9283854365348816,
+      "loss": 0.7488,
+      "reward": 1.4379164278507233,
+      "reward_std": 1.1352272033691406,
+      "rewards/accuracy_reward": 0.3020833432674408,
+      "rewards/reasoning_steps_reward": 0.5781250149011612,
+      "rewards/repetition_penalty_reward": -0.025625293143093586,
+      "rewards/tag_count_reward": 0.5833333432674408,
       "step": 202
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 153.9427146911621,
+      "completion_length": 531.1771087646484,
       "epoch": 0.30446194225721784,
-      "grad_norm": 1.9105972336877117,
-      "kl": 0.41455078125,
+      "grad_norm": 7199.74671681739,
+      "kl": 48.05078125,
       "learning_rate": 1.7562177310865296e-05,
-      "loss": 0.1019,
-      "reward": 2.7670071125030518,
-      "reward_std": 0.4459151364862919,
-      "rewards/accuracy_reward": 0.8593750298023224,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.021621438674628735,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 4.0565,
+      "reward": 1.4444026350975037,
+      "reward_std": 1.1348033249378204,
+      "rewards/accuracy_reward": 0.3072916716337204,
+      "rewards/reasoning_steps_reward": 0.57118059694767,
+      "rewards/repetition_penalty_reward": -0.033027936704456806,
+      "rewards/tag_count_reward": 0.598958358168602,
       "step": 203
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 147.7395896911621,
+      "completion_length": 506.8073043823242,
       "epoch": 0.3059617547806524,
-      "grad_norm": 1.1424371878407156,
-      "kl": 0.4150390625,
+      "grad_norm": 1098.2572442297885,
+      "kl": 54.375,
       "learning_rate": 1.7527756147498026e-05,
-      "loss": 0.007,
-      "reward": 2.516347885131836,
-      "reward_std": 0.38063713908195496,
-      "rewards/accuracy_reward": 0.609375,
-      "rewards/reasoning_steps_reward": 0.9687500447034836,
-      "rewards/repetition_penalty_reward": -0.024016746319830418,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 4.475,
+      "reward": 1.5475478768348694,
+      "reward_std": 1.118485450744629,
+      "rewards/accuracy_reward": 0.3645833432674408,
+      "rewards/reasoning_steps_reward": 0.6041667014360428,
+      "rewards/repetition_penalty_reward": -0.03187928069382906,
+      "rewards/tag_count_reward": 0.6106770932674408,
       "step": 204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 142.0208396911621,
+      "completion_length": 506.47396087646484,
       "epoch": 0.30746156730408697,
-      "grad_norm": 0.8745105132943645,
-      "kl": 0.33447265625,
+      "grad_norm": 257.4360594846129,
+      "kl": 16.2890625,
       "learning_rate": 1.7493127917247168e-05,
-      "loss": 0.017,
-      "reward": 2.7387551069259644,
-      "reward_std": 0.25662550423294306,
-      "rewards/accuracy_reward": 0.8020833432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.022095664869993925,
-      "rewards/tag_count_reward": 0.9726562649011612,
+      "loss": 1.7909,
+      "reward": 1.476582944393158,
+      "reward_std": 1.1201183497905731,
+      "rewards/accuracy_reward": 0.3125000074505806,
+      "rewards/reasoning_steps_reward": 0.60243059694767,
+      "rewards/repetition_penalty_reward": -0.0255872611887753,
+      "rewards/tag_count_reward": 0.587239608168602,
       "step": 205
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 144.41667556762695,
+      "completion_length": 474.36981201171875,
       "epoch": 0.3089613798275216,
-      "grad_norm": 0.841666968800414,
-      "kl": 0.3515625,
+      "grad_norm": 82.09981426436468,
+      "kl": 20.0625,
       "learning_rate": 1.7458293572635573e-05,
-      "loss": -0.0625,
-      "reward": 2.5762619972229004,
-      "reward_std": 0.39808357134461403,
-      "rewards/accuracy_reward": 0.6406250149011612,
-      "rewards/reasoning_steps_reward": 0.9861111044883728,
-      "rewards/repetition_penalty_reward": -0.025734632275998592,
-      "rewards/tag_count_reward": 0.9752604216337204,
+      "loss": 0.7928,
+      "reward": 1.5302923321723938,
+      "reward_std": 1.1175011098384857,
+      "rewards/accuracy_reward": 0.3177083432674408,
+      "rewards/reasoning_steps_reward": 0.625,
+      "rewards/repetition_penalty_reward": -0.03741603484377265,
+      "rewards/tag_count_reward": 0.6250000149011612,
       "step": 206
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 145.5989646911621,
+      "completion_length": 488.75000762939453,
       "epoch": 0.31046119235095615,
-      "grad_norm": 0.8971484142091678,
-      "kl": 0.4033203125,
+      "grad_norm": 96.44909255545524,
+      "kl": 2.359375,
       "learning_rate": 1.7423254071855696e-05,
-      "loss": 0.0317,
-      "reward": 2.6069366335868835,
-      "reward_std": 0.4525081217288971,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.020233482588082552,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.7126,
+      "reward": 1.6391958892345428,
+      "reward_std": 1.2212097346782684,
+      "rewards/accuracy_reward": 0.4375000074505806,
+      "rewards/reasoning_steps_reward": 0.6250000298023224,
+      "rewards/repetition_penalty_reward": -0.0313770417124033,
+      "rewards/tag_count_reward": 0.6080729365348816,
       "step": 207
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 136.8541717529297,
+      "completion_length": 434.65626525878906,
       "epoch": 0.3119610048743907,
-      "grad_norm": 0.7957437127746465,
-      "kl": 0.4130859375,
+      "grad_norm": 120.67164118704962,
+      "kl": 24.044921875,
       "learning_rate": 1.7388010378743255e-05,
-      "loss": -0.0478,
-      "reward": 2.5852027535438538,
-      "reward_std": 0.3762405589222908,
-      "rewards/accuracy_reward": 0.6614583432674408,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.015057688346132636,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.8024,
+      "reward": 1.6531369984149933,
+      "reward_std": 1.085878610610962,
+      "rewards/accuracy_reward": 0.3750000074505806,
+      "rewards/reasoning_steps_reward": 0.6770833432674408,
+      "rewards/repetition_penalty_reward": -0.03696717880666256,
+      "rewards/tag_count_reward": 0.638020858168602,
       "step": 208
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 141.765625,
+      "completion_length": 416.17189025878906,
       "epoch": 0.3134608173978253,
-      "grad_norm": 0.7389331807682286,
-      "kl": 0.45556640625,
+      "grad_norm": 106.78168334463734,
+      "kl": 3.224609375,
       "learning_rate": 1.735256346275071e-05,
-      "loss": -0.0314,
-      "reward": 2.709416389465332,
-      "reward_std": 0.4428819492459297,
-      "rewards/accuracy_reward": 0.7968750298023224,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.022788605885580182,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.8412,
+      "reward": 1.7143349051475525,
+      "reward_std": 1.07014599442482,
+      "rewards/accuracy_reward": 0.3958333507180214,
+      "rewards/reasoning_steps_reward": 0.677083358168602,
+      "rewards/repetition_penalty_reward": -0.029154742136597633,
+      "rewards/tag_count_reward": 0.6705729365348816,
       "step": 209
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 144.4114646911621,
+      "completion_length": 448.38021087646484,
       "epoch": 0.31496062992125984,
-      "grad_norm": 0.8326796660055926,
-      "kl": 0.36376953125,
+      "grad_norm": 133.47773562969348,
+      "kl": 3.859375,
       "learning_rate": 1.7316914298920592e-05,
-      "loss": -0.0442,
-      "reward": 2.6346763372421265,
-      "reward_std": 0.4088163301348686,
-      "rewards/accuracy_reward": 0.6979167014360428,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.01853547664359212,
-      "rewards/tag_count_reward": 0.9830729216337204,
+      "loss": 0.983,
+      "reward": 1.591974526643753,
+      "reward_std": 1.1013777256011963,
+      "rewards/accuracy_reward": 0.354166679084301,
+      "rewards/reasoning_steps_reward": 0.63368059694767,
+      "rewards/repetition_penalty_reward": -0.032591511495411396,
+      "rewards/tag_count_reward": 0.6367187649011612,
       "step": 210
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 153.4947967529297,
+      "completion_length": 436.5364685058594,
       "epoch": 0.3164604424446944,
-      "grad_norm": 0.8162698667548337,
-      "kl": 0.4296875,
+      "grad_norm": 108.63670939149665,
+      "kl": 4.8046875,
       "learning_rate": 1.7281063867858687e-05,
-      "loss": -0.0033,
-      "reward": 2.47624808549881,
-      "reward_std": 0.4159582331776619,
-      "rewards/accuracy_reward": 0.5520833507180214,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.025488153100013733,
-      "rewards/tag_count_reward": 0.9687500149011612,
+      "loss": 0.9645,
+      "reward": 1.6065455377101898,
+      "reward_std": 1.0716453790664673,
+      "rewards/accuracy_reward": 0.3593750149011612,
+      "rewards/reasoning_steps_reward": 0.657986119389534,
+      "rewards/repetition_penalty_reward": -0.04493015632033348,
+      "rewards/tag_count_reward": 0.6341145932674408,
       "step": 211
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 173.90625381469727,
+      "completion_length": 398.9948043823242,
       "epoch": 0.31796025496812896,
-      "grad_norm": 0.9992737614199144,
-      "kl": 0.435546875,
+      "grad_norm": 96.14698671429733,
+      "kl": 83.048828125,
       "learning_rate": 1.7245013155707076e-05,
-      "loss": 0.0243,
-      "reward": 2.806881844997406,
-      "reward_std": 0.2670608460903168,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9895833283662796,
-      "rewards/repetition_penalty_reward": -0.0316599381621927,
-      "rewards/tag_count_reward": 0.9947916716337204,
+      "loss": 0.8663,
+      "reward": 1.7979373633861542,
+      "reward_std": 1.0779232680797577,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/reasoning_steps_reward": 0.7152777910232544,
+      "rewards/repetition_penalty_reward": -0.034527900628745556,
+      "rewards/tag_count_reward": 0.6796875149011612,
       "step": 212
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.99480056762695,
+      "completion_length": 443.6145935058594,
       "epoch": 0.3194600674915636,
-      "grad_norm": 15.20697089186289,
-      "kl": 1.06494140625,
+      "grad_norm": 409.81304589430863,
+      "kl": 6.1015625,
       "learning_rate": 1.7208763154116973e-05,
-      "loss": 0.1191,
-      "reward": 2.6377468705177307,
-      "reward_std": 0.27828123420476913,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.028485802467912436,
-      "rewards/tag_count_reward": 0.9856770932674408,
+      "loss": 1.0656,
+      "reward": 1.603056788444519,
+      "reward_std": 1.083729773759842,
+      "rewards/accuracy_reward": 0.3750000074505806,
+      "rewards/reasoning_steps_reward": 0.645833358168602,
+      "rewards/repetition_penalty_reward": -0.031057825777679682,
+      "rewards/tag_count_reward": 0.6132812798023224,
       "step": 213
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 301.7708435058594,
+      "completion_length": 461.0364685058594,
       "epoch": 0.32095988001499814,
-      "grad_norm": 20.978080391787007,
-      "kl": 1.6455078125,
+      "grad_norm": 57.764921292245205,
+      "kl": 1.998046875,
       "learning_rate": 1.7172314860221494e-05,
-      "loss": 0.2695,
-      "reward": 2.531617820262909,
-      "reward_std": 0.30965887755155563,
-      "rewards/accuracy_reward": 0.6093750149011612,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.037392658181488514,
-      "rewards/tag_count_reward": 0.9752604216337204,
+      "loss": 0.7731,
+      "reward": 1.5737330913543701,
+      "reward_std": 1.0800977945327759,
+      "rewards/accuracy_reward": 0.3229166865348816,
+      "rewards/reasoning_steps_reward": 0.64930559694767,
+      "rewards/repetition_penalty_reward": -0.03781210444867611,
+      "rewards/tag_count_reward": 0.6393229365348816,
       "step": 214
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 445.5572967529297,
+      "completion_length": 478.05731201171875,
       "epoch": 0.3224596925384327,
-      "grad_norm": 1.4225466343917932,
-      "kl": 1.603515625,
+      "grad_norm": 50.79407157857832,
+      "kl": 7.47265625,
       "learning_rate": 1.713566927660818e-05,
-      "loss": 0.0372,
-      "reward": 2.569119691848755,
-      "reward_std": 0.31232137233018875,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.03374499548226595,
-      "rewards/tag_count_reward": 0.9882812649011612,
+      "loss": 0.7083,
+      "reward": 1.4539363086223602,
+      "reward_std": 1.0611682534217834,
+      "rewards/accuracy_reward": 0.2447916679084301,
+      "rewards/reasoning_steps_reward": 0.6440972536802292,
+      "rewards/repetition_penalty_reward": -0.03391093295067549,
+      "rewards/tag_count_reward": 0.5989583432674408,
       "step": 215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.4427146911621,
+      "completion_length": 418.6614761352539,
       "epoch": 0.32395950506186727,
-      "grad_norm": 5.079986124787856,
-      "kl": 1.427734375,
+      "grad_norm": 62.35489423972326,
+      "kl": 1.40625,
       "learning_rate": 1.7098827411291474e-05,
-      "loss": 0.1262,
-      "reward": 2.6483259201049805,
-      "reward_std": 0.43077797442674637,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.03570183180272579,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "loss": 0.7932,
+      "reward": 1.7967810034751892,
+      "reward_std": 1.071500152349472,
+      "rewards/accuracy_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.6666667014360428,
+      "rewards/repetition_penalty_reward": -0.0443648905493319,
+      "rewards/tag_count_reward": 0.6692708432674408,
       "step": 216
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.0260467529297,
+      "completion_length": 465.15625762939453,
       "epoch": 0.32545931758530183,
-      "grad_norm": 8.779280281061196,
-      "kl": 0.5869140625,
+      "grad_norm": 523.1686817311862,
+      "kl": 14.51171875,
       "learning_rate": 1.7061790277684935e-05,
-      "loss": 0.0993,
-      "reward": 2.6443240642547607,
-      "reward_std": 0.3985915258526802,
-      "rewards/accuracy_reward": 0.7447917014360428,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.03753373399376869,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 1.1443,
+      "reward": 1.7601740062236786,
+      "reward_std": 0.9184492155909538,
+      "rewards/accuracy_reward": 0.463541679084301,
+      "rewards/reasoning_steps_reward": 0.6875000298023224,
+      "rewards/repetition_penalty_reward": -0.03670105990022421,
+      "rewards/tag_count_reward": 0.645833358168602,
       "step": 217
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.91146087646484,
+      "completion_length": 440.9166793823242,
       "epoch": 0.3269591301087364,
-      "grad_norm": 8.182772315553562,
-      "kl": 0.6435546875,
+      "grad_norm": 138.26908034820204,
+      "kl": 2.8447265625,
       "learning_rate": 1.7024558894573408e-05,
-      "loss": 0.135,
-      "reward": 2.516254484653473,
-      "reward_std": 0.3703230023384094,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.03148850845173001,
-      "rewards/tag_count_reward": 0.9765625149011612,
+      "loss": 0.8425,
+      "reward": 1.6384324729442596,
+      "reward_std": 1.0819440335035324,
+      "rewards/accuracy_reward": 0.3750000074505806,
+      "rewards/reasoning_steps_reward": 0.675347238779068,
+      "rewards/repetition_penalty_reward": -0.035612753592431545,
+      "rewards/tag_count_reward": 0.6236979365348816,
       "step": 218
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 202.86458587646484,
+      "completion_length": 430.1927185058594,
       "epoch": 0.32845894263217096,
-      "grad_norm": 121464435.65252294,
-      "kl": 3831808.0,
+      "grad_norm": 36.752519571585786,
+      "kl": 1.0751953125,
       "learning_rate": 1.698713428608497e-05,
-      "loss": 331049.0938,
-      "reward": 2.498434364795685,
-      "reward_std": 0.5815113484859467,
-      "rewards/accuracy_reward": 0.6197916865348816,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.02500331262126565,
-      "rewards/tag_count_reward": 0.934895858168602,
+      "loss": 0.6927,
+      "reward": 1.7269428670406342,
+      "reward_std": 1.1123250424861908,
+      "rewards/accuracy_reward": 0.4427083507180214,
+      "rewards/reasoning_steps_reward": 0.6840278208255768,
+      "rewards/repetition_penalty_reward": -0.036512063816189766,
+      "rewards/tag_count_reward": 0.6367187798023224,
       "step": 219
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.6614646911621,
+      "completion_length": 428.6510467529297,
       "epoch": 0.3299587551556056,
-      "grad_norm": 5166178.874158303,
-      "kl": 174346.3125,
+      "grad_norm": 27.095258985089583,
+      "kl": 1.2314453125,
       "learning_rate": 1.694951748166278e-05,
-      "loss": 24312.8574,
-      "reward": 2.523725211620331,
-      "reward_std": 0.5246653333306313,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9687500447034836,
-      "rewards/repetition_penalty_reward": -0.043983266688883305,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.6542,
+      "reward": 1.7653653621673584,
+      "reward_std": 1.0500112771987915,
+      "rewards/accuracy_reward": 0.4270833432674408,
+      "rewards/reasoning_steps_reward": 0.734375,
+      "rewards/repetition_penalty_reward": -0.0458325962536037,
+      "rewards/tag_count_reward": 0.649739608168602,
       "step": 220
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 223.1145896911621,
+      "completion_length": 413.37500762939453,
       "epoch": 0.33145856767904014,
-      "grad_norm": 431.25017200680634,
-      "kl": 21.69677734375,
+      "grad_norm": 47.16742116134022,
+      "kl": 2.20703125,
       "learning_rate": 1.6911709516036755e-05,
-      "loss": 3.13,
-      "reward": 2.538953959941864,
-      "reward_std": 0.5608213990926743,
-      "rewards/accuracy_reward": 0.6718750149011612,
-      "rewards/reasoning_steps_reward": 0.9600694924592972,
-      "rewards/repetition_penalty_reward": -0.029188551474362612,
-      "rewards/tag_count_reward": 0.9361979216337204,
+      "loss": 0.7411,
+      "reward": 1.8477334082126617,
+      "reward_std": 1.0211681723594666,
+      "rewards/accuracy_reward": 0.4427083432674408,
+      "rewards/reasoning_steps_reward": 0.769097238779068,
+      "rewards/repetition_penalty_reward": -0.04245765320956707,
+      "rewards/tag_count_reward": 0.6783854365348816,
       "step": 221
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.19792556762695,
+      "completion_length": 397.3645935058594,
       "epoch": 0.3329583802024747,
-      "grad_norm": 16.73765270319652,
-      "kl": 0.51953125,
+      "grad_norm": 45.5053118676597,
+      "kl": 2.3515625,
       "learning_rate": 1.6873711429195095e-05,
-      "loss": 0.3655,
-      "reward": 2.327203631401062,
-      "reward_std": 0.42651342228055,
-      "rewards/accuracy_reward": 0.4739583358168602,
-      "rewards/reasoning_steps_reward": 0.9635417014360428,
-      "rewards/repetition_penalty_reward": -0.03868194296956062,
-      "rewards/tag_count_reward": 0.9283854365348816,
+      "loss": 0.8572,
+      "reward": 1.7332542836666107,
+      "reward_std": 1.0097034871578217,
+      "rewards/accuracy_reward": 0.3906250074505806,
+      "rewards/reasoning_steps_reward": 0.7309028059244156,
+      "rewards/repetition_penalty_reward": -0.03801308758556843,
+      "rewards/tag_count_reward": 0.649739608168602,
       "step": 222
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 263.83333587646484,
+      "completion_length": 435.78126525878906,
       "epoch": 0.33445819272590926,
-      "grad_norm": 16.356024789507156,
-      "kl": 0.49072265625,
+      "grad_norm": 2129.317338646113,
+      "kl": 12.60546875,
       "learning_rate": 1.6835524266355698e-05,
-      "loss": 0.4278,
-      "reward": 2.46044385433197,
-      "reward_std": 0.501777321100235,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.034347846638411283,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "loss": 1.8881,
+      "reward": 1.8117730021476746,
+      "reward_std": 0.9651193022727966,
+      "rewards/accuracy_reward": 0.4687500149011612,
+      "rewards/reasoning_steps_reward": 0.7083333283662796,
+      "rewards/repetition_penalty_reward": -0.03978960122913122,
+      "rewards/tag_count_reward": 0.6744791716337204,
       "step": 223
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 249.49480438232422,
+      "completion_length": 315.84375762939453,
       "epoch": 0.3359580052493438,
-      "grad_norm": 2132.408739618289,
-      "kl": 61.46533203125,
+      "grad_norm": 341.57819859952355,
+      "kl": 2.9423828125,
       "learning_rate": 1.6797149077937395e-05,
-      "loss": 6.8572,
-      "reward": 2.410385847091675,
-      "reward_std": 0.3996973782777786,
-      "rewards/accuracy_reward": 0.5364583507180214,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.038832977414131165,
-      "rewards/tag_count_reward": 0.9283854365348816,
+      "loss": 0.5076,
+      "reward": 1.869988203048706,
+      "reward_std": 0.9940178692340851,
+      "rewards/accuracy_reward": 0.4687500074505806,
+      "rewards/reasoning_steps_reward": 0.765625,
+      "rewards/repetition_penalty_reward": -0.05188690684735775,
+      "rewards/tag_count_reward": 0.6875000149011612,
       "step": 224
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.79167556762695,
+      "completion_length": 330.26563262939453,
       "epoch": 0.3374578177727784,
-      "grad_norm": 1.5282888356192013,
-      "kl": 0.42333984375,
+      "grad_norm": 430.46296061670853,
+      "kl": 2.5078125,
       "learning_rate": 1.6758586919531054e-05,
-      "loss": 0.4067,
-      "reward": 2.5930500626564026,
-      "reward_std": 0.40433521568775177,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9687499701976776,
-      "rewards/repetition_penalty_reward": -0.039762526750564575,
-      "rewards/tag_count_reward": 0.934895858168602,
+      "loss": 0.5861,
+      "reward": 1.754932165145874,
+      "reward_std": 0.967212975025177,
+      "rewards/accuracy_reward": 0.4114583432674408,
+      "rewards/reasoning_steps_reward": 0.7517361342906952,
+      "rewards/repetition_penalty_reward": -0.03847070410847664,
+      "rewards/tag_count_reward": 0.6302083432674408,
       "step": 225
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.0520896911621,
+      "completion_length": 345.4322929382324,
       "epoch": 0.33895763029621295,
-      "grad_norm": 0.8528067604314957,
-      "kl": 0.41748046875,
+      "grad_norm": 357.14681488285794,
+      "kl": 9.0390625,
       "learning_rate": 1.671983885187055e-05,
-      "loss": 0.2675,
-      "reward": 2.4493818879127502,
-      "reward_std": 0.3525548577308655,
-      "rewards/accuracy_reward": 0.5468750074505806,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.028916888870298862,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.4549,
+      "reward": 1.7626317143440247,
+      "reward_std": 0.9779582172632217,
+      "rewards/accuracy_reward": 0.432291679084301,
+      "rewards/reasoning_steps_reward": 0.7309027910232544,
+      "rewards/repetition_penalty_reward": -0.035979412496089935,
+      "rewards/tag_count_reward": 0.6354167014360428,
       "step": 226
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 258.1666793823242,
+      "completion_length": 446.6510467529297,
       "epoch": 0.34045744281964757,
-      "grad_norm": 2.1183154515503513,
-      "kl": 0.462890625,
+      "grad_norm": 155.57552226255254,
+      "kl": 1.998046875,
       "learning_rate": 1.6680905940803596e-05,
-      "loss": 0.7181,
-      "reward": 2.582502543926239,
-      "reward_std": 0.494766004383564,
-      "rewards/accuracy_reward": 0.697916679084301,
-      "rewards/reasoning_steps_reward": 0.9739583730697632,
-      "rewards/repetition_penalty_reward": -0.02947685099206865,
-      "rewards/tag_count_reward": 0.9401041865348816,
+      "loss": 0.7187,
+      "reward": 1.6927993595600128,
+      "reward_std": 1.1329753398895264,
+      "rewards/accuracy_reward": 0.4843750074505806,
+      "rewards/reasoning_steps_reward": 0.6996527910232544,
+      "rewards/repetition_penalty_reward": -0.04721810668706894,
+      "rewards/tag_count_reward": 0.555989608168602,
       "step": 227
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.5989646911621,
+      "completion_length": 400.7708435058594,
       "epoch": 0.34195725534308213,
-      "grad_norm": 4.12408868442433,
-      "kl": 0.43505859375,
+      "grad_norm": 52.313264872011814,
+      "kl": 1.01904296875,
       "learning_rate": 1.66417892572624e-05,
-      "loss": 0.3667,
-      "reward": 2.5001248717308044,
-      "reward_std": 0.44768981635570526,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04154195077717304,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.6703,
+      "reward": 1.7310058176517487,
+      "reward_std": 0.9815861284732819,
+      "rewards/accuracy_reward": 0.411458358168602,
+      "rewards/reasoning_steps_reward": 0.7361111491918564,
+      "rewards/repetition_penalty_reward": -0.05458456836640835,
+      "rewards/tag_count_reward": 0.6380208432674408,
       "step": 228
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.33855056762695,
+      "completion_length": 362.2291793823242,
       "epoch": 0.3434570678665167,
-      "grad_norm": 29.415667963205827,
-      "kl": 0.52783203125,
+      "grad_norm": 3.414097906304966,
+      "kl": 0.44677734375,
       "learning_rate": 1.6602489877234235e-05,
-      "loss": 0.4238,
-      "reward": 2.625883162021637,
-      "reward_std": 0.4509083032608032,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9618055671453476,
-      "rewards/repetition_penalty_reward": -0.03514129016548395,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": 0.5655,
+      "reward": 1.9467909336090088,
+      "reward_std": 0.9363191574811935,
+      "rewards/accuracy_reward": 0.494791679084301,
+      "rewards/reasoning_steps_reward": 0.8229166865348816,
+      "rewards/repetition_penalty_reward": -0.04409462306648493,
+      "rewards/tag_count_reward": 0.6731770932674408,
       "step": 229
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.85417556762695,
+      "completion_length": 382.7916793823242,
       "epoch": 0.34495688038995126,
-      "grad_norm": 18.06563359145896,
-      "kl": 0.6884765625,
+      "grad_norm": 1.2104539856778693,
+      "kl": 0.3408203125,
       "learning_rate": 1.656300888173181e-05,
-      "loss": 0.6687,
-      "reward": 2.646353542804718,
-      "reward_std": 0.518807977437973,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9652778506278992,
-      "rewards/repetition_penalty_reward": -0.028559860307723284,
-      "rewards/tag_count_reward": 0.938802108168602,
+      "loss": 0.4857,
+      "reward": 1.8293315470218658,
+      "reward_std": 0.9052053391933441,
+      "rewards/accuracy_reward": 0.4375000074505806,
+      "rewards/reasoning_steps_reward": 0.7795139253139496,
+      "rewards/repetition_penalty_reward": -0.04393233545124531,
+      "rewards/tag_count_reward": 0.6562500298023224,
       "step": 230
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.1197967529297,
+      "completion_length": 432.2864761352539,
       "epoch": 0.3464566929133858,
-      "grad_norm": 15.68283618975048,
-      "kl": 3.099609375,
+      "grad_norm": 2.412360731904819,
+      "kl": 0.49462890625,
       "learning_rate": 1.6523347356763572e-05,
-      "loss": 0.8542,
-      "reward": 2.695122182369232,
-      "reward_std": 0.4237038269639015,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.034478533547371626,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.5985,
+      "reward": 1.8154855072498322,
+      "reward_std": 1.1332524120807648,
+      "rewards/accuracy_reward": 0.5000000223517418,
+      "rewards/reasoning_steps_reward": 0.723958358168602,
+      "rewards/repetition_penalty_reward": -0.0517019834369421,
+      "rewards/tag_count_reward": 0.6432291865348816,
       "step": 231
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 302.8698081970215,
+      "completion_length": 395.9271011352539,
       "epoch": 0.3479565054368204,
-      "grad_norm": 193.87550647562585,
-      "kl": 9.875,
+      "grad_norm": 4.9562590681699294,
+      "kl": 0.408203125,
       "learning_rate": 1.6483506393303807e-05,
-      "loss": 1.5385,
-      "reward": 2.4312188625335693,
-      "reward_std": 0.5264012217521667,
-      "rewards/accuracy_reward": 0.598958358168602,
-      "rewards/reasoning_steps_reward": 0.9496528208255768,
-      "rewards/repetition_penalty_reward": -0.03275693487375975,
-      "rewards/tag_count_reward": 0.915364608168602,
+      "loss": 0.6441,
+      "reward": 1.9554131031036377,
+      "reward_std": 0.9711915105581284,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/reasoning_steps_reward": 0.7968750149011612,
+      "rewards/repetition_penalty_reward": -0.04458692017942667,
+      "rewards/tag_count_reward": 0.7187500298023224,
       "step": 232
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 264.13542556762695,
+      "completion_length": 427.2552261352539,
       "epoch": 0.34945631796025495,
-      "grad_norm": 36.22860317274317,
-      "kl": 0.8671875,
+      "grad_norm": 7.911974161092371,
+      "kl": 0.58642578125,
       "learning_rate": 1.644348708726263e-05,
-      "loss": 0.6915,
-      "reward": 2.4658846259117126,
-      "reward_std": 0.6284756064414978,
-      "rewards/accuracy_reward": 0.5885416716337204,
-      "rewards/reasoning_steps_reward": 0.9618055820465088,
-      "rewards/repetition_penalty_reward": -0.023264775052666664,
-      "rewards/tag_count_reward": 0.9388020932674408,
+      "loss": 0.5395,
+      "reward": 1.9124858379364014,
+      "reward_std": 1.0289543271064758,
+      "rewards/accuracy_reward": 0.5052083507180214,
+      "rewards/reasoning_steps_reward": 0.7673611491918564,
+      "rewards/repetition_penalty_reward": -0.046281606424599886,
+      "rewards/tag_count_reward": 0.6861979365348816,
       "step": 233
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 286.3333435058594,
+      "completion_length": 377.78126525878906,
       "epoch": 0.35095613048368957,
-      "grad_norm": 9.424469802346994,
-      "kl": 2.83984375,
+      "grad_norm": 10.19550375864435,
+      "kl": 0.98681640625,
       "learning_rate": 1.640329053945585e-05,
-      "loss": 0.8706,
-      "reward": 2.417014181613922,
-      "reward_std": 0.6688820198178291,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.940972238779068,
-      "rewards/repetition_penalty_reward": -0.023958142613992095,
-      "rewards/tag_count_reward": 0.895833358168602,
+      "loss": 0.5746,
+      "reward": 1.934269905090332,
+      "reward_std": 1.0438069850206375,
+      "rewards/accuracy_reward": 0.4687500074505806,
+      "rewards/reasoning_steps_reward": 0.8072916865348816,
+      "rewards/repetition_penalty_reward": -0.08526142686605453,
+      "rewards/tag_count_reward": 0.743489608168602,
       "step": 234
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.5885467529297,
+      "completion_length": 407.5208511352539,
       "epoch": 0.35245594300712413,
-      "grad_norm": 194.2142920957737,
-      "kl": 16.7421875,
+      "grad_norm": 8.119699899556887,
+      "kl": 0.48193359375,
       "learning_rate": 1.6362917855574694e-05,
-      "loss": 1.9856,
-      "reward": 2.713364839553833,
-      "reward_std": 0.46920711547136307,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.029690792318433523,
-      "rewards/tag_count_reward": 0.9479166716337204,
+      "loss": 0.8051,
+      "reward": 1.804307907819748,
+      "reward_std": 1.5109181106090546,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/reasoning_steps_reward": 0.7447916865348816,
+      "rewards/repetition_penalty_reward": -0.24647344648838043,
+      "rewards/tag_count_reward": 0.7070312649011612,
       "step": 235
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 288.375,
+      "completion_length": 353.2135543823242,
       "epoch": 0.3539557555305587,
-      "grad_norm": 27.915108177299196,
-      "kl": 5.3359375,
+      "grad_norm": 11.968853066603838,
+      "kl": 1.50634765625,
       "learning_rate": 1.6322370146155372e-05,
-      "loss": 1.2636,
-      "reward": 2.4878005385398865,
-      "reward_std": 0.5347049832344055,
-      "rewards/accuracy_reward": 0.630208358168602,
-      "rewards/reasoning_steps_reward": 0.9652778059244156,
-      "rewards/repetition_penalty_reward": -0.028258674778044224,
-      "rewards/tag_count_reward": 0.9205729514360428,
+      "loss": 0.6385,
+      "reward": 1.9699607491493225,
+      "reward_std": 1.293946921825409,
+      "rewards/accuracy_reward": 0.5729166865348816,
+      "rewards/reasoning_steps_reward": 0.8072916865348816,
+      "rewards/repetition_penalty_reward": -0.19279972463846207,
+      "rewards/tag_count_reward": 0.782552108168602,
       "step": 236
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.7604217529297,
+      "completion_length": 344.5416793823242,
       "epoch": 0.35545556805399325,
-      "grad_norm": 17.59840442919455,
-      "kl": 0.9892578125,
+      "grad_norm": 10.830086232933182,
+      "kl": 0.59326171875,
       "learning_rate": 1.6281648526548556e-05,
-      "loss": 0.6013,
-      "reward": 2.604456603527069,
-      "reward_std": 0.3973645493388176,
-      "rewards/accuracy_reward": 0.734375,
-      "rewards/reasoning_steps_reward": 0.9392361789941788,
-      "rewards/repetition_penalty_reward": -0.030092121567577124,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.5964,
+      "reward": 2.065182775259018,
+      "reward_std": 1.1769357174634933,
+      "rewards/accuracy_reward": 0.5781250298023224,
+      "rewards/reasoning_steps_reward": 0.8420139104127884,
+      "rewards/repetition_penalty_reward": -0.17266453802585602,
+      "rewards/tag_count_reward": 0.8177083432674408,
       "step": 237
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.2395935058594,
+      "completion_length": 384.87500762939453,
       "epoch": 0.3569553805774278,
-      "grad_norm": 24.885038866025347,
-      "kl": 1.595703125,
+      "grad_norm": 13.320898103061964,
+      "kl": 0.56640625,
       "learning_rate": 1.6240754116888673e-05,
-      "loss": 0.8111,
-      "reward": 2.5495967864990234,
-      "reward_std": 0.5210294723510742,
-      "rewards/accuracy_reward": 0.6822916865348816,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.027226188685745,
-      "rewards/tag_count_reward": 0.9414062798023224,
+      "loss": 0.5948,
+      "reward": 1.9682828783988953,
+      "reward_std": 1.2442002594470978,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.8263888955116272,
+      "rewards/repetition_penalty_reward": -0.20315821841359138,
+      "rewards/tag_count_reward": 0.8033854216337204,
       "step": 238
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 241.46875762939453,
+      "completion_length": 372.1354217529297,
       "epoch": 0.3584551931008624,
-      "grad_norm": 563.2951701790159,
-      "kl": 37.115234375,
+      "grad_norm": 12.247593958285009,
+      "kl": 0.85302734375,
       "learning_rate": 1.6199688042063118e-05,
-      "loss": 4.5597,
-      "reward": 2.6697729229927063,
-      "reward_std": 0.3740931283682585,
-      "rewards/accuracy_reward": 0.7760416865348816,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.03378618019632995,
-      "rewards/tag_count_reward": 0.95703125,
+      "loss": 0.6045,
+      "reward": 1.9835784435272217,
+      "reward_std": 1.2273003607988358,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.8263889253139496,
+      "rewards/repetition_penalty_reward": -0.1995813064277172,
+      "rewards/tag_count_reward": 0.8151041865348816,
       "step": 239
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 207.78646087646484,
+      "completion_length": 385.89583587646484,
       "epoch": 0.35995500562429694,
-      "grad_norm": 194.22792255309713,
-      "kl": 11.2109375,
+      "grad_norm": 8.226772677936836,
+      "kl": 0.62060546875,
       "learning_rate": 1.6158451431681292e-05,
-      "loss": 2.2416,
-      "reward": 2.570555090904236,
-      "reward_std": 0.43018101900815964,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.0240629562176764,
-      "rewards/tag_count_reward": 0.9713541716337204,
+      "loss": 0.5773,
+      "reward": 1.98191300034523,
+      "reward_std": 1.175494760274887,
+      "rewards/accuracy_reward": 0.526041679084301,
+      "rewards/reasoning_steps_reward": 0.8437500149011612,
+      "rewards/repetition_penalty_reward": -0.19256622344255447,
+      "rewards/tag_count_reward": 0.8046875149011612,
       "step": 240
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.88021087646484,
+      "completion_length": 338.96876525878906,
       "epoch": 0.36145481814773156,
-      "grad_norm": 16.659702726061884,
-      "kl": 1.123046875,
+      "grad_norm": 2.961510864903608,
+      "kl": 0.4189453125,
       "learning_rate": 1.6117045420043545e-05,
-      "loss": 0.5796,
-      "reward": 2.6110920906066895,
-      "reward_std": 0.44603806734085083,
-      "rewards/accuracy_reward": 0.6979166865348816,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.03126898966729641,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.4682,
+      "reward": 2.1378689408302307,
+      "reward_std": 0.9543499946594238,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.8784722238779068,
+      "rewards/repetition_penalty_reward": -0.1546658743172884,
+      "rewards/tag_count_reward": 0.8515625149011612,
       "step": 241
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.95833587646484,
+      "completion_length": 386.7760467529297,
       "epoch": 0.3629546306711661,
-      "grad_norm": 7.320890528168202,
-      "kl": 2.55078125,
+      "grad_norm": 4.568175543895563,
+      "kl": 0.7275390625,
       "learning_rate": 1.6075471146109957e-05,
-      "loss": 0.7141,
-      "reward": 2.701682925224304,
-      "reward_std": 0.4787740185856819,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9652778059244156,
-      "rewards/repetition_penalty_reward": -0.026615716982632875,
-      "rewards/tag_count_reward": 0.966145858168602,
+      "loss": 0.5672,
+      "reward": 1.996113270521164,
+      "reward_std": 0.9025778025388718,
+      "rewards/accuracy_reward": 0.5468750149011612,
+      "rewards/reasoning_steps_reward": 0.7881944626569748,
+      "rewards/repetition_penalty_reward": -0.13192503154277802,
+      "rewards/tag_count_reward": 0.7929687798023224,
       "step": 242
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 247.0260467529297,
+      "completion_length": 317.5260543823242,
       "epoch": 0.3644544431946007,
-      "grad_norm": 112.81198496662604,
-      "kl": 10.6669921875,
+      "grad_norm": 6.725239225005341,
+      "kl": 0.38720703125,
       "learning_rate": 1.603372975346903e-05,
-      "loss": 1.84,
-      "reward": 2.496858596801758,
-      "reward_std": 0.453279048204422,
-      "rewards/accuracy_reward": 0.6093750074505806,
-      "rewards/reasoning_steps_reward": 0.9618055820465088,
-      "rewards/repetition_penalty_reward": -0.02614493854343891,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.4668,
+      "reward": 2.1939920783042908,
+      "reward_std": 0.7260987460613251,
+      "rewards/accuracy_reward": 0.4635416865348816,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.06946289446204901,
+      "rewards/tag_count_reward": 0.8763020932674408,
       "step": 243
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.4895896911621,
+      "completion_length": 336.2552185058594,
       "epoch": 0.36595425571803525,
-      "grad_norm": 21.266417808536865,
-      "kl": 2.26171875,
+      "grad_norm": 6.395489506905219,
+      "kl": 0.546875,
       "learning_rate": 1.599182239030621e-05,
-      "loss": 0.7589,
-      "reward": 2.5812110900878906,
-      "reward_std": 0.5132277607917786,
-      "rewards/accuracy_reward": 0.6770833507180214,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.025559830013662577,
-      "rewards/tag_count_reward": 0.9505208432674408,
+      "loss": 0.5301,
+      "reward": 2.0523171722888947,
+      "reward_std": 0.8000431656837463,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.8888888955116272,
+      "rewards/repetition_penalty_reward": -0.07094682566821575,
+      "rewards/tag_count_reward": 0.8385417014360428,
       "step": 244
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.6614646911621,
+      "completion_length": 336.4635543823242,
       "epoch": 0.3674540682414698,
-      "grad_norm": 256.9075653283988,
-      "kl": 19.359375,
+      "grad_norm": 1.7231966906953229,
+      "kl": 0.44287109375,
       "learning_rate": 1.594975020937233e-05,
-      "loss": 2.8854,
-      "reward": 2.6606767177581787,
-      "reward_std": 0.455551914870739,
-      "rewards/accuracy_reward": 0.7760417014360428,
-      "rewards/reasoning_steps_reward": 0.9687500298023224,
-      "rewards/repetition_penalty_reward": -0.025521302595734596,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 0.4191,
+      "reward": 2.3042526245117188,
+      "reward_std": 0.7582926452159882,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.8576389104127884,
+      "rewards/repetition_penalty_reward": -0.07031344994902611,
+      "rewards/tag_count_reward": 0.860677108168602,
       "step": 245
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.8906364440918,
+      "completion_length": 297.7083435058594,
       "epoch": 0.3689538807649044,
-      "grad_norm": 54.830877036198636,
-      "kl": 7.4140625,
+      "grad_norm": 78.49085937534032,
+      "kl": 0.81298828125,
       "learning_rate": 1.590751436795186e-05,
-      "loss": 1.4602,
-      "reward": 2.603227972984314,
-      "reward_std": 0.5533816516399384,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.025678453966975212,
-      "rewards/tag_count_reward": 0.946614608168602,
+      "loss": 0.5026,
+      "reward": 2.197529286146164,
+      "reward_std": 0.8267102539539337,
+      "rewards/accuracy_reward": 0.4895833358168602,
+      "rewards/reasoning_steps_reward": 0.8923611342906952,
+      "rewards/repetition_penalty_reward": -0.07373820524662733,
+      "rewards/tag_count_reward": 0.8893229365348816,
       "step": 246
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 281.8541679382324,
+      "completion_length": 352.8229293823242,
       "epoch": 0.37045369328833894,
-      "grad_norm": 30.40863534370435,
-      "kl": 0.8173828125,
+      "grad_norm": 12.08436983860603,
+      "kl": 0.72998046875,
       "learning_rate": 1.5865116027831123e-05,
-      "loss": 0.6622,
-      "reward": 2.464226543903351,
-      "reward_std": 0.5860697254538536,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.030131183564662933,
-      "rewards/tag_count_reward": 0.9231770932674408,
+      "loss": 0.6898,
+      "reward": 2.0662292540073395,
+      "reward_std": 1.1430340111255646,
+      "rewards/accuracy_reward": 0.5312500074505806,
+      "rewards/reasoning_steps_reward": 0.8368055671453476,
+      "rewards/repetition_penalty_reward": -0.1273471899330616,
+      "rewards/tag_count_reward": 0.825520858168602,
       "step": 247
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.2604217529297,
+      "completion_length": 339.5208435058594,
       "epoch": 0.37195350581177355,
-      "grad_norm": 23.77354715994608,
-      "kl": 0.6748046875,
+      "grad_norm": 2.931100861119855,
+      "kl": 0.4052734375,
       "learning_rate": 1.5822556355266302e-05,
-      "loss": 0.6163,
-      "reward": 2.6034846901893616,
-      "reward_std": 0.5462495759129524,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222685813904,
-      "rewards/repetition_penalty_reward": -0.02498761680908501,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "loss": 0.5591,
+      "reward": 2.0680652260780334,
+      "reward_std": 1.04281547665596,
+      "rewards/accuracy_reward": 0.5208333507180214,
+      "rewards/reasoning_steps_reward": 0.8576388955116272,
+      "rewards/repetition_penalty_reward": -0.15025084279477596,
+      "rewards/tag_count_reward": 0.8398437649011612,
       "step": 248
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.90105056762695,
+      "completion_length": 367.25000762939453,
       "epoch": 0.3734533183352081,
-      "grad_norm": 14.516331745406989,
-      "kl": 1.0048828125,
+      "grad_norm": 661.2695289482906,
+      "kl": 5.46142578125,
       "learning_rate": 1.577983652095137e-05,
-      "loss": 0.4184,
-      "reward": 2.332468032836914,
-      "reward_std": 0.43112215772271156,
-      "rewards/accuracy_reward": 0.4322916716337204,
-      "rewards/reasoning_steps_reward": 0.967013955116272,
-      "rewards/repetition_penalty_reward": -0.03168142307549715,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.7068,
+      "reward": 1.943572849035263,
+      "reward_std": 1.0748744010925293,
+      "rewards/accuracy_reward": 0.4270833507180214,
+      "rewards/reasoning_steps_reward": 0.861111119389534,
+      "rewards/repetition_penalty_reward": -0.1805591806769371,
+      "rewards/tag_count_reward": 0.8359375298023224,
       "step": 249
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.7447967529297,
+      "completion_length": 305.01043701171875,
       "epoch": 0.3749531308586427,
-      "grad_norm": 46.523365934279404,
-      "kl": 4.62451171875,
+      "grad_norm": 3.771451390000111,
+      "kl": 0.345703125,
       "learning_rate": 1.5736957699985887e-05,
-      "loss": 0.9192,
-      "reward": 2.580030918121338,
-      "reward_std": 0.3245397238060832,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.031948281452059746,
-      "rewards/tag_count_reward": 0.9713541716337204,
+      "loss": 0.4327,
+      "reward": 2.2907695174217224,
+      "reward_std": 0.8615385890007019,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/reasoning_steps_reward": 0.927083358168602,
+      "rewards/repetition_penalty_reward": -0.13761597499251366,
+      "rewards/tag_count_reward": 0.8971354365348816,
       "step": 250
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.50521087646484,
+      "completion_length": 384.3489761352539,
       "epoch": 0.37645294338207724,
-      "grad_norm": 46.335938002602354,
-      "kl": 4.9765625,
+      "grad_norm": 194.96197462696594,
+      "kl": 0.50048828125,
       "learning_rate": 1.5693921071842688e-05,
-      "loss": 1.1019,
-      "reward": 2.6523364782333374,
-      "reward_std": 0.4070918932557106,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.03212546557188034,
-      "rewards/tag_count_reward": 0.9674479216337204,
+      "loss": 0.6103,
+      "reward": 2.0306463837623596,
+      "reward_std": 1.2375063300132751,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.850694477558136,
+      "rewards/repetition_penalty_reward": -0.20155855640769005,
+      "rewards/tag_count_reward": 0.8190104216337204,
       "step": 251
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.23438262939453,
+      "completion_length": 343.0833511352539,
       "epoch": 0.3779527559055118,
-      "grad_norm": 19.678447582967497,
-      "kl": 1.244140625,
+      "grad_norm": 14.689129884295669,
+      "kl": 0.41357421875,
       "learning_rate": 1.5650727820335417e-05,
-      "loss": 0.624,
-      "reward": 2.570410132408142,
-      "reward_std": 0.5100410208106041,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.032888590823858976,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.6158,
+      "reward": 1.993709921836853,
+      "reward_std": 1.1109019815921783,
+      "rewards/accuracy_reward": 0.5104166716337204,
+      "rewards/reasoning_steps_reward": 0.831597238779068,
+      "rewards/repetition_penalty_reward": -0.18554353341460228,
+      "rewards/tag_count_reward": 0.837239608168602,
       "step": 252
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 247.0572967529297,
+      "completion_length": 388.89064025878906,
       "epoch": 0.37945256842894637,
-      "grad_norm": 10.000060356187625,
-      "kl": 1.7998046875,
+      "grad_norm": 14.608873859558672,
+      "kl": 0.4140625,
       "learning_rate": 1.5607379133585978e-05,
-      "loss": 0.4729,
-      "reward": 2.7505863904953003,
-      "reward_std": 0.4299619048833847,
-      "rewards/accuracy_reward": 0.859375,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.02675750060006976,
-      "rewards/tag_count_reward": 0.9544270932674408,
+      "loss": 0.7007,
+      "reward": 2.0233902037143707,
+      "reward_std": 1.345583826303482,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.835069477558136,
+      "rewards/repetition_penalty_reward": -0.21662724763154984,
+      "rewards/tag_count_reward": 0.7955729365348816,
       "step": 253
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 255.86980056762695,
+      "completion_length": 367.6927261352539,
       "epoch": 0.38095238095238093,
-      "grad_norm": 41.51304950449503,
-      "kl": 6.734375,
+      "grad_norm": 10.596812649365775,
+      "kl": 0.3828125,
       "learning_rate": 1.5563876203991856e-05,
-      "loss": 1.5806,
-      "reward": 2.535602629184723,
-      "reward_std": 0.5331927165389061,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.02299123560078442,
-      "rewards/tag_count_reward": 0.9335937649011612,
+      "loss": 0.6745,
+      "reward": 1.9966700077056885,
+      "reward_std": 1.2292464971542358,
+      "rewards/accuracy_reward": 0.5208333507180214,
+      "rewards/reasoning_steps_reward": 0.8454861640930176,
+      "rewards/repetition_penalty_reward": -0.18735776841640472,
+      "rewards/tag_count_reward": 0.8177083432674408,
       "step": 254
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.61979293823242,
+      "completion_length": 349.64064025878906,
       "epoch": 0.38245219347581555,
-      "grad_norm": 18.09973578264405,
-      "kl": 4.19921875,
+      "grad_norm": 6.633191911603578,
+      "kl": 0.36279296875,
       "learning_rate": 1.55202202281933e-05,
-      "loss": 0.9442,
-      "reward": 2.68158096075058,
-      "reward_std": 0.38162920624017715,
-      "rewards/accuracy_reward": 0.7656250298023224,
-      "rewards/reasoning_steps_reward": 0.9826389253139496,
-      "rewards/repetition_penalty_reward": -0.025016394443809986,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "loss": 0.5756,
+      "reward": 2.1044811606407166,
+      "reward_std": 1.2099826782941818,
+      "rewards/accuracy_reward": 0.6041666939854622,
+      "rewards/reasoning_steps_reward": 0.8472222536802292,
+      "rewards/repetition_penalty_reward": -0.1776370257139206,
+      "rewards/tag_count_reward": 0.8307291865348816,
       "step": 255
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.7083396911621,
+      "completion_length": 411.07813262939453,
       "epoch": 0.3839520059992501,
-      "grad_norm": 23.810294289503528,
-      "kl": 1.501953125,
+      "grad_norm": 1.8892823585301353,
+      "kl": 0.4150390625,
       "learning_rate": 1.5476412407040445e-05,
-      "loss": 0.6148,
-      "reward": 2.6228463649749756,
-      "reward_std": 0.43365930393338203,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.02689332398585975,
-      "rewards/tag_count_reward": 0.946614608168602,
+      "loss": 0.7152,
+      "reward": 1.811952918767929,
+      "reward_std": 1.4293029010295868,
+      "rewards/accuracy_reward": 0.572916679084301,
+      "rewards/reasoning_steps_reward": 0.7361111491918564,
+      "rewards/repetition_penalty_reward": -0.2223353162407875,
+      "rewards/tag_count_reward": 0.7252604365348816,
       "step": 256
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 292.3333435058594,
+      "completion_length": 413.4166793823242,
       "epoch": 0.3854518185226847,
-      "grad_norm": 40.613619721197324,
-      "kl": 2.0693359375,
+      "grad_norm": 2.9450172922219524,
+      "kl": 0.57177734375,
       "learning_rate": 1.5432453945560223e-05,
-      "loss": 0.8716,
-      "reward": 2.567777395248413,
-      "reward_std": 0.5245895758271217,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.028576852288097143,
-      "rewards/tag_count_reward": 0.9140625298023224,
+      "loss": 0.6283,
+      "reward": 1.983522891998291,
+      "reward_std": 1.2600146383047104,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/reasoning_steps_reward": 0.7777778208255768,
+      "rewards/repetition_penalty_reward": -0.13019242137670517,
+      "rewards/tag_count_reward": 0.7526041865348816,
       "step": 257
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 249.99480438232422,
+      "completion_length": 445.9739685058594,
       "epoch": 0.38695163104611924,
-      "grad_norm": 21.07252470454373,
-      "kl": 3.251953125,
+      "grad_norm": 4.635567397393551,
+      "kl": 0.43603515625,
       "learning_rate": 1.5388346052923268e-05,
-      "loss": 1.0205,
-      "reward": 2.599771797657013,
-      "reward_std": 0.545002818107605,
-      "rewards/accuracy_reward": 0.7187500074505806,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.028700455324724317,
-      "rewards/tag_count_reward": 0.9375000298023224,
+      "loss": 0.5593,
+      "reward": 2.0053739845752716,
+      "reward_std": 1.152603343129158,
+      "rewards/accuracy_reward": 0.5677083507180214,
+      "rewards/reasoning_steps_reward": 0.7847222536802292,
+      "rewards/repetition_penalty_reward": -0.0866400208324194,
+      "rewards/tag_count_reward": 0.7395833432674408,
       "step": 258
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.9166717529297,
+      "completion_length": 511.49481201171875,
       "epoch": 0.3884514435695538,
-      "grad_norm": 142.3585656392472,
-      "kl": 10.0546875,
+      "grad_norm": 3.270106987863464,
+      "kl": 0.4833984375,
       "learning_rate": 1.534408994241063e-05,
-      "loss": 1.7735,
-      "reward": 2.710343062877655,
-      "reward_std": 0.4035199508070946,
-      "rewards/accuracy_reward": 0.7916666716337204,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.03227862901985645,
-      "rewards/tag_count_reward": 0.9752604216337204,
+      "loss": 0.4957,
+      "reward": 1.8226185142993927,
+      "reward_std": 1.1505940705537796,
+      "rewards/accuracy_reward": 0.447916679084301,
+      "rewards/reasoning_steps_reward": 0.7465278059244156,
+      "rewards/repetition_penalty_reward": -0.07495102658867836,
+      "rewards/tag_count_reward": 0.7031250149011612,
       "step": 259
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.3958396911621,
+      "completion_length": 485.95314025878906,
       "epoch": 0.38995125609298836,
-      "grad_norm": 377.6752575854368,
-      "kl": 24.46875,
+      "grad_norm": 2.75945020139557,
+      "kl": 0.47900390625,
       "learning_rate": 1.5299686831380395e-05,
-      "loss": 3.8202,
-      "reward": 2.407591462135315,
-      "reward_std": 0.3708171471953392,
-      "rewards/accuracy_reward": 0.5208333414047956,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.04206139035522938,
-      "rewards/tag_count_reward": 0.958333358168602,
+      "loss": 0.4981,
+      "reward": 1.8642282485961914,
+      "reward_std": 1.083889901638031,
+      "rewards/accuracy_reward": 0.4427083432674408,
+      "rewards/reasoning_steps_reward": 0.7708333730697632,
+      "rewards/repetition_penalty_reward": -0.08108432777225971,
+      "rewards/tag_count_reward": 0.731770858168602,
       "step": 260
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.5989646911621,
+      "completion_length": 483.5677185058594,
       "epoch": 0.3914510686164229,
-      "grad_norm": 930.2326367615931,
-      "kl": 29.53125,
+      "grad_norm": 2.796799480256457,
+      "kl": 1.189453125,
       "learning_rate": 1.5255137941234228e-05,
-      "loss": 5.1202,
-      "reward": 2.6035396456718445,
-      "reward_std": 0.47209347784519196,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.01972440304234624,
-      "rewards/tag_count_reward": 0.9635417014360428,
+      "loss": 0.3239,
+      "reward": 2.0941615104675293,
+      "reward_std": 1.0367512106895447,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.817708358168602,
+      "rewards/repetition_penalty_reward": -0.08292189985513687,
+      "rewards/tag_count_reward": 0.796875,
       "step": 261
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 253.92188262939453,
+      "completion_length": 490.7343978881836,
       "epoch": 0.39295088113985754,
-      "grad_norm": 56.25971418456335,
-      "kl": 7.8515625,
+      "grad_norm": 1.775868555651766,
+      "kl": 0.47119140625,
       "learning_rate": 1.5210444497383745e-05,
-      "loss": 1.6828,
-      "reward": 2.4639751315116882,
-      "reward_std": 0.519036740064621,
-      "rewards/accuracy_reward": 0.5885416865348816,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.020400056848302484,
-      "rewards/tag_count_reward": 0.9375000149011612,
+      "loss": 0.4116,
+      "reward": 2.075753331184387,
+      "reward_std": 1.1199206858873367,
+      "rewards/accuracy_reward": 0.5625000074505806,
+      "rewards/reasoning_steps_reward": 0.8177083432674408,
+      "rewards/repetition_penalty_reward": -0.12216338887810707,
+      "rewards/tag_count_reward": 0.8177083432674408,
       "step": 262
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.9895896911621,
+      "completion_length": 496.3958511352539,
       "epoch": 0.3944506936632921,
-      "grad_norm": 37.53129740951539,
-      "kl": 0.9560546875,
+      "grad_norm": 33.57969017695382,
+      "kl": 2.5966796875,
       "learning_rate": 1.5165607729216822e-05,
-      "loss": 0.5769,
-      "reward": 2.6286195516586304,
-      "reward_std": 0.4291228875517845,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.97743059694767,
-      "rewards/repetition_penalty_reward": -0.025894425809383392,
-      "rewards/tag_count_reward": 0.9687500149011612,
+      "loss": 0.4809,
+      "reward": 1.9561425149440765,
+      "reward_std": 1.0842882692813873,
+      "rewards/accuracy_reward": 0.432291679084301,
+      "rewards/reasoning_steps_reward": 0.8541666865348816,
+      "rewards/repetition_penalty_reward": -0.15453467145562172,
+      "rewards/tag_count_reward": 0.8242187649011612,
       "step": 263
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.0260467529297,
+      "completion_length": 445.7448043823242,
       "epoch": 0.39595050618672667,
-      "grad_norm": 40.41532757864787,
-      "kl": 0.7841796875,
+      "grad_norm": 5.931757796863058,
+      "kl": 15.0380859375,
       "learning_rate": 1.5120628870063772e-05,
-      "loss": 0.5366,
-      "reward": 2.569106698036194,
-      "reward_std": 0.5048164129257202,
-      "rewards/accuracy_reward": 0.6770833507180214,
-      "rewards/reasoning_steps_reward": 0.9548611342906952,
-      "rewards/repetition_penalty_reward": -0.02377540967427194,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.285,
+      "reward": 2.2481858134269714,
+      "reward_std": 0.9314106553792953,
+      "rewards/accuracy_reward": 0.6145833507180214,
+      "rewards/reasoning_steps_reward": 0.9184027910232544,
+      "rewards/repetition_penalty_reward": -0.13115456514060497,
+      "rewards/tag_count_reward": 0.8463541865348816,
       "step": 264
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.37500381469727,
+      "completion_length": 430.67188262939453,
       "epoch": 0.39745031871016123,
-      "grad_norm": 36.78339467024414,
-      "kl": 1.271484375,
+      "grad_norm": 4.7870139797358275,
+      "kl": 0.74755859375,
       "learning_rate": 1.5075509157163422e-05,
-      "loss": 0.6666,
-      "reward": 2.532996416091919,
-      "reward_std": 0.406702384352684,
-      "rewards/accuracy_reward": 0.614583358168602,
-      "rewards/reasoning_steps_reward": 0.9739583730697632,
-      "rewards/repetition_penalty_reward": -0.017784894444048405,
-      "rewards/tag_count_reward": 0.962239608168602,
+      "loss": 0.3762,
+      "reward": 2.189552366733551,
+      "reward_std": 1.0156923830509186,
+      "rewards/accuracy_reward": 0.6145833432674408,
+      "rewards/reasoning_steps_reward": 0.897569477558136,
+      "rewards/repetition_penalty_reward": -0.14942347817122936,
+      "rewards/tag_count_reward": 0.8268229365348816,
       "step": 265
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 269.87500762939453,
+      "completion_length": 438.3958435058594,
       "epoch": 0.3989501312335958,
-      "grad_norm": 5.827263683756955,
-      "kl": 5.0390625,
+      "grad_norm": 7.646687103422767,
+      "kl": 0.68505859375,
       "learning_rate": 1.503024983162908e-05,
-      "loss": 1.1664,
-      "reward": 2.5889384150505066,
-      "reward_std": 0.5250253453850746,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9618055820465088,
-      "rewards/repetition_penalty_reward": -0.025211102329194546,
-      "rewards/tag_count_reward": 0.9283854216337204,
+      "loss": 0.4374,
+      "reward": 2.135951668024063,
+      "reward_std": 1.0654807686805725,
+      "rewards/accuracy_reward": 0.5937500149011612,
+      "rewards/reasoning_steps_reward": 0.8906250149011612,
+      "rewards/repetition_penalty_reward": -0.17654842138290405,
+      "rewards/tag_count_reward": 0.8281250149011612,
       "step": 266
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.25000381469727,
+      "completion_length": 425.43751525878906,
       "epoch": 0.40044994375703036,
-      "grad_norm": 50.76618742939356,
-      "kl": 6.140625,
+      "grad_norm": 6.4245183766465415,
+      "kl": 0.4541015625,
       "learning_rate": 1.49848521384144e-05,
-      "loss": 1.4081,
-      "reward": 2.7229838967323303,
-      "reward_std": 0.47072865813970566,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.970486119389534,
-      "rewards/repetition_penalty_reward": -0.03396061668172479,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.4737,
+      "reward": 2.125093847513199,
+      "reward_std": 1.0813192874193192,
+      "rewards/accuracy_reward": 0.5677083507180214,
+      "rewards/reasoning_steps_reward": 0.8906250298023224,
+      "rewards/repetition_penalty_reward": -0.16396865621209145,
+      "rewards/tag_count_reward": 0.8307292014360428,
       "step": 267
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.90625762939453,
+      "completion_length": 344.36458587646484,
       "epoch": 0.4019497562804649,
-      "grad_norm": 5.736957116926136,
-      "kl": 3.244140625,
+      "grad_norm": 0.963320833591549,
+      "kl": 0.65771484375,
       "learning_rate": 1.4939317326279125e-05,
-      "loss": 1.0251,
-      "reward": 2.5634613633155823,
-      "reward_std": 0.4809972904622555,
-      "rewards/accuracy_reward": 0.6718750298023224,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.02681647054851055,
-      "rewards/tag_count_reward": 0.953125,
+      "loss": 0.3726,
+      "reward": 2.1674315333366394,
+      "reward_std": 0.8946598768234253,
+      "rewards/accuracy_reward": 0.5781250074505806,
+      "rewards/reasoning_steps_reward": 0.8697916865348816,
+      "rewards/repetition_penalty_reward": -0.12423517927527428,
+      "rewards/tag_count_reward": 0.8437500298023224,
       "step": 268
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.33855056762695,
+      "completion_length": 435.85938262939453,
       "epoch": 0.40344956880389954,
-      "grad_norm": 23.899798832527537,
-      "kl": 4.408203125,
+      "grad_norm": 0.7554295329920303,
+      "kl": 0.61767578125,
       "learning_rate": 1.489364664775475e-05,
-      "loss": 0.9419,
-      "reward": 2.684835433959961,
-      "reward_std": 0.39333367347717285,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.03261255333200097,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 0.3679,
+      "reward": 1.9763840436935425,
+      "reward_std": 0.8836520612239838,
+      "rewards/accuracy_reward": 0.588541679084301,
+      "rewards/reasoning_steps_reward": 0.8715278059244156,
+      "rewards/repetition_penalty_reward": -0.14514389261603355,
+      "rewards/tag_count_reward": 0.6614583432674408,
       "step": 269
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.65625762939453,
+      "completion_length": 461.4635543823242,
       "epoch": 0.4049493813273341,
-      "grad_norm": 2.2657313852356853,
-      "kl": 2.919921875,
+      "grad_norm": 1.4465486237113498,
+      "kl": 1.75048828125,
       "learning_rate": 1.4847841359110058e-05,
-      "loss": 0.7915,
-      "reward": 2.613522946834564,
-      "reward_std": 0.3725850097835064,
-      "rewards/accuracy_reward": 0.7135416939854622,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.027970252325758338,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.2759,
+      "reward": 2.053072690963745,
+      "reward_std": 0.9807803928852081,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.8576388955116272,
+      "rewards/repetition_penalty_reward": -0.1131600309163332,
+      "rewards/tag_count_reward": 0.6523437649011612,
       "step": 270
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.23438262939453,
+      "completion_length": 526.7500152587891,
       "epoch": 0.40644919385076866,
-      "grad_norm": 11.972730389593089,
-      "kl": 3.646484375,
+      "grad_norm": 3.0949957954601928,
+      "kl": 0.60693359375,
       "learning_rate": 1.480190272031657e-05,
-      "loss": 0.8564,
-      "reward": 2.5715832710266113,
-      "reward_std": 0.4187803417444229,
-      "rewards/accuracy_reward": 0.6770833507180214,
-      "rewards/reasoning_steps_reward": 0.9704861640930176,
-      "rewards/repetition_penalty_reward": -0.030413302592933178,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.3736,
+      "reward": 1.8765326142311096,
+      "reward_std": 1.0632285475730896,
+      "rewards/accuracy_reward": 0.4739583469927311,
+      "rewards/reasoning_steps_reward": 0.8211805522441864,
+      "rewards/repetition_penalty_reward": -0.1126167606562376,
+      "rewards/tag_count_reward": 0.6940104216337204,
       "step": 271
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.9166717529297,
+      "completion_length": 598.4635772705078,
       "epoch": 0.4079490063742032,
-      "grad_norm": 17.38669681328992,
-      "kl": 1.04296875,
+      "grad_norm": 2.8462767374545037,
+      "kl": 0.43017578125,
       "learning_rate": 1.475583199501389e-05,
-      "loss": 0.4368,
-      "reward": 2.6774919033050537,
-      "reward_std": 0.440396323800087,
-      "rewards/accuracy_reward": 0.7604166865348816,
-      "rewards/reasoning_steps_reward": 0.9722222238779068,
-      "rewards/repetition_penalty_reward": -0.03170954994857311,
-      "rewards/tag_count_reward": 0.9765625149011612,
+      "loss": 0.2644,
+      "reward": 1.9981749355793,
+      "reward_std": 1.0920402854681015,
+      "rewards/accuracy_reward": 0.567708358168602,
+      "rewards/reasoning_steps_reward": 0.8072916865348816,
+      "rewards/repetition_penalty_reward": -0.13463760912418365,
+      "rewards/tag_count_reward": 0.7578125298023224,
       "step": 272
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.77605056762695,
+      "completion_length": 624.3802337646484,
       "epoch": 0.4094488188976378,
-      "grad_norm": 14.315967716823838,
-      "kl": 1.7646484375,
+      "grad_norm": 1.682946550152949,
+      "kl": 0.3154296875,
       "learning_rate": 1.4709630450474936e-05,
-      "loss": 0.679,
-      "reward": 2.7193071246147156,
-      "reward_std": 0.4441717490553856,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9618055820465088,
-      "rewards/repetition_penalty_reward": -0.03676935099065304,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.3079,
+      "reward": 1.9099436402320862,
+      "reward_std": 1.3163824081420898,
+      "rewards/accuracy_reward": 0.5989583507180214,
+      "rewards/reasoning_steps_reward": 0.7760416865348816,
+      "rewards/repetition_penalty_reward": -0.1812022142112255,
+      "rewards/tag_count_reward": 0.716145858168602,
       "step": 273
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.60938262939453,
+      "completion_length": 662.1250152587891,
       "epoch": 0.41094863142107235,
-      "grad_norm": 12.679917824503232,
-      "kl": 2.2265625,
+      "grad_norm": 0.8488180233484801,
+      "kl": 0.421875,
       "learning_rate": 1.466329935757109e-05,
-      "loss": 0.6142,
-      "reward": 2.5890852212905884,
-      "reward_std": 0.3576386868953705,
-      "rewards/accuracy_reward": 0.6614583507180214,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.03157464787364006,
-      "rewards/tag_count_reward": 0.9713541865348816,
+      "loss": 0.2648,
+      "reward": 1.6805398762226105,
+      "reward_std": 1.3386418521404266,
+      "rewards/accuracy_reward": 0.4687500074505806,
+      "rewards/reasoning_steps_reward": 0.7447916865348816,
+      "rewards/repetition_penalty_reward": -0.24263722822070122,
+      "rewards/tag_count_reward": 0.7096354365348816,
       "step": 274
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.6302146911621,
+      "completion_length": 623.0469055175781,
       "epoch": 0.4124484439445069,
-      "grad_norm": 6.724833772098711,
-      "kl": 1.8125,
+      "grad_norm": 3.2203198278586647,
+      "kl": 0.39111328125,
       "learning_rate": 1.4616839990737232e-05,
-      "loss": 0.4751,
-      "reward": 2.6611116528511047,
-      "reward_std": 0.3041349947452545,
-      "rewards/accuracy_reward": 0.7291666716337204,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.028124571312218904,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 0.2989,
+      "reward": 1.7977931797504425,
+      "reward_std": 1.3433575332164764,
+      "rewards/accuracy_reward": 0.4739583358168602,
+      "rewards/reasoning_steps_reward": 0.7916666865348816,
+      "rewards/repetition_penalty_reward": -0.22955061122775078,
+      "rewards/tag_count_reward": 0.7617187649011612,
       "step": 275
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 241.07812881469727,
+      "completion_length": 542.328125,
       "epoch": 0.41394825646794153,
-      "grad_norm": 12.361659642014535,
-      "kl": 3.11328125,
+      "grad_norm": 1.263395821949462,
+      "kl": 0.92236328125,
       "learning_rate": 1.4570253627936693e-05,
-      "loss": 0.8863,
-      "reward": 2.647101581096649,
-      "reward_std": 0.40448398888111115,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.030849804636090994,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.2418,
+      "reward": 2.0932159423828125,
+      "reward_std": 1.0350356549024582,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/reasoning_steps_reward": 0.8593750298023224,
+      "rewards/repetition_penalty_reward": -0.168502826243639,
+      "rewards/tag_count_reward": 0.860677108168602,
       "step": 276
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.4791717529297,
+      "completion_length": 587.0781402587891,
       "epoch": 0.4154480689913761,
-      "grad_norm": 10.28432474158588,
-      "kl": 0.76171875,
+      "grad_norm": 0.6161220934962688,
+      "kl": 0.4345703125,
       "learning_rate": 1.4523541550626093e-05,
-      "loss": 0.349,
-      "reward": 2.594405770301819,
-      "reward_std": 0.1998637057840824,
-      "rewards/accuracy_reward": 0.6666667014360428,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.04101098608225584,
-      "rewards/tag_count_reward": 0.984375,
+      "loss": 0.1862,
+      "reward": 2.1349116563796997,
+      "reward_std": 0.9175398647785187,
+      "rewards/accuracy_reward": 0.5677083432674408,
+      "rewards/reasoning_steps_reward": 0.8854166865348816,
+      "rewards/repetition_penalty_reward": -0.18409884721040726,
+      "rewards/tag_count_reward": 0.8658854365348816,
       "step": 277
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.7708396911621,
+      "completion_length": 481.4427185058594,
       "epoch": 0.41694788151481066,
-      "grad_norm": 8.121334172436347,
-      "kl": 0.89990234375,
+      "grad_norm": 0.6544307412376995,
+      "kl": 1.18701171875,
       "learning_rate": 1.4476705043720099e-05,
-      "loss": 0.3742,
-      "reward": 2.8078061938285828,
-      "reward_std": 0.304847190156579,
-      "rewards/accuracy_reward": 0.8593750149011612,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.02552723279222846,
-      "rewards/tag_count_reward": 0.984375,
+      "loss": 0.1448,
+      "reward": 2.3552486300468445,
+      "reward_std": 0.7834517806768417,
+      "rewards/accuracy_reward": 0.6614583507180214,
+      "rewards/reasoning_steps_reward": 0.927083358168602,
+      "rewards/repetition_penalty_reward": -0.1252202671021223,
+      "rewards/tag_count_reward": 0.8919270932674408,
       "step": 278
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.4895896911621,
+      "completion_length": 469.12501525878906,
       "epoch": 0.4184476940382452,
-      "grad_norm": 8.922984245945559,
-      "kl": 1.37744140625,
+      "grad_norm": 1.6940544921635285,
+      "kl": 0.65087890625,
       "learning_rate": 1.4429745395556073e-05,
-      "loss": 0.5918,
-      "reward": 2.665529727935791,
-      "reward_std": 0.33949872478842735,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555671453476,
-      "rewards/repetition_penalty_reward": -0.024140472058206797,
-      "rewards/tag_count_reward": 0.9674479365348816,
+      "loss": 0.1976,
+      "reward": 2.295401096343994,
+      "reward_std": 0.7886304408311844,
+      "rewards/accuracy_reward": 0.6145833432674408,
+      "rewards/reasoning_steps_reward": 0.9079861342906952,
+      "rewards/repetition_penalty_reward": -0.12300180085003376,
+      "rewards/tag_count_reward": 0.8958333432674408,
       "step": 279
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 197.20312881469727,
+      "completion_length": 444.00521087646484,
       "epoch": 0.4199475065616798,
-      "grad_norm": 11.885955592817725,
-      "kl": 1.419921875,
+      "grad_norm": 2.02027175437092,
+      "kl": 0.3291015625,
       "learning_rate": 1.4382663897858647e-05,
-      "loss": 0.3527,
-      "reward": 2.600801944732666,
-      "reward_std": 0.2686375230550766,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.030708489008247852,
-      "rewards/tag_count_reward": 0.985677108168602,
+      "loss": 0.0773,
+      "reward": 2.3556065559387207,
+      "reward_std": 0.5934457406401634,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.10489701479673386,
+      "rewards/tag_count_reward": 0.9361979365348816,
       "step": 280
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 277.1823043823242,
+      "completion_length": 408.82814025878906,
       "epoch": 0.42144731908511435,
-      "grad_norm": 34.196754104798,
-      "kl": 5.865234375,
+      "grad_norm": 2.1520369019481316,
+      "kl": 0.3623046875,
       "learning_rate": 1.4335461845704173e-05,
-      "loss": 1.1386,
-      "reward": 2.416446477174759,
-      "reward_std": 0.47412654757499695,
-      "rewards/accuracy_reward": 0.5729166865348816,
-      "rewards/reasoning_steps_reward": 0.9548611342906952,
-      "rewards/repetition_penalty_reward": -0.024091816041618586,
-      "rewards/tag_count_reward": 0.9127604365348816,
+      "loss": 0.3092,
+      "reward": 2.3092455863952637,
+      "reward_std": 0.8222566097974777,
+      "rewards/accuracy_reward": 0.6197916865348816,
+      "rewards/reasoning_steps_reward": 0.9149305820465088,
+      "rewards/repetition_penalty_reward": -0.1161017045378685,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 281
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.23958587646484,
+      "completion_length": 389.1302185058594,
       "epoch": 0.4229471316085489,
-      "grad_norm": 7.827483997656616,
-      "kl": 2.251953125,
+      "grad_norm": 2.1074908824998912,
+      "kl": 0.31689453125,
       "learning_rate": 1.428814053748512e-05,
-      "loss": 0.72,
-      "reward": 2.669346511363983,
-      "reward_std": 0.410087987780571,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.02857015887275338,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 0.2336,
+      "reward": 2.3464564085006714,
+      "reward_std": 0.8324245363473892,
+      "rewards/accuracy_reward": 0.6666666716337204,
+      "rewards/reasoning_steps_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.13140839524567127,
+      "rewards/tag_count_reward": 0.8945312798023224,
       "step": 282
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.53125,
+      "completion_length": 382.51564025878906,
       "epoch": 0.42444694413198353,
-      "grad_norm": 3.0528671937109757,
-      "kl": 0.5556640625,
+      "grad_norm": 2.4209991865943645,
+      "kl": 0.30810546875,
       "learning_rate": 1.4240701274874331e-05,
-      "loss": 0.1773,
-      "reward": 2.6338695287704468,
-      "reward_std": 0.2932188091799617,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.03236319124698639,
-      "rewards/tag_count_reward": 0.9908854216337204,
+      "loss": 0.3742,
+      "reward": 2.1715636253356934,
+      "reward_std": 0.9031594395637512,
+      "rewards/accuracy_reward": 0.5729166865348816,
+      "rewards/reasoning_steps_reward": 0.8697916865348816,
+      "rewards/repetition_penalty_reward": -0.1435406319797039,
+      "rewards/tag_count_reward": 0.872395858168602,
       "step": 283
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.04687881469727,
+      "completion_length": 351.92188262939453,
       "epoch": 0.4259467566554181,
-      "grad_norm": 16.521107944862717,
-      "kl": 1.06494140625,
+      "grad_norm": 2.6366018633296884,
+      "kl": 0.48486328125,
       "learning_rate": 1.419314536278925e-05,
-      "loss": 0.6407,
-      "reward": 2.675931394100189,
-      "reward_std": 0.3121615252457559,
-      "rewards/accuracy_reward": 0.755208358168602,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.030665938276797533,
-      "rewards/tag_count_reward": 0.9687500149011612,
+      "loss": 0.5396,
+      "reward": 2.206935942173004,
+      "reward_std": 1.114256203174591,
+      "rewards/accuracy_reward": 0.6510416865348816,
+      "rewards/reasoning_steps_reward": 0.8559028208255768,
+      "rewards/repetition_penalty_reward": -0.1619878150522709,
+      "rewards/tag_count_reward": 0.8619791865348816,
       "step": 284
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 204.18750381469727,
+      "completion_length": 305.18751525878906,
       "epoch": 0.42744656917885265,
-      "grad_norm": 5.497622639890418,
-      "kl": 0.99462890625,
+      "grad_norm": 1.5196765033206825,
+      "kl": 0.53564453125,
       "learning_rate": 1.4145474109356008e-05,
-      "loss": 0.4354,
-      "reward": 2.717790961265564,
-      "reward_std": 0.28716015443205833,
-      "rewards/accuracy_reward": 0.7760416865348816,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.02656660182401538,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.2239,
+      "reward": 2.3387808799743652,
+      "reward_std": 0.7637557685375214,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 0.9131944626569748,
+      "rewards/repetition_penalty_reward": -0.10696578957140446,
+      "rewards/tag_count_reward": 0.8867187649011612,
       "step": 285
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.9531364440918,
+      "completion_length": 367.5989685058594,
       "epoch": 0.4289463817022872,
-      "grad_norm": 11.12837490424536,
-      "kl": 3.10546875,
+      "grad_norm": 1.1289332268594263,
+      "kl": 0.37158203125,
       "learning_rate": 1.4097688825873437e-05,
-      "loss": 0.8672,
-      "reward": 2.6280420422554016,
-      "reward_std": 0.39313384145498276,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.03905859449878335,
-      "rewards/tag_count_reward": 0.9570312798023224,
+      "loss": 0.3786,
+      "reward": 2.217616856098175,
+      "reward_std": 0.9250410199165344,
+      "rewards/accuracy_reward": 0.6354166865348816,
+      "rewards/reasoning_steps_reward": 0.897569477558136,
+      "rewards/repetition_penalty_reward": -0.1643276885151863,
+      "rewards/tag_count_reward": 0.848958358168602,
       "step": 286
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.0572967529297,
+      "completion_length": 383.53126525878906,
       "epoch": 0.4304461942257218,
-      "grad_norm": 9.306320853861074,
-      "kl": 2.4326171875,
+      "grad_norm": 0.8172511360961945,
+      "kl": 0.3134765625,
       "learning_rate": 1.4049790826777016e-05,
-      "loss": 0.8369,
-      "reward": 2.5040841102600098,
-      "reward_std": 0.3208254538476467,
-      "rewards/accuracy_reward": 0.5781250074505806,
-      "rewards/reasoning_steps_reward": 0.9965277910232544,
-      "rewards/repetition_penalty_reward": -0.031506254337728024,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.316,
+      "reward": 2.058010071516037,
+      "reward_std": 0.7540641278028488,
+      "rewards/accuracy_reward": 0.4270833432674408,
+      "rewards/reasoning_steps_reward": 0.911458358168602,
+      "rewards/repetition_penalty_reward": -0.13990668766200542,
+      "rewards/tag_count_reward": 0.8593750298023224,
       "step": 287
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.78125381469727,
+      "completion_length": 366.4479293823242,
       "epoch": 0.43194600674915634,
-      "grad_norm": 5.585862488308667,
-      "kl": 1.44921875,
+      "grad_norm": 2.8494106639784276,
+      "kl": 0.578125,
       "learning_rate": 1.4001781429602704e-05,
-      "loss": 0.6499,
-      "reward": 2.556925117969513,
-      "reward_std": 0.42149753123521805,
-      "rewards/accuracy_reward": 0.6093750260770321,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.019897868391126394,
-      "rewards/tag_count_reward": 0.97265625,
+      "loss": 0.2977,
+      "reward": 2.2450991570949554,
+      "reward_std": 0.8115597367286682,
+      "rewards/accuracy_reward": 0.5572916716337204,
+      "rewards/reasoning_steps_reward": 0.9270833283662796,
+      "rewards/repetition_penalty_reward": -0.11036965623497963,
+      "rewards/tag_count_reward": 0.8710937649011612,
       "step": 288
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 207.7552146911621,
+      "completion_length": 362.0573043823242,
       "epoch": 0.4334458192725909,
-      "grad_norm": 5.688055347158159,
-      "kl": 1.3486328125,
+      "grad_norm": 1.5771836903904428,
+      "kl": 0.34228515625,
       "learning_rate": 1.3953661954950693e-05,
-      "loss": 0.5048,
-      "reward": 2.4292953610420227,
-      "reward_std": 0.3075702078640461,
-      "rewards/accuracy_reward": 0.5000000102445483,
-      "rewards/reasoning_steps_reward": 0.9913194477558136,
-      "rewards/repetition_penalty_reward": -0.03207629453390837,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.213,
+      "reward": 2.2435672879219055,
+      "reward_std": 0.7003582268953323,
+      "rewards/accuracy_reward": 0.5260416865348816,
+      "rewards/reasoning_steps_reward": 0.9461805820465088,
+      "rewards/repetition_penalty_reward": -0.11407159268856049,
+      "rewards/tag_count_reward": 0.8854166865348816,
       "step": 289
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.9166717529297,
+      "completion_length": 314.3020935058594,
       "epoch": 0.4349456317960255,
-      "grad_norm": 1.8549641962399313,
-      "kl": 0.71044921875,
+      "grad_norm": 1.307478764620523,
+      "kl": 0.40576171875,
       "learning_rate": 1.3905433726449102e-05,
-      "loss": 0.251,
-      "reward": 2.6722521781921387,
-      "reward_std": 0.3378063030540943,
-      "rewards/accuracy_reward": 0.7239583432674408,
-      "rewards/reasoning_steps_reward": 0.9965277910232544,
-      "rewards/repetition_penalty_reward": -0.03651529923081398,
-      "rewards/tag_count_reward": 0.9882812649011612,
+      "loss": 0.1718,
+      "reward": 2.420071065425873,
+      "reward_std": 0.5883182883262634,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/reasoning_steps_reward": 0.9652777761220932,
+      "rewards/repetition_penalty_reward": -0.08426924794912338,
+      "rewards/tag_count_reward": 0.934895858168602,
       "step": 290
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 193.82813262939453,
+      "completion_length": 344.4270935058594,
       "epoch": 0.4364454443194601,
-      "grad_norm": 2.2180974772052453,
-      "kl": 1.0986328125,
+      "grad_norm": 1.066920831840518,
+      "kl": 0.69140625,
       "learning_rate": 1.3857098070717543e-05,
-      "loss": 0.5164,
-      "reward": 2.7617053389549255,
-      "reward_std": 0.3312147632241249,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.022582892794162035,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 0.2395,
+      "reward": 2.4870429635047913,
+      "reward_std": 0.7747205495834351,
+      "rewards/accuracy_reward": 0.7291666939854622,
+      "rewards/reasoning_steps_reward": 0.9461805820465088,
+      "rewards/repetition_penalty_reward": -0.10106483101844788,
+      "rewards/tag_count_reward": 0.9127604365348816,
       "step": 291
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.54688262939453,
+      "completion_length": 349.6822967529297,
       "epoch": 0.43794525684289465,
-      "grad_norm": 12.18787699766214,
-      "kl": 2.185546875,
+      "grad_norm": 0.737418903498002,
+      "kl": 0.33349609375,
       "learning_rate": 1.3808656317330646e-05,
-      "loss": 0.7891,
-      "reward": 2.4147286415100098,
-      "reward_std": 0.5803365781903267,
-      "rewards/accuracy_reward": 0.5572916828095913,
-      "rewards/reasoning_steps_reward": 0.9565972685813904,
-      "rewards/repetition_penalty_reward": -0.05619149189442396,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.1173,
+      "reward": 2.453067660331726,
+      "reward_std": 0.43977494165301323,
+      "rewards/accuracy_reward": 0.6406250298023224,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.10465812310576439,
+      "rewards/tag_count_reward": 0.9361979365348816,
       "step": 292
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 226.35937881469727,
+      "completion_length": 384.39063262939453,
       "epoch": 0.4394450693663292,
-      "grad_norm": 14.298340510742703,
-      "kl": 1.6005859375,
+      "grad_norm": 1.8989977209226134,
+      "kl": 0.5810546875,
       "learning_rate": 1.3760109798781489e-05,
-      "loss": 0.6926,
-      "reward": 2.744252860546112,
-      "reward_std": 0.3814915865659714,
-      "rewards/accuracy_reward": 0.8229166716337204,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.053924234583973885,
-      "rewards/tag_count_reward": 0.9752604365348816,
+      "loss": 0.3604,
+      "reward": 2.2495803833007812,
+      "reward_std": 0.849450945854187,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.927083358168602,
+      "rewards/repetition_penalty_reward": -0.13974259793758392,
+      "rewards/tag_count_reward": 0.8997395932674408,
       "step": 293
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.0677146911621,
+      "completion_length": 369.5833435058594,
       "epoch": 0.4409448818897638,
-      "grad_norm": 1.5380278951289539,
-      "kl": 0.818359375,
+      "grad_norm": 0.5939727210211808,
+      "kl": 0.7841796875,
       "learning_rate": 1.3711459850444923e-05,
-      "loss": 0.4797,
-      "reward": 2.565054178237915,
-      "reward_std": 0.43462975323200226,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.982638880610466,
-      "rewards/repetition_penalty_reward": -0.047793143428862095,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 0.2594,
+      "reward": 2.291065901517868,
+      "reward_std": 0.7707606852054596,
+      "rewards/accuracy_reward": 0.5416666716337204,
+      "rewards/reasoning_steps_reward": 0.9479166865348816,
+      "rewards/repetition_penalty_reward": -0.11648627929389477,
+      "rewards/tag_count_reward": 0.9179687649011612,
       "step": 294
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.1822967529297,
+      "completion_length": 386.82813262939453,
       "epoch": 0.44244469441319834,
-      "grad_norm": 2.6940921154273263,
-      "kl": 0.70263671875,
+      "grad_norm": 2.0394609526475236,
+      "kl": 0.73681640625,
       "learning_rate": 1.3662707810540867e-05,
-      "loss": 0.4852,
-      "reward": 2.7508795261383057,
-      "reward_std": 0.4059586077928543,
-      "rewards/accuracy_reward": 0.8281250298023224,
-      "rewards/reasoning_steps_reward": 0.9965277761220932,
-      "rewards/repetition_penalty_reward": -0.04642965644598007,
-      "rewards/tag_count_reward": 0.9726562649011612,
+      "loss": 0.3294,
+      "reward": 2.276679277420044,
+      "reward_std": 1.02875255048275,
+      "rewards/accuracy_reward": 0.6354166865348816,
+      "rewards/reasoning_steps_reward": 0.8888889104127884,
+      "rewards/repetition_penalty_reward": -0.13825136795639992,
+      "rewards/tag_count_reward": 0.8906250298023224,
       "step": 295
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.18230056762695,
+      "completion_length": 359.828125,
       "epoch": 0.4439445069366329,
-      "grad_norm": 3.103564524085595,
-      "kl": 0.60400390625,
+      "grad_norm": 0.9901125024422729,
+      "kl": 0.392578125,
       "learning_rate": 1.3613855020097477e-05,
-      "loss": 0.4706,
-      "reward": 2.7546513080596924,
-      "reward_std": 0.3886885233223438,
-      "rewards/accuracy_reward": 0.8437500149011612,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.05133842211216688,
-      "rewards/tag_count_reward": 0.9726562649011612,
+      "loss": 0.2768,
+      "reward": 2.5605881214141846,
+      "reward_std": 0.7392320334911346,
+      "rewards/accuracy_reward": 0.8177083432674408,
+      "rewards/reasoning_steps_reward": 0.9392361491918564,
+      "rewards/repetition_penalty_reward": -0.12083561439067125,
+      "rewards/tag_count_reward": 0.9244791716337204,
       "step": 296
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.4427146911621,
+      "completion_length": 383.4427185058594,
       "epoch": 0.4454443194600675,
-      "grad_norm": 2.4514035939782155,
-      "kl": 0.61279296875,
+      "grad_norm": 0.6075657581629706,
+      "kl": 1.2001953125,
       "learning_rate": 1.3564902822914274e-05,
-      "loss": 0.4279,
-      "reward": 2.7078776359558105,
-      "reward_std": 0.3973502516746521,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.05340719223022461,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.3837,
+      "reward": 2.383248746395111,
+      "reward_std": 1.0118870586156845,
+      "rewards/accuracy_reward": 0.7239583432674408,
+      "rewards/reasoning_steps_reward": 0.907986119389534,
+      "rewards/repetition_penalty_reward": -0.1510394662618637,
+      "rewards/tag_count_reward": 0.9023437798023224,
       "step": 297
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.4322967529297,
+      "completion_length": 421.82813262939453,
       "epoch": 0.4469441319835021,
-      "grad_norm": 16.752659312125665,
-      "kl": 0.775390625,
+      "grad_norm": 0.7992325861558693,
+      "kl": 0.39208984375,
       "learning_rate": 1.3515852565525167e-05,
-      "loss": 0.3563,
-      "reward": 2.8165610432624817,
-      "reward_std": 0.28164857253432274,
-      "rewards/accuracy_reward": 0.880208358168602,
-      "rewards/reasoning_steps_reward": 0.9965277910232544,
-      "rewards/repetition_penalty_reward": -0.05106059880927205,
-      "rewards/tag_count_reward": 0.9908854365348816,
+      "loss": 0.4008,
+      "reward": 2.303019016981125,
+      "reward_std": 1.0580395609140396,
+      "rewards/accuracy_reward": 0.723958358168602,
+      "rewards/reasoning_steps_reward": 0.8854166716337204,
+      "rewards/repetition_penalty_reward": -0.1839602366089821,
+      "rewards/tag_count_reward": 0.8776042014360428,
       "step": 298
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.20833587646484,
+      "completion_length": 360.6666793823242,
       "epoch": 0.44844394450693664,
-      "grad_norm": 29.22658507606216,
-      "kl": 0.84423828125,
+      "grad_norm": 0.7019719444995071,
+      "kl": 0.45654296875,
       "learning_rate": 1.3466705597161416e-05,
-      "loss": 0.4067,
-      "reward": 2.764431357383728,
-      "reward_std": 0.3144514746963978,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9809028208255768,
-      "rewards/repetition_penalty_reward": -0.05240898672491312,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.0816,
+      "reward": 2.5587180852890015,
+      "reward_std": 0.4348931238055229,
+      "rewards/accuracy_reward": 0.6927083656191826,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.08971942402422428,
+      "rewards/tag_count_reward": 0.9765625149011612,
       "step": 299
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 188.73437881469727,
+      "completion_length": 360.20833587646484,
       "epoch": 0.4499437570303712,
-      "grad_norm": 0.9955419431414791,
-      "kl": 0.42578125,
+      "grad_norm": 0.8473895074586508,
+      "kl": 0.51953125,
       "learning_rate": 1.3417463269714525e-05,
-      "loss": 0.2115,
-      "reward": 2.706632077693939,
-      "reward_std": 0.2604191384743899,
-      "rewards/accuracy_reward": 0.7656250149011612,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.03555556107312441,
-      "rewards/tag_count_reward": 0.9869791865348816,
+      "loss": 0.1846,
+      "reward": 2.5228134989738464,
+      "reward_std": 0.6405130326747894,
+      "rewards/accuracy_reward": 0.6927083432674408,
+      "rewards/reasoning_steps_reward": 0.9652777910232544,
+      "rewards/repetition_penalty_reward": -0.09350610896945,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 300
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.2395896911621,
+      "completion_length": 404.3698043823242,
       "epoch": 0.45144356955380577,
-      "grad_norm": 1.461352147416173,
-      "kl": 0.5546875,
+      "grad_norm": 1.59719244073744,
+      "kl": 0.48876953125,
       "learning_rate": 1.3368126937699055e-05,
-      "loss": 0.4384,
-      "reward": 2.648770272731781,
-      "reward_std": 0.4800826385617256,
-      "rewards/accuracy_reward": 0.760416679084301,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.06346932239830494,
-      "rewards/tag_count_reward": 0.9778645932674408,
+      "loss": 0.3579,
+      "reward": 2.2757957577705383,
+      "reward_std": 0.9483175575733185,
+      "rewards/accuracy_reward": 0.6145833507180214,
+      "rewards/reasoning_steps_reward": 0.904513880610466,
+      "rewards/repetition_penalty_reward": -0.14694742858409882,
+      "rewards/tag_count_reward": 0.903645858168602,
       "step": 301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.32813262939453,
+      "completion_length": 378.29688262939453,
       "epoch": 0.45294338207724033,
-      "grad_norm": 1.0886524612409492,
-      "kl": 0.60986328125,
+      "grad_norm": 0.47093010825160103,
+      "kl": 0.86376953125,
       "learning_rate": 1.3318697958215358e-05,
-      "loss": 0.4636,
-      "reward": 2.561100661754608,
-      "reward_std": 0.5553513169288635,
-      "rewards/accuracy_reward": 0.6979166865348816,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.06823972798883915,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.3148,
+      "reward": 2.259345531463623,
+      "reward_std": 1.0043332874774933,
+      "rewards/accuracy_reward": 0.5885416716337204,
+      "rewards/reasoning_steps_reward": 0.9062500298023224,
+      "rewards/repetition_penalty_reward": -0.13258161395788193,
+      "rewards/tag_count_reward": 0.8971354514360428,
       "step": 302
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 191.9166717529297,
+      "completion_length": 426.34376525878906,
       "epoch": 0.4544431946006749,
-      "grad_norm": 4.083408704872753,
-      "kl": 0.5341796875,
+      "grad_norm": 1.6840109923746656,
+      "kl": 0.615234375,
       "learning_rate": 1.3269177690912244e-05,
-      "loss": 0.4274,
-      "reward": 2.4237236976623535,
-      "reward_std": 0.3847580924630165,
-      "rewards/accuracy_reward": 0.5000000149011612,
-      "rewards/reasoning_steps_reward": 0.9826389253139496,
-      "rewards/repetition_penalty_reward": -0.040686123073101044,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.5099,
+      "reward": 2.000718355178833,
+      "reward_std": 1.0972090363502502,
+      "rewards/accuracy_reward": 0.494791679084301,
+      "rewards/reasoning_steps_reward": 0.8593750149011612,
+      "rewards/repetition_penalty_reward": -0.20370880514383316,
+      "rewards/tag_count_reward": 0.8502604514360428,
       "step": 303
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 180.50000381469727,
+      "completion_length": 503.51564025878906,
       "epoch": 0.4559430071241095,
-      "grad_norm": 5.326097299416955,
-      "kl": 0.65478515625,
+      "grad_norm": 0.8957611247139153,
+      "kl": 0.5615234375,
       "learning_rate": 1.3219567497949603e-05,
-      "loss": 0.2812,
-      "reward": 2.7030047178268433,
-      "reward_std": 0.3447668179869652,
-      "rewards/accuracy_reward": 0.7760416865348816,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.04786340892314911,
-      "rewards/tag_count_reward": 0.9869791865348816,
+      "loss": 0.5607,
+      "reward": 1.748295396566391,
+      "reward_std": 1.3299023509025574,
+      "rewards/accuracy_reward": 0.4270833469927311,
+      "rewards/reasoning_steps_reward": 0.8368055522441864,
+      "rewards/repetition_penalty_reward": -0.311166375875473,
+      "rewards/tag_count_reward": 0.7955729514360428,
       "step": 304
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 197.6145896911621,
+      "completion_length": 463.82813262939453,
       "epoch": 0.4574428196475441,
-      "grad_norm": 3.907793025870675,
-      "kl": 0.7373046875,
+      "grad_norm": 0.7521310552587273,
+      "kl": 0.373046875,
       "learning_rate": 1.3169868743960904e-05,
-      "loss": 0.6404,
-      "reward": 2.686201572418213,
-      "reward_std": 0.4964783936738968,
-      "rewards/accuracy_reward": 0.802083358168602,
-      "rewards/reasoning_steps_reward": 0.970486119389534,
-      "rewards/repetition_penalty_reward": -0.05251379404217005,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.5557,
+      "reward": 2.0611188113689423,
+      "reward_std": 1.065147504210472,
+      "rewards/accuracy_reward": 0.5364583432674408,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.25572141259908676,
+      "rewards/tag_count_reward": 0.856770858168602,
       "step": 305
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.15625381469727,
+      "completion_length": 403.75001525878906,
       "epoch": 0.45894263217097864,
-      "grad_norm": 1.3757226995738794,
-      "kl": 0.8720703125,
+      "grad_norm": 0.531106231660718,
+      "kl": 0.33935546875,
       "learning_rate": 1.3120082796015694e-05,
-      "loss": 0.5179,
-      "reward": 2.551712214946747,
-      "reward_std": 0.4617387279868126,
-      "rewards/accuracy_reward": 0.7031250223517418,
-      "rewards/reasoning_steps_reward": 0.963541716337204,
-      "rewards/repetition_penalty_reward": -0.06938168965280056,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.4341,
+      "reward": 2.1974433958530426,
+      "reward_std": 0.9661893397569656,
+      "rewards/accuracy_reward": 0.5468750074505806,
+      "rewards/reasoning_steps_reward": 0.9270833432674408,
+      "rewards/repetition_penalty_reward": -0.17234836518764496,
+      "rewards/tag_count_reward": 0.895833358168602,
       "step": 306
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 191.1302146911621,
+      "completion_length": 389.5104293823242,
       "epoch": 0.4604424446944132,
-      "grad_norm": 2.380244199934681,
-      "kl": 0.49951171875,
+      "grad_norm": 0.9868194546337975,
+      "kl": 8.66748046875,
       "learning_rate": 1.3070211023581959e-05,
-      "loss": 0.3394,
-      "reward": 2.5620276927948,
-      "reward_std": 0.2889845799654722,
-      "rewards/accuracy_reward": 0.635416679084301,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.047347418032586575,
-      "rewards/tag_count_reward": 0.9843750149011612,
+      "loss": 0.5127,
+      "reward": 2.096434473991394,
+      "reward_std": 1.0376380234956741,
+      "rewards/accuracy_reward": 0.5000000260770321,
+      "rewards/reasoning_steps_reward": 0.9027778208255768,
+      "rewards/repetition_penalty_reward": -0.18134328350424767,
+      "rewards/tag_count_reward": 0.8750000149011612,
       "step": 307
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.4479217529297,
+      "completion_length": 346.2239761352539,
       "epoch": 0.46194225721784776,
-      "grad_norm": 3.432394493893828,
-      "kl": 0.86669921875,
+      "grad_norm": 1.1602735630677965,
+      "kl": 0.60205078125,
       "learning_rate": 1.302025479848847e-05,
-      "loss": 0.6401,
-      "reward": 2.608788251876831,
-      "reward_std": 0.3985390290617943,
-      "rewards/accuracy_reward": 0.7135416865348816,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.05050008138641715,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.6158,
+      "reward": 2.2226256132125854,
+      "reward_std": 1.0068841725587845,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.9236111491918564,
+      "rewards/repetition_penalty_reward": -0.15801683440804482,
+      "rewards/tag_count_reward": 0.8945312649011612,
       "step": 308
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 182.7604217529297,
+      "completion_length": 365.1145935058594,
       "epoch": 0.4634420697412823,
-      "grad_norm": 1.720744202323982,
-      "kl": 0.62353515625,
+      "grad_norm": 0.5983467148707611,
+      "kl": 0.783203125,
       "learning_rate": 1.2970215494887057e-05,
-      "loss": 0.496,
-      "reward": 2.7085583209991455,
-      "reward_std": 0.3612633068114519,
-      "rewards/accuracy_reward": 0.7812500298023224,
-      "rewards/reasoning_steps_reward": 0.989583358168602,
-      "rewards/repetition_penalty_reward": -0.04144172929227352,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.4409,
+      "reward": 2.213726222515106,
+      "reward_std": 0.9471542239189148,
+      "rewards/accuracy_reward": 0.5312500149011612,
+      "rewards/reasoning_steps_reward": 0.9375000298023224,
+      "rewards/repetition_penalty_reward": -0.1339300237596035,
+      "rewards/tag_count_reward": 0.8789062649011612,
       "step": 309
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 182.78646087646484,
+      "completion_length": 383.40626525878906,
       "epoch": 0.4649418822647169,
-      "grad_norm": 3.1536070169922437,
-      "kl": 0.6181640625,
+      "grad_norm": 0.5734600272497099,
+      "kl": 0.890625,
       "learning_rate": 1.2920094489214794e-05,
-      "loss": 0.4513,
-      "reward": 2.6318033933639526,
-      "reward_std": 0.3417645953595638,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.049186245538294315,
-      "rewards/tag_count_reward": 0.9830729365348816,
+      "loss": 0.4356,
+      "reward": 2.073159396648407,
+      "reward_std": 1.0565957874059677,
+      "rewards/accuracy_reward": 0.4843750223517418,
+      "rewards/reasoning_steps_reward": 0.9062500298023224,
+      "rewards/repetition_penalty_reward": -0.16642405465245247,
+      "rewards/tag_count_reward": 0.848958358168602,
       "step": 310
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 172.5208396911621,
+      "completion_length": 301.56250762939453,
       "epoch": 0.4664416947881515,
-      "grad_norm": 2.2535506878920915,
-      "kl": 0.5439453125,
+      "grad_norm": 0.7211277806322656,
+      "kl": 0.6845703125,
       "learning_rate": 1.2869893160156144e-05,
-      "loss": 0.2928,
-      "reward": 2.554309666156769,
-      "reward_std": 0.3680322840809822,
-      "rewards/accuracy_reward": 0.635416679084301,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.042912650387734175,
-      "rewards/tag_count_reward": 0.9791666716337204,
+      "loss": 0.2848,
+      "reward": 2.1854459047317505,
+      "reward_std": 0.8107419461011887,
+      "rewards/accuracy_reward": 0.4375000149011612,
+      "rewards/reasoning_steps_reward": 0.9322916865348816,
+      "rewards/repetition_penalty_reward": -0.1036166287958622,
+      "rewards/tag_count_reward": 0.9192708432674408,
       "step": 311
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 169.9322967529297,
+      "completion_length": 323.3333511352539,
       "epoch": 0.46794150731158607,
-      "grad_norm": 1.1774122557707811,
-      "kl": 0.40576171875,
+      "grad_norm": 1.8610423986745928,
+      "kl": 0.54345703125,
       "learning_rate": 1.2819612888605038e-05,
-      "loss": 0.3948,
-      "reward": 2.694904148578644,
-      "reward_std": 0.34949270635843277,
-      "rewards/accuracy_reward": 0.7552083432674408,
-      "rewards/reasoning_steps_reward": 0.989583358168602,
-      "rewards/repetition_penalty_reward": -0.03426253283396363,
-      "rewards/tag_count_reward": 0.9843750149011612,
+      "loss": 0.4624,
+      "reward": 2.25553822517395,
+      "reward_std": 1.062050774693489,
+      "rewards/accuracy_reward": 0.6406250149011612,
+      "rewards/reasoning_steps_reward": 0.880208358168602,
+      "rewards/repetition_penalty_reward": -0.13769106939435005,
+      "rewards/tag_count_reward": 0.872395858168602,
       "step": 312
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 163.50000381469727,
+      "completion_length": 269.31771087646484,
       "epoch": 0.46944131983502063,
-      "grad_norm": 0.6398131246264415,
-      "kl": 0.33056640625,
+      "grad_norm": 1.106507460021578,
+      "kl": 1.8193359375,
       "learning_rate": 1.2769255057626879e-05,
-      "loss": 0.1586,
-      "reward": 2.7207802534103394,
-      "reward_std": 0.12394981307443231,
-      "rewards/accuracy_reward": 0.7552083432674408,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.0240114142652601,
-      "rewards/tag_count_reward": 0.9947916865348816,
+      "loss": 0.0841,
+      "reward": 2.6005271077156067,
+      "reward_std": 0.4192248545587063,
+      "rewards/accuracy_reward": 0.7291666939854622,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.06353538297116756,
+      "rewards/tag_count_reward": 0.9661458432674408,
       "step": 313
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 162.06250762939453,
+      "completion_length": 262.1979217529297,
       "epoch": 0.4709411323584552,
-      "grad_norm": 1.0331986505694868,
-      "kl": 0.3564453125,
+      "grad_norm": 11.712890420404275,
+      "kl": 12.896484375,
       "learning_rate": 1.2718821052420518e-05,
-      "loss": 0.3133,
-      "reward": 2.7166225910186768,
-      "reward_std": 0.23217968584503978,
-      "rewards/accuracy_reward": 0.7656250298023224,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.029905199247878045,
-      "rewards/tag_count_reward": 0.9895833432674408,
+      "loss": 0.4463,
+      "reward": 2.492148220539093,
+      "reward_std": 0.6998696699738503,
+      "rewards/accuracy_reward": 0.6822917014360428,
+      "rewards/reasoning_steps_reward": 0.9461805671453476,
+      "rewards/repetition_penalty_reward": -0.0842407438904047,
+      "rewards/tag_count_reward": 0.9479167014360428,
       "step": 314
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 159.98438262939453,
+      "completion_length": 265.77605056762695,
       "epoch": 0.47244094488188976,
-      "grad_norm": 0.8428674192959495,
-      "kl": 0.3876953125,
+      "grad_norm": 0.6975411820310382,
+      "kl": 1.18310546875,
       "learning_rate": 1.2668312260280136e-05,
-      "loss": 0.1753,
-      "reward": 2.8209707736968994,
-      "reward_std": 0.2351000364869833,
-      "rewards/accuracy_reward": 0.8750000149011612,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.025383584201335907,
-      "rewards/tag_count_reward": 0.9869791865348816,
+      "loss": 0.1567,
+      "reward": 2.5813058018684387,
+      "reward_std": 0.6979668289422989,
+      "rewards/accuracy_reward": 0.7656250149011612,
+      "rewards/reasoning_steps_reward": 0.9375,
+      "rewards/repetition_penalty_reward": -0.07103797234594822,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 315
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 181.640625,
+      "completion_length": 237.0989646911621,
       "epoch": 0.4739407574053243,
-      "grad_norm": 1.5853800434552652,
-      "kl": 0.482421875,
+      "grad_norm": 0.9429145740895207,
+      "kl": 0.6083984375,
       "learning_rate": 1.2617730070557079e-05,
-      "loss": 0.6332,
-      "reward": 2.6595771312713623,
-      "reward_std": 0.5877653062343597,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.0517944535240531,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.1167,
+      "reward": 2.5124951004981995,
+      "reward_std": 0.5172496251761913,
+      "rewards/accuracy_reward": 0.619791679084301,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.05391131527721882,
+      "rewards/tag_count_reward": 0.97265625,
       "step": 316
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.3593864440918,
+      "completion_length": 268.03125762939453,
       "epoch": 0.4754405699287589,
-      "grad_norm": 0.6434608924686329,
-      "kl": 0.37841796875,
+      "grad_norm": 0.8535133809055152,
+      "kl": 0.49755859375,
       "learning_rate": 1.2567075874621658e-05,
-      "loss": 0.3751,
-      "reward": 2.7092297673225403,
-      "reward_std": 0.3774634450674057,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.05769744282588363,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.1603,
+      "reward": 2.632077991962433,
+      "reward_std": 0.5518362149596214,
+      "rewards/accuracy_reward": 0.7656250298023224,
+      "rewards/reasoning_steps_reward": 0.9687500447034836,
+      "rewards/repetition_penalty_reward": -0.06583872064948082,
+      "rewards/tag_count_reward": 0.9635416716337204,
       "step": 317
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 250.70313262939453,
+      "completion_length": 311.51564025878906,
       "epoch": 0.4769403824521935,
-      "grad_norm": 3.085162084216117,
-      "kl": 0.607421875,
+      "grad_norm": 0.7780541688251532,
+      "kl": 0.5283203125,
       "learning_rate": 1.2516351065824864e-05,
-      "loss": 0.9745,
-      "reward": 2.462671160697937,
-      "reward_std": 0.7659648507833481,
-      "rewards/accuracy_reward": 0.7135416865348816,
-      "rewards/reasoning_steps_reward": 0.973958358168602,
-      "rewards/repetition_penalty_reward": -0.12196437083184719,
-      "rewards/tag_count_reward": 0.8971354365348816,
+      "loss": 0.1901,
+      "reward": 2.402199685573578,
+      "reward_std": 0.6393345445394516,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/reasoning_steps_reward": 0.9548611491918564,
+      "rewards/repetition_penalty_reward": -0.10083861276507378,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 318
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 337.12500762939453,
+      "completion_length": 299.9947967529297,
       "epoch": 0.47844019497562806,
-      "grad_norm": 2.5910813299992617,
-      "kl": 0.67919921875,
+      "grad_norm": 0.7104797645236225,
+      "kl": 0.8134765625,
       "learning_rate": 1.2465557039460048e-05,
-      "loss": 0.9239,
-      "reward": 2.1963090300559998,
-      "reward_std": 0.973323866724968,
-      "rewards/accuracy_reward": 0.598958358168602,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.21167714521288872,
-      "rewards/tag_count_reward": 0.848958358168602,
+      "loss": 0.3304,
+      "reward": 2.40736585855484,
+      "reward_std": 0.7196965366601944,
+      "rewards/accuracy_reward": 0.6197916865348816,
+      "rewards/reasoning_steps_reward": 0.94618059694767,
+      "rewards/repetition_penalty_reward": -0.10001271404325962,
+      "rewards/tag_count_reward": 0.9414062798023224,
       "step": 319
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.5729293823242,
+      "completion_length": 326.98439025878906,
       "epoch": 0.4799400074990626,
-      "grad_norm": 0.6692834432378754,
-      "kl": 0.4453125,
+      "grad_norm": 0.7194211623846433,
+      "kl": 0.42431640625,
       "learning_rate": 1.241469519272453e-05,
-      "loss": 1.0469,
-      "reward": 2.4757498502731323,
-      "reward_std": 0.9635120928287506,
-      "rewards/accuracy_reward": 0.8072916716337204,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.1574968732893467,
-      "rewards/tag_count_reward": 0.860677108168602,
+      "loss": 0.5949,
+      "reward": 2.308800458908081,
+      "reward_std": 0.9084680825471878,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9427083432674408,
+      "rewards/repetition_penalty_reward": -0.1495329923927784,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 320
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 239.3645896911621,
+      "completion_length": 357.56771087646484,
       "epoch": 0.4814398200224972,
-      "grad_norm": 1.2551570949769288,
-      "kl": 0.373046875,
+      "grad_norm": 0.9593534999944733,
+      "kl": 0.48095703125,
       "learning_rate": 1.2363766924681178e-05,
-      "loss": 0.9825,
-      "reward": 2.528091847896576,
-      "reward_std": 0.9040358066558838,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.9635416716337204,
-      "rewards/repetition_penalty_reward": -0.10602277517318726,
-      "rewards/tag_count_reward": 0.8580729365348816,
+      "loss": 0.5733,
+      "reward": 2.4493626952171326,
+      "reward_std": 0.9347756206989288,
+      "rewards/accuracy_reward": 0.7447917014360428,
+      "rewards/reasoning_steps_reward": 0.9496527910232544,
+      "rewards/repetition_penalty_reward": -0.15914421156048775,
+      "rewards/tag_count_reward": 0.9140625298023224,
       "step": 321
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.21875381469727,
+      "completion_length": 293.7448043823242,
       "epoch": 0.48293963254593175,
-      "grad_norm": 0.7609484269615335,
-      "kl": 0.39013671875,
+      "grad_norm": 4.081284787550109,
+      "kl": 0.697265625,
       "learning_rate": 1.2312773636219919e-05,
-      "loss": 0.6847,
-      "reward": 2.2356700897216797,
-      "reward_std": 0.7553437650203705,
-      "rewards/accuracy_reward": 0.5729166828095913,
-      "rewards/reasoning_steps_reward": 0.9513889253139496,
-      "rewards/repetition_penalty_reward": -0.10764593631029129,
-      "rewards/tag_count_reward": 0.8190104365348816,
+      "loss": 0.5756,
+      "reward": 2.2688207626342773,
+      "reward_std": 0.8435943201184273,
+      "rewards/accuracy_reward": 0.5364583507180214,
+      "rewards/reasoning_steps_reward": 0.9288194924592972,
+      "rewards/repetition_penalty_reward": -0.12614460662007332,
+      "rewards/tag_count_reward": 0.9296875149011612,
       "step": 322
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 282.00521087646484,
+      "completion_length": 309.8489685058594,
       "epoch": 0.4844394450693663,
-      "grad_norm": 1.332331758605412,
-      "kl": 0.44873046875,
+      "grad_norm": 1.404497176795523,
+      "kl": 1.14306640625,
       "learning_rate": 1.2261716730019202e-05,
-      "loss": 0.9536,
-      "reward": 2.294684648513794,
-      "reward_std": 1.0781968086957932,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9131944626569748,
-      "rewards/repetition_penalty_reward": -0.14585364237427711,
-      "rewards/tag_count_reward": 0.8085937649011612,
+      "loss": 0.5032,
+      "reward": 2.3895642161369324,
+      "reward_std": 0.8716422617435455,
+      "rewards/accuracy_reward": 0.6770833432674408,
+      "rewards/reasoning_steps_reward": 0.9479167014360428,
+      "rewards/repetition_penalty_reward": -0.14819632470607758,
+      "rewards/tag_count_reward": 0.9127604216337204,
       "step": 323
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.16146850585938,
+      "completion_length": 249.86459732055664,
       "epoch": 0.4859392575928009,
-      "grad_norm": 6163963.310883091,
-      "kl": 671744.279296875,
+      "grad_norm": 1.926446222656527,
+      "kl": 0.4814453125,
       "learning_rate": 1.2210597610507418e-05,
-      "loss": 21419.6289,
-      "reward": 2.206323742866516,
-      "reward_std": 0.8206494450569153,
-      "rewards/accuracy_reward": 0.5312500298023224,
-      "rewards/reasoning_steps_reward": 0.9496528208255768,
-      "rewards/repetition_penalty_reward": -0.10661044530570507,
-      "rewards/tag_count_reward": 0.8320312649011612,
+      "loss": 0.4739,
+      "reward": 2.306950032711029,
+      "reward_std": 0.7142234891653061,
+      "rewards/accuracy_reward": 0.510416679084301,
+      "rewards/reasoning_steps_reward": 0.9548611491918564,
+      "rewards/repetition_penalty_reward": -0.10884871147572994,
+      "rewards/tag_count_reward": 0.950520858168602,
       "step": 324
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 267.7760543823242,
+      "completion_length": 254.2187614440918,
       "epoch": 0.4874390701162355,
-      "grad_norm": 1.168918265059183,
-      "kl": 0.455078125,
+      "grad_norm": 5.256123203383221,
+      "kl": 0.7255859375,
       "learning_rate": 1.2159417683824266e-05,
-      "loss": 0.9769,
-      "reward": 2.380450427532196,
-      "reward_std": 0.9683381170034409,
-      "rewards/accuracy_reward": 0.7604166865348816,
+      "loss": 0.5998,
+      "reward": 2.4224319458007812,
+      "reward_std": 0.787856787443161,
+      "rewards/accuracy_reward": 0.6666666865348816,
       "rewards/reasoning_steps_reward": 0.9357639104127884,
-      "rewards/repetition_penalty_reward": -0.13864684104919434,
-      "rewards/tag_count_reward": 0.8229166865348816,
+      "rewards/repetition_penalty_reward": -0.12270701117813587,
+      "rewards/tag_count_reward": 0.942708358168602,
       "step": 325
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.47396087646484,
+      "completion_length": 327.9114685058594,
       "epoch": 0.48893888263967006,
-      "grad_norm": 1.2436386439703448,
-      "kl": 0.51953125,
+      "grad_norm": 9.312199613733055,
+      "kl": 1.2685546875,
       "learning_rate": 1.2108178357782079e-05,
-      "loss": 0.7213,
-      "reward": 2.281162142753601,
-      "reward_std": 0.5486664846539497,
-      "rewards/accuracy_reward": 0.5052083432674408,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.08342129364609718,
-      "rewards/tag_count_reward": 0.880208358168602,
+      "loss": 0.8976,
+      "reward": 1.884236216545105,
+      "reward_std": 1.2027931809425354,
+      "rewards/accuracy_reward": 0.4375000074505806,
+      "rewards/reasoning_steps_reward": 0.8020833730697632,
+      "rewards/repetition_penalty_reward": -0.2108159288764,
+      "rewards/tag_count_reward": 0.8554687649011612,
       "step": 326
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.96875762939453,
+      "completion_length": 275.9791717529297,
       "epoch": 0.4904386951631046,
-      "grad_norm": 0.7171717418281628,
-      "kl": 0.3896484375,
+      "grad_norm": 15.398650924864615,
+      "kl": 0.73828125,
       "learning_rate": 1.205688104182709e-05,
-      "loss": 0.574,
-      "reward": 2.455682098865509,
-      "reward_std": 0.5591145232319832,
-      "rewards/accuracy_reward": 0.6770833432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.07252970896661282,
-      "rewards/tag_count_reward": 0.8789062649011612,
+      "loss": 0.7201,
+      "reward": 2.0736686289310455,
+      "reward_std": 0.9543730318546295,
+      "rewards/accuracy_reward": 0.4635416939854622,
+      "rewards/reasoning_steps_reward": 0.866319477558136,
+      "rewards/repetition_penalty_reward": -0.1533280350267887,
+      "rewards/tag_count_reward": 0.8971354365348816,
       "step": 327
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.1354217529297,
+      "completion_length": 241.10417556762695,
       "epoch": 0.4919385076865392,
-      "grad_norm": 627.8308768620077,
-      "kl": 74.83154296875,
+      "grad_norm": 37.30122920300535,
+      "kl": 0.7822265625,
       "learning_rate": 1.2005527147000663e-05,
-      "loss": 2.9222,
-      "reward": 2.3696823120117188,
-      "reward_std": 0.6213457994163036,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9670138955116272,
-      "rewards/repetition_penalty_reward": -0.06347744725644588,
-      "rewards/tag_count_reward": 0.903645858168602,
+      "loss": 0.7101,
+      "reward": 2.245617926120758,
+      "reward_std": 0.8258701711893082,
+      "rewards/accuracy_reward": 0.552083358168602,
+      "rewards/reasoning_steps_reward": 0.9027778059244156,
+      "rewards/repetition_penalty_reward": -0.12070165574550629,
+      "rewards/tag_count_reward": 0.911458358168602,
       "step": 328
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.8541717529297,
+      "completion_length": 215.0520896911621,
       "epoch": 0.49343832020997375,
-      "grad_norm": 1.0700058348332315,
-      "kl": 0.490234375,
+      "grad_norm": 60.05024321951368,
+      "kl": 0.625,
       "learning_rate": 1.1954118085900503e-05,
-      "loss": 0.4632,
-      "reward": 2.4596543312072754,
-      "reward_std": 0.5267078801989555,
-      "rewards/accuracy_reward": 0.6354166865348816,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.07202969677746296,
-      "rewards/tag_count_reward": 0.9257812649011612,
+      "loss": 0.5475,
+      "reward": 2.432074725627899,
+      "reward_std": 0.7434251010417938,
+      "rewards/accuracy_reward": 0.6354167014360428,
+      "rewards/reasoning_steps_reward": 0.9479166865348816,
+      "rewards/repetition_penalty_reward": -0.08224830403923988,
+      "rewards/tag_count_reward": 0.9309895932674408,
       "step": 329
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.5260467529297,
+      "completion_length": 224.40625381469727,
       "epoch": 0.4949381327334083,
-      "grad_norm": 1.1628503464475846,
-      "kl": 0.36474609375,
+      "grad_norm": 98.14120807441263,
+      "kl": 0.5615234375,
       "learning_rate": 1.1902655272641756e-05,
-      "loss": 0.6424,
-      "reward": 2.5043947100639343,
-      "reward_std": 0.7565517127513885,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9756944477558136,
-      "rewards/repetition_penalty_reward": -0.10411231219768524,
-      "rewards/tag_count_reward": 0.9140625149011612,
+      "loss": 0.5814,
+      "reward": 2.4700867533683777,
+      "reward_std": 0.6907303482294083,
+      "rewards/accuracy_reward": 0.6718750298023224,
+      "rewards/reasoning_steps_reward": 0.9392361342906952,
+      "rewards/repetition_penalty_reward": -0.08112853486090899,
+      "rewards/tag_count_reward": 0.9401041865348816,
       "step": 330
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 261.04688262939453,
+      "completion_length": 227.70833587646484,
       "epoch": 0.49643794525684287,
-      "grad_norm": 0.6255524381969977,
-      "kl": 0.37353515625,
+      "grad_norm": 28.380941791399632,
+      "kl": 0.796875,
       "learning_rate": 1.1851140122818155e-05,
-      "loss": 0.5753,
-      "reward": 2.406662940979004,
-      "reward_std": 0.8139507248997688,
-      "rewards/accuracy_reward": 0.661458358168602,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.11417047679424286,
-      "rewards/tag_count_reward": 0.9010416865348816,
+      "loss": 0.6384,
+      "reward": 2.440628468990326,
+      "reward_std": 0.5516751855611801,
+      "rewards/accuracy_reward": 0.5937500149011612,
+      "rewards/reasoning_steps_reward": 0.9652777761220932,
+      "rewards/repetition_penalty_reward": -0.05069108493626118,
+      "rewards/tag_count_reward": 0.9322917014360428,
       "step": 331
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.12500381469727,
+      "completion_length": 189.9635467529297,
       "epoch": 0.4979377577802775,
-      "grad_norm": 0.7463997657803588,
-      "kl": 0.373046875,
+      "grad_norm": 90.64584397678644,
+      "kl": 0.7421875,
       "learning_rate": 1.1799574053463048e-05,
-      "loss": 0.6145,
-      "reward": 2.637652814388275,
-      "reward_std": 0.6368973329663277,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.9652777761220932,
-      "rewards/repetition_penalty_reward": -0.09976036194711924,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": 0.2312,
+      "reward": 2.4951672554016113,
+      "reward_std": 0.4933183267712593,
+      "rewards/accuracy_reward": 0.6145833432674408,
+      "rewards/reasoning_steps_reward": 0.9774305820465088,
+      "rewards/repetition_penalty_reward": -0.04476337507367134,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 332
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.8333396911621,
+      "completion_length": 198.1822967529297,
       "epoch": 0.49943757030371205,
-      "grad_norm": 0.7834690979097384,
-      "kl": 0.35546875,
+      "grad_norm": 47.44537979910489,
+      "kl": 0.79296875,
       "learning_rate": 1.1747958483010438e-05,
-      "loss": 0.5165,
-      "reward": 2.6003527641296387,
-      "reward_std": 0.7082152366638184,
-      "rewards/accuracy_reward": 0.8020833432674408,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.09148765727877617,
-      "rewards/tag_count_reward": 0.9244791865348816,
+      "loss": 0.1878,
+      "reward": 2.4803009629249573,
+      "reward_std": 0.4909311309456825,
+      "rewards/accuracy_reward": 0.614583358168602,
+      "rewards/reasoning_steps_reward": 0.9687500447034836,
+      "rewards/repetition_penalty_reward": -0.054855335503816605,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 333
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.93750381469727,
+      "completion_length": 213.3489646911621,
       "epoch": 0.5009373828271466,
-      "grad_norm": 0.7440577499317964,
-      "kl": 0.36376953125,
+      "grad_norm": 320.06224533206546,
+      "kl": 2.462890625,
       "learning_rate": 1.1696294831255961e-05,
-      "loss": 0.5263,
-      "reward": 2.6781486868858337,
-      "reward_std": 0.6196286901831627,
-      "rewards/accuracy_reward": 0.8593750149011612,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.09008055832237005,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.9267,
+      "reward": 2.6039064526557922,
+      "reward_std": 0.5018587484955788,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/reasoning_steps_reward": 0.960069477558136,
+      "rewards/repetition_penalty_reward": -0.04366318695247173,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 334
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 286.8072967529297,
+      "completion_length": 173.62500381469727,
       "epoch": 0.5024371953505812,
-      "grad_norm": 0.736069132286744,
-      "kl": 0.4169921875,
+      "grad_norm": 1405.8210110352265,
+      "kl": 1.1259765625,
       "learning_rate": 1.1644584519317828e-05,
-      "loss": 0.7123,
-      "reward": 2.399460792541504,
-      "reward_std": 0.8988363444805145,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9479167014360428,
-      "rewards/repetition_penalty_reward": -0.12918509356677532,
-      "rewards/tag_count_reward": 0.9140625149011612,
+      "loss": 0.2665,
+      "reward": 2.5448213815689087,
+      "reward_std": 0.4410114288330078,
+      "rewards/accuracy_reward": 0.6302083358168602,
+      "rewards/reasoning_steps_reward": 0.9809027761220932,
+      "rewards/repetition_penalty_reward": -0.03764389827847481,
+      "rewards/tag_count_reward": 0.9713541865348816,
       "step": 335
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.28125762939453,
+      "completion_length": 197.0885467529297,
       "epoch": 0.5039370078740157,
-      "grad_norm": 0.5872022790584697,
-      "kl": 0.36669921875,
+      "grad_norm": 266.36597808183785,
+      "kl": 1.8984375,
       "learning_rate": 1.159282896959774e-05,
-      "loss": 0.6407,
-      "reward": 2.4547627568244934,
-      "reward_std": 0.7832493036985397,
-      "rewards/accuracy_reward": 0.6822916865348816,
-      "rewards/reasoning_steps_reward": 0.9687500447034836,
-      "rewards/repetition_penalty_reward": -0.11945611983537674,
-      "rewards/tag_count_reward": 0.9231770932674408,
+      "loss": 0.6665,
+      "reward": 2.542451798915863,
+      "reward_std": 0.4349544197320938,
+      "rewards/accuracy_reward": 0.6562500223517418,
+      "rewards/reasoning_steps_reward": 0.9826388955116272,
+      "rewards/repetition_penalty_reward": -0.04695798270404339,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 336
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.8177146911621,
+      "completion_length": 203.6666717529297,
       "epoch": 0.5054368203974503,
-      "grad_norm": 0.7563101618131821,
-      "kl": 0.3818359375,
+      "grad_norm": 124.39297508584644,
+      "kl": 1.185546875,
       "learning_rate": 1.1541029605741758e-05,
-      "loss": 0.68,
-      "reward": 2.5487101078033447,
-      "reward_std": 0.7277443781495094,
-      "rewards/accuracy_reward": 0.7395833432674408,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.10580387711524963,
+      "loss": 0.6041,
+      "reward": 2.4829863905906677,
+      "reward_std": 0.5544790178537369,
+      "rewards/accuracy_reward": 0.6093750298023224,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.043055362068116665,
       "rewards/tag_count_reward": 0.9375000298023224,
       "step": 337
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.54166793823242,
+      "completion_length": 182.04167556762695,
       "epoch": 0.5069366329208849,
-      "grad_norm": 0.7629172892618677,
-      "kl": 0.34228515625,
+      "grad_norm": 178.0490848911099,
+      "kl": 0.923828125,
       "learning_rate": 1.1489187852601147e-05,
-      "loss": 0.4758,
-      "reward": 2.738324999809265,
-      "reward_std": 0.49979202449321747,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.056813917588442564,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.5043,
+      "reward": 2.643836498260498,
+      "reward_std": 0.4666139706969261,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.9756944626569748,
+      "rewards/repetition_penalty_reward": -0.03237887378782034,
+      "rewards/tag_count_reward": 0.9557292014360428,
       "step": 338
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 286.77083587646484,
+      "completion_length": 168.6822967529297,
       "epoch": 0.5084364454443194,
-      "grad_norm": 1.2875833340510152,
-      "kl": 0.4716796875,
+      "grad_norm": 33.126865780616335,
+      "kl": 0.7275390625,
       "learning_rate": 1.143730513619317e-05,
-      "loss": 0.6866,
-      "reward": 2.457393527030945,
-      "reward_std": 0.8834079504013062,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9322916865348816,
-      "rewards/repetition_penalty_reward": -0.1311482023447752,
-      "rewards/tag_count_reward": 0.9166666865348816,
+      "loss": 0.2163,
+      "reward": 2.5825945138931274,
+      "reward_std": 0.41466938704252243,
+      "rewards/accuracy_reward": 0.6666666716337204,
+      "rewards/reasoning_steps_reward": 0.97743059694767,
+      "rewards/repetition_penalty_reward": -0.04587779473513365,
+      "rewards/tag_count_reward": 0.9843750149011612,
       "step": 339
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 262.95312881469727,
+      "completion_length": 199.1666717529297,
       "epoch": 0.509936257967754,
-      "grad_norm": 1.9340766781030916,
-      "kl": 0.64697265625,
+      "grad_norm": 100.89545618937568,
+      "kl": 1.208984375,
       "learning_rate": 1.1385382883661881e-05,
-      "loss": 0.4332,
-      "reward": 2.5942657589912415,
-      "reward_std": 0.6046310998499393,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.9600694626569748,
-      "rewards/repetition_penalty_reward": -0.11710584536194801,
-      "rewards/tag_count_reward": 0.9335937649011612,
+      "loss": 0.6377,
+      "reward": 2.652986526489258,
+      "reward_std": 0.45409294590353966,
+      "rewards/accuracy_reward": 0.7968750149011612,
+      "rewards/reasoning_steps_reward": 0.958333358168602,
+      "rewards/repetition_penalty_reward": -0.05144065525382757,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 340
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 240.20313262939453,
+      "completion_length": 175.04687881469727,
       "epoch": 0.5114360704911886,
-      "grad_norm": 0.836838721680916,
-      "kl": 0.41064453125,
+      "grad_norm": 294.488166826066,
+      "kl": 0.87890625,
       "learning_rate": 1.1333422523238858e-05,
-      "loss": 0.5716,
-      "reward": 2.467832863330841,
-      "reward_std": 0.6241201423108578,
-      "rewards/accuracy_reward": 0.6302083507180214,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.08598665753379464,
-      "rewards/tag_count_reward": 0.9479166865348816,
+      "loss": 0.3826,
+      "reward": 2.572603166103363,
+      "reward_std": 0.42086203396320343,
+      "rewards/accuracy_reward": 0.6614583432674408,
+      "rewards/reasoning_steps_reward": 0.9774305820465088,
+      "rewards/repetition_penalty_reward": -0.04154628235846758,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 341
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 275.5885467529297,
+      "completion_length": 206.58333587646484,
       "epoch": 0.5129358830146231,
-      "grad_norm": 0.6233336001065312,
-      "kl": 0.3583984375,
+      "grad_norm": 56.33307741176176,
+      "kl": 1.21875,
       "learning_rate": 1.1281425484203908e-05,
-      "loss": 0.5216,
-      "reward": 2.375839054584503,
-      "reward_std": 0.570319652557373,
-      "rewards/accuracy_reward": 0.5781250149011612,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.12459501624107361,
-      "rewards/tag_count_reward": 0.9361979365348816,
+      "loss": 0.4977,
+      "reward": 2.42953622341156,
+      "reward_std": 0.4737429544329643,
+      "rewards/accuracy_reward": 0.5572916716337204,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.060915243811905384,
+      "rewards/tag_count_reward": 0.9609375149011612,
       "step": 342
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 270.3385543823242,
+      "completion_length": 166.45313262939453,
       "epoch": 0.5144356955380578,
-      "grad_norm": 0.781462095769395,
-      "kl": 0.4208984375,
+      "grad_norm": 7.667419781427111,
+      "kl": 0.6015625,
       "learning_rate": 1.122939319684577e-05,
-      "loss": 0.8224,
-      "reward": 2.3723965883255005,
-      "reward_std": 0.892381027340889,
-      "rewards/accuracy_reward": 0.6406250074505806,
-      "rewards/reasoning_steps_reward": 0.9409722536802292,
-      "rewards/repetition_penalty_reward": -0.1271694442257285,
-      "rewards/tag_count_reward": 0.9179687649011612,
+      "loss": 0.1143,
+      "reward": 2.5116847157478333,
+      "reward_std": 0.43062853813171387,
+      "rewards/accuracy_reward": 0.6302083507180214,
+      "rewards/reasoning_steps_reward": 0.9513888955116272,
+      "rewards/repetition_penalty_reward": -0.05428746622055769,
+      "rewards/tag_count_reward": 0.9843750149011612,
       "step": 343
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 243.04167556762695,
+      "completion_length": 178.51562881469727,
       "epoch": 0.5159355080614924,
-      "grad_norm": 0.5806453568608354,
-      "kl": 0.3466796875,
+      "grad_norm": 23.5357959938352,
+      "kl": 1.126953125,
       "learning_rate": 1.1177327092422761e-05,
-      "loss": 0.682,
-      "reward": 2.4070491790771484,
-      "reward_std": 0.619476206600666,
-      "rewards/accuracy_reward": 0.6145833432674408,
-      "rewards/reasoning_steps_reward": 0.9479166865348816,
-      "rewards/repetition_penalty_reward": -0.1007634038105607,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.3605,
+      "reward": 2.4563730359077454,
+      "reward_std": 0.4659854732453823,
+      "rewards/accuracy_reward": 0.572916679084301,
+      "rewards/reasoning_steps_reward": 0.9600694477558136,
+      "rewards/repetition_penalty_reward": -0.04275886481627822,
+      "rewards/tag_count_reward": 0.9661458432674408,
       "step": 344
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 239.41146850585938,
+      "completion_length": 184.5104217529297,
       "epoch": 0.5174353205849269,
-      "grad_norm": 2.1866070331433964,
-      "kl": 0.57275390625,
+      "grad_norm": 31.72517924718908,
+      "kl": 0.88671875,
       "learning_rate": 1.1125228603123408e-05,
-      "loss": 0.6429,
-      "reward": 2.6293810606002808,
-      "reward_std": 0.6588820517063141,
-      "rewards/accuracy_reward": 0.802083358168602,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.09327533282339573,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.3874,
+      "reward": 2.5461575388908386,
+      "reward_std": 0.5080005489289761,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 0.9444444626569748,
+      "rewards/repetition_penalty_reward": -0.05193278752267361,
+      "rewards/tag_count_reward": 0.966145858168602,
       "step": 345
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 198.65105056762695,
+      "completion_length": 180.89062881469727,
       "epoch": 0.5189351331083615,
-      "grad_norm": 0.6514816604889703,
-      "kl": 0.34228515625,
+      "grad_norm": 87.98939762631694,
+      "kl": 0.7275390625,
       "learning_rate": 1.107309916202705e-05,
-      "loss": 0.3713,
-      "reward": 2.694413661956787,
-      "reward_std": 0.3578246496617794,
-      "rewards/accuracy_reward": 0.7864583432674408,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.051680129021406174,
-      "rewards/tag_count_reward": 0.9752604365348816,
+      "loss": 0.381,
+      "reward": 2.5558876395225525,
+      "reward_std": 0.5220728367567062,
+      "rewards/accuracy_reward": 0.6822916865348816,
+      "rewards/reasoning_steps_reward": 0.9635416716337204,
+      "rewards/repetition_penalty_reward": -0.05609158892184496,
+      "rewards/tag_count_reward": 0.966145858168602,
       "step": 346
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.5416717529297,
+      "completion_length": 176.32812881469727,
       "epoch": 0.520434945631796,
-      "grad_norm": 6.6032813165402935,
-      "kl": 0.46484375,
+      "grad_norm": 12.257830254456051,
+      "kl": 0.60009765625,
       "learning_rate": 1.1020940203064425e-05,
-      "loss": 0.3975,
-      "reward": 2.6713653802871704,
-      "reward_std": 0.4076192807406187,
-      "rewards/accuracy_reward": 0.7604167014360428,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.05563134513795376,
-      "rewards/tag_count_reward": 0.9752604365348816,
+      "loss": 0.228,
+      "reward": 2.6993812322616577,
+      "reward_std": 0.442532442510128,
+      "rewards/accuracy_reward": 0.848958358168602,
+      "rewards/reasoning_steps_reward": 0.9427083432674408,
+      "rewards/repetition_penalty_reward": -0.05582709517329931,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 347
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.29688262939453,
+      "completion_length": 204.01042938232422,
       "epoch": 0.5219347581552306,
-      "grad_norm": 2.4618917497796233,
-      "kl": 0.431640625,
+      "grad_norm": 166.2835482202829,
+      "kl": 3.4541015625,
       "learning_rate": 1.096875316097822e-05,
-      "loss": 0.519,
-      "reward": 2.731937885284424,
-      "reward_std": 0.5047559663653374,
-      "rewards/accuracy_reward": 0.8593750298023224,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.07491973042488098,
-      "rewards/tag_count_reward": 0.9648437798023224,
+      "loss": 0.7129,
+      "reward": 2.664002478122711,
+      "reward_std": 0.5798608511686325,
+      "rewards/accuracy_reward": 0.8593750149011612,
+      "rewards/reasoning_steps_reward": 0.9305556118488312,
+      "rewards/repetition_penalty_reward": -0.0829594787210226,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 348
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.98959350585938,
+      "completion_length": 216.75000381469727,
       "epoch": 0.5234345706786652,
-      "grad_norm": 0.6526608511425668,
-      "kl": 0.38037109375,
+      "grad_norm": 24.78884718715676,
+      "kl": 0.576171875,
       "learning_rate": 1.0916539471283607e-05,
-      "loss": 0.4489,
-      "reward": 2.611004889011383,
-      "reward_std": 0.6215125024318695,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.9531250298023224,
-      "rewards/repetition_penalty_reward": -0.10904721543192863,
-      "rewards/tag_count_reward": 0.9440104365348816,
+      "loss": 0.3904,
+      "reward": 2.557326078414917,
+      "reward_std": 0.5754078030586243,
+      "rewards/accuracy_reward": 0.723958358168602,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.093715600669384,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 349
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.0572967529297,
+      "completion_length": 185.2604217529297,
       "epoch": 0.5249343832020997,
-      "grad_norm": 1.3490617390001882,
-      "kl": 0.43798828125,
+      "grad_norm": 10.924883170422843,
+      "kl": 0.55810546875,
       "learning_rate": 1.0864300570228757e-05,
-      "loss": 0.5916,
-      "reward": 2.349369764328003,
-      "reward_std": 0.591891311109066,
-      "rewards/accuracy_reward": 0.5625000074505806,
-      "rewards/reasoning_steps_reward": 0.9496527910232544,
-      "rewards/repetition_penalty_reward": -0.11200192756950855,
-      "rewards/tag_count_reward": 0.9492187798023224,
+      "loss": 0.2519,
+      "reward": 2.49711149930954,
+      "reward_std": 0.5190073773264885,
+      "rewards/accuracy_reward": 0.6406250223517418,
+      "rewards/reasoning_steps_reward": 0.9618055522441864,
+      "rewards/repetition_penalty_reward": -0.07016285322606564,
+      "rewards/tag_count_reward": 0.9648437649011612,
       "step": 350
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 202.79688262939453,
+      "completion_length": 198.96875,
       "epoch": 0.5264341957255343,
-      "grad_norm": 0.7377470109327692,
-      "kl": 0.35205078125,
+      "grad_norm": 32.87973860027691,
+      "kl": 1.43359375,
       "learning_rate": 1.0812037894755336e-05,
-      "loss": 0.4294,
-      "reward": 2.7148218750953674,
-      "reward_std": 0.4056655466556549,
-      "rewards/accuracy_reward": 0.802083358168602,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.06121993251144886,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "loss": 0.5601,
+      "reward": 2.497571051120758,
+      "reward_std": 0.710141509771347,
+      "rewards/accuracy_reward": 0.692708358168602,
+      "rewards/reasoning_steps_reward": 0.9236111491918564,
+      "rewards/repetition_penalty_reward": -0.07577977981418371,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 351
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.13021087646484,
+      "completion_length": 189.5885467529297,
       "epoch": 0.5279340082489689,
-      "grad_norm": 0.9262254939525653,
-      "kl": 0.3154296875,
+      "grad_norm": 35.65905039343771,
+      "kl": 1.181640625,
       "learning_rate": 1.0759752882458972e-05,
-      "loss": 0.4753,
-      "reward": 2.716402769088745,
-      "reward_std": 0.4552469737827778,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.05963901709765196,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.4482,
+      "reward": 2.4979015588760376,
+      "reward_std": 0.5550749897956848,
+      "rewards/accuracy_reward": 0.6562500223517418,
+      "rewards/reasoning_steps_reward": 0.9565972238779068,
+      "rewards/repetition_penalty_reward": -0.07067496795207262,
+      "rewards/tag_count_reward": 0.9557291865348816,
       "step": 352
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 222.2343864440918,
+      "completion_length": 194.76563262939453,
       "epoch": 0.5294338207724034,
-      "grad_norm": 1.2036216767618395,
-      "kl": 0.32861328125,
+      "grad_norm": 37.03762904065605,
+      "kl": 1.2021484375,
       "learning_rate": 1.0707446971549717e-05,
-      "loss": 0.6401,
-      "reward": 2.590088963508606,
-      "reward_std": 0.5779636353254318,
-      "rewards/accuracy_reward": 0.755208358168602,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.09524106327444315,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 0.5284,
+      "reward": 2.480072259902954,
+      "reward_std": 0.5370368957519531,
+      "rewards/accuracy_reward": 0.6510416865348816,
+      "rewards/reasoning_steps_reward": 0.9409722834825516,
+      "rewards/repetition_penalty_reward": -0.07938963826745749,
+      "rewards/tag_count_reward": 0.9674479365348816,
       "step": 353
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.28646087646484,
+      "completion_length": 197.4010467529297,
       "epoch": 0.530933633295838,
-      "grad_norm": 0.8356292683714005,
-      "kl": 0.3642578125,
+      "grad_norm": 47.85939515897191,
+      "kl": 1.6240234375,
       "learning_rate": 1.0655121600812482e-05,
-      "loss": 0.6197,
-      "reward": 2.7302719950675964,
-      "reward_std": 0.5387823097407818,
-      "rewards/accuracy_reward": 0.8593750298023224,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.06920717097818851,
-      "rewards/tag_count_reward": 0.9609375,
+      "loss": 0.3828,
+      "reward": 2.545462191104889,
+      "reward_std": 0.44792424887418747,
+      "rewards/accuracy_reward": 0.6822916865348816,
+      "rewards/reasoning_steps_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.06521502183750272,
+      "rewards/tag_count_reward": 0.9648437649011612,
       "step": 354
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.63542556762695,
+      "completion_length": 197.23437881469727,
       "epoch": 0.5324334458192725,
-      "grad_norm": 0.9550640481800935,
-      "kl": 0.4052734375,
+      "grad_norm": 46.48162850362066,
+      "kl": 1.5673828125,
       "learning_rate": 1.0602778209567462e-05,
-      "loss": 0.7535,
-      "reward": 2.541829466819763,
-      "reward_std": 0.7257425487041473,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9548610895872116,
-      "rewards/repetition_penalty_reward": -0.08751083724200726,
-      "rewards/tag_count_reward": 0.9453125298023224,
+      "loss": 0.501,
+      "reward": 2.4815279245376587,
+      "reward_std": 0.5560100227594376,
+      "rewards/accuracy_reward": 0.6250000149011612,
+      "rewards/reasoning_steps_reward": 0.9635416716337204,
+      "rewards/repetition_penalty_reward": -0.07055553328245878,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 355
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.01562881469727,
+      "completion_length": 195.2968864440918,
       "epoch": 0.5339332583427071,
-      "grad_norm": 1.070677353710695,
-      "kl": 0.404296875,
+      "grad_norm": 29.59912755896137,
+      "kl": 1.427734375,
       "learning_rate": 1.0550418237630547e-05,
-      "loss": 1.0339,
-      "reward": 2.5512691140174866,
-      "reward_std": 0.7947003692388535,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.9496527910232544,
-      "rewards/repetition_penalty_reward": -0.09499827027320862,
-      "rewards/tag_count_reward": 0.9466145932674408,
+      "loss": 0.4327,
+      "reward": 2.5716618597507477,
+      "reward_std": 0.5098543167114258,
+      "rewards/accuracy_reward": 0.776041679084301,
+      "rewards/reasoning_steps_reward": 0.9288194924592972,
+      "rewards/repetition_penalty_reward": -0.08241807296872139,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 356
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 182.71875762939453,
+      "completion_length": 208.03125,
       "epoch": 0.5354330708661418,
-      "grad_norm": 2.6963525226313068,
-      "kl": 0.4677734375,
+      "grad_norm": 39.48130096076877,
+      "kl": 1.7080078125,
       "learning_rate": 1.0498043125273714e-05,
-      "loss": 0.5703,
-      "reward": 2.6821329593658447,
-      "reward_std": 0.52312882989645,
-      "rewards/accuracy_reward": 0.8020833432674408,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.05831848084926605,
-      "rewards/tag_count_reward": 0.966145858168602,
+      "loss": 0.6548,
+      "reward": 2.4025214314460754,
+      "reward_std": 0.6107548177242279,
+      "rewards/accuracy_reward": 0.5781250223517418,
+      "rewards/reasoning_steps_reward": 0.9375000596046448,
+      "rewards/repetition_penalty_reward": -0.05190564412623644,
+      "rewards/tag_count_reward": 0.9388020932674408,
       "step": 357
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 222.8020896911621,
+      "completion_length": 209.78125381469727,
       "epoch": 0.5369328833895763,
-      "grad_norm": 4.425571727643998,
-      "kl": 0.5517578125,
+      "grad_norm": 38.82027339580314,
+      "kl": 1.8056640625,
       "learning_rate": 1.0445654313185402e-05,
-      "loss": 0.7903,
-      "reward": 2.470693051815033,
-      "reward_std": 0.6807428225874901,
-      "rewards/accuracy_reward": 0.6562500298023224,
-      "rewards/reasoning_steps_reward": 0.96875,
-      "rewards/repetition_penalty_reward": -0.09701530169695616,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.7392,
+      "reward": 2.5126326084136963,
+      "reward_std": 0.5534802153706551,
+      "rewards/accuracy_reward": 0.6510416865348816,
+      "rewards/reasoning_steps_reward": 0.9513888955116272,
+      "rewards/repetition_penalty_reward": -0.04813140258193016,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 358
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.9947967529297,
+      "completion_length": 191.0729217529297,
       "epoch": 0.5384326959130109,
-      "grad_norm": 2.2749469499741446,
-      "kl": 0.54541015625,
+      "grad_norm": 24.170858033164397,
+      "kl": 1.42626953125,
       "learning_rate": 1.0393253242430898e-05,
-      "loss": 0.766,
-      "reward": 2.610697090625763,
-      "reward_std": 0.7646311447024345,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.954861119389534,
-      "rewards/repetition_penalty_reward": -0.11760163493454456,
-      "rewards/tag_count_reward": 0.9348958432674408,
+      "loss": 0.4034,
+      "reward": 2.4246557354927063,
+      "reward_std": 0.5046445429325104,
+      "rewards/accuracy_reward": 0.5625000149011612,
+      "rewards/reasoning_steps_reward": 0.9565972685813904,
+      "rewards/repetition_penalty_reward": -0.04496251605451107,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 359
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.45833587646484,
+      "completion_length": 222.46355056762695,
       "epoch": 0.5399325084364455,
-      "grad_norm": 0.9100444614802594,
-      "kl": 0.39501953125,
+      "grad_norm": 153.4349595006434,
+      "kl": 2.580078125,
       "learning_rate": 1.0340841354412688e-05,
-      "loss": 0.6344,
-      "reward": 2.6307865977287292,
-      "reward_std": 0.5916828811168671,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.9513889104127884,
-      "rewards/repetition_penalty_reward": -0.08752944599837065,
-      "rewards/tag_count_reward": 0.9492187798023224,
+      "loss": 0.8895,
+      "reward": 2.522955060005188,
+      "reward_std": 0.5852703154087067,
+      "rewards/accuracy_reward": 0.713541679084301,
+      "rewards/reasoning_steps_reward": 0.9236111342906952,
+      "rewards/repetition_penalty_reward": -0.043885353952646255,
+      "rewards/tag_count_reward": 0.9296875149011612,
       "step": 360
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 202.50521087646484,
+      "completion_length": 234.3958396911621,
       "epoch": 0.54143232095988,
-      "grad_norm": 1.3542848450477425,
-      "kl": 0.458984375,
+      "grad_norm": 166.56500053569175,
+      "kl": 4.076171875,
       "learning_rate": 1.0288420090830803e-05,
-      "loss": 0.5782,
-      "reward": 2.5363489985466003,
-      "reward_std": 0.5847525298595428,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.07215808611363173,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 1.174,
+      "reward": 2.4644437432289124,
+      "reward_std": 0.5811575800180435,
+      "rewards/accuracy_reward": 0.6093750223517418,
+      "rewards/reasoning_steps_reward": 0.9618055671453476,
+      "rewards/repetition_penalty_reward": -0.04033063165843487,
+      "rewards/tag_count_reward": 0.9335937649011612,
       "step": 361
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.29688262939453,
+      "completion_length": 223.4583396911621,
       "epoch": 0.5429321334833146,
-      "grad_norm": 1.0691193581184522,
-      "kl": 0.54150390625,
+      "grad_norm": 33.889969513651074,
+      "kl": 1.30078125,
       "learning_rate": 1.0235990893643184e-05,
-      "loss": 0.614,
-      "reward": 2.446419894695282,
-      "reward_std": 0.5024325773119926,
-      "rewards/accuracy_reward": 0.6197916939854622,
-      "rewards/reasoning_steps_reward": 0.9878472536802292,
-      "rewards/repetition_penalty_reward": -0.10002116020768881,
-      "rewards/tag_count_reward": 0.9388020932674408,
+      "loss": 0.5957,
+      "reward": 2.4738687872886658,
+      "reward_std": 0.524218238890171,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.04913472477346659,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 362
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 239.64063262939453,
+      "completion_length": 228.3645896911621,
       "epoch": 0.5444319460067492,
-      "grad_norm": 1.0363445445035244,
-      "kl": 0.48095703125,
+      "grad_norm": 60.56364684515394,
+      "kl": 2.970703125,
       "learning_rate": 1.0183555205025986e-05,
-      "loss": 0.8301,
-      "reward": 2.533776819705963,
-      "reward_std": 0.8274639621376991,
-      "rewards/accuracy_reward": 0.7812500298023224,
-      "rewards/reasoning_steps_reward": 0.9479166865348816,
-      "rewards/repetition_penalty_reward": -0.11335871182382107,
-      "rewards/tag_count_reward": 0.9179687798023224,
-      "step": 363
+      "loss": 0.6895,
+      "reward": 2.5394935607910156,
+      "reward_std": 0.5755364149808884,
+      "rewards/accuracy_reward": 0.682291679084301,
+      "rewards/reasoning_steps_reward": 0.9461805820465088,
+      "rewards/repetition_penalty_reward": -0.03819744661450386,
+      "rewards/tag_count_reward": 0.9492187649011612,
+      "step": 363
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 247.2395896911621,
+      "completion_length": 202.82813262939453,
       "epoch": 0.5459317585301837,
-      "grad_norm": 1.4285370079745647,
-      "kl": 0.4580078125,
+      "grad_norm": 152.09115123663648,
+      "kl": 24.283203125,
       "learning_rate": 1.0131114467333935e-05,
-      "loss": 0.9421,
-      "reward": 2.5757275223731995,
-      "reward_std": 0.940077006816864,
-      "rewards/accuracy_reward": 0.848958358168602,
-      "rewards/reasoning_steps_reward": 0.9409722685813904,
-      "rewards/repetition_penalty_reward": -0.1282655205577612,
-      "rewards/tag_count_reward": 0.9140625149011612,
+      "loss": 1.2772,
+      "reward": 2.660370111465454,
+      "reward_std": 0.5182667449116707,
+      "rewards/accuracy_reward": 0.8072916865348816,
+      "rewards/reasoning_steps_reward": 0.9392361044883728,
+      "rewards/repetition_penalty_reward": -0.044491049367934465,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 364
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.9322967529297,
+      "completion_length": 234.3750114440918,
       "epoch": 0.5474315710536183,
-      "grad_norm": 2.976909353877276,
-      "kl": 0.41650390625,
+      "grad_norm": 45.62424706171924,
+      "kl": 6.0390625,
       "learning_rate": 1.0078670123060638e-05,
-      "loss": 0.5808,
-      "reward": 2.7071104049682617,
-      "reward_std": 0.5107903629541397,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9878472238779068,
-      "rewards/repetition_penalty_reward": -0.0724035445600748,
-      "rewards/tag_count_reward": 0.9531250149011612,
+      "loss": 1.4476,
+      "reward": 2.325054883956909,
+      "reward_std": 0.6013178080320358,
+      "rewards/accuracy_reward": 0.536458358168602,
+      "rewards/reasoning_steps_reward": 0.911458358168602,
+      "rewards/repetition_penalty_reward": -0.047341120429337025,
+      "rewards/tag_count_reward": 0.9244791865348816,
       "step": 365
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 241.50000381469727,
+      "completion_length": 249.9895896911621,
       "epoch": 0.5489313835770528,
-      "grad_norm": 1.5290214581037804,
-      "kl": 0.45263671875,
+      "grad_norm": 394.34439096252885,
+      "kl": 3.89453125,
       "learning_rate": 1.002622361479891e-05,
-      "loss": 0.7503,
-      "reward": 2.2156243920326233,
-      "reward_std": 0.8056820183992386,
-      "rewards/accuracy_reward": 0.510416679084301,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.11901108920574188,
-      "rewards/tag_count_reward": 0.8658854216337204,
+      "loss": 1.04,
+      "reward": 2.2679548859596252,
+      "reward_std": 0.636200875043869,
+      "rewards/accuracy_reward": 0.4531250223517418,
+      "rewards/reasoning_steps_reward": 0.9218750298023224,
+      "rewards/repetition_penalty_reward": -0.032826476730406284,
+      "rewards/tag_count_reward": 0.9257812798023224,
       "step": 366
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 285.9895935058594,
+      "completion_length": 228.17188262939453,
       "epoch": 0.5504311961004874,
-      "grad_norm": 1.6300575912920117,
-      "kl": 0.43505859375,
+      "grad_norm": 27.602993232186183,
+      "kl": 1.998046875,
       "learning_rate": 9.973776385201093e-06,
-      "loss": 0.9551,
-      "reward": 2.446646273136139,
-      "reward_std": 0.9035588353872299,
-      "rewards/accuracy_reward": 0.7604166865348816,
-      "rewards/reasoning_steps_reward": 0.9756944924592972,
-      "rewards/repetition_penalty_reward": -0.16316283866763115,
-      "rewards/tag_count_reward": 0.8736979365348816,
+      "loss": 0.5853,
+      "reward": 2.419560134410858,
+      "reward_std": 0.6460568159818649,
+      "rewards/accuracy_reward": 0.5937500149011612,
+      "rewards/reasoning_steps_reward": 0.9357638657093048,
+      "rewards/repetition_penalty_reward": -0.04354754835367203,
+      "rewards/tag_count_reward": 0.9335937649011612,
       "step": 367
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 249.50000762939453,
+      "completion_length": 245.15625381469727,
       "epoch": 0.551931008623922,
-      "grad_norm": 2.432545958790851,
-      "kl": 0.43017578125,
+      "grad_norm": 31.72593423602673,
+      "kl": 2.052734375,
       "learning_rate": 9.921329876939365e-06,
-      "loss": 0.6609,
-      "reward": 2.449833869934082,
-      "reward_std": 0.7589901238679886,
-      "rewards/accuracy_reward": 0.6927083656191826,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.12221488542854786,
-      "rewards/tag_count_reward": 0.9088542014360428,
+      "loss": 0.725,
+      "reward": 2.489229917526245,
+      "reward_std": 0.5430986732244492,
+      "rewards/accuracy_reward": 0.6302083432674408,
+      "rewards/reasoning_steps_reward": 0.9531250298023224,
+      "rewards/repetition_penalty_reward": -0.04722849931567907,
+      "rewards/tag_count_reward": 0.9531250149011612,
       "step": 368
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 288.2135543823242,
+      "completion_length": 235.01563262939453,
       "epoch": 0.5534308211473565,
-      "grad_norm": 1.139092646573938,
-      "kl": 0.4443359375,
+      "grad_norm": 11.874407407969304,
+      "kl": 1.76171875,
       "learning_rate": 9.868885532666068e-06,
-      "loss": 0.9903,
-      "reward": 2.31951966881752,
-      "reward_std": 1.0058775544166565,
-      "rewards/accuracy_reward": 0.661458358168602,
-      "rewards/reasoning_steps_reward": 0.9409722685813904,
-      "rewards/repetition_penalty_reward": -0.17223386466503143,
-      "rewards/tag_count_reward": 0.8893229514360428,
+      "loss": 0.6634,
+      "reward": 2.2123183608055115,
+      "reward_std": 0.538506917655468,
+      "rewards/accuracy_reward": 0.3906250260770321,
+      "rewards/reasoning_steps_reward": 0.9427083283662796,
+      "rewards/repetition_penalty_reward": -0.052004692144691944,
+      "rewards/tag_count_reward": 0.9309895932674408,
       "step": 369
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.46355056762695,
+      "completion_length": 211.4739646911621,
       "epoch": 0.5549306336707911,
-      "grad_norm": 0.9950921053074119,
-      "kl": 0.3984375,
+      "grad_norm": 46.973349870839904,
+      "kl": 2.095703125,
       "learning_rate": 9.816444794974018e-06,
-      "loss": 0.6193,
-      "reward": 2.5471015572547913,
-      "reward_std": 0.6440750285983086,
-      "rewards/accuracy_reward": 0.7395833730697632,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.10133606940507889,
-      "rewards/tag_count_reward": 0.9401041716337204,
+      "loss": 0.7028,
+      "reward": 2.6153268814086914,
+      "reward_std": 0.5184621512889862,
+      "rewards/accuracy_reward": 0.7656250298023224,
+      "rewards/reasoning_steps_reward": 0.9427083432674408,
+      "rewards/repetition_penalty_reward": -0.0591523889452219,
+      "rewards/tag_count_reward": 0.966145858168602,
       "step": 370
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.4583396911621,
+      "completion_length": 212.7395896911621,
       "epoch": 0.5564304461942258,
-      "grad_norm": 1.440820850213343,
-      "kl": 0.43701171875,
+      "grad_norm": 57.08569018760819,
+      "kl": 16.5546875,
       "learning_rate": 9.76400910635682e-06,
-      "loss": 0.8709,
-      "reward": 2.2166844606399536,
-      "reward_std": 0.7375850528478622,
+      "loss": 0.7212,
+      "reward": 2.2974973320961,
+      "reward_std": 0.499550960958004,
       "rewards/accuracy_reward": 0.4583333432674408,
-      "rewards/reasoning_steps_reward": 0.9461805820465088,
-      "rewards/repetition_penalty_reward": -0.11100666876882315,
-      "rewards/tag_count_reward": 0.9231770932674408,
+      "rewards/reasoning_steps_reward": 0.94618059694767,
+      "rewards/repetition_penalty_reward": -0.045818757731467485,
+      "rewards/tag_count_reward": 0.938802108168602,
       "step": 371
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.1979217529297,
+      "completion_length": 224.7239646911621,
       "epoch": 0.5579302587176603,
-      "grad_norm": 1.089340536225687,
-      "kl": 0.47412109375,
+      "grad_norm": 18.858608822380706,
+      "kl": 1.96875,
       "learning_rate": 9.7115799091692e-06,
-      "loss": 0.4976,
-      "reward": 2.5988621711730957,
-      "reward_std": 0.6001707911491394,
-      "rewards/accuracy_reward": 0.7604166716337204,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07778726145625114,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": 0.4937,
+      "reward": 2.616053879261017,
+      "reward_std": 0.44517990201711655,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.03845999389886856,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 372
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 204.90625381469727,
+      "completion_length": 227.83334350585938,
       "epoch": 0.5594300712410949,
-      "grad_norm": 1.0735796637227366,
-      "kl": 0.4130859375,
+      "grad_norm": 28.416379388658825,
+      "kl": 3.048828125,
       "learning_rate": 9.659158645587319e-06,
-      "loss": 0.6675,
-      "reward": 2.7782450914382935,
-      "reward_std": 0.5766544118523598,
-      "rewards/accuracy_reward": 0.9062500149011612,
-      "rewards/reasoning_steps_reward": 0.9756944328546524,
-      "rewards/repetition_penalty_reward": -0.06984523870050907,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.9709,
+      "reward": 2.659669041633606,
+      "reward_std": 0.5419558137655258,
+      "rewards/accuracy_reward": 0.7864583432674408,
+      "rewards/reasoning_steps_reward": 0.9600694626569748,
+      "rewards/repetition_penalty_reward": -0.04649423388764262,
+      "rewards/tag_count_reward": 0.9596354514360428,
       "step": 373
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.63021850585938,
+      "completion_length": 235.84375381469727,
       "epoch": 0.5609298837645295,
-      "grad_norm": 0.6707545410048498,
-      "kl": 0.36767578125,
+      "grad_norm": 94.84357384526665,
+      "kl": 5.3369140625,
       "learning_rate": 9.606746757569107e-06,
-      "loss": 0.6822,
-      "reward": 2.6383379101753235,
-      "reward_std": 0.7204165309667587,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.9618055820465088,
-      "rewards/repetition_penalty_reward": -0.09560317918658257,
-      "rewards/tag_count_reward": 0.9440104216337204,
+      "loss": 1.197,
+      "reward": 2.5181403756141663,
+      "reward_std": 0.6076074615120888,
+      "rewards/accuracy_reward": 0.7135416716337204,
+      "rewards/reasoning_steps_reward": 0.9166666716337204,
+      "rewards/repetition_penalty_reward": -0.04175550863146782,
+      "rewards/tag_count_reward": 0.9296875149011612,
       "step": 374
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 209.52605056762695,
+      "completion_length": 229.70313262939453,
       "epoch": 0.562429696287964,
-      "grad_norm": 0.8820593625713022,
-      "kl": 0.42138671875,
+      "grad_norm": 26.282174538587235,
+      "kl": 1.5439453125,
       "learning_rate": 9.554345686814601e-06,
-      "loss": 0.4017,
-      "reward": 2.5131508708000183,
-      "reward_std": 0.4276548661291599,
-      "rewards/accuracy_reward": 0.6302083507180214,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06410606950521469,
-      "rewards/tag_count_reward": 0.9609375298023224,
+      "loss": 0.767,
+      "reward": 2.4584012627601624,
+      "reward_std": 0.5215486437082291,
+      "rewards/accuracy_reward": 0.6093750074505806,
+      "rewards/reasoning_steps_reward": 0.9548610895872116,
+      "rewards/repetition_penalty_reward": -0.04854332935065031,
+      "rewards/tag_count_reward": 0.942708358168602,
       "step": 375
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.4479217529297,
+      "completion_length": 221.25,
       "epoch": 0.5639295088113986,
-      "grad_norm": 0.6991131907883488,
-      "kl": 0.3740234375,
+      "grad_norm": 12.593832343409222,
+      "kl": 1.1826171875,
       "learning_rate": 9.501956874726289e-06,
-      "loss": 0.4624,
-      "reward": 2.7490947246551514,
-      "reward_std": 0.4287390150129795,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.05255457712337375,
-      "rewards/tag_count_reward": 0.9648437798023224,
+      "loss": 0.5623,
+      "reward": 2.5942240357398987,
+      "reward_std": 0.4434950575232506,
+      "rewards/accuracy_reward": 0.7031250074505806,
+      "rewards/reasoning_steps_reward": 0.960069477558136,
+      "rewards/repetition_penalty_reward": -0.03121019806712866,
+      "rewards/tag_count_reward": 0.962239608168602,
       "step": 376
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.77605056762695,
+      "completion_length": 212.0572967529297,
       "epoch": 0.5654293213348331,
-      "grad_norm": 1.725949820619147,
-      "kl": 0.44384765625,
+      "grad_norm": 4.53299182911921,
+      "kl": 1.1650390625,
       "learning_rate": 9.449581762369454e-06,
-      "loss": 0.5851,
-      "reward": 2.348751664161682,
-      "reward_std": 0.5454598441720009,
-      "rewards/accuracy_reward": 0.494791679084301,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.07051914185285568,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.4889,
+      "reward": 2.432799220085144,
+      "reward_std": 0.5172925740480423,
+      "rewards/accuracy_reward": 0.5416666939854622,
+      "rewards/reasoning_steps_reward": 0.9670138955116272,
+      "rewards/repetition_penalty_reward": -0.03942307736724615,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 377
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 191.84896850585938,
+      "completion_length": 273.8177146911621,
       "epoch": 0.5669291338582677,
-      "grad_norm": 0.7636716518401006,
-      "kl": 0.38134765625,
+      "grad_norm": 148.2456214132894,
+      "kl": 5.01953125,
       "learning_rate": 9.39722179043254e-06,
-      "loss": 0.238,
-      "reward": 2.7479037046432495,
-      "reward_std": 0.232671735342592,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.04636712512001395,
-      "rewards/tag_count_reward": 0.9869791865348816,
+      "loss": 1.2941,
+      "reward": 2.3988120555877686,
+      "reward_std": 0.6988454312086105,
+      "rewards/accuracy_reward": 0.6093750298023224,
+      "rewards/reasoning_steps_reward": 0.918402835726738,
+      "rewards/repetition_penalty_reward": -0.03912200313061476,
+      "rewards/tag_count_reward": 0.9101562649011612,
       "step": 378
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 190.34375381469727,
+      "completion_length": 333.6145935058594,
       "epoch": 0.5684289463817023,
-      "grad_norm": 0.832309114343419,
-      "kl": 0.37158203125,
+      "grad_norm": 116.2915823519784,
+      "kl": 11.8125,
       "learning_rate": 9.344878399187521e-06,
-      "loss": 0.2999,
-      "reward": 2.6157588362693787,
-      "reward_std": 0.41164325177669525,
-      "rewards/accuracy_reward": 0.7187500223517418,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.05872038099914789,
-      "rewards/tag_count_reward": 0.9765625149011612,
+      "loss": 2.0047,
+      "reward": 2.2520939111709595,
+      "reward_std": 0.821685403585434,
+      "rewards/accuracy_reward": 0.5572916716337204,
+      "rewards/reasoning_steps_reward": 0.8524305522441864,
+      "rewards/repetition_penalty_reward": -0.03262835554778576,
+      "rewards/tag_count_reward": 0.8750000149011612,
       "step": 379
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.17187881469727,
+      "completion_length": 420.4947967529297,
       "epoch": 0.5699287589051368,
-      "grad_norm": 1.2211358696196093,
-      "kl": 0.47216796875,
+      "grad_norm": 1197.114266206702,
+      "kl": 12.4609375,
       "learning_rate": 9.292553028450286e-06,
-      "loss": 0.5705,
-      "reward": 2.6755369901657104,
-      "reward_std": 0.49481815844774246,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.09529644902795553,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "loss": 1.6502,
+      "reward": 2.098519653081894,
+      "reward_std": 0.8776163309812546,
+      "rewards/accuracy_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.8263889402151108,
+      "rewards/repetition_penalty_reward": -0.0390672804787755,
+      "rewards/tag_count_reward": 0.805989608168602,
       "step": 380
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 185.0364646911621,
+      "completion_length": 426.5677185058594,
       "epoch": 0.5714285714285714,
-      "grad_norm": 2.076589624203147,
-      "kl": 0.41943359375,
+      "grad_norm": 26.549926170164234,
+      "kl": 6.15234375,
       "learning_rate": 9.240247117541031e-06,
-      "loss": 0.3464,
-      "reward": 2.6886950731277466,
-      "reward_std": 0.3029524376615882,
-      "rewards/accuracy_reward": 0.760416679084301,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.040471707470715046,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 1.2117,
+      "reward": 2.119348645210266,
+      "reward_std": 0.8967611789703369,
+      "rewards/accuracy_reward": 0.479166679084301,
+      "rewards/reasoning_steps_reward": 0.84375,
+      "rewards/repetition_penalty_reward": -0.02648477186448872,
+      "rewards/tag_count_reward": 0.8229166865348816,
       "step": 381
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 193.8385467529297,
+      "completion_length": 391.78125762939453,
       "epoch": 0.572928383952006,
-      "grad_norm": 0.7452755017756123,
-      "kl": 0.33544921875,
+      "grad_norm": 88.00179700818907,
+      "kl": 7.25,
       "learning_rate": 9.187962105244667e-06,
-      "loss": 0.4188,
-      "reward": 2.848473310470581,
-      "reward_std": 0.38677336275577545,
-      "rewards/accuracy_reward": 0.9427083432674408,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.05083235865458846,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 1.377,
+      "reward": 2.291730046272278,
+      "reward_std": 0.8747196942567825,
+      "rewards/accuracy_reward": 0.6354166716337204,
+      "rewards/reasoning_steps_reward": 0.835069477558136,
+      "rewards/repetition_penalty_reward": -0.02511032810434699,
+      "rewards/tag_count_reward": 0.8463542014360428,
       "step": 382
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.88021087646484,
+      "completion_length": 451.3541793823242,
       "epoch": 0.5744281964754405,
-      "grad_norm": 0.8123392096930626,
-      "kl": 0.357421875,
+      "grad_norm": 13.361311656907796,
+      "kl": 1.662109375,
       "learning_rate": 9.135699429771245e-06,
-      "loss": 0.4282,
-      "reward": 2.7217193841934204,
-      "reward_std": 0.32535652443766594,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.0608327342197299,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.7943,
+      "reward": 2.1707218885421753,
+      "reward_std": 0.9110157489776611,
+      "rewards/accuracy_reward": 0.5468750149011612,
+      "rewards/reasoning_steps_reward": 0.8298611044883728,
+      "rewards/repetition_penalty_reward": -0.02372267236933112,
+      "rewards/tag_count_reward": 0.817708358168602,
       "step": 383
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.7864646911621,
+      "completion_length": 295.9948043823242,
       "epoch": 0.5759280089988752,
-      "grad_norm": 0.7045340047560704,
-      "kl": 0.28662109375,
+      "grad_norm": 30.04886642000228,
+      "kl": 0.908203125,
       "learning_rate": 9.083460528716396e-06,
-      "loss": 0.3565,
-      "reward": 2.539238929748535,
-      "reward_std": 0.3681572899222374,
-      "rewards/accuracy_reward": 0.6093750149011612,
-      "rewards/reasoning_steps_reward": 0.9982638955116272,
-      "rewards/repetition_penalty_reward": -0.05537911970168352,
-      "rewards/tag_count_reward": 0.9869791865348816,
+      "loss": 0.6667,
+      "reward": 2.325647294521332,
+      "reward_std": 0.6908200830221176,
+      "rewards/accuracy_reward": 0.5520833395421505,
+      "rewards/reasoning_steps_reward": 0.9045139253139496,
+      "rewards/repetition_penalty_reward": -0.0345958243124187,
+      "rewards/tag_count_reward": 0.903645858168602,
       "step": 384
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.43750381469727,
+      "completion_length": 326.80730056762695,
       "epoch": 0.5774278215223098,
-      "grad_norm": 1.429073793360656,
-      "kl": 0.4013671875,
+      "grad_norm": 10.663780511762228,
+      "kl": 0.76953125,
       "learning_rate": 9.031246839021783e-06,
-      "loss": 0.5535,
-      "reward": 2.4284881353378296,
-      "reward_std": 0.5695413202047348,
-      "rewards/accuracy_reward": 0.557291679084301,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.07541824877262115,
-      "rewards/tag_count_reward": 0.9674479365348816,
+      "loss": 0.6302,
+      "reward": 2.3826356530189514,
+      "reward_std": 0.6792797073721886,
+      "rewards/accuracy_reward": 0.5937500298023224,
+      "rewards/reasoning_steps_reward": 0.9340278208255768,
+      "rewards/repetition_penalty_reward": -0.051392185501754284,
+      "rewards/tag_count_reward": 0.9062500149011612,
       "step": 385
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.5416717529297,
+      "completion_length": 231.76041793823242,
       "epoch": 0.5789276340457443,
-      "grad_norm": 0.7930980550389279,
-      "kl": 0.396484375,
+      "grad_norm": 61988.54428984002,
+      "kl": 7898.1875,
       "learning_rate": 8.979059796935578e-06,
-      "loss": 0.3136,
-      "reward": 2.754866659641266,
-      "reward_std": 0.33939819782972336,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.056331380270421505,
-      "rewards/tag_count_reward": 0.977864608168602,
+      "loss": 243.7071,
+      "reward": 2.450250804424286,
+      "reward_std": 0.6126392781734467,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9409722238779068,
+      "rewards/repetition_penalty_reward": -0.0402006134390831,
+      "rewards/tag_count_reward": 0.9401041865348816,
       "step": 386
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.7135467529297,
+      "completion_length": 200.89062881469727,
       "epoch": 0.5804274465691789,
-      "grad_norm": 2.4297195424195097,
-      "kl": 0.35107421875,
+      "grad_norm": 40219.98047828671,
+      "kl": 1208.828125,
       "learning_rate": 8.926900837972953e-06,
-      "loss": 0.5168,
-      "reward": 2.7247214913368225,
-      "reward_std": 0.5589673742651939,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9791666567325592,
-      "rewards/repetition_penalty_reward": -0.0643411623314023,
-      "rewards/tag_count_reward": 0.9713541865348816,
+      "loss": 56.1702,
+      "reward": 2.596910834312439,
+      "reward_std": 0.3909384198486805,
+      "rewards/accuracy_reward": 0.6822916716337204,
+      "rewards/reasoning_steps_reward": 0.9774305671453476,
+      "rewards/repetition_penalty_reward": -0.04197810683399439,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 387
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.0885467529297,
+      "completion_length": 225.0260467529297,
       "epoch": 0.5819272590926134,
-      "grad_norm": 1.0129393824300377,
-      "kl": 0.34033203125,
+      "grad_norm": 21433.51255502709,
+      "kl": 3312.6201171875,
       "learning_rate": 8.874771396876597e-06,
-      "loss": 0.6594,
-      "reward": 2.5896897315979004,
-      "reward_std": 0.6142508238554001,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.07307065650820732,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 88.2373,
+      "reward": 2.6155471205711365,
+      "reward_std": 0.478760302066803,
+      "rewards/accuracy_reward": 0.7343750149011612,
+      "rewards/reasoning_steps_reward": 0.9687500447034836,
+      "rewards/repetition_penalty_reward": -0.040702925994992256,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 388
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 245.2187614440918,
+      "completion_length": 228.98958587646484,
       "epoch": 0.583427071616048,
-      "grad_norm": 0.6967111778457452,
-      "kl": 0.333984375,
+      "grad_norm": 599372.7708149451,
+      "kl": 12804.0703125,
       "learning_rate": 8.822672907577244e-06,
-      "loss": 0.7214,
-      "reward": 2.621681034564972,
-      "reward_std": 0.8044816702604294,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.9548611044883728,
-      "rewards/repetition_penalty_reward": -0.09620102681219578,
-      "rewards/tag_count_reward": 0.9401041716337204,
+      "loss": 575.4508,
+      "reward": 2.526801884174347,
+      "reward_std": 0.5001873224973679,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.9565972536802292,
+      "rewards/repetition_penalty_reward": -0.04437878727912903,
+      "rewards/tag_count_reward": 0.9583333730697632,
       "step": 389
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 198.38541793823242,
+      "completion_length": 196.5833396911621,
       "epoch": 0.5849268841394826,
-      "grad_norm": 0.8231881380174958,
-      "kl": 0.31884765625,
+      "grad_norm": 98.60380013944835,
+      "kl": 11.30810546875,
       "learning_rate": 8.770606803154235e-06,
-      "loss": 0.2053,
-      "reward": 2.5868722200393677,
-      "reward_std": 0.4082149714231491,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9878472238779068,
-      "rewards/repetition_penalty_reward": -0.03899595024995506,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.4166,
+      "reward": 2.5563814640045166,
+      "reward_std": 0.3433222845196724,
+      "rewards/accuracy_reward": 0.6093750223517418,
+      "rewards/reasoning_steps_reward": 0.998263880610466,
+      "rewards/repetition_penalty_reward": -0.04344499483704567,
+      "rewards/tag_count_reward": 0.9921875149011612,
       "step": 390
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 243.2395896911621,
+      "completion_length": 196.7083396911621,
       "epoch": 0.5864266966629171,
-      "grad_norm": 0.7279318824033988,
-      "kl": 0.353515625,
+      "grad_norm": 100.03328215519356,
+      "kl": 8.48876953125,
       "learning_rate": 8.718574515796099e-06,
-      "loss": 0.6324,
-      "reward": 2.612482249736786,
-      "reward_std": 0.6807690560817719,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.9548611491918564,
-      "rewards/repetition_penalty_reward": -0.09237884357571602,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.6527,
+      "reward": 2.6383371353149414,
+      "reward_std": 0.4097052291035652,
+      "rewards/accuracy_reward": 0.723958358168602,
+      "rewards/reasoning_steps_reward": 0.9791667014360428,
+      "rewards/repetition_penalty_reward": -0.04395460430532694,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 391
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 276.40625762939453,
+      "completion_length": 185.48437881469727,
       "epoch": 0.5879265091863517,
-      "grad_norm": 1.6569386224229496,
-      "kl": 0.43408203125,
+      "grad_norm": 4314.703902280122,
+      "kl": 8.80859375,
       "learning_rate": 8.666577476761147e-06,
-      "loss": 0.9446,
-      "reward": 2.3660694360733032,
-      "reward_std": 1.0445173233747482,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.9288194477558136,
-      "rewards/repetition_penalty_reward": -0.1317605171352625,
-      "rewards/tag_count_reward": 0.9023437649011612,
+      "loss": 0.6093,
+      "reward": 2.56997287273407,
+      "reward_std": 0.39948707073926926,
+      "rewards/accuracy_reward": 0.6718750298023224,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.04851668328046799,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 392
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 305.8489685058594,
+      "completion_length": 194.4739646911621,
       "epoch": 0.5894263217097863,
-      "grad_norm": 1.3890685202023243,
-      "kl": 0.42333984375,
+      "grad_norm": 5.999735316199694,
+      "kl": 0.830078125,
       "learning_rate": 8.61461711633812e-06,
-      "loss": 0.7734,
-      "reward": 2.335377037525177,
-      "reward_std": 1.022938460111618,
-      "rewards/accuracy_reward": 0.6875000298023224,
-      "rewards/reasoning_steps_reward": 0.925347238779068,
-      "rewards/repetition_penalty_reward": -0.16418905928730965,
-      "rewards/tag_count_reward": 0.8867187649011612,
+      "loss": 0.2302,
+      "reward": 2.6648696064949036,
+      "reward_std": 0.3630646914243698,
+      "rewards/accuracy_reward": 0.7552083432674408,
+      "rewards/reasoning_steps_reward": 0.987847238779068,
+      "rewards/repetition_penalty_reward": -0.04954020772129297,
+      "rewards/tag_count_reward": 0.9713542014360428,
       "step": 393
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 332.44792556762695,
+      "completion_length": 187.77083587646484,
       "epoch": 0.5909261342332208,
-      "grad_norm": 1.758344512665889,
-      "kl": 0.47607421875,
+      "grad_norm": 1.1014377641969626,
+      "kl": 0.564453125,
       "learning_rate": 8.562694863806833e-06,
-      "loss": 0.7599,
-      "reward": 2.0866143703460693,
-      "reward_std": 1.0357710719108582,
-      "rewards/accuracy_reward": 0.5000000223517418,
-      "rewards/reasoning_steps_reward": 0.9027778208255768,
-      "rewards/repetition_penalty_reward": -0.19246553257107735,
-      "rewards/tag_count_reward": 0.8763020932674408,
+      "loss": 0.1169,
+      "reward": 2.4198758602142334,
+      "reward_std": 0.39315300434827805,
+      "rewards/accuracy_reward": 0.4895833432674408,
+      "rewards/reasoning_steps_reward": 0.9913194477558136,
+      "rewards/repetition_penalty_reward": -0.04930820316076279,
+      "rewards/tag_count_reward": 0.9882812649011612,
       "step": 394
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.70314025878906,
+      "completion_length": 222.7500114440918,
       "epoch": 0.5924259467566554,
-      "grad_norm": 0.7342927358013376,
-      "kl": 0.3798828125,
+      "grad_norm": 4.04988083724822,
+      "kl": 0.7509765625,
       "learning_rate": 8.510812147398857e-06,
-      "loss": 0.6993,
-      "reward": 2.433952748775482,
-      "reward_std": 0.7940848171710968,
-      "rewards/accuracy_reward": 0.661458358168602,
-      "rewards/reasoning_steps_reward": 0.9461806118488312,
-      "rewards/repetition_penalty_reward": -0.10988406464457512,
-      "rewards/tag_count_reward": 0.9361979216337204,
+      "loss": 0.4591,
+      "reward": 2.632589817047119,
+      "reward_std": 0.5965047925710678,
+      "rewards/accuracy_reward": 0.7812500149011612,
+      "rewards/reasoning_steps_reward": 0.9600694626569748,
+      "rewards/repetition_penalty_reward": -0.06706297304481268,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 395
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 248.14063262939453,
+      "completion_length": 204.34896850585938,
       "epoch": 0.59392575928009,
-      "grad_norm": 0.7272681746221773,
-      "kl": 0.40625,
+      "grad_norm": 2.0214381753763924,
+      "kl": 0.5986328125,
       "learning_rate": 8.458970394258244e-06,
-      "loss": 0.6893,
-      "reward": 2.5480750799179077,
-      "reward_std": 0.6472647786140442,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.09558827057480812,
-      "rewards/tag_count_reward": 0.9492187798023224,
+      "loss": 0.308,
+      "reward": 2.5586500763893127,
+      "reward_std": 0.43028920516371727,
+      "rewards/accuracy_reward": 0.6562500298023224,
+      "rewards/reasoning_steps_reward": 0.9774305671453476,
+      "rewards/repetition_penalty_reward": -0.05289509380236268,
+      "rewards/tag_count_reward": 0.9778645932674408,
       "step": 396
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 280.07813262939453,
+      "completion_length": 183.1979217529297,
       "epoch": 0.5954255718035245,
-      "grad_norm": 1.774304333205819,
-      "kl": 0.43408203125,
+      "grad_norm": 0.9700944248252047,
+      "kl": 0.46533203125,
       "learning_rate": 8.407171030402263e-06,
-      "loss": 0.9403,
-      "reward": 2.3916409015655518,
-      "reward_std": 0.9467423260211945,
-      "rewards/accuracy_reward": 0.6979167014360428,
-      "rewards/reasoning_steps_reward": 0.9218750149011612,
-      "rewards/repetition_penalty_reward": -0.14221329241991043,
-      "rewards/tag_count_reward": 0.9140625298023224,
+      "loss": 0.0956,
+      "reward": 2.5613616704940796,
+      "reward_std": 0.3627118840813637,
+      "rewards/accuracy_reward": 0.6250000149011612,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.0545238540507853,
+      "rewards/tag_count_reward": 0.9908854216337204,
       "step": 397
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.25000762939453,
+      "completion_length": 206.43750381469727,
       "epoch": 0.5969253843269592,
-      "grad_norm": 0.757311691683406,
-      "kl": 0.38232421875,
+      "grad_norm": 3.0901812570047826,
+      "kl": 0.66455078125,
       "learning_rate": 8.355415480682176e-06,
-      "loss": 0.5822,
-      "reward": 2.5999165177345276,
-      "reward_std": 0.6902973502874374,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9670139402151108,
-      "rewards/repetition_penalty_reward": -0.10017046704888344,
-      "rewards/tag_count_reward": 0.9361979365348816,
+      "loss": 0.4091,
+      "reward": 2.456976294517517,
+      "reward_std": 0.3992188200354576,
+      "rewards/accuracy_reward": 0.5520833432674408,
+      "rewards/reasoning_steps_reward": 0.9826389104127884,
+      "rewards/repetition_penalty_reward": -0.05300639010965824,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 398
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.0260467529297,
+      "completion_length": 205.4322967529297,
       "epoch": 0.5984251968503937,
-      "grad_norm": 0.8003986775615329,
-      "kl": 0.32861328125,
+      "grad_norm": 0.9560339346770327,
+      "kl": 0.677734375,
       "learning_rate": 8.303705168744042e-06,
-      "loss": 0.8742,
-      "reward": 2.4283345341682434,
-      "reward_std": 0.7666500955820084,
-      "rewards/accuracy_reward": 0.6302083432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.1033495794981718,
-      "rewards/tag_count_reward": 0.9361979365348816,
+      "loss": 0.386,
+      "reward": 2.42321240901947,
+      "reward_std": 0.4326848238706589,
+      "rewards/accuracy_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.9774305820465088,
+      "rewards/repetition_penalty_reward": -0.03338485397398472,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 399
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 283.21355056762695,
+      "completion_length": 223.17708587646484,
       "epoch": 0.5999250093738283,
-      "grad_norm": 1.0199487663866538,
-      "kl": 0.4130859375,
+      "grad_norm": 3.695423652449584,
+      "kl": 1.115234375,
       "learning_rate": 8.252041516989565e-06,
-      "loss": 0.9242,
-      "reward": 2.414180636405945,
-      "reward_std": 0.9542115926742554,
-      "rewards/accuracy_reward": 0.703125,
-      "rewards/reasoning_steps_reward": 0.9444444626569748,
-      "rewards/repetition_penalty_reward": -0.14614922180771828,
-      "rewards/tag_count_reward": 0.9127604216337204,
+      "loss": 0.7209,
+      "reward": 2.4974151253700256,
+      "reward_std": 0.5143779292702675,
+      "rewards/accuracy_reward": 0.5937500223517418,
+      "rewards/reasoning_steps_reward": 0.9704861342906952,
+      "rewards/repetition_penalty_reward": -0.02775857038795948,
+      "rewards/tag_count_reward": 0.9609375298023224,
       "step": 400
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 243.81771087646484,
+      "completion_length": 278.4583435058594,
       "epoch": 0.6014248218972629,
-      "grad_norm": 1.0978785601748482,
-      "kl": 0.39208984375,
+      "grad_norm": 1.4515991916390434,
+      "kl": 1.1875,
       "learning_rate": 8.200425946536956e-06,
-      "loss": 0.8053,
-      "reward": 2.522300899028778,
-      "reward_std": 0.8708243519067764,
-      "rewards/accuracy_reward": 0.7604166865348816,
-      "rewards/reasoning_steps_reward": 0.9461805820465088,
-      "rewards/repetition_penalty_reward": -0.11137974262237549,
-      "rewards/tag_count_reward": 0.927083358168602,
+      "loss": 0.9453,
+      "reward": 2.54727965593338,
+      "reward_std": 0.6352264881134033,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9409722685813904,
+      "rewards/repetition_penalty_reward": -0.023900966625660658,
+      "rewards/tag_count_reward": 0.9218750149011612,
       "step": 401
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.26562881469727,
+      "completion_length": 253.0260467529297,
       "epoch": 0.6029246344206974,
-      "grad_norm": 0.842070280135897,
-      "kl": 0.31103515625,
+      "grad_norm": 1.6992040499230678,
+      "kl": 1.1376953125,
       "learning_rate": 8.148859877181849e-06,
-      "loss": 0.7132,
-      "reward": 2.6524030566215515,
-      "reward_std": 0.7079126834869385,
-      "rewards/accuracy_reward": 0.848958358168602,
-      "rewards/reasoning_steps_reward": 0.9635417014360428,
-      "rewards/repetition_penalty_reward": -0.10540947876870632,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.6776,
+      "reward": 2.558239758014679,
+      "reward_std": 0.5012032613158226,
+      "rewards/accuracy_reward": 0.6927083432674408,
+      "rewards/reasoning_steps_reward": 0.951388880610466,
+      "rewards/repetition_penalty_reward": -0.02205547597259283,
+      "rewards/tag_count_reward": 0.9361979514360428,
       "step": 402
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.54687881469727,
+      "completion_length": 280.1458435058594,
       "epoch": 0.604424446944132,
-      "grad_norm": 9.414923410713605,
-      "kl": 0.35693359375,
+      "grad_norm": 1.2357512902908514,
+      "kl": 1.0625,
       "learning_rate": 8.097344727358247e-06,
-      "loss": 0.6565,
-      "reward": 2.452816426753998,
-      "reward_std": 0.8280535340309143,
-      "rewards/accuracy_reward": 0.6770833507180214,
-      "rewards/reasoning_steps_reward": 0.9375000298023224,
-      "rewards/repetition_penalty_reward": -0.10447533056139946,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.6856,
+      "reward": 2.4696335196495056,
+      "reward_std": 0.6513710990548134,
+      "rewards/accuracy_reward": 0.6197916716337204,
+      "rewards/reasoning_steps_reward": 0.9444444626569748,
+      "rewards/repetition_penalty_reward": -0.019081805367022753,
+      "rewards/tag_count_reward": 0.9244791865348816,
       "step": 403
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.87500381469727,
+      "completion_length": 218.3802146911621,
       "epoch": 0.6059242594675666,
-      "grad_norm": 1.1724536798403964,
-      "kl": 0.390625,
+      "grad_norm": 2.5806348482702632,
+      "kl": 0.6376953125,
       "learning_rate": 8.045881914099503e-06,
-      "loss": 0.5066,
-      "reward": 2.6050479412078857,
-      "reward_std": 0.6001375466585159,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.973958358168602,
-      "rewards/repetition_penalty_reward": -0.06943127233535051,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.6086,
+      "reward": 2.3685402274131775,
+      "reward_std": 0.4312494173645973,
+      "rewards/accuracy_reward": 0.463541679084301,
+      "rewards/reasoning_steps_reward": 0.967013880610466,
+      "rewards/repetition_penalty_reward": -0.024254921358078718,
+      "rewards/tag_count_reward": 0.962239608168602,
       "step": 404
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 255.69792938232422,
+      "completion_length": 214.18750381469727,
       "epoch": 0.6074240719910011,
-      "grad_norm": 0.8089367863487846,
-      "kl": 0.3916015625,
+      "grad_norm": 3.0889995708717803,
+      "kl": 0.802734375,
       "learning_rate": 7.99447285299934e-06,
-      "loss": 0.8552,
-      "reward": 2.4925881028175354,
-      "reward_std": 0.8843167871236801,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.942708358168602,
-      "rewards/repetition_penalty_reward": -0.12069321796298027,
-      "rewards/tag_count_reward": 0.9257812649011612,
+      "loss": 0.9386,
+      "reward": 2.6483540534973145,
+      "reward_std": 0.57868642359972,
+      "rewards/accuracy_reward": 0.7760416865348816,
+      "rewards/reasoning_steps_reward": 0.9357639253139496,
+      "rewards/repetition_penalty_reward": -0.012670394266024232,
+      "rewards/tag_count_reward": 0.9492187798023224,
       "step": 405
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 245.58334732055664,
+      "completion_length": 255.90625381469727,
       "epoch": 0.6089238845144357,
-      "grad_norm": 67.41761784039255,
-      "kl": 2.849609375,
+      "grad_norm": 6.886520330181463,
+      "kl": 1.41796875,
       "learning_rate": 7.943118958172917e-06,
-      "loss": 0.7802,
-      "reward": 2.5025484561920166,
-      "reward_std": 0.8601765781641006,
-      "rewards/accuracy_reward": 0.755208358168602,
-      "rewards/reasoning_steps_reward": 0.9340278208255768,
-      "rewards/repetition_penalty_reward": -0.11377106420695782,
-      "rewards/tag_count_reward": 0.927083358168602,
+      "loss": 0.9431,
+      "reward": 2.4443989396095276,
+      "reward_std": 0.7025687843561172,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.8854166865348816,
+      "rewards/repetition_penalty_reward": -0.01914279453922063,
+      "rewards/tag_count_reward": 0.9218750149011612,
       "step": 406
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.80209350585938,
+      "completion_length": 270.8437614440918,
       "epoch": 0.6104236970378702,
-      "grad_norm": 50.58089501980667,
-      "kl": 3.66796875,
+      "grad_norm": 4.059148084337778,
+      "kl": 1.1845703125,
       "learning_rate": 7.891821642217926e-06,
-      "loss": 0.8609,
-      "reward": 2.4164522886276245,
-      "reward_std": 0.693310096859932,
-      "rewards/accuracy_reward": 0.6354166716337204,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.1191379763185978,
-      "rewards/tag_count_reward": 0.9348958432674408,
+      "loss": 0.9331,
+      "reward": 2.216310352087021,
+      "reward_std": 0.7253094911575317,
+      "rewards/accuracy_reward": 0.442708358168602,
+      "rewards/reasoning_steps_reward": 0.8854167014360428,
+      "rewards/repetition_penalty_reward": -0.02066887845285237,
+      "rewards/tag_count_reward": 0.9088541865348816,
       "step": 407
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 284.53125381469727,
+      "completion_length": 251.8072967529297,
       "epoch": 0.6119235095613048,
-      "grad_norm": 1.7854042705861606,
-      "kl": 0.47021484375,
+      "grad_norm": 3.615908850384094,
+      "kl": 0.9541015625,
       "learning_rate": 7.840582316175737e-06,
-      "loss": 0.6802,
-      "reward": 2.4898502826690674,
-      "reward_std": 0.7629896551370621,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.13645190559327602,
-      "rewards/tag_count_reward": 0.9231770932674408,
+      "loss": 0.7562,
+      "reward": 2.1759954690933228,
+      "reward_std": 0.7425311505794525,
+      "rewards/accuracy_reward": 0.3958333432674408,
+      "rewards/reasoning_steps_reward": 0.892361119389534,
+      "rewards/repetition_penalty_reward": -0.01975110382772982,
+      "rewards/tag_count_reward": 0.907552108168602,
       "step": 408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.7708435058594,
+      "completion_length": 223.29687881469727,
       "epoch": 0.6134233220847394,
-      "grad_norm": 0.6181557051707668,
-      "kl": 0.3818359375,
+      "grad_norm": 7.82629047907828,
+      "kl": 0.95703125,
       "learning_rate": 7.789402389492582e-06,
-      "loss": 0.7549,
-      "reward": 2.4589642882347107,
-      "reward_std": 0.831140786409378,
-      "rewards/accuracy_reward": 0.6979166939854622,
-      "rewards/reasoning_steps_reward": 0.9548611342906952,
-      "rewards/repetition_penalty_reward": -0.13001148030161858,
-      "rewards/tag_count_reward": 0.9361979514360428,
+      "loss": 1.0177,
+      "reward": 2.383803129196167,
+      "reward_std": 0.6715415120124817,
+      "rewards/accuracy_reward": 0.5520833507180214,
+      "rewards/reasoning_steps_reward": 0.9184027910232544,
+      "rewards/repetition_penalty_reward": -0.013766373042017221,
+      "rewards/tag_count_reward": 0.9270833432674408,
       "step": 409
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.5104293823242,
+      "completion_length": 244.07292556762695,
       "epoch": 0.6149231346081739,
-      "grad_norm": 0.9617852079175642,
-      "kl": 0.36083984375,
+      "grad_norm": 7.0703944532697145,
+      "kl": 0.80419921875,
       "learning_rate": 7.738283269980798e-06,
-      "loss": 0.7348,
-      "reward": 2.555156171321869,
-      "reward_std": 0.8534037470817566,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.9444444477558136,
-      "rewards/repetition_penalty_reward": -0.11845514364540577,
-      "rewards/tag_count_reward": 0.9218750149011612,
+      "loss": 0.8963,
+      "reward": 2.4084761142730713,
+      "reward_std": 0.7272981628775597,
+      "rewards/accuracy_reward": 0.6197916716337204,
+      "rewards/reasoning_steps_reward": 0.8958333730697632,
+      "rewards/repetition_penalty_reward": -0.018607289995998144,
+      "rewards/tag_count_reward": 0.9114583432674408,
       "step": 410
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.22916793823242,
+      "completion_length": 174.3489646911621,
       "epoch": 0.6164229471316085,
-      "grad_norm": 0.7921173872233128,
-      "kl": 0.29833984375,
+      "grad_norm": 3.740634216779511,
+      "kl": 0.63427734375,
       "learning_rate": 7.687226363780084e-06,
-      "loss": 0.5226,
-      "reward": 2.4889369010925293,
-      "reward_std": 0.5284189339727163,
-      "rewards/accuracy_reward": 0.6406250074505806,
-      "rewards/reasoning_steps_reward": 0.9722222238779068,
-      "rewards/repetition_penalty_reward": -0.08094170223921537,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.5151,
+      "reward": 2.5853647589683533,
+      "reward_std": 0.46327926218509674,
+      "rewards/accuracy_reward": 0.677083358168602,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.023576234467327595,
+      "rewards/tag_count_reward": 0.970052108168602,
       "step": 411
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.95312881469727,
+      "completion_length": 205.3177146911621,
       "epoch": 0.6179227596550432,
-      "grad_norm": 0.6969647943689223,
-      "kl": 0.3193359375,
+      "grad_norm": 2.7293051628640344,
+      "kl": 0.50927734375,
       "learning_rate": 7.636233075318824e-06,
-      "loss": 0.3959,
-      "reward": 2.670749843120575,
-      "reward_std": 0.4937814176082611,
-      "rewards/accuracy_reward": 0.7968750298023224,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.06666341191157699,
-      "rewards/tag_count_reward": 0.9648437798023224,
+      "loss": 0.6524,
+      "reward": 2.4624382853507996,
+      "reward_std": 0.5226383320987225,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/reasoning_steps_reward": 0.9340278059244156,
+      "rewards/repetition_penalty_reward": -0.017162481555715203,
+      "rewards/tag_count_reward": 0.9466145932674408,
       "step": 412
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.8854217529297,
+      "completion_length": 208.1822967529297,
       "epoch": 0.6194225721784777,
-      "grad_norm": 0.9557907221459236,
-      "kl": 0.310546875,
+      "grad_norm": 14.252860190179556,
+      "kl": 0.8994140625,
       "learning_rate": 7.585304807275473e-06,
-      "loss": 0.571,
-      "reward": 2.531363546848297,
-      "reward_std": 0.6936883656308055,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.9427083283662796,
-      "rewards/repetition_penalty_reward": -0.0910323103889823,
-      "rewards/tag_count_reward": 0.9453125298023224,
+      "loss": 0.7206,
+      "reward": 2.4753499627113342,
+      "reward_std": 0.536663368344307,
+      "rewards/accuracy_reward": 0.5989583507180214,
+      "rewards/reasoning_steps_reward": 0.9409722238779068,
+      "rewards/repetition_penalty_reward": -0.01510148635134101,
+      "rewards/tag_count_reward": 0.950520858168602,
       "step": 413
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 199.11458587646484,
+      "completion_length": 174.04687881469727,
       "epoch": 0.6209223847019123,
-      "grad_norm": 0.8453338172094219,
-      "kl": 0.28857421875,
+      "grad_norm": 2.8964016768843623,
+      "kl": 0.73388671875,
       "learning_rate": 7.534442960539956e-06,
-      "loss": 0.3905,
-      "reward": 2.7355194687843323,
-      "reward_std": 0.49409135431051254,
-      "rewards/accuracy_reward": 0.8385416716337204,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.05527916317805648,
-      "rewards/tag_count_reward": 0.9713542014360428,
+      "loss": 0.4618,
+      "reward": 2.6283841133117676,
+      "reward_std": 0.4127518758177757,
+      "rewards/accuracy_reward": 0.7031250223517418,
+      "rewards/reasoning_steps_reward": 0.9670139253139496,
+      "rewards/repetition_penalty_reward": -0.011807008180767298,
+      "rewards/tag_count_reward": 0.970052108168602,
       "step": 414
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 182.48437881469727,
+      "completion_length": 184.96875762939453,
       "epoch": 0.6224221972253469,
-      "grad_norm": 0.7857191402885518,
-      "kl": 0.303955078125,
+      "grad_norm": 5.401451233630221,
+      "kl": 0.54443359375,
       "learning_rate": 7.483648934175138e-06,
-      "loss": 0.1902,
-      "reward": 2.6866626739501953,
-      "reward_std": 0.28315746411681175,
-      "rewards/accuracy_reward": 0.7395833432674408,
-      "rewards/reasoning_steps_reward": 1.0,
-      "rewards/repetition_penalty_reward": -0.042504156939685345,
-      "rewards/tag_count_reward": 0.9895833432674408,
-      "step": 415
+      "loss": 0.5382,
+      "reward": 2.485370635986328,
+      "reward_std": 0.4186149761080742,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/reasoning_steps_reward": 0.9600694626569748,
+      "rewards/repetition_penalty_reward": -0.020271844463422894,
+      "rewards/tag_count_reward": 0.962239608168602,
+      "step": 415
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 192.37500762939453,
+      "completion_length": 156.63021087646484,
       "epoch": 0.6239220097487814,
-      "grad_norm": 1.0846986274613384,
-      "kl": 0.35107421875,
+      "grad_norm": 12.179499233084556,
+      "kl": 0.55126953125,
       "learning_rate": 7.432924125378345e-06,
-      "loss": 0.3789,
-      "reward": 2.4783818125724792,
-      "reward_std": 0.5089812204241753,
-      "rewards/accuracy_reward": 0.5937500223517418,
-      "rewards/reasoning_steps_reward": 0.9809028208255768,
-      "rewards/repetition_penalty_reward": -0.0624168599024415,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.4525,
+      "reward": 2.612027883529663,
+      "reward_std": 0.34135545045137405,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9687500298023224,
+      "rewards/repetition_penalty_reward": -0.011670089792460203,
+      "rewards/tag_count_reward": 0.9674479514360428,
       "step": 416
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.28125762939453,
+      "completion_length": 185.3802146911621,
       "epoch": 0.625421822272216,
-      "grad_norm": 0.6289618055873664,
-      "kl": 0.32958984375,
+      "grad_norm": 27.64718995248203,
+      "kl": 0.61962890625,
       "learning_rate": 7.382269929442925e-06,
-      "loss": 0.6525,
-      "reward": 2.729068160057068,
-      "reward_std": 0.6565304845571518,
-      "rewards/accuracy_reward": 0.9062500149011612,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.09384858049452305,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "loss": 0.3543,
+      "reward": 2.6146509051322937,
+      "reward_std": 0.3778613116592169,
+      "rewards/accuracy_reward": 0.6979166716337204,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.01425547618418932,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 417
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.7187614440918,
+      "completion_length": 200.8333396911621,
       "epoch": 0.6269216347956506,
-      "grad_norm": 2.2511596836127628,
-      "kl": 0.37158203125,
+      "grad_norm": 35.112382210723155,
+      "kl": 0.74609375,
       "learning_rate": 7.331687739719868e-06,
-      "loss": 0.6599,
-      "reward": 2.739536941051483,
-      "reward_std": 0.7113066837191582,
-      "rewards/accuracy_reward": 0.9062500149011612,
-      "rewards/reasoning_steps_reward": 0.9652778059244156,
-      "rewards/repetition_penalty_reward": -0.08251171908341348,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.3159,
+      "reward": 2.7482373118400574,
+      "reward_std": 0.4861888214945793,
+      "rewards/accuracy_reward": 0.8750000149011612,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.03388085588812828,
+      "rewards/tag_count_reward": 0.9453125298023224,
       "step": 418
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.0260467529297,
+      "completion_length": 186.5416717529297,
       "epoch": 0.6284214473190851,
-      "grad_norm": 0.7481899237512065,
-      "kl": 0.3017578125,
+      "grad_norm": 9.808027472374857,
+      "kl": 0.75390625,
       "learning_rate": 7.281178947579484e-06,
-      "loss": 0.4911,
-      "reward": 2.677112579345703,
-      "reward_std": 0.500836968421936,
-      "rewards/accuracy_reward": 0.802083358168602,
-      "rewards/reasoning_steps_reward": 0.9843750447034836,
-      "rewards/repetition_penalty_reward": -0.07549162488430738,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.3908,
+      "reward": 2.5124480724334717,
+      "reward_std": 0.39367250353097916,
+      "rewards/accuracy_reward": 0.6145833432674408,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.050051978789269924,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 419
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.0572967529297,
+      "completion_length": 210.65625762939453,
       "epoch": 0.6299212598425197,
-      "grad_norm": 2.4166560990937582,
-      "kl": 0.6650390625,
+      "grad_norm": 316.11143834667564,
+      "kl": 6.1318359375,
       "learning_rate": 7.230744942373125e-06,
-      "loss": 0.5609,
-      "reward": 2.6925852298736572,
-      "reward_std": 0.5387180671095848,
-      "rewards/accuracy_reward": 0.8333333432674408,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.08041842561215162,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 1.196,
+      "reward": 2.612563908100128,
+      "reward_std": 0.5070172511041164,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.06451944634318352,
+      "rewards/tag_count_reward": 0.953125,
       "step": 420
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 204.2083396911621,
+      "completion_length": 167.5520896911621,
       "epoch": 0.6314210723659542,
-      "grad_norm": 3.5367701148683515,
-      "kl": 0.3935546875,
+      "grad_norm": 2256.612496535129,
+      "kl": 120.529296875,
       "learning_rate": 7.1803871113949675e-06,
-      "loss": 0.5299,
-      "reward": 2.5729278326034546,
-      "reward_std": 0.5818023979663849,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.07290551625192165,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "loss": 5.9692,
+      "reward": 2.5741260647773743,
+      "reward_std": 0.364616222679615,
+      "rewards/accuracy_reward": 0.645833358168602,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.03134271129965782,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 421
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 184.77083587646484,
+      "completion_length": 210.5885467529297,
       "epoch": 0.6329208848893888,
-      "grad_norm": 0.81390385216287,
-      "kl": 0.33544921875,
+      "grad_norm": 31650.105311482544,
+      "kl": 379.5390625,
       "learning_rate": 7.13010683984386e-06,
-      "loss": 0.4888,
-      "reward": 2.656929612159729,
-      "reward_std": 0.4153623729944229,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.04923371039330959,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "loss": 45.4656,
+      "reward": 2.404063105583191,
+      "reward_std": 0.6292674243450165,
+      "rewards/accuracy_reward": 0.5833333507180214,
+      "rewards/reasoning_steps_reward": 0.9565972536802292,
+      "rewards/repetition_penalty_reward": -0.07336751371622086,
+      "rewards/tag_count_reward": 0.9375000149011612,
       "step": 422
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.2291717529297,
+      "completion_length": 195.60937881469727,
       "epoch": 0.6344206974128234,
-      "grad_norm": 0.7193436114614246,
-      "kl": 0.322998046875,
+      "grad_norm": 69.45154521104752,
+      "kl": 2.13525390625,
       "learning_rate": 7.07990551078521e-06,
-      "loss": 0.5418,
-      "reward": 2.480729579925537,
-      "reward_std": 0.5471135228872299,
-      "rewards/accuracy_reward": 0.614583358168602,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.07048568688333035,
+      "loss": 0.6039,
+      "reward": 2.7996047139167786,
+      "reward_std": 0.37217236310243607,
+      "rewards/accuracy_reward": 0.8854166716337204,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.03633271250873804,
       "rewards/tag_count_reward": 0.9661458432674408,
       "step": 423
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.1458396911621,
+      "completion_length": 221.22917938232422,
       "epoch": 0.6359205099362579,
-      "grad_norm": 1.2355026811447927,
-      "kl": 0.39794921875,
+      "grad_norm": 63.609726332225755,
+      "kl": 2.5576171875,
       "learning_rate": 7.029784505112948e-06,
-      "loss": 0.6063,
-      "reward": 2.551844298839569,
-      "reward_std": 0.5733724534511566,
-      "rewards/accuracy_reward": 0.6979166865348816,
-      "rewards/reasoning_steps_reward": 0.9687500298023224,
-      "rewards/repetition_penalty_reward": -0.07836401462554932,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.7597,
+      "reward": 2.4892146587371826,
+      "reward_std": 0.55179613083601,
+      "rewards/accuracy_reward": 0.6406250149011612,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.05332011543214321,
+      "rewards/tag_count_reward": 0.9401042014360428,
       "step": 424
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 185.15625762939453,
+      "completion_length": 196.7864646911621,
       "epoch": 0.6374203224596925,
-      "grad_norm": 0.7168826565129065,
-      "kl": 0.306640625,
+      "grad_norm": 30.322718341900693,
+      "kl": 0.7666015625,
       "learning_rate": 6.979745201511531e-06,
-      "loss": 0.3983,
-      "reward": 2.7733737230300903,
-      "reward_std": 0.3679837482050061,
-      "rewards/accuracy_reward": 0.8750000149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0534491918515414,
-      "rewards/tag_count_reward": 0.97265625,
+      "loss": 0.5128,
+      "reward": 2.699239432811737,
+      "reward_std": 0.4398190379142761,
+      "rewards/accuracy_reward": 0.8020833432674408,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.031229355605319142,
+      "rewards/tag_count_reward": 0.954427108168602,
       "step": 425
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 189.7760467529297,
+      "completion_length": 175.7291717529297,
       "epoch": 0.6389201349831272,
-      "grad_norm": 1.2687322158065155,
-      "kl": 0.318359375,
+      "grad_norm": 763.6392481614376,
+      "kl": 442.4111328125,
       "learning_rate": 6.929788976418044e-06,
-      "loss": 0.6424,
-      "reward": 2.7650052905082703,
-      "reward_std": 0.5291210561990738,
-      "rewards/accuracy_reward": 0.8750000298023224,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.053571161814033985,
-      "rewards/tag_count_reward": 0.966145858168602,
+      "loss": 1.9958,
+      "reward": 2.833931624889374,
+      "reward_std": 0.3742608136963099,
+      "rewards/accuracy_reward": 0.9062500149011612,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.0215371900703758,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 426
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.81250762939453,
+      "completion_length": 226.6927146911621,
       "epoch": 0.6404199475065617,
-      "grad_norm": 1.6352357141251739,
-      "kl": 0.33349609375,
+      "grad_norm": 11.61389336470008,
+      "kl": 0.611328125,
       "learning_rate": 6.879917203984306e-06,
-      "loss": 0.6536,
-      "reward": 2.448298752307892,
-      "reward_std": 0.5732715502381325,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.07210064399987459,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.4047,
+      "reward": 2.439822733402252,
+      "reward_std": 0.40970153361558914,
+      "rewards/accuracy_reward": 0.5520833507180214,
+      "rewards/reasoning_steps_reward": 0.984375,
+      "rewards/repetition_penalty_reward": -0.05366701539605856,
+      "rewards/tag_count_reward": 0.9570312798023224,
       "step": 427
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.97917556762695,
+      "completion_length": 212.5989646911621,
       "epoch": 0.6419197600299963,
-      "grad_norm": 1.886886621974555,
-      "kl": 0.58642578125,
+      "grad_norm": 8.516759254331243,
+      "kl": 0.5595703125,
       "learning_rate": 6.830131256039094e-06,
-      "loss": 0.5201,
-      "reward": 2.543819785118103,
-      "reward_std": 0.5805186182260513,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07814204692840576,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 0.4026,
+      "reward": 2.511458396911621,
+      "reward_std": 0.4569522365927696,
+      "rewards/accuracy_reward": 0.614583358168602,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.058854201808571815,
+      "rewards/tag_count_reward": 0.966145858168602,
       "step": 428
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.07813262939453,
+      "completion_length": 193.1458396911621,
       "epoch": 0.6434195725534309,
-      "grad_norm": 1.0666842338328122,
-      "kl": 0.36376953125,
+      "grad_norm": 3.0244823017102758,
+      "kl": 0.5078125,
       "learning_rate": 6.7804325020504e-06,
-      "loss": 0.6236,
-      "reward": 2.523444414138794,
-      "reward_std": 0.4915116261690855,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.07421195041388273,
-      "rewards/tag_count_reward": 0.962239608168602,
+      "loss": 0.3328,
+      "reward": 2.6280587315559387,
+      "reward_std": 0.33434533327817917,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.04251436982303858,
+      "rewards/tag_count_reward": 0.9882812798023224,
       "step": 429
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.85937881469727,
+      "completion_length": 213.2708396911621,
       "epoch": 0.6449193850768654,
-      "grad_norm": 1.060449887686782,
-      "kl": 0.2978515625,
+      "grad_norm": 54.16361365177273,
+      "kl": 1.1318359375,
       "learning_rate": 6.730822309087756e-06,
-      "loss": 0.5033,
-      "reward": 2.6772631406784058,
-      "reward_std": 0.48493412137031555,
-      "rewards/accuracy_reward": 0.7916666865348816,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.06666056625545025,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.5304,
+      "reward": 2.617822825908661,
+      "reward_std": 0.5841463133692741,
+      "rewards/accuracy_reward": 0.7343750298023224,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.061864775605499744,
+      "rewards/tag_count_reward": 0.9713541865348816,
       "step": 430
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 259.1614646911621,
+      "completion_length": 233.47396087646484,
       "epoch": 0.6464191976003,
-      "grad_norm": 1.3061723100608225,
-      "kl": 0.361328125,
+      "grad_norm": 9.396207453842536,
+      "kl": 0.5869140625,
       "learning_rate": 6.6813020417846456e-06,
-      "loss": 0.7871,
-      "reward": 2.4965052604675293,
-      "reward_std": 0.7866370305418968,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9618055522441864,
-      "rewards/repetition_penalty_reward": -0.12024837546050549,
-      "rewards/tag_count_reward": 0.930989608168602,
+      "loss": 0.5755,
+      "reward": 2.444421410560608,
+      "reward_std": 0.732051394879818,
+      "rewards/accuracy_reward": 0.630208358168602,
+      "rewards/reasoning_steps_reward": 0.9479166567325592,
+      "rewards/repetition_penalty_reward": -0.08552652504295111,
+      "rewards/tag_count_reward": 0.9518229514360428,
       "step": 431
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 285.40105056762695,
+      "completion_length": 217.7604217529297,
       "epoch": 0.6479190101237345,
-      "grad_norm": 0.7888584050372874,
-      "kl": 0.3642578125,
+      "grad_norm": 104.85884344998551,
+      "kl": 0.8720703125,
       "learning_rate": 6.6318730623009465e-06,
-      "loss": 0.8798,
-      "reward": 2.5130550861358643,
-      "reward_std": 1.0070786774158478,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.942708358168602,
-      "rewards/repetition_penalty_reward": -0.14840331301093102,
-      "rewards/tag_count_reward": 0.8958333432674408,
+      "loss": 0.7651,
+      "reward": 2.6597663164138794,
+      "reward_std": 0.7930338382720947,
+      "rewards/accuracy_reward": 0.8333333432674408,
+      "rewards/reasoning_steps_reward": 0.9496527910232544,
+      "rewards/repetition_penalty_reward": -0.07634495198726654,
+      "rewards/tag_count_reward": 0.9531250149011612,
       "step": 432
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.69272232055664,
+      "completion_length": 194.21875381469727,
       "epoch": 0.6494188226471691,
-      "grad_norm": 2.6122932218321706,
-      "kl": 0.51123046875,
+      "grad_norm": 4283739.768658449,
+      "kl": 21367.5,
       "learning_rate": 6.582536730285476e-06,
-      "loss": 0.847,
-      "reward": 2.5346211194992065,
-      "reward_std": 0.9135303720831871,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9548611491918564,
-      "rewards/repetition_penalty_reward": -0.1350838476791978,
-      "rewards/tag_count_reward": 0.8971354365348816,
+      "loss": 4439.4258,
+      "reward": 2.63147896528244,
+      "reward_std": 0.7544302493333817,
+      "rewards/accuracy_reward": 0.833333358168602,
+      "rewards/reasoning_steps_reward": 0.928819477558136,
+      "rewards/repetition_penalty_reward": -0.07338221184909344,
+      "rewards/tag_count_reward": 0.9427083730697632,
       "step": 433
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 279.45313262939453,
+      "completion_length": 235.91667556762695,
       "epoch": 0.6509186351706037,
-      "grad_norm": 0.8518186687660756,
-      "kl": 0.46337890625,
+      "grad_norm": 210786.70991777242,
+      "kl": 8894.5,
       "learning_rate": 6.5332944028385885e-06,
-      "loss": 0.5872,
-      "reward": 2.459271728992462,
-      "reward_std": 0.7705230340361595,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.9479167014360428,
-      "rewards/repetition_penalty_reward": -0.14489501249045134,
-      "rewards/tag_count_reward": 0.9114583432674408,
+      "loss": 447.474,
+      "reward": 2.3411070704460144,
+      "reward_std": 0.8666418790817261,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9149305820465088,
+      "rewards/repetition_penalty_reward": -0.10637565143406391,
+      "rewards/tag_count_reward": 0.923177108168602,
       "step": 434
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 301.73438262939453,
+      "completion_length": 223.79687881469727,
       "epoch": 0.6524184476940382,
-      "grad_norm": 0.9613160246102254,
-      "kl": 0.443359375,
+      "grad_norm": 1518.3629252174667,
+      "kl": 64.171875,
       "learning_rate": 6.484147434474837e-06,
-      "loss": 0.9578,
-      "reward": 2.159851849079132,
-      "reward_std": 0.9833470582962036,
-      "rewards/accuracy_reward": 0.520833358168602,
-      "rewards/reasoning_steps_reward": 0.942708358168602,
-      "rewards/repetition_penalty_reward": -0.16957524791359901,
-      "rewards/tag_count_reward": 0.8658854365348816,
+      "loss": 5.1614,
+      "reward": 2.2417006492614746,
+      "reward_std": 0.8650868535041809,
+      "rewards/accuracy_reward": 0.5104166865348816,
+      "rewards/reasoning_steps_reward": 0.9114583432674408,
+      "rewards/repetition_penalty_reward": -0.09814327582716942,
+      "rewards/tag_count_reward": 0.9179687649011612,
       "step": 435
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 305.9010467529297,
+      "completion_length": 220.6197967529297,
       "epoch": 0.6539182602174728,
-      "grad_norm": 0.8755106034657409,
-      "kl": 0.4609375,
+      "grad_norm": 50.76737216477434,
+      "kl": 0.66455078125,
       "learning_rate": 6.435097177085728e-06,
-      "loss": 0.8985,
-      "reward": 2.2428812980651855,
-      "reward_std": 0.9718329310417175,
-      "rewards/accuracy_reward": 0.6041666865348816,
-      "rewards/reasoning_steps_reward": 0.9444445073604584,
-      "rewards/repetition_penalty_reward": -0.1755215786397457,
-      "rewards/tag_count_reward": 0.8697916865348816,
+      "loss": 0.6146,
+      "reward": 2.2728312611579895,
+      "reward_std": 0.8381006345152855,
+      "rewards/accuracy_reward": 0.5052083432674408,
+      "rewards/reasoning_steps_reward": 0.9218750298023224,
+      "rewards/repetition_penalty_reward": -0.08914803247898817,
+      "rewards/tag_count_reward": 0.934895858168602,
       "step": 436
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.41667556762695,
+      "completion_length": 190.6458396911621,
       "epoch": 0.6554180727409074,
-      "grad_norm": 0.7422509830131178,
-      "kl": 0.373046875,
+      "grad_norm": 27.797869724896955,
+      "kl": 0.7705078125,
       "learning_rate": 6.386144979902527e-06,
-      "loss": 0.703,
-      "reward": 2.3507115840911865,
-      "reward_std": 0.7452640384435654,
-      "rewards/accuracy_reward": 0.598958358168602,
-      "rewards/reasoning_steps_reward": 0.9548611491918564,
-      "rewards/repetition_penalty_reward": -0.11196202971041203,
-      "rewards/tag_count_reward": 0.9088541865348816,
+      "loss": 0.3753,
+      "reward": 2.3050162196159363,
+      "reward_std": 0.77731654047966,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/reasoning_steps_reward": 0.927083358168602,
+      "rewards/repetition_penalty_reward": -0.07909846305847168,
+      "rewards/tag_count_reward": 0.9361979365348816,
       "step": 437
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.5208435058594,
+      "completion_length": 230.3697967529297,
       "epoch": 0.6569178852643419,
-      "grad_norm": 0.7991022183328756,
-      "kl": 0.361328125,
+      "grad_norm": 117.99768545242851,
+      "kl": 1.0126953125,
       "learning_rate": 6.337292189459139e-06,
-      "loss": 0.7431,
-      "reward": 2.456838309764862,
-      "reward_std": 0.9040014296770096,
-      "rewards/accuracy_reward": 0.7239583432674408,
-      "rewards/reasoning_steps_reward": 0.9496528059244156,
-      "rewards/repetition_penalty_reward": -0.12041868269443512,
-      "rewards/tag_count_reward": 0.9036458432674408,
+      "loss": 0.6907,
+      "reward": 2.48311048746109,
+      "reward_std": 0.833274632692337,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.91493059694767,
+      "rewards/repetition_penalty_reward": -0.10109082609415054,
+      "rewards/tag_count_reward": 0.9244791716337204,
       "step": 438
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.63542938232422,
+      "completion_length": 208.05208587646484,
       "epoch": 0.6584176977877765,
-      "grad_norm": 1.3902018588463414,
-      "kl": 0.35986328125,
+      "grad_norm": 2775.548898191414,
+      "kl": 79.640625,
       "learning_rate": 6.2885401495550826e-06,
-      "loss": 0.7122,
-      "reward": 2.5194268226623535,
-      "reward_std": 0.7179795950651169,
-      "rewards/accuracy_reward": 0.729166679084301,
-      "rewards/reasoning_steps_reward": 0.9670138955116272,
-      "rewards/repetition_penalty_reward": -0.09732666984200478,
-      "rewards/tag_count_reward": 0.9205729365348816,
+      "loss": 10.0176,
+      "reward": 2.4023959636688232,
+      "reward_std": 0.7233280688524246,
+      "rewards/accuracy_reward": 0.5937500298023224,
+      "rewards/reasoning_steps_reward": 0.935763880610466,
+      "rewards/repetition_penalty_reward": -0.0737327765673399,
+      "rewards/tag_count_reward": 0.9466145932674408,
       "step": 439
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.578125,
+      "completion_length": 211.5260467529297,
       "epoch": 0.6599175103112112,
-      "grad_norm": 0.9152954380082454,
-      "kl": 0.36083984375,
+      "grad_norm": 19900.674181692015,
+      "kl": 446.0,
       "learning_rate": 6.239890201218517e-06,
-      "loss": 0.492,
-      "reward": 2.469900608062744,
-      "reward_std": 0.6492541283369064,
-      "rewards/accuracy_reward": 0.651041679084301,
-      "rewards/reasoning_steps_reward": 0.9600694477558136,
-      "rewards/repetition_penalty_reward": -0.07220023218542337,
-      "rewards/tag_count_reward": 0.9309895932674408,
+      "loss": 65.0693,
+      "reward": 2.270346522331238,
+      "reward_std": 0.8372077494859695,
+      "rewards/accuracy_reward": 0.5208333507180214,
+      "rewards/reasoning_steps_reward": 0.9114583730697632,
+      "rewards/repetition_penalty_reward": -0.08512232266366482,
+      "rewards/tag_count_reward": 0.923177108168602,
       "step": 440
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.1458396911621,
+      "completion_length": 213.95313262939453,
       "epoch": 0.6614173228346457,
-      "grad_norm": 1.5238075521377912,
-      "kl": 0.3486328125,
+      "grad_norm": 1172.7691458595361,
+      "kl": 36.59375,
       "learning_rate": 6.191343682669357e-06,
-      "loss": 0.6152,
-      "reward": 2.59203839302063,
-      "reward_std": 0.5786980837583542,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.08374295756220818,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 5.7344,
+      "reward": 2.4517070651054382,
+      "reward_std": 0.7322164475917816,
+      "rewards/accuracy_reward": 0.6406250074505806,
+      "rewards/reasoning_steps_reward": 0.944444477558136,
+      "rewards/repetition_penalty_reward": -0.07867502607405186,
+      "rewards/tag_count_reward": 0.9453125149011612,
       "step": 441
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.8854217529297,
+      "completion_length": 250.46355056762695,
       "epoch": 0.6629171353580803,
-      "grad_norm": 1.014568496944409,
-      "kl": 0.3203125,
+      "grad_norm": 105.35481274422847,
+      "kl": 1.66796875,
       "learning_rate": 6.142901929282459e-06,
-      "loss": 0.5185,
-      "reward": 2.4907559752464294,
-      "reward_std": 0.527790479362011,
-      "rewards/accuracy_reward": 0.6093750074505806,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.06783778499811888,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.852,
+      "reward": 2.3720561265945435,
+      "reward_std": 0.936857059597969,
+      "rewards/accuracy_reward": 0.6354166865348816,
+      "rewards/reasoning_steps_reward": 0.9166666865348816,
+      "rewards/repetition_penalty_reward": -0.10190227814018726,
+      "rewards/tag_count_reward": 0.921875,
       "step": 442
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.52083587646484,
+      "completion_length": 229.20313262939453,
       "epoch": 0.6644169478815148,
-      "grad_norm": 0.8930401982873789,
-      "kl": 0.3203125,
+      "grad_norm": 95.75169686366347,
+      "kl": 1.2333984375,
       "learning_rate": 6.094566273550899e-06,
-      "loss": 0.554,
-      "reward": 2.7469860911369324,
-      "reward_std": 0.5041925981640816,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9930555671453476,
-      "rewards/repetition_penalty_reward": -0.06507986783981323,
-      "rewards/tag_count_reward": 0.9648437798023224,
+      "loss": 0.6136,
+      "reward": 2.508533537387848,
+      "reward_std": 0.9894896894693375,
+      "rewards/accuracy_reward": 0.8072917014360428,
+      "rewards/reasoning_steps_reward": 0.8958333432674408,
+      "rewards/repetition_penalty_reward": -0.09823731146752834,
+      "rewards/tag_count_reward": 0.9036458432674408,
       "step": 443
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 223.73438262939453,
+      "completion_length": 287.8229217529297,
       "epoch": 0.6659167604049494,
-      "grad_norm": 1.588063897389527,
-      "kl": 0.3759765625,
+      "grad_norm": 62.198954440927515,
+      "kl": 3.91796875,
       "learning_rate": 6.046338045049307e-06,
-      "loss": 0.3918,
-      "reward": 2.5898342728614807,
-      "reward_std": 0.5453440099954605,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.07075604610145092,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 1.0033,
+      "reward": 2.1896302700042725,
+      "reward_std": 1.0947272032499313,
+      "rewards/accuracy_reward": 0.5677083730697632,
+      "rewards/reasoning_steps_reward": 0.8802083432674408,
+      "rewards/repetition_penalty_reward": -0.14760945178568363,
+      "rewards/tag_count_reward": 0.8893229216337204,
       "step": 444
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.0677146911621,
+      "completion_length": 210.73438262939453,
       "epoch": 0.667416572928384,
-      "grad_norm": 0.7683663208645458,
-      "kl": 0.33544921875,
+      "grad_norm": 624.3572181079038,
+      "kl": 32.46875,
       "learning_rate": 5.998218570397298e-06,
-      "loss": 0.5318,
-      "reward": 2.6227740049362183,
-      "reward_std": 0.56145179271698,
-      "rewards/accuracy_reward": 0.7604166865348816,
-      "rewards/reasoning_steps_reward": 0.970486119389534,
-      "rewards/repetition_penalty_reward": -0.06646222807466984,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "loss": 3.7004,
+      "reward": 2.489894211292267,
+      "reward_std": 0.7204201519489288,
+      "rewards/accuracy_reward": 0.6979166865348816,
+      "rewards/reasoning_steps_reward": 0.9340277761220932,
+      "rewards/repetition_penalty_reward": -0.08345651999115944,
+      "rewards/tag_count_reward": 0.9414062649011612,
       "step": 445
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.59375381469727,
+      "completion_length": 192.6927146911621,
       "epoch": 0.6689163854518185,
-      "grad_norm": 2.006829340741143,
-      "kl": 0.36865234375,
+      "grad_norm": 1291.0531241853187,
+      "kl": 58.40625,
       "learning_rate": 5.950209173222985e-06,
-      "loss": 0.4647,
-      "reward": 2.7126694917678833,
-      "reward_std": 0.5051566585898399,
-      "rewards/accuracy_reward": 0.8281250298023224,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.07031677477061749,
-      "rewards/tag_count_reward": 0.9687500149011612,
+      "loss": 6.5055,
+      "reward": 2.347103238105774,
+      "reward_std": 1.0178454369306564,
+      "rewards/accuracy_reward": 0.666666679084301,
+      "rewards/reasoning_steps_reward": 0.8715278059244156,
+      "rewards/repetition_penalty_reward": -0.08432047069072723,
+      "rewards/tag_count_reward": 0.8932291865348816,
       "step": 446
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 233.4062614440918,
+      "completion_length": 188.81250381469727,
       "epoch": 0.6704161979752531,
-      "grad_norm": 0.8834971529763043,
-      "kl": 0.36572265625,
+      "grad_norm": 167.1713247377813,
+      "kl": 12.703125,
       "learning_rate": 5.902311174126565e-06,
-      "loss": 0.4519,
-      "reward": 2.7030810117721558,
-      "reward_std": 0.49621870182454586,
-      "rewards/accuracy_reward": 0.8645833432674408,
-      "rewards/reasoning_steps_reward": 0.967013880610466,
-      "rewards/repetition_penalty_reward": -0.08033910719677806,
-      "rewards/tag_count_reward": 0.9518229216337204,
+      "loss": 1.3266,
+      "reward": 2.487611711025238,
+      "reward_std": 0.847619041800499,
+      "rewards/accuracy_reward": 0.723958358168602,
+      "rewards/reasoning_steps_reward": 0.9184027910232544,
+      "rewards/repetition_penalty_reward": -0.07792646810412407,
+      "rewards/tag_count_reward": 0.9231770932674408,
       "step": 447
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.4427146911621,
+      "completion_length": 217.70312881469727,
       "epoch": 0.6719160104986877,
-      "grad_norm": 0.98109027161852,
-      "kl": 0.359375,
+      "grad_norm": 46.56836347829574,
+      "kl": 2.587890625,
       "learning_rate": 5.854525890643996e-06,
-      "loss": 0.3661,
-      "reward": 2.567684829235077,
-      "reward_std": 0.5093120224773884,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9756944477558136,
-      "rewards/repetition_penalty_reward": -0.060353430919349194,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.5503,
+      "reward": 2.271707057952881,
+      "reward_std": 0.9676771610975266,
+      "rewards/accuracy_reward": 0.583333358168602,
+      "rewards/reasoning_steps_reward": 0.880208358168602,
+      "rewards/repetition_penalty_reward": -0.09678260423243046,
+      "rewards/tag_count_reward": 0.9049479365348816,
       "step": 448
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.7916717529297,
+      "completion_length": 212.70833587646484,
       "epoch": 0.6734158230221222,
-      "grad_norm": 0.8311384203525323,
-      "kl": 0.34130859375,
+      "grad_norm": 58.535345861262144,
+      "kl": 1.36328125,
       "learning_rate": 5.806854637210752e-06,
-      "loss": 0.4174,
-      "reward": 2.7751079201698303,
-      "reward_std": 0.3471484985202551,
-      "rewards/accuracy_reward": 0.8750000149011612,
-      "rewards/reasoning_steps_reward": 0.9826389253139496,
-      "rewards/repetition_penalty_reward": -0.0551872905343771,
-      "rewards/tag_count_reward": 0.9726562798023224,
+      "loss": 0.4487,
+      "reward": 2.4692699909210205,
+      "reward_std": 1.0627684146165848,
+      "rewards/accuracy_reward": 0.7812500149011612,
+      "rewards/reasoning_steps_reward": 0.8802083730697632,
+      "rewards/repetition_penalty_reward": -0.09583419561386108,
+      "rewards/tag_count_reward": 0.9036458432674408,
       "step": 449
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 197.1354217529297,
+      "completion_length": 217.21875381469727,
       "epoch": 0.6749156355455568,
-      "grad_norm": 0.8629385750603632,
-      "kl": 0.341796875,
+      "grad_norm": 44.853870574601515,
+      "kl": 2.22265625,
       "learning_rate": 5.759298725125671e-06,
-      "loss": 0.2358,
-      "reward": 2.6736323833465576,
-      "reward_std": 0.344327449798584,
-      "rewards/accuracy_reward": 0.755208358168602,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.04251353442668915,
-      "rewards/tag_count_reward": 0.9765625298023224,
+      "loss": 0.57,
+      "reward": 2.438233256340027,
+      "reward_std": 0.9969596564769745,
+      "rewards/accuracy_reward": 0.739583358168602,
+      "rewards/reasoning_steps_reward": 0.8975694626569748,
+      "rewards/repetition_penalty_reward": -0.09475286118686199,
+      "rewards/tag_count_reward": 0.895833358168602,
       "step": 450
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.3958396911621,
+      "completion_length": 181.16146850585938,
       "epoch": 0.6764154480689913,
-      "grad_norm": 0.9794837217183727,
-      "kl": 0.3740234375,
+      "grad_norm": 45.94535859885079,
+      "kl": 5.15234375,
       "learning_rate": 5.711859462514883e-06,
-      "loss": 0.4027,
-      "reward": 2.6471253037452698,
-      "reward_std": 0.46060725301504135,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.049923318438231945,
-      "rewards/tag_count_reward": 0.9609375298023224,
+      "loss": 0.6531,
+      "reward": 2.3718193769454956,
+      "reward_std": 0.8176105469465256,
+      "rewards/accuracy_reward": 0.5937500149011612,
+      "rewards/reasoning_steps_reward": 0.9149305671453476,
+      "rewards/repetition_penalty_reward": -0.05483006127178669,
+      "rewards/tag_count_reward": 0.9179687649011612,
       "step": 451
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.30730056762695,
+      "completion_length": 183.48958587646484,
       "epoch": 0.6779152605924259,
-      "grad_norm": 1.191297396076842,
-      "kl": 0.4599609375,
+      "grad_norm": 54.34402687729516,
+      "kl": 7.81640625,
       "learning_rate": 5.664538154295827e-06,
-      "loss": 0.7305,
-      "reward": 2.573324501514435,
-      "reward_std": 0.6858862191438675,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.970486119389534,
-      "rewards/repetition_penalty_reward": -0.0768492091447115,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.6031,
+      "reward": 2.3453221917152405,
+      "reward_std": 0.8092229068279266,
+      "rewards/accuracy_reward": 0.604166679084301,
+      "rewards/reasoning_steps_reward": 0.8906250149011612,
+      "rewards/repetition_penalty_reward": -0.05702169891446829,
+      "rewards/tag_count_reward": 0.907552108168602,
       "step": 452
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.9322967529297,
+      "completion_length": 177.88541793823242,
       "epoch": 0.6794150731158605,
-      "grad_norm": 1.4404111173702936,
-      "kl": 0.43310546875,
+      "grad_norm": 8.683387363521502,
+      "kl": 2.787109375,
       "learning_rate": 5.617336102141356e-06,
-      "loss": 0.5628,
-      "reward": 2.5157384872436523,
-      "reward_std": 0.43997257202863693,
-      "rewards/accuracy_reward": 0.630208358168602,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06542493868619204,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.3205,
+      "reward": 2.4910064935684204,
+      "reward_std": 0.6290017366409302,
+      "rewards/accuracy_reward": 0.6354166865348816,
+      "rewards/reasoning_steps_reward": 0.9531250149011612,
+      "rewards/repetition_penalty_reward": -0.04545190371572971,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 453
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.62500381469727,
+      "completion_length": 178.65625381469727,
       "epoch": 0.6809148856392951,
-      "grad_norm": 1.959555679611255,
-      "kl": 0.46826171875,
+      "grad_norm": 21.261847254596837,
+      "kl": 1.23828125,
       "learning_rate": 5.570254604443929e-06,
-      "loss": 0.7598,
-      "reward": 2.588327646255493,
-      "reward_std": 0.7168947905302048,
-      "rewards/accuracy_reward": 0.765625,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.08484961278736591,
-      "rewards/tag_count_reward": 0.9440104365348816,
+      "loss": 0.0513,
+      "reward": 2.4800949692726135,
+      "reward_std": 0.9092780351638794,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9149305820465088,
+      "rewards/repetition_penalty_reward": -0.052023096941411495,
+      "rewards/tag_count_reward": 0.9088541865348816,
       "step": 454
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.7395896911621,
+      "completion_length": 189.70833587646484,
       "epoch": 0.6824146981627297,
-      "grad_norm": 148.69573978924745,
-      "kl": 3.85595703125,
+      "grad_norm": 32.86231011635845,
+      "kl": 0.9814453125,
       "learning_rate": 5.5232949562799055e-06,
-      "loss": 1.3481,
-      "reward": 2.4738574028015137,
-      "reward_std": 0.779233306646347,
-      "rewards/accuracy_reward": 0.6770833535119891,
-      "rewards/reasoning_steps_reward": 0.9618055522441864,
-      "rewards/repetition_penalty_reward": -0.09862528461962938,
-      "rewards/tag_count_reward": 0.9335937798023224,
+      "loss": 0.2151,
+      "reward": 2.370435267686844,
+      "reward_std": 0.8025718629360199,
+      "rewards/accuracy_reward": 0.6041666939854622,
+      "rewards/reasoning_steps_reward": 0.911458358168602,
+      "rewards/repetition_penalty_reward": -0.05143989436328411,
+      "rewards/tag_count_reward": 0.9062500298023224,
       "step": 455
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.4583396911621,
+      "completion_length": 191.734375,
       "epoch": 0.6839145106861643,
-      "grad_norm": 1.9450934585599418,
-      "kl": 0.41796875,
+      "grad_norm": 17.49572401123107,
+      "kl": 1.21484375,
       "learning_rate": 5.4764584493739095e-06,
-      "loss": 0.7255,
-      "reward": 2.364755541086197,
-      "reward_std": 0.6270653009414673,
-      "rewards/accuracy_reward": 0.5312500149011612,
-      "rewards/reasoning_steps_reward": 0.9809027761220932,
-      "rewards/repetition_penalty_reward": -0.09010571241378784,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.0338,
+      "reward": 2.206531524658203,
+      "reward_std": 0.7957804501056671,
+      "rewards/accuracy_reward": 0.4375000223517418,
+      "rewards/reasoning_steps_reward": 0.913194477558136,
+      "rewards/repetition_penalty_reward": -0.05171508714556694,
+      "rewards/tag_count_reward": 0.907552108168602,
       "step": 456
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.8697967529297,
+      "completion_length": 185.22916793823242,
       "epoch": 0.6854143232095988,
-      "grad_norm": 1.9127619691878879,
-      "kl": 0.4794921875,
+      "grad_norm": 12.624756226573414,
+      "kl": 2.28515625,
       "learning_rate": 5.429746372063309e-06,
-      "loss": 0.8757,
-      "reward": 2.4884825348854065,
-      "reward_std": 0.784279853105545,
-      "rewards/accuracy_reward": 0.6770833432674408,
-      "rewards/reasoning_steps_reward": 0.963541716337204,
-      "rewards/repetition_penalty_reward": -0.09224662370979786,
-      "rewards/tag_count_reward": 0.9401041865348816,
+      "loss": 0.2271,
+      "reward": 2.3943753242492676,
+      "reward_std": 0.7135017514228821,
+      "rewards/accuracy_reward": 0.5885416716337204,
+      "rewards/reasoning_steps_reward": 0.9270833432674408,
+      "rewards/repetition_penalty_reward": -0.04703101795166731,
+      "rewards/tag_count_reward": 0.9257812798023224,
       "step": 457
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.8489646911621,
+      "completion_length": 193.81250381469727,
       "epoch": 0.6869141357330334,
-      "grad_norm": 1.2094457444337063,
-      "kl": 0.4833984375,
+      "grad_norm": 105.8474864914367,
+      "kl": 8.5908203125,
       "learning_rate": 5.3831600092627704e-06,
-      "loss": 0.714,
-      "reward": 2.73754620552063,
-      "reward_std": 0.6269456818699837,
-      "rewards/accuracy_reward": 0.895833358168602,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.08667258732020855,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": 1.1342,
+      "reward": 2.7418383955955505,
+      "reward_std": 0.4850631505250931,
+      "rewards/accuracy_reward": 0.864583358168602,
+      "rewards/reasoning_steps_reward": 0.9670139104127884,
+      "rewards/repetition_penalty_reward": -0.04418608546257019,
+      "rewards/tag_count_reward": 0.954427108168602,
       "step": 458
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.3385467529297,
+      "completion_length": 200.70833587646484,
       "epoch": 0.688413948256468,
-      "grad_norm": 1.970689168479106,
-      "kl": 0.4453125,
+      "grad_norm": 87.25261858275486,
+      "kl": 10.28515625,
       "learning_rate": 5.336700642428913e-06,
-      "loss": 0.5537,
-      "reward": 2.5139536261558533,
-      "reward_std": 0.5696927979588509,
-      "rewards/accuracy_reward": 0.6458333358168602,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.06634163623675704,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 0.6609,
+      "reward": 2.498172700405121,
+      "reward_std": 0.5890463814139366,
+      "rewards/accuracy_reward": 0.5937500223517418,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.04219203256070614,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 459
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 254.3125114440918,
+      "completion_length": 203.2083396911621,
       "epoch": 0.6899137607799025,
-      "grad_norm": 0.7625934263204471,
-      "kl": 0.36962890625,
+      "grad_norm": 125.79936841970297,
+      "kl": 8.3828125,
       "learning_rate": 5.290369549525066e-06,
-      "loss": 0.6621,
-      "reward": 2.52715528011322,
-      "reward_std": 0.7988520860671997,
-      "rewards/accuracy_reward": 0.7760416865348816,
-      "rewards/reasoning_steps_reward": 0.9461805820465088,
-      "rewards/repetition_penalty_reward": -0.12345251068472862,
-      "rewards/tag_count_reward": 0.9283854365348816,
+      "loss": 0.9341,
+      "reward": 2.5255751609802246,
+      "reward_std": 0.44053927063941956,
+      "rewards/accuracy_reward": 0.6197916865348816,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.03952907770872116,
+      "rewards/tag_count_reward": 0.9713541865348816,
       "step": 460
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.43750762939453,
+      "completion_length": 192.34375762939453,
       "epoch": 0.6914135733033371,
-      "grad_norm": 0.989857600799216,
-      "kl": 0.39501953125,
+      "grad_norm": 32.0003121799561,
+      "kl": 5.546875,
       "learning_rate": 5.2441680049861125e-06,
-      "loss": 0.6605,
-      "reward": 2.4125567078590393,
-      "reward_std": 0.6474236696958542,
-      "rewards/accuracy_reward": 0.5677083432674408,
-      "rewards/reasoning_steps_reward": 0.9670139253139496,
-      "rewards/repetition_penalty_reward": -0.0713843759149313,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": 0.4044,
+      "reward": 2.5426307916641235,
+      "reward_std": 0.570788636803627,
+      "rewards/accuracy_reward": 0.6979166865348816,
+      "rewards/reasoning_steps_reward": 0.942708358168602,
+      "rewards/repetition_penalty_reward": -0.039400530513376,
+      "rewards/tag_count_reward": 0.9414062649011612,
       "step": 461
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.6875114440918,
+      "completion_length": 192.3854217529297,
       "epoch": 0.6929133858267716,
-      "grad_norm": 0.8986450074706076,
-      "kl": 0.3359375,
+      "grad_norm": 1.8867372567328653,
+      "kl": 0.93701171875,
       "learning_rate": 5.198097279683434e-06,
-      "loss": 0.604,
-      "reward": 2.4094382524490356,
-      "reward_std": 0.6442625038325787,
-      "rewards/accuracy_reward": 0.614583358168602,
-      "rewards/reasoning_steps_reward": 0.9513889104127884,
-      "rewards/repetition_penalty_reward": -0.09273206302896142,
-      "rewards/tag_count_reward": 0.9361979365348816,
+      "loss": 0.0048,
+      "reward": 2.4953662753105164,
+      "reward_std": 0.4802846685051918,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.04239422548562288,
+      "rewards/tag_count_reward": 0.9648437649011612,
       "step": 462
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.44271087646484,
+      "completion_length": 218.31250381469727,
       "epoch": 0.6944131983502062,
-      "grad_norm": 606.4249596937021,
-      "kl": 24.65576171875,
+      "grad_norm": 14.34352821328907,
+      "kl": 2.4140625,
       "learning_rate": 5.152158640889947e-06,
-      "loss": 1.5527,
-      "reward": 2.6447129249572754,
-      "reward_std": 0.4999554455280304,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.06882883794605732,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.1836,
+      "reward": 2.5026406049728394,
+      "reward_std": 0.5393296033143997,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 0.958333358168602,
+      "rewards/repetition_penalty_reward": -0.05595315434038639,
+      "rewards/tag_count_reward": 0.9544270932674408,
       "step": 463
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.21875762939453,
+      "completion_length": 218.9270896911621,
       "epoch": 0.6959130108736408,
-      "grad_norm": 1.5220309197508348,
-      "kl": 0.36181640625,
+      "grad_norm": 2.647430771526064,
+      "kl": 0.92138671875,
       "learning_rate": 5.106353352245254e-06,
-      "loss": 0.5723,
-      "reward": 2.6008208990097046,
-      "reward_std": 0.5897117927670479,
-      "rewards/accuracy_reward": 0.7708333432674408,
+      "loss": -0.0398,
+      "reward": 2.567262351512909,
+      "reward_std": 0.44548412412405014,
+      "rewards/accuracy_reward": 0.6979166865348816,
       "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.08667923882603645,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "rewards/repetition_penalty_reward": -0.05252937041223049,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 464
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 181.75521087646484,
+      "completion_length": 231.65105056762695,
       "epoch": 0.6974128233970753,
-      "grad_norm": 1.3974522149419788,
-      "kl": 0.3447265625,
+      "grad_norm": 1.81334431827224,
+      "kl": 0.81884765625,
       "learning_rate": 5.060682673720878e-06,
-      "loss": 0.5287,
-      "reward": 2.4272356927394867,
-      "reward_std": 0.3737209364771843,
-      "rewards/accuracy_reward": 0.5156250251457095,
-      "rewards/reasoning_steps_reward": 0.9878472536802292,
-      "rewards/repetition_penalty_reward": -0.05019487999379635,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "loss": -0.0188,
+      "reward": 2.3878976106643677,
+      "reward_std": 0.4217522442340851,
+      "rewards/accuracy_reward": 0.510416679084301,
+      "rewards/reasoning_steps_reward": 0.9670138955116272,
+      "rewards/repetition_penalty_reward": -0.05307460017502308,
+      "rewards/tag_count_reward": 0.9635416716337204,
       "step": 465
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 181.8541717529297,
+      "completion_length": 222.82813262939453,
       "epoch": 0.6989126359205099,
-      "grad_norm": 1.6330449051409097,
-      "kl": 0.28955078125,
+      "grad_norm": 4.851401629836836,
+      "kl": 1.81005859375,
       "learning_rate": 5.015147861585603e-06,
-      "loss": 0.5821,
-      "reward": 2.5756843090057373,
-      "reward_std": 0.48887188360095024,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.05495820567011833,
-      "rewards/tag_count_reward": 0.9674479216337204,
+      "loss": 0.0997,
+      "reward": 2.486442983150482,
+      "reward_std": 0.49670958518981934,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/reasoning_steps_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.03959879372268915,
+      "rewards/tag_count_reward": 0.9635416716337204,
       "step": 466
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.62500381469727,
+      "completion_length": 294.14583587646484,
       "epoch": 0.7004124484439445,
-      "grad_norm": 1.0551997003189855,
-      "kl": 0.2900390625,
+      "grad_norm": 9.019683071245192,
+      "kl": 1.919921875,
       "learning_rate": 4.969750168370924e-06,
-      "loss": 0.6587,
-      "reward": 2.587502121925354,
-      "reward_std": 0.6842982918024063,
-      "rewards/accuracy_reward": 0.7812500149011612,
-      "rewards/reasoning_steps_reward": 0.9565972238779068,
-      "rewards/repetition_penalty_reward": -0.09175141900777817,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 0.2538,
+      "reward": 2.627793550491333,
+      "reward_std": 0.3618628829717636,
+      "rewards/accuracy_reward": 0.7239583432674408,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.0688210241496563,
+      "rewards/tag_count_reward": 0.9830729216337204,
       "step": 467
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.6979217529297,
+      "completion_length": 248.39062881469727,
       "epoch": 0.7019122609673791,
-      "grad_norm": 1.172638919017115,
-      "kl": 0.3447265625,
+      "grad_norm": 38.2303230093381,
+      "kl": 7.177734375,
       "learning_rate": 4.924490842836584e-06,
-      "loss": 0.6767,
-      "reward": 2.4782765209674835,
-      "reward_std": 0.6802399158477783,
-      "rewards/accuracy_reward": 0.6510416939854622,
-      "rewards/reasoning_steps_reward": 0.96875,
-      "rewards/repetition_penalty_reward": -0.08552560955286026,
-      "rewards/tag_count_reward": 0.9440104365348816,
+      "loss": 0.3121,
+      "reward": 2.486271381378174,
+      "reward_std": 0.3947894722223282,
+      "rewards/accuracy_reward": 0.5885416828095913,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.04497876111418009,
+      "rewards/tag_count_reward": 0.9687500149011612,
       "step": 468
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.8020896911621,
+      "completion_length": 341.1302185058594,
       "epoch": 0.7034120734908137,
-      "grad_norm": 1.208509544801629,
-      "kl": 0.30029296875,
+      "grad_norm": 12.42233946312446,
+      "kl": 1.4111328125,
       "learning_rate": 4.879371129936233e-06,
-      "loss": 0.7641,
-      "reward": 2.485842287540436,
-      "reward_std": 0.7981886714696884,
-      "rewards/accuracy_reward": 0.6979166865348816,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.11224810406565666,
-      "rewards/tag_count_reward": 0.9348958432674408,
+      "loss": 0.2385,
+      "reward": 2.7423893213272095,
+      "reward_std": 0.3288619890809059,
+      "rewards/accuracy_reward": 0.848958358168602,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.09094424080103636,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 469
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.69271087646484,
+      "completion_length": 331.8645935058594,
       "epoch": 0.7049118860142483,
-      "grad_norm": 1.2784121913501234,
-      "kl": 0.337890625,
+      "grad_norm": 4.8140326164405645,
+      "kl": 3.64794921875,
       "learning_rate": 4.834392270783183e-06,
-      "loss": 0.8845,
-      "reward": 2.6402639150619507,
-      "reward_std": 0.8152274489402771,
-      "rewards/accuracy_reward": 0.8437500298023224,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.09411128051578999,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "loss": 0.0767,
+      "reward": 2.6093015670776367,
+      "reward_std": 0.49695973843336105,
+      "rewards/accuracy_reward": 0.7343750298023224,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.08080272283405066,
+      "rewards/tag_count_reward": 0.9713542014360428,
       "step": 470
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.55209350585938,
+      "completion_length": 342.6979293823242,
       "epoch": 0.7064116985376828,
-      "grad_norm": 0.9623091877361314,
-      "kl": 0.330078125,
+      "grad_norm": 2.1505682137010256,
+      "kl": 0.66015625,
       "learning_rate": 4.789555502616258e-06,
-      "loss": 0.7554,
-      "reward": 2.4469590187072754,
-      "reward_std": 0.7040076702833176,
-      "rewards/accuracy_reward": 0.6458333507180214,
-      "rewards/reasoning_steps_reward": 0.9565972238779068,
-      "rewards/repetition_penalty_reward": -0.09427369153127074,
-      "rewards/tag_count_reward": 0.9388020932674408,
+      "loss": 0.0636,
+      "reward": 2.6130124926567078,
+      "reward_std": 0.35396523028612137,
+      "rewards/accuracy_reward": 0.7239583730697632,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.07839393150061369,
+      "rewards/tag_count_reward": 0.9830729365348816,
       "step": 471
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 178.8333396911621,
+      "completion_length": 393.6770935058594,
       "epoch": 0.7079115110611174,
-      "grad_norm": 1.0260244805761438,
-      "kl": 0.296875,
+      "grad_norm": 5.089873005092783,
+      "kl": 0.68115234375,
       "learning_rate": 4.744862058765776e-06,
-      "loss": 0.2163,
-      "reward": 2.727869689464569,
-      "reward_std": 0.36412858217954636,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.036019228398799896,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.1038,
+      "reward": 2.644687831401825,
+      "reward_std": 0.3760165199637413,
+      "rewards/accuracy_reward": 0.7812500149011612,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.10661418363451958,
+      "rewards/tag_count_reward": 0.9752604216337204,
       "step": 472
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 226.10937881469727,
+      "completion_length": 348.5104217529297,
       "epoch": 0.709411323584552,
-      "grad_norm": 0.9517703362898857,
-      "kl": 0.3935546875,
+      "grad_norm": 2.613896254667977,
+      "kl": 0.80517578125,
       "learning_rate": 4.700313168619608e-06,
-      "loss": 0.8129,
-      "reward": 2.543964922428131,
-      "reward_std": 0.6564487293362617,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.1053406372666359,
-      "rewards/tag_count_reward": 0.9322916716337204,
+      "loss": 0.0745,
+      "reward": 2.535249173641205,
+      "reward_std": 0.3934590071439743,
+      "rewards/accuracy_reward": 0.6718750298023224,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.08975092135369778,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 473
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.50521087646484,
+      "completion_length": 342.15625762939453,
       "epoch": 0.7109111361079865,
-      "grad_norm": 1.006357822901466,
-      "kl": 0.4013671875,
+      "grad_norm": 0.927779678297728,
+      "kl": 1.31298828125,
       "learning_rate": 4.655910057589377e-06,
-      "loss": 0.9248,
-      "reward": 2.5268329977989197,
-      "reward_std": 0.9078202545642853,
-      "rewards/accuracy_reward": 0.7656250149011612,
-      "rewards/reasoning_steps_reward": 0.9374999850988388,
-      "rewards/repetition_penalty_reward": -0.10207330994307995,
-      "rewards/tag_count_reward": 0.9257812649011612,
+      "loss": 0.0322,
+      "reward": 2.5929868817329407,
+      "reward_std": 0.37964776903390884,
+      "rewards/accuracy_reward": 0.7291666716337204,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.07498200424015522,
+      "rewards/tag_count_reward": 0.96484375,
       "step": 474
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.26562881469727,
+      "completion_length": 286.5677185058594,
       "epoch": 0.7124109486314211,
-      "grad_norm": 1.4034228060868457,
-      "kl": 0.416015625,
+      "grad_norm": 3.0029493567846113,
+      "kl": 1.36328125,
       "learning_rate": 4.611653947076732e-06,
-      "loss": 0.7093,
-      "reward": 2.54375296831131,
-      "reward_std": 0.6568827331066132,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9687500447034836,
-      "rewards/repetition_penalty_reward": -0.09166385605931282,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.1304,
+      "reward": 2.478628635406494,
+      "reward_std": 0.5730241611599922,
+      "rewards/accuracy_reward": 0.6197916865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.059131866320967674,
+      "rewards/tag_count_reward": 0.938802108168602,
       "step": 475
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.40625762939453,
+      "completion_length": 287.01563262939453,
       "epoch": 0.7139107611548556,
-      "grad_norm": 2.3545088822080387,
-      "kl": 0.49462890625,
+      "grad_norm": 15.492730466605252,
+      "kl": 4.71484375,
       "learning_rate": 4.567546054439777e-06,
-      "loss": 0.7007,
-      "reward": 2.5734556913375854,
-      "reward_std": 0.699681967496872,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9670138657093048,
-      "rewards/repetition_penalty_reward": -0.08626659773290157,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "loss": 0.2672,
+      "reward": 2.366079330444336,
+      "reward_std": 0.7147725075483322,
+      "rewards/accuracy_reward": 0.5885416865348816,
+      "rewards/reasoning_steps_reward": 0.9756944626569748,
+      "rewards/repetition_penalty_reward": -0.06143816187977791,
+      "rewards/tag_count_reward": 0.8632812649011612,
       "step": 476
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.00000762939453,
+      "completion_length": 298.7343864440918,
       "epoch": 0.7154105736782902,
-      "grad_norm": 1.5468969267610364,
-      "kl": 0.47802734375,
+      "grad_norm": 49.985480375628754,
+      "kl": 8.77734375,
       "learning_rate": 4.523587592959557e-06,
-      "loss": 0.7472,
-      "reward": 2.545016586780548,
-      "reward_std": 0.7152352035045624,
-      "rewards/accuracy_reward": 0.7135416865348816,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.09126834943890572,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.6553,
+      "reward": 2.199244737625122,
+      "reward_std": 0.696681559085846,
+      "rewards/accuracy_reward": 0.463541679084301,
+      "rewards/reasoning_steps_reward": 0.9704861044883728,
+      "rewards/repetition_penalty_reward": -0.07853319868445396,
+      "rewards/tag_count_reward": 0.8437500298023224,
       "step": 477
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 199.4739646911621,
+      "completion_length": 264.0104293823242,
       "epoch": 0.7169103862017248,
-      "grad_norm": 2.851573423423965,
-      "kl": 0.419921875,
+      "grad_norm": 9.130997990308742,
+      "kl": 2.22802734375,
       "learning_rate": 4.479779771806699e-06,
-      "loss": 0.4624,
-      "reward": 2.572330951690674,
-      "reward_std": 0.5128215774893761,
-      "rewards/accuracy_reward": 0.6875,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.06265182606875896,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.2573,
+      "reward": 2.621893048286438,
+      "reward_std": 0.5179613158106804,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.05779455881565809,
+      "rewards/tag_count_reward": 0.9557292014360428,
       "step": 478
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 204.9322967529297,
+      "completion_length": 250.98958587646484,
       "epoch": 0.7184101987251593,
-      "grad_norm": 0.9372143757391351,
-      "kl": 0.325927734375,
+      "grad_norm": 1.642461450377282,
+      "kl": 1.078125,
       "learning_rate": 4.436123796008149e-06,
-      "loss": 0.555,
-      "reward": 2.526001214981079,
-      "reward_std": 0.5274576209485531,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9809028059244156,
-      "rewards/repetition_penalty_reward": -0.07208916172385216,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.081,
+      "reward": 2.540480315685272,
+      "reward_std": 0.4395308271050453,
+      "rewards/accuracy_reward": 0.6406250149011612,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.046759432181715965,
+      "rewards/tag_count_reward": 0.9674479216337204,
       "step": 479
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 179.66146087646484,
+      "completion_length": 264.43750762939453,
       "epoch": 0.7199100112485939,
-      "grad_norm": 1.4178034846859082,
-      "kl": 0.3603515625,
+      "grad_norm": 2.118847794368944,
+      "kl": 0.8173828125,
       "learning_rate": 4.392620866414026e-06,
-      "loss": 0.385,
-      "reward": 2.7349607348442078,
-      "reward_std": 0.3730153478682041,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.04194910801015794,
-      "rewards/tag_count_reward": 0.9817708432674408,
+      "loss": 0.0134,
+      "reward": 2.5877268314361572,
+      "reward_std": 0.45883308351039886,
+      "rewards/accuracy_reward": 0.697916679084301,
+      "rewards/reasoning_steps_reward": 0.9826389104127884,
+      "rewards/repetition_penalty_reward": -0.05246431287378073,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 480
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.9270896911621,
+      "completion_length": 263.8698043823242,
       "epoch": 0.7214098237720284,
-      "grad_norm": 0.7783089792228611,
-      "kl": 0.318359375,
+      "grad_norm": 2.650392492259305,
+      "kl": 0.63818359375,
       "learning_rate": 4.349272179664586e-06,
-      "loss": 0.4811,
-      "reward": 2.5647249817848206,
-      "reward_std": 0.525773711502552,
-      "rewards/accuracy_reward": 0.6822916716337204,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.06808762066066265,
-      "rewards/tag_count_reward": 0.9713541865348816,
+      "loss": 0.0475,
+      "reward": 2.623681426048279,
+      "reward_std": 0.4385247528553009,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.04689165949821472,
+      "rewards/tag_count_reward": 0.977864608168602,
       "step": 481
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.82812881469727,
+      "completion_length": 260.54687881469727,
       "epoch": 0.7229096362954631,
-      "grad_norm": 0.9640643886143824,
-      "kl": 0.37255859375,
+      "grad_norm": 1.8488154063721305,
+      "kl": 1.2900390625,
       "learning_rate": 4.3060789281573135e-06,
-      "loss": 0.5915,
-      "reward": 2.5671426653862,
-      "reward_std": 0.6002469211816788,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07955875806510448,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.0759,
+      "reward": 2.620662033557892,
+      "reward_std": 0.5110099017620087,
+      "rewards/accuracy_reward": 0.755208358168602,
+      "rewards/reasoning_steps_reward": 0.9635416716337204,
+      "rewards/repetition_penalty_reward": -0.053817191161215305,
+      "rewards/tag_count_reward": 0.9557291716337204,
       "step": 482
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.14583587646484,
+      "completion_length": 236.7708396911621,
       "epoch": 0.7244094488188977,
-      "grad_norm": 2.303908104951783,
-      "kl": 0.44384765625,
+      "grad_norm": 0.8685220289150081,
+      "kl": 0.9541015625,
       "learning_rate": 4.263042300014112e-06,
-      "loss": 0.7262,
-      "reward": 2.679473400115967,
-      "reward_std": 0.6004434674978256,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07530095893889666,
-      "rewards/tag_count_reward": 0.9492187798023224,
+      "loss": 0.0159,
+      "reward": 2.6224602460861206,
+      "reward_std": 0.432863712310791,
+      "rewards/accuracy_reward": 0.7135416865348816,
+      "rewards/reasoning_steps_reward": 0.975694477558136,
+      "rewards/repetition_penalty_reward": -0.036828051786869764,
+      "rewards/tag_count_reward": 0.9700520932674408,
       "step": 483
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.8177146911621,
+      "completion_length": 247.7604217529297,
       "epoch": 0.7259092613423322,
-      "grad_norm": 1.4472721026550845,
-      "kl": 0.38330078125,
+      "grad_norm": 8.634827245487672,
+      "kl": 2.59814453125,
       "learning_rate": 4.220163479048632e-06,
-      "loss": 0.5802,
-      "reward": 2.5944811701774597,
-      "reward_std": 0.6224361211061478,
-      "rewards/accuracy_reward": 0.7604166865348816,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.08564047096297145,
-      "rewards/tag_count_reward": 0.9492187798023224,
+      "loss": 0.0962,
+      "reward": 2.589983582496643,
+      "reward_std": 0.55703204870224,
+      "rewards/accuracy_reward": 0.7239583507180214,
+      "rewards/reasoning_steps_reward": 0.9548611491918564,
+      "rewards/repetition_penalty_reward": -0.039356810972094536,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 484
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.98437881469727,
+      "completion_length": 243.9947967529297,
       "epoch": 0.7274090738657668,
-      "grad_norm": 1.352373192683157,
-      "kl": 0.4716796875,
+      "grad_norm": 2.8247050710119654,
+      "kl": 1.40234375,
       "learning_rate": 4.177443644733699e-06,
-      "loss": 0.8147,
-      "reward": 2.6568827629089355,
-      "reward_std": 0.7592978328466415,
-      "rewards/accuracy_reward": 0.848958358168602,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.09875956550240517,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 0.0324,
+      "reward": 2.7192403078079224,
+      "reward_std": 0.2972189523279667,
+      "rewards/accuracy_reward": 0.8020833432674408,
+      "rewards/reasoning_steps_reward": 0.984375,
+      "rewards/repetition_penalty_reward": -0.04117643600329757,
+      "rewards/tag_count_reward": 0.973958358168602,
       "step": 485
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 245.1354217529297,
+      "completion_length": 251.07291793823242,
       "epoch": 0.7289088863892014,
-      "grad_norm": 1.4809254865523336,
-      "kl": 0.44677734375,
+      "grad_norm": 24.101080804460526,
+      "kl": 4.90234375,
       "learning_rate": 4.134883972168877e-06,
-      "loss": 0.7938,
-      "reward": 2.593150496482849,
-      "reward_std": 0.7460722476243973,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.10954048298299313,
-      "rewards/tag_count_reward": 0.9283854365348816,
+      "loss": 0.3001,
+      "reward": 2.681569218635559,
+      "reward_std": 0.5304646193981171,
+      "rewards/accuracy_reward": 0.802083358168602,
+      "rewards/reasoning_steps_reward": 0.9618055671453476,
+      "rewards/repetition_penalty_reward": -0.03935106098651886,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 486
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.30729293823242,
+      "completion_length": 249.77604293823242,
       "epoch": 0.7304086989126359,
-      "grad_norm": 0.9850557511849055,
-      "kl": 0.349609375,
+      "grad_norm": 9.052170965793191,
+      "kl": 2.7578125,
       "learning_rate": 4.092485632048142e-06,
-      "loss": 0.6449,
-      "reward": 2.609771966934204,
-      "reward_std": 0.45559458062052727,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9756944477558136,
-      "rewards/repetition_penalty_reward": -0.06774546951055527,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 0.2795,
+      "reward": 2.5998495221138,
+      "reward_std": 0.3634401187300682,
+      "rewards/accuracy_reward": 0.6718750074505806,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.031660950277000666,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 487
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.54688262939453,
+      "completion_length": 257.9947967529297,
       "epoch": 0.7319085114360705,
-      "grad_norm": 0.7287131874968185,
-      "kl": 0.322265625,
+      "grad_norm": 1.4255147156673067,
+      "kl": 1.27685546875,
       "learning_rate": 4.050249790627675e-06,
-      "loss": 0.582,
-      "reward": 2.571848511695862,
-      "reward_std": 0.6445990055799484,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9618055671453476,
-      "rewards/repetition_penalty_reward": -0.0800613546743989,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.1139,
+      "reward": 2.5903435349464417,
+      "reward_std": 0.47754330188035965,
+      "rewards/accuracy_reward": 0.677083358168602,
+      "rewards/reasoning_steps_reward": 0.9809027910232544,
+      "rewards/repetition_penalty_reward": -0.04029886703938246,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 488
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 202.48437881469727,
+      "completion_length": 243.2864646911621,
       "epoch": 0.7334083239595051,
-      "grad_norm": 0.8704961241862007,
-      "kl": 0.37255859375,
+      "grad_norm": 8.575587858559526,
+      "kl": 3.0546875,
       "learning_rate": 4.008177609693791e-06,
-      "loss": 0.6146,
-      "reward": 2.626339375972748,
-      "reward_std": 0.568084180355072,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.07201146148145199,
-      "rewards/tag_count_reward": 0.9570312798023224,
+      "loss": 0.0417,
+      "reward": 2.663625717163086,
+      "reward_std": 0.5341070555150509,
+      "rewards/accuracy_reward": 0.7812500149011612,
+      "rewards/reasoning_steps_reward": 0.960069477558136,
+      "rewards/repetition_penalty_reward": -0.03342306334525347,
+      "rewards/tag_count_reward": 0.9557292014360428,
       "step": 489
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.3593864440918,
+      "completion_length": 245.7395896911621,
       "epoch": 0.7349081364829396,
-      "grad_norm": 0.9183454896836771,
-      "kl": 0.42041015625,
+      "grad_norm": 2.765671602090238,
+      "kl": 0.9609375,
       "learning_rate": 3.966270246530975e-06,
-      "loss": 0.5819,
-      "reward": 2.5615740418434143,
-      "reward_std": 0.6961846798658371,
-      "rewards/accuracy_reward": 0.7447916716337204,
-      "rewards/reasoning_steps_reward": 0.9496527910232544,
-      "rewards/repetition_penalty_reward": -0.08208927698433399,
-      "rewards/tag_count_reward": 0.9492187798023224,
+      "loss": 0.0215,
+      "reward": 2.6076095700263977,
+      "reward_std": 0.4131758604198694,
+      "rewards/accuracy_reward": 0.692708358168602,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.03561965608969331,
+      "rewards/tag_count_reward": 0.9713541865348816,
       "step": 490
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.77084350585938,
+      "completion_length": 277.2135543823242,
       "epoch": 0.7364079490063742,
-      "grad_norm": 0.7687763462508892,
-      "kl": 0.3623046875,
+      "grad_norm": 2.188660242549928,
+      "kl": 0.86328125,
       "learning_rate": 3.924528853890046e-06,
-      "loss": 0.5661,
-      "reward": 2.5703277587890625,
-      "reward_std": 0.6913676261901855,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9600694477558136,
-      "rewards/repetition_penalty_reward": -0.08375214599072933,
-      "rewards/tag_count_reward": 0.9544270932674408,
+      "loss": 0.0266,
+      "reward": 2.5408560633659363,
+      "reward_std": 0.4740516468882561,
+      "rewards/accuracy_reward": 0.6718750223517418,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.05159200169146061,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 491
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.3229217529297,
+      "completion_length": 270.3020935058594,
       "epoch": 0.7379077615298087,
-      "grad_norm": 0.751985130971036,
-      "kl": 0.44140625,
+      "grad_norm": 3.1759937413803816,
+      "kl": 0.900390625,
       "learning_rate": 3.882954579956455e-06,
-      "loss": 0.3035,
-      "reward": 2.8052607774734497,
-      "reward_std": 0.39791389554739,
-      "rewards/accuracy_reward": 0.8906250298023224,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.04239548835903406,
-      "rewards/tag_count_reward": 0.9778645932674408,
+      "loss": 0.001,
+      "reward": 2.583053767681122,
+      "reward_std": 0.4794854000210762,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.043248409405350685,
+      "rewards/tag_count_reward": 0.9648437798023224,
       "step": 492
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.6979217529297,
+      "completion_length": 282.2239761352539,
       "epoch": 0.7394075740532433,
-      "grad_norm": 0.7659539513605523,
-      "kl": 0.29736328125,
+      "grad_norm": 2.975773686014791,
+      "kl": 1.705078125,
       "learning_rate": 3.841548568318706e-06,
-      "loss": 0.4617,
-      "reward": 2.7041468620300293,
-      "reward_std": 0.5456740781664848,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.060610027983784676,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.0655,
+      "reward": 2.4317139387130737,
+      "reward_std": 0.6113808900117874,
+      "rewards/accuracy_reward": 0.5885416716337204,
+      "rewards/reasoning_steps_reward": 0.9565972536802292,
+      "rewards/repetition_penalty_reward": -0.048320941627025604,
+      "rewards/tag_count_reward": 0.9348958432674408,
       "step": 493
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.7395896911621,
+      "completion_length": 249.14583587646484,
       "epoch": 0.7409073865766779,
-      "grad_norm": 0.8837591427962717,
-      "kl": 0.31787109375,
+      "grad_norm": 1.441571062260193,
+      "kl": 1.27587890625,
       "learning_rate": 3.8003119579368806e-06,
-      "loss": 0.838,
-      "reward": 2.5719869136810303,
-      "reward_std": 0.6782498955726624,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07471455447375774,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.0064,
+      "reward": 2.4567288756370544,
+      "reward_std": 0.39962563663721085,
+      "rewards/accuracy_reward": 0.541666679084301,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.03285460267215967,
+      "rewards/tag_count_reward": 0.9739583432674408,
       "step": 494
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 194.1666717529297,
+      "completion_length": 259.42188262939453,
       "epoch": 0.7424071991001124,
-      "grad_norm": 1.4368157135686637,
-      "kl": 0.29443359375,
+      "grad_norm": 2.6425323421375118,
+      "kl": 0.888671875,
       "learning_rate": 3.7592458831113256e-06,
-      "loss": 0.4529,
-      "reward": 2.4826937317848206,
-      "reward_std": 0.47983065992593765,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.05810481309890747,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.0337,
+      "reward": 2.3374595046043396,
+      "reward_std": 0.3100433573126793,
+      "rewards/accuracy_reward": 0.38541668839752674,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.04144685994833708,
+      "rewards/tag_count_reward": 0.9934895932674408,
       "step": 495
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 202.92187881469727,
+      "completion_length": 285.37500762939453,
       "epoch": 0.7439070116235471,
-      "grad_norm": 1.119059585365707,
-      "kl": 0.35302734375,
+      "grad_norm": 1.6657973548432092,
+      "kl": 1.005859375,
       "learning_rate": 3.718351473451448e-06,
-      "loss": 0.6506,
-      "reward": 2.689814329147339,
-      "reward_std": 0.5917665362358093,
-      "rewards/accuracy_reward": 0.8385417014360428,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.06799825746566057,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.0419,
+      "reward": 2.6762454509735107,
+      "reward_std": 0.2155936686322093,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.04380669817328453,
+      "rewards/tag_count_reward": 0.9804687649011612,
       "step": 496
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.27083587646484,
+      "completion_length": 288.8593864440918,
       "epoch": 0.7454068241469817,
-      "grad_norm": 10.12905143841689,
-      "kl": 0.67431640625,
+      "grad_norm": 0.7716130912654924,
+      "kl": 0.6650390625,
       "learning_rate": 3.6776298538446307e-06,
-      "loss": 0.7213,
-      "reward": 2.456771969795227,
-      "reward_std": 0.6756933778524399,
-      "rewards/accuracy_reward": 0.6093750149011612,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.07751636672765017,
-      "rewards/tag_count_reward": 0.9544270932674408,
+      "loss": 0.0417,
+      "reward": 2.51417738199234,
+      "reward_std": 0.32952259480953217,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.04962483886629343,
+      "rewards/tag_count_reward": 0.9804687798023224,
       "step": 497
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.1510467529297,
+      "completion_length": 310.2760543823242,
       "epoch": 0.7469066366704162,
-      "grad_norm": 0.9738907873033192,
-      "kl": 0.33203125,
+      "grad_norm": 5.134089109133943,
+      "kl": 2.931640625,
       "learning_rate": 3.6370821444253112e-06,
-      "loss": 0.3742,
-      "reward": 2.6159667372703552,
-      "reward_std": 0.45941271260380745,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.05938061675988138,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 0.0652,
+      "reward": 2.4335711002349854,
+      "reward_std": 0.3948415219783783,
+      "rewards/accuracy_reward": 0.5572916865348816,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.050803929567337036,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 498
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 199.4427146911621,
+      "completion_length": 295.4270935058594,
       "epoch": 0.7484064491938508,
-      "grad_norm": 2.4109683634611785,
-      "kl": 0.46923828125,
+      "grad_norm": 2.574704298931235,
+      "kl": 1.828125,
       "learning_rate": 3.5967094605441545e-06,
-      "loss": 0.5533,
-      "reward": 2.717509090900421,
-      "reward_std": 0.5818516314029694,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.986111119389534,
-      "rewards/repetition_penalty_reward": -0.06026873830705881,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": -0.0396,
+      "reward": 2.6697959899902344,
+      "reward_std": 0.49928344041109085,
+      "rewards/accuracy_reward": 0.7968750149011612,
+      "rewards/reasoning_steps_reward": 0.9670139253139496,
+      "rewards/repetition_penalty_reward": -0.05112431012094021,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 499
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.06250762939453,
+      "completion_length": 264.76563262939453,
       "epoch": 0.7499062617172854,
-      "grad_norm": 0.7913869745911991,
-      "kl": 0.34765625,
+      "grad_norm": 1.121236474277334,
+      "kl": 0.8974609375,
       "learning_rate": 3.5565129127373765e-06,
-      "loss": 0.6764,
-      "reward": 2.615268588066101,
-      "reward_std": 0.6076765581965446,
-      "rewards/accuracy_reward": 0.7812500298023224,
-      "rewards/reasoning_steps_reward": 0.96875,
-      "rewards/repetition_penalty_reward": -0.08134600473567843,
-      "rewards/tag_count_reward": 0.946614608168602,
+      "loss": -0.0091,
+      "reward": 2.7433581352233887,
+      "reward_std": 0.39212197065353394,
+      "rewards/accuracy_reward": 0.8229166865348816,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.04049617797136307,
+      "rewards/tag_count_reward": 0.9765625149011612,
       "step": 500
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.53646087646484,
+      "completion_length": 271.3906364440918,
       "epoch": 0.7514060742407199,
-      "grad_norm": 1.5573709839742271,
-      "kl": 0.47705078125,
+      "grad_norm": 0.7018570637816092,
+      "kl": 1.29638671875,
       "learning_rate": 3.5164936066961984e-06,
-      "loss": 0.3202,
-      "reward": 2.780966341495514,
-      "reward_std": 0.427102904766798,
-      "rewards/accuracy_reward": 0.895833358168602,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.057141443248838186,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": -0.0223,
+      "reward": 2.6698635816574097,
+      "reward_std": 0.3935448888223618,
+      "rewards/accuracy_reward": 0.7760416865348816,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.03846996137872338,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 501
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.50521087646484,
+      "completion_length": 314.0052185058594,
       "epoch": 0.7529058867641545,
-      "grad_norm": 0.7528789099140956,
-      "kl": 0.30615234375,
+      "grad_norm": 1.1907324808542725,
+      "kl": 0.833984375,
       "learning_rate": 3.476652643236431e-06,
-      "loss": 0.5839,
-      "reward": 2.4664222598075867,
-      "reward_std": 0.6568407695740461,
-      "rewards/accuracy_reward": 0.6302083507180214,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.07394242100417614,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.0334,
+      "reward": 2.6077919006347656,
+      "reward_std": 0.3832826167345047,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.05757272336632013,
+      "rewards/tag_count_reward": 0.962239608168602,
       "step": 502
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.70833587646484,
+      "completion_length": 317.2448043823242,
       "epoch": 0.754405699287589,
-      "grad_norm": 1.1949507672459776,
-      "kl": 0.37646484375,
+      "grad_norm": 1.0569480071148656,
+      "kl": 1.544921875,
       "learning_rate": 3.436991118268195e-06,
-      "loss": 0.6479,
-      "reward": 2.507534086704254,
-      "reward_std": 0.5748837292194366,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.07536534033715725,
-      "rewards/tag_count_reward": 0.9544270932674408,
+      "loss": 0.0521,
+      "reward": 2.522133708000183,
+      "reward_std": 0.4893868714570999,
+      "rewards/accuracy_reward": 0.6562500223517418,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.06119971442967653,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 503
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 246.4375114440918,
+      "completion_length": 301.3802146911621,
       "epoch": 0.7559055118110236,
-      "grad_norm": 0.79103427108142,
-      "kl": 0.3798828125,
+      "grad_norm": 5.910389855911775,
+      "kl": 11.95703125,
       "learning_rate": 3.3975101227657726e-06,
-      "loss": 0.7612,
-      "reward": 2.440228283405304,
-      "reward_std": 0.8982982710003853,
-      "rewards/accuracy_reward": 0.677083358168602,
-      "rewards/reasoning_steps_reward": 0.9409722536802292,
-      "rewards/repetition_penalty_reward": -0.10230656852945685,
-      "rewards/tag_count_reward": 0.9244791716337204,
+      "loss": -0.1243,
+      "reward": 2.3981975317001343,
+      "reward_std": 0.6437404751777649,
+      "rewards/accuracy_reward": 0.5468750223517418,
+      "rewards/reasoning_steps_reward": 0.958333358168602,
+      "rewards/repetition_penalty_reward": -0.05102120712399483,
+      "rewards/tag_count_reward": 0.9440104514360428,
       "step": 504
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.0208396911621,
+      "completion_length": 340.42189025878906,
       "epoch": 0.7574053243344582,
-      "grad_norm": 1.382653144301306,
-      "kl": 0.349609375,
+      "grad_norm": 12.978062482129692,
+      "kl": 16.43701171875,
       "learning_rate": 3.3582107427376044e-06,
-      "loss": 0.724,
-      "reward": 2.6514702439308167,
-      "reward_std": 0.7024101763963699,
-      "rewards/accuracy_reward": 0.8125,
-      "rewards/reasoning_steps_reward": 0.970486119389534,
-      "rewards/repetition_penalty_reward": -0.08333875052630901,
-      "rewards/tag_count_reward": 0.9518229216337204,
+      "loss": -0.0418,
+      "reward": 2.647988438606262,
+      "reward_std": 0.5043715462088585,
+      "rewards/accuracy_reward": 0.770833358168602,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.057740709744393826,
+      "rewards/tag_count_reward": 0.9609375149011612,
       "step": 505
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.0677146911621,
+      "completion_length": 349.92188262939453,
       "epoch": 0.7589051368578927,
-      "grad_norm": 1.0534398553331488,
-      "kl": 0.42431640625,
+      "grad_norm": 6.073801480071967,
+      "kl": 1.833984375,
       "learning_rate": 3.3190940591964094e-06,
-      "loss": 0.7011,
-      "reward": 2.410764992237091,
-      "reward_std": 0.7002580761909485,
-      "rewards/accuracy_reward": 0.5989583507180214,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.08793305046856403,
-      "rewards/tag_count_reward": 0.946614608168602,
+      "loss": 0.0047,
+      "reward": 2.440945327281952,
+      "reward_std": 0.4255194067955017,
+      "rewards/accuracy_reward": 0.5781250149011612,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.07554787117987871,
+      "rewards/tag_count_reward": 0.966145858168602,
       "step": 506
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 243.32813262939453,
+      "completion_length": 413.4791793823242,
       "epoch": 0.7604049493813273,
-      "grad_norm": 2.499315939505216,
-      "kl": 0.5712890625,
+      "grad_norm": 2.37952801915241,
+      "kl": 4.4140625,
       "learning_rate": 3.2801611481294538e-06,
-      "loss": 0.6833,
-      "reward": 2.68420547246933,
-      "reward_std": 0.7678481340408325,
-      "rewards/accuracy_reward": 0.895833358168602,
-      "rewards/reasoning_steps_reward": 0.9496528059244156,
-      "rewards/repetition_penalty_reward": -0.10268685221672058,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 0.0238,
+      "reward": 2.686852276325226,
+      "reward_std": 0.3788864966481924,
+      "rewards/accuracy_reward": 0.8385416716337204,
+      "rewards/reasoning_steps_reward": 0.9774305820465088,
+      "rewards/repetition_penalty_reward": -0.08875534310936928,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 507
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.5833396911621,
+      "completion_length": 381.5520935058594,
       "epoch": 0.7619047619047619,
-      "grad_norm": 1.6168052609374044,
-      "kl": 0.4296875,
+      "grad_norm": 0.9844048707484628,
+      "kl": 1.52587890625,
       "learning_rate": 3.2414130804689492e-06,
-      "loss": 0.7108,
-      "reward": 2.642342746257782,
-      "reward_std": 0.765022836625576,
-      "rewards/accuracy_reward": 0.8229167014360428,
-      "rewards/reasoning_steps_reward": 0.9548611342906952,
-      "rewards/repetition_penalty_reward": -0.08725807629525661,
-      "rewards/tag_count_reward": 0.9518229216337204,
+      "loss": 0.0616,
+      "reward": 2.4849266409873962,
+      "reward_std": 0.44034913927316666,
+      "rewards/accuracy_reward": 0.6093750074505806,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.06845879275351763,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 508
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 226.42188262939453,
+      "completion_length": 337.81251525878906,
       "epoch": 0.7634045744281964,
-      "grad_norm": 1.6205129541399188,
-      "kl": 0.41552734375,
+      "grad_norm": 0.8845374524712641,
+      "kl": 1.2822265625,
       "learning_rate": 3.202850922062607e-06,
-      "loss": 0.7307,
-      "reward": 2.597358763217926,
-      "reward_std": 0.8237985223531723,
-      "rewards/accuracy_reward": 0.786458358168602,
-      "rewards/reasoning_steps_reward": 0.949652835726738,
-      "rewards/repetition_penalty_reward": -0.08797122351825237,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": -0.0007,
+      "reward": 2.6837249398231506,
+      "reward_std": 0.5106394588947296,
+      "rewards/accuracy_reward": 0.8125000298023224,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.06106678955256939,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 509
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 279.37501525878906,
+      "completion_length": 366.96875762939453,
       "epoch": 0.7649043869516311,
-      "grad_norm": 1.0752711179781738,
-      "kl": 0.4208984375,
+      "grad_norm": 0.6486204612451865,
+      "kl": 1.52978515625,
       "learning_rate": 3.1644757336443023e-06,
-      "loss": 0.748,
-      "reward": 2.258354067802429,
-      "reward_std": 0.7389141619205475,
-      "rewards/accuracy_reward": 0.5260416865348816,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.14312171563506126,
-      "rewards/tag_count_reward": 0.915364608168602,
+      "loss": -0.0686,
+      "reward": 2.4383880496025085,
+      "reward_std": 0.602533221244812,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/reasoning_steps_reward": 0.958333358168602,
+      "rewards/repetition_penalty_reward": -0.06551818642765284,
+      "rewards/tag_count_reward": 0.9361979365348816,
       "step": 510
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 233.68230056762695,
+      "completion_length": 355.81250762939453,
       "epoch": 0.7664041994750657,
-      "grad_norm": 1.0295291505864663,
-      "kl": 0.3603515625,
+      "grad_norm": 0.8344794010535831,
+      "kl": 0.908203125,
       "learning_rate": 3.126288570804906e-06,
-      "loss": 0.813,
-      "reward": 2.466791570186615,
-      "reward_std": 0.8091250509023666,
-      "rewards/accuracy_reward": 0.677083358168602,
-      "rewards/reasoning_steps_reward": 0.9479167014360428,
-      "rewards/repetition_penalty_reward": -0.09440644644200802,
-      "rewards/tag_count_reward": 0.9361979365348816,
+      "loss": 0.0427,
+      "reward": 2.516266345977783,
+      "reward_std": 0.5227550566196442,
+      "rewards/accuracy_reward": 0.635416679084301,
+      "rewards/reasoning_steps_reward": 0.9826388955116272,
+      "rewards/repetition_penalty_reward": -0.05882055405527353,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 511
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 257.09375762939453,
+      "completion_length": 365.3385467529297,
       "epoch": 0.7679040119985002,
-      "grad_norm": 1.1762814130428787,
-      "kl": 0.37109375,
+      "grad_norm": 159.77587834072062,
+      "kl": 10.79296875,
       "learning_rate": 3.0882904839632476e-06,
-      "loss": 0.7208,
-      "reward": 2.3307202458381653,
-      "reward_std": 0.7969870269298553,
-      "rewards/accuracy_reward": 0.5781250298023224,
-      "rewards/reasoning_steps_reward": 0.9496527761220932,
-      "rewards/repetition_penalty_reward": -0.12023470550775528,
-      "rewards/tag_count_reward": 0.9231771230697632,
+      "loss": 0.6306,
+      "reward": 2.5336210131645203,
+      "reward_std": 0.548546776175499,
+      "rewards/accuracy_reward": 0.6718750149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.06143125705420971,
+      "rewards/tag_count_reward": 0.9440104365348816,
       "step": 512
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.29688262939453,
+      "completion_length": 364.0677185058594,
       "epoch": 0.7694038245219348,
-      "grad_norm": 6.576307135246261,
-      "kl": 0.46337890625,
+      "grad_norm": 45.25299778164268,
+      "kl": 2.84375,
       "learning_rate": 3.050482518337221e-06,
-      "loss": 0.5806,
-      "reward": 2.5199908018112183,
-      "reward_std": 0.5410640314221382,
+      "loss": 0.1528,
+      "reward": 2.5458881855010986,
+      "reward_std": 0.5097367987036705,
       "rewards/accuracy_reward": 0.6927083432674408,
-      "rewards/reasoning_steps_reward": 0.9670138955116272,
-      "rewards/repetition_penalty_reward": -0.08113771304488182,
-      "rewards/tag_count_reward": 0.9414062798023224,
+      "rewards/reasoning_steps_reward": 0.9687500298023224,
+      "rewards/repetition_penalty_reward": -0.06739312317222357,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 513
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 244.30208587646484,
+      "completion_length": 346.5416793823242,
       "epoch": 0.7709036370453693,
-      "grad_norm": 0.8493543704484349,
-      "kl": 0.4072265625,
+      "grad_norm": 1.324438735835731,
+      "kl": 1.3828125,
       "learning_rate": 3.012865713915033e-06,
-      "loss": 0.8002,
-      "reward": 2.496680438518524,
-      "reward_std": 0.8196369558572769,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.11226061917841434,
-      "rewards/tag_count_reward": 0.923177108168602,
+      "loss": -0.0002,
+      "reward": 2.548605740070343,
+      "reward_std": 0.4542975649237633,
+      "rewards/accuracy_reward": 0.6822916865348816,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.05686304159462452,
+      "rewards/tag_count_reward": 0.9440104365348816,
       "step": 514
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 228.02605056762695,
+      "completion_length": 372.2552261352539,
       "epoch": 0.7724034495688039,
-      "grad_norm": 0.782983798376921,
-      "kl": 0.50830078125,
+      "grad_norm": 1.3346884321616983,
+      "kl": 1.03759765625,
       "learning_rate": 2.9754411054265966e-06,
-      "loss": 0.7341,
-      "reward": 2.4324201941490173,
-      "reward_std": 0.795376256108284,
-      "rewards/accuracy_reward": 0.6614583507180214,
-      "rewards/reasoning_steps_reward": 0.9340277910232544,
-      "rewards/repetition_penalty_reward": -0.09665969014167786,
-      "rewards/tag_count_reward": 0.9335937798023224,
+      "loss": 0.033,
+      "reward": 2.5564919114112854,
+      "reward_std": 0.36123840510845184,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.05809137877076864,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 515
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.140625,
+      "completion_length": 350.9791717529297,
       "epoch": 0.7739032620922385,
-      "grad_norm": 1.2353929587709405,
-      "kl": 0.3515625,
+      "grad_norm": 4.616902608747506,
+      "kl": 3.259765625,
       "learning_rate": 2.9382097223150675e-06,
-      "loss": 0.6533,
-      "reward": 2.5715506076812744,
-      "reward_std": 0.6366243287920952,
-      "rewards/accuracy_reward": 0.7239583432674408,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.07341482397168875,
-      "rewards/tag_count_reward": 0.9557291716337204,
+      "loss": 0.0779,
+      "reward": 2.524458348751068,
+      "reward_std": 0.5577153712511063,
+      "rewards/accuracy_reward": 0.677083358168602,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.0549686960875988,
+      "rewards/tag_count_reward": 0.9335937649011612,
       "step": 516
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 258.67188262939453,
+      "completion_length": 437.5729217529297,
       "epoch": 0.775403074615673,
-      "grad_norm": 0.8839020653845002,
-      "kl": 0.35693359375,
+      "grad_norm": 2.0004592558673195,
+      "kl": 0.81689453125,
       "learning_rate": 2.9011725887085286e-06,
-      "loss": 0.768,
-      "reward": 2.4018173813819885,
-      "reward_std": 0.8271952420473099,
-      "rewards/accuracy_reward": 0.6406250223517418,
-      "rewards/reasoning_steps_reward": 0.9513889104127884,
-      "rewards/repetition_penalty_reward": -0.1159778069704771,
-      "rewards/tag_count_reward": 0.92578125,
+      "loss": 0.0369,
+      "reward": 2.481614410877228,
+      "reward_std": 0.5043549910187721,
+      "rewards/accuracy_reward": 0.6093750298023224,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.07177106104791164,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 517
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 195.9947967529297,
+      "completion_length": 333.14063262939453,
       "epoch": 0.7769028871391076,
-      "grad_norm": 0.7917880481551695,
-      "kl": 0.3603515625,
+      "grad_norm": 2.055433226987207,
+      "kl": 2.642578125,
       "learning_rate": 2.8643307233918192e-06,
-      "loss": 0.3036,
-      "reward": 2.690393328666687,
-      "reward_std": 0.3900110796093941,
-      "rewards/accuracy_reward": 0.786458358168602,
-      "rewards/reasoning_steps_reward": 0.982638880610466,
-      "rewards/repetition_penalty_reward": -0.05136016756296158,
-      "rewards/tag_count_reward": 0.9726562649011612,
+      "loss": 0.0882,
+      "reward": 2.5522547364234924,
+      "reward_std": 0.5509222820401192,
+      "rewards/accuracy_reward": 0.708333358168602,
+      "rewards/reasoning_steps_reward": 0.9618055820465088,
+      "rewards/repetition_penalty_reward": -0.05408210679888725,
+      "rewards/tag_count_reward": 0.9361979365348816,
       "step": 518
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.57812881469727,
+      "completion_length": 391.0208435058594,
       "epoch": 0.7784026996625422,
-      "grad_norm": 0.8157613306440419,
-      "kl": 0.3388671875,
+      "grad_norm": 4.053898086811571,
+      "kl": 2.04736328125,
       "learning_rate": 2.827685139778511e-06,
-      "loss": 0.6223,
-      "reward": 2.477262020111084,
-      "reward_std": 0.7161538153886795,
-      "rewards/accuracy_reward": 0.6718750149011612,
-      "rewards/reasoning_steps_reward": 0.9618055671453476,
-      "rewards/repetition_penalty_reward": -0.09782484546303749,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 0.0504,
+      "reward": 2.5092581510543823,
+      "reward_std": 0.5159156918525696,
+      "rewards/accuracy_reward": 0.6354166716337204,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.06148845702409744,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 519
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.87500381469727,
+      "completion_length": 337.0885543823242,
       "epoch": 0.7799025121859767,
-      "grad_norm": 0.9727421187621869,
-      "kl": 0.35498046875,
+      "grad_norm": 0.8528892895209994,
+      "kl": 1.2861328125,
       "learning_rate": 2.7912368458830295e-06,
-      "loss": 0.6298,
-      "reward": 2.616613507270813,
-      "reward_std": 0.6122787222266197,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.08390727639198303,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.0657,
+      "reward": 2.51828670501709,
+      "reward_std": 0.46771006286144257,
+      "rewards/accuracy_reward": 0.6250000149011612,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.05463008023798466,
+      "rewards/tag_count_reward": 0.9635416865348816,
       "step": 520
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.30208587646484,
+      "completion_length": 324.42708587646484,
       "epoch": 0.7814023247094113,
-      "grad_norm": 0.8429352541214471,
-      "kl": 0.327392578125,
+      "grad_norm": 1.5995624359002987,
+      "kl": 1.50927734375,
       "learning_rate": 2.7549868442929286e-06,
-      "loss": 0.4077,
-      "reward": 2.774833917617798,
-      "reward_std": 0.5252001956105232,
-      "rewards/accuracy_reward": 0.911458358168602,
-      "rewards/reasoning_steps_reward": 0.9722222238779068,
-      "rewards/repetition_penalty_reward": -0.06848222017288208,
-      "rewards/tag_count_reward": 0.9596354514360428,
+      "loss": 0.0114,
+      "reward": 2.534961521625519,
+      "reward_std": 0.42034848034381866,
+      "rewards/accuracy_reward": 0.6510416716337204,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.04706980008631945,
+      "rewards/tag_count_reward": 0.946614608168602,
       "step": 521
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.09375381469727,
+      "completion_length": 343.7395935058594,
       "epoch": 0.7829021372328459,
-      "grad_norm": 1.0326110093541125,
-      "kl": 0.31884765625,
+      "grad_norm": 2.8590022801404706,
+      "kl": 1.525390625,
       "learning_rate": 2.7189361321413144e-06,
-      "loss": 0.421,
-      "reward": 2.417696237564087,
-      "reward_std": 0.3683694452047348,
-      "rewards/accuracy_reward": 0.5260416865348816,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.06190443877130747,
-      "rewards/tag_count_reward": 0.9674479216337204,
+      "loss": 0.1087,
+      "reward": 2.500767946243286,
+      "reward_std": 0.4306958243250847,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.05044758692383766,
+      "rewards/tag_count_reward": 0.9661458432674408,
       "step": 522
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.7604217529297,
+      "completion_length": 353.6145935058594,
       "epoch": 0.7844019497562804,
-      "grad_norm": 2.2355283965994865,
-      "kl": 0.39013671875,
+      "grad_norm": 0.9462589535923942,
+      "kl": 1.6015625,
       "learning_rate": 2.683085701079412e-06,
-      "loss": 0.5656,
-      "reward": 2.6360539197921753,
-      "reward_std": 0.5976300239562988,
-      "rewards/accuracy_reward": 0.7864583507180214,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.06924132350832224,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.0087,
+      "reward": 2.624489724636078,
+      "reward_std": 0.46847573667764664,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.05563185177743435,
+      "rewards/tag_count_reward": 0.9544270932674408,
       "step": 523
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 202.9322967529297,
+      "completion_length": 277.2135467529297,
       "epoch": 0.7859017622797151,
-      "grad_norm": 0.9756200081911167,
-      "kl": 0.3701171875,
+      "grad_norm": 0.6580260031686143,
+      "kl": 1.3935546875,
       "learning_rate": 2.647436537249294e-06,
-      "loss": 0.545,
-      "reward": 2.322978913784027,
-      "reward_std": 0.5455097928643227,
-      "rewards/accuracy_reward": 0.4531250223517418,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.0633058724924922,
-      "rewards/tag_count_reward": 0.9557292014360428,
+      "loss": -0.0381,
+      "reward": 2.4149619936943054,
+      "reward_std": 0.39340294152498245,
+      "rewards/accuracy_reward": 0.5052083544433117,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.036860992200672626,
+      "rewards/tag_count_reward": 0.9674479365348816,
       "step": 524
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.1145896911621,
+      "completion_length": 323.4114761352539,
       "epoch": 0.7874015748031497,
-      "grad_norm": 0.7876826353251758,
-      "kl": 0.40576171875,
+      "grad_norm": 1.021591339198619,
+      "kl": 1.7890625,
       "learning_rate": 2.611989621256745e-06,
-      "loss": 0.5895,
-      "reward": 2.726710319519043,
-      "reward_std": 0.5035083070397377,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.06669262330979109,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 0.0141,
+      "reward": 2.434917449951172,
+      "reward_std": 0.5576092228293419,
+      "rewards/accuracy_reward": 0.588541679084301,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.05075975460931659,
+      "rewards/tag_count_reward": 0.938802108168602,
       "step": 525
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.5364646911621,
+      "completion_length": 251.5000114440918,
       "epoch": 0.7889013873265842,
-      "grad_norm": 1.2271941862677709,
-      "kl": 0.29833984375,
+      "grad_norm": 2.0873915039216073,
+      "kl": 2.01171875,
       "learning_rate": 2.5767459281443064e-06,
-      "loss": 0.6082,
-      "reward": 2.505469024181366,
-      "reward_std": 0.6449078023433685,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07352408953011036,
-      "rewards/tag_count_reward": 0.9557291716337204,
+      "loss": -0.0672,
+      "reward": 2.2912232875823975,
+      "reward_std": 0.42987949773669243,
+      "rewards/accuracy_reward": 0.42708335584029555,
+      "rewards/reasoning_steps_reward": 0.9652778059244156,
+      "rewards/repetition_penalty_reward": -0.036033790558576584,
+      "rewards/tag_count_reward": 0.9348958432674408,
       "step": 526
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 239.5677146911621,
+      "completion_length": 308.4895896911621,
       "epoch": 0.7904011998500188,
-      "grad_norm": 0.9183905328986752,
-      "kl": 0.4296875,
+      "grad_norm": 1.7291159865969803,
+      "kl": 1.93310546875,
       "learning_rate": 2.541706427364431e-06,
-      "loss": 0.8342,
-      "reward": 2.675832152366638,
-      "reward_std": 0.8275108933448792,
-      "rewards/accuracy_reward": 0.864583358168602,
-      "rewards/reasoning_steps_reward": 0.954861119389534,
-      "rewards/repetition_penalty_reward": -0.09283116087317467,
-      "rewards/tag_count_reward": 0.9492187649011612,
+      "loss": -0.0153,
+      "reward": 2.6689711213111877,
+      "reward_std": 0.5232843309640884,
+      "rewards/accuracy_reward": 0.7760416716337204,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.04500464163720608,
+      "rewards/tag_count_reward": 0.9570312798023224,
       "step": 527
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.96875762939453,
+      "completion_length": 264.5572967529297,
       "epoch": 0.7919010123734533,
-      "grad_norm": 0.7482995574885967,
-      "kl": 0.32275390625,
+      "grad_norm": 1.784246342813351,
+      "kl": 0.90576171875,
       "learning_rate": 2.506872082752834e-06,
-      "loss": 0.6547,
-      "reward": 2.569875657558441,
-      "reward_std": 0.5808727741241455,
-      "rewards/accuracy_reward": 0.6927083432674408,
-      "rewards/reasoning_steps_reward": 0.9861111342906952,
-      "rewards/repetition_penalty_reward": -0.0724856061860919,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.0971,
+      "reward": 2.664152204990387,
+      "reward_std": 0.30452917888760567,
+      "rewards/accuracy_reward": 0.7239583432674408,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.03376449551433325,
+      "rewards/tag_count_reward": 0.9791666865348816,
       "step": 528
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.06250381469727,
+      "completion_length": 325.4791793823242,
       "epoch": 0.7934008248968879,
-      "grad_norm": 1.2950704438743703,
-      "kl": 0.35400390625,
+      "grad_norm": 3.266992308801891,
+      "kl": 1.8212890625,
       "learning_rate": 2.4722438525019764e-06,
-      "loss": 0.3873,
-      "reward": 2.7978073358535767,
-      "reward_std": 0.486385278403759,
-      "rewards/accuracy_reward": 0.9010416865348816,
-      "rewards/reasoning_steps_reward": 0.9809027910232544,
-      "rewards/repetition_penalty_reward": -0.052887264639139175,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "loss": 0.0034,
+      "reward": 2.676040768623352,
+      "reward_std": 0.44805118814110756,
+      "rewards/accuracy_reward": 0.770833358168602,
+      "rewards/reasoning_steps_reward": 0.9878472238779068,
+      "rewards/repetition_penalty_reward": -0.05399402230978012,
+      "rewards/tag_count_reward": 0.9713541865348816,
       "step": 529
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.96875381469727,
+      "completion_length": 258.14063262939453,
       "epoch": 0.7949006374203225,
-      "grad_norm": 0.9168395385162036,
-      "kl": 0.33203125,
+      "grad_norm": 2.2367523347428366,
+      "kl": 2.3408203125,
       "learning_rate": 2.4378226891347056e-06,
-      "loss": 0.5429,
-      "reward": 2.631447494029999,
-      "reward_std": 0.530893087387085,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.07167758233845234,
-      "rewards/tag_count_reward": 0.9687500149011612,
+      "loss": -0.0131,
+      "reward": 2.6123253107070923,
+      "reward_std": 0.4946172907948494,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.03611219022423029,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 530
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.88021087646484,
+      "completion_length": 357.5104293823242,
       "epoch": 0.796400449943757,
-      "grad_norm": 2.5084733671661934,
-      "kl": 0.4423828125,
+      "grad_norm": 2.0536966546593494,
+      "kl": 2.0966796875,
       "learning_rate": 2.403609539478056e-06,
-      "loss": 0.5644,
-      "reward": 2.736763119697571,
-      "reward_std": 0.614450603723526,
-      "rewards/accuracy_reward": 0.890625,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.08224734663963318,
-      "rewards/tag_count_reward": 0.9596354514360428,
+      "loss": 0.015,
+      "reward": 2.6887767910957336,
+      "reward_std": 0.43632883578538895,
+      "rewards/accuracy_reward": 0.8072917014360428,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.06382743921130896,
+      "rewards/tag_count_reward": 0.9557291716337204,
       "step": 531
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 201.6822967529297,
+      "completion_length": 291.60937881469727,
       "epoch": 0.7979002624671916,
-      "grad_norm": 1.2103141736384226,
-      "kl": 0.32958984375,
+      "grad_norm": 68.06193885878405,
+      "kl": 3.470703125,
       "learning_rate": 2.3696053446372026e-06,
-      "loss": 0.2212,
-      "reward": 2.7792577147483826,
-      "reward_std": 0.2872903672978282,
-      "rewards/accuracy_reward": 0.8541666865348816,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.047565262764692307,
-      "rewards/tag_count_reward": 0.9778645932674408,
+      "loss": 0.1695,
+      "reward": 2.4727484583854675,
+      "reward_std": 0.5058952420949936,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.04721691645681858,
+      "rewards/tag_count_reward": 0.9557291865348816,
       "step": 532
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.01562881469727,
+      "completion_length": 283.70833587646484,
       "epoch": 0.7994000749906262,
-      "grad_norm": 0.9409501748390533,
-      "kl": 0.33740234375,
+      "grad_norm": 7.175346457591991,
+      "kl": 2.5625,
       "learning_rate": 2.3358110399695788e-06,
-      "loss": 0.5166,
-      "reward": 2.526670515537262,
-      "reward_std": 0.5588072910904884,
-      "rewards/accuracy_reward": 0.6510416865348816,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.057530895806849,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.1764,
+      "reward": 2.499284565448761,
+      "reward_std": 0.42855924367904663,
+      "rewards/accuracy_reward": 0.5989583507180214,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.04108010325580835,
+      "rewards/tag_count_reward": 0.9622396230697632,
       "step": 533
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.4322967529297,
+      "completion_length": 247.94792556762695,
       "epoch": 0.8008998875140607,
-      "grad_norm": 0.9487060971483162,
-      "kl": 0.3642578125,
+      "grad_norm": 1.6428729718898072,
+      "kl": 0.5927734375,
       "learning_rate": 2.302227555059141e-06,
-      "loss": 0.5154,
-      "reward": 2.5382038950920105,
-      "reward_std": 0.591885045170784,
-      "rewards/accuracy_reward": 0.6614583432674408,
-      "rewards/reasoning_steps_reward": 0.970486119389534,
-      "rewards/repetition_penalty_reward": -0.06769899744540453,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "loss": 0.0496,
+      "reward": 2.5920801758766174,
+      "reward_std": 0.3266643173992634,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03422196349129081,
+      "rewards/tag_count_reward": 0.9804687798023224,
       "step": 534
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.07292556762695,
+      "completion_length": 309.5833396911621,
       "epoch": 0.8023997000374953,
-      "grad_norm": 0.929609225864085,
-      "kl": 0.396484375,
+      "grad_norm": 47.540127693483335,
+      "kl": 4.4296875,
       "learning_rate": 2.2688558136908025e-06,
-      "loss": 0.5148,
-      "reward": 2.7448110580444336,
-      "reward_std": 0.46144695580005646,
-      "rewards/accuracy_reward": 0.8385416865348816,
+      "loss": 0.0615,
+      "reward": 2.5951295495033264,
+      "reward_std": 0.41650524735450745,
+      "rewards/accuracy_reward": 0.6822916865348816,
       "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.05336613114923239,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "rewards/repetition_penalty_reward": -0.04940184485167265,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 535
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.8802146911621,
+      "completion_length": 260.6510467529297,
       "epoch": 0.8038995125609298,
-      "grad_norm": 1.584357940413058,
-      "kl": 0.30126953125,
+      "grad_norm": 15.375690774431247,
+      "kl": 17.03125,
       "learning_rate": 2.2356967338250223e-06,
-      "loss": 0.431,
-      "reward": 2.501081109046936,
-      "reward_std": 0.4514058753848076,
-      "rewards/accuracy_reward": 0.6250000074505806,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.07140162866562605,
-      "rewards/tag_count_reward": 0.9648437798023224,
+      "loss": 0.1811,
+      "reward": 2.492598533630371,
+      "reward_std": 0.4195599779486656,
+      "rewards/accuracy_reward": 0.5989583507180214,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.03604749217629433,
+      "rewards/tag_count_reward": 0.9557291865348816,
       "step": 536
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 233.20834350585938,
+      "completion_length": 292.3854217529297,
       "epoch": 0.8053993250843644,
-      "grad_norm": 64.06543251128925,
-      "kl": 1.220703125,
+      "grad_norm": 9.475530371016637,
+      "kl": 2.486328125,
       "learning_rate": 2.202751227572556e-06,
-      "loss": 0.7764,
-      "reward": 2.6655821800231934,
-      "reward_std": 0.7584892809391022,
-      "rewards/accuracy_reward": 0.848958358168602,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.08441784046590328,
-      "rewards/tag_count_reward": 0.9427083432674408,
+      "loss": 0.0533,
+      "reward": 2.648472845554352,
+      "reward_std": 0.3912891000509262,
+      "rewards/accuracy_reward": 0.7343750298023224,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.050745952408760786,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 537
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.40625762939453,
+      "completion_length": 315.9739761352539,
       "epoch": 0.8068991376077991,
-      "grad_norm": 0.7719266837120854,
-      "kl": 0.37646484375,
+      "grad_norm": 1.4250516842234306,
+      "kl": 1.0771484375,
       "learning_rate": 2.1700202011693573e-06,
-      "loss": 0.5498,
-      "reward": 2.6957992911338806,
-      "reward_std": 0.6702239066362381,
-      "rewards/accuracy_reward": 0.8854166865348816,
-      "rewards/reasoning_steps_reward": 0.9496528059244156,
-      "rewards/repetition_penalty_reward": -0.0819785725325346,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.0594,
+      "reward": 2.7068479657173157,
+      "reward_std": 0.3395584188401699,
+      "rewards/accuracy_reward": 0.7968750149011612,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.05487091187387705,
+      "rewards/tag_count_reward": 0.9752604514360428,
       "step": 538
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 234.98958587646484,
+      "completion_length": 266.8489646911621,
       "epoch": 0.8083989501312336,
-      "grad_norm": 2.038897171924456,
-      "kl": 0.32861328125,
+      "grad_norm": 3.4214757569933,
+      "kl": 1.81640625,
       "learning_rate": 2.1375045549516636e-06,
-      "loss": 0.5421,
-      "reward": 2.608824074268341,
-      "reward_std": 0.5336829051375389,
-      "rewards/accuracy_reward": 0.7239583730697632,
-      "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.07867603516206145,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "loss": 0.0096,
+      "reward": 2.5113611817359924,
+      "reward_std": 0.5310123562812805,
+      "rewards/accuracy_reward": 0.6250000149011612,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.044628492556512356,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 539
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.40105056762695,
+      "completion_length": 255.57292556762695,
       "epoch": 0.8098987626546682,
-      "grad_norm": 1.2689341920662447,
-      "kl": 0.39599609375,
+      "grad_norm": 2.1241861424196147,
+      "kl": 1.56494140625,
       "learning_rate": 2.105205183331224e-06,
-      "loss": 0.6115,
-      "reward": 2.6301316022872925,
-      "reward_std": 0.6800608858466148,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.9461806118488312,
-      "rewards/repetition_penalty_reward": -0.08427836652845144,
-      "rewards/tag_count_reward": 0.9453125298023224,
+      "loss": 0.0114,
+      "reward": 2.7599127888679504,
+      "reward_std": 0.18678605183959007,
+      "rewards/accuracy_reward": 0.8333333432674408,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.04477462079375982,
+      "rewards/tag_count_reward": 0.9817708432674408,
       "step": 540
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.3697967529297,
+      "completion_length": 331.3385543823242,
       "epoch": 0.8113985751781028,
-      "grad_norm": 0.6531166991811557,
-      "kl": 0.2939453125,
+      "grad_norm": 1.5714564014928512,
+      "kl": 1.33203125,
       "learning_rate": 2.0731229747706926e-06,
-      "loss": 0.5031,
-      "reward": 2.5187647342681885,
-      "reward_std": 0.5751441568136215,
-      "rewards/accuracy_reward": 0.6562500149011612,
-      "rewards/reasoning_steps_reward": 0.965277761220932,
-      "rewards/repetition_penalty_reward": -0.06630483735352755,
+      "loss": 0.0368,
+      "reward": 2.4418932795524597,
+      "reward_std": 0.4528404325246811,
+      "rewards/accuracy_reward": 0.5468750149011612,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.058106820564717054,
       "rewards/tag_count_reward": 0.9635416865348816,
       "step": 541
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.78125381469727,
+      "completion_length": 344.2760467529297,
       "epoch": 0.8128983877015373,
-      "grad_norm": 0.6612265161899963,
-      "kl": 0.31640625,
+      "grad_norm": 0.7740942337468878,
+      "kl": 1.365234375,
       "learning_rate": 2.041258811759195e-06,
-      "loss": 0.5724,
-      "reward": 2.5856213569641113,
-      "reward_std": 0.6729920580983162,
-      "rewards/accuracy_reward": 0.7395833507180214,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.08842381555587053,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": -0.0408,
+      "reward": 2.485717535018921,
+      "reward_std": 0.3474634326994419,
+      "rewards/accuracy_reward": 0.5937500111758709,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.07417836599051952,
+      "rewards/tag_count_reward": 0.9765625149011612,
       "step": 542
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 187.7239646911621,
+      "completion_length": 255.31771850585938,
       "epoch": 0.8143982002249719,
-      "grad_norm": 1.1508949391019638,
-      "kl": 0.290283203125,
+      "grad_norm": 2.0654717881411986,
+      "kl": 1.12646484375,
       "learning_rate": 2.009613570788057e-06,
-      "loss": 0.3922,
-      "reward": 2.7094662189483643,
-      "reward_std": 0.4391992464661598,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.042704006657004356,
-      "rewards/tag_count_reward": 0.9778645932674408,
+      "loss": 0.1574,
+      "reward": 2.770683705806732,
+      "reward_std": 0.2916657757014036,
+      "rewards/accuracy_reward": 0.8177083730697632,
+      "rewards/reasoning_steps_reward": 1.0,
+      "rewards/repetition_penalty_reward": -0.03660803521052003,
+      "rewards/tag_count_reward": 0.9895833432674408,
       "step": 543
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 209.62500762939453,
+      "completion_length": 298.3854217529297,
       "epoch": 0.8158980127484065,
-      "grad_norm": 0.7726809000433558,
-      "kl": 0.29736328125,
+      "grad_norm": 3.1495657832552553,
+      "kl": 2.18017578125,
       "learning_rate": 1.978188122326683e-06,
-      "loss": 0.4558,
-      "reward": 2.690703511238098,
-      "reward_std": 0.49602875113487244,
-      "rewards/accuracy_reward": 0.8125000149011612,
-      "rewards/reasoning_steps_reward": 0.9722222238779068,
-      "rewards/repetition_penalty_reward": -0.06537291780114174,
-      "rewards/tag_count_reward": 0.9713541716337204,
+      "loss": 0.1062,
+      "reward": 2.6357369422912598,
+      "reward_std": 0.3864106610417366,
+      "rewards/accuracy_reward": 0.723958358168602,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.053065232932567596,
+      "rewards/tag_count_reward": 0.9804687798023224,
       "step": 544
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.43750762939453,
+      "completion_length": 277.87501525878906,
       "epoch": 0.817397825271841,
-      "grad_norm": 1.4290665690326807,
-      "kl": 0.3125,
+      "grad_norm": 4.472839155741773,
+      "kl": 2.248046875,
       "learning_rate": 1.946983330798621e-06,
-      "loss": 0.5241,
-      "reward": 2.562969446182251,
-      "reward_std": 0.5197947286069393,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.06203062180429697,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.1409,
+      "reward": 2.5282241702079773,
+      "reward_std": 0.4547024220228195,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.043390512466430664,
+      "rewards/tag_count_reward": 0.9570312798023224,
       "step": 545
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.3645896911621,
+      "completion_length": 247.5989646911621,
       "epoch": 0.8188976377952756,
-      "grad_norm": 1.0265157040309887,
-      "kl": 0.2939453125,
+      "grad_norm": 24.974566214450327,
+      "kl": 2.99853515625,
       "learning_rate": 1.916000054557783e-06,
-      "loss": 0.6364,
-      "reward": 2.629048526287079,
-      "reward_std": 0.6721891462802887,
-      "rewards/accuracy_reward": 0.770833358168602,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.0693023600615561,
-      "rewards/tag_count_reward": 0.9570312798023224,
+      "loss": 0.4573,
+      "reward": 2.6690892577171326,
+      "reward_std": 0.4272429645061493,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.03794198762625456,
+      "rewards/tag_count_reward": 0.9726562798023224,
       "step": 546
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.62500762939453,
+      "completion_length": 299.86458587646484,
       "epoch": 0.8203974503187101,
-      "grad_norm": 1.2230109106160663,
-      "kl": 0.31201171875,
+      "grad_norm": 10.956923315304682,
+      "kl": 5.841796875,
       "learning_rate": 1.8852391458648323e-06,
-      "loss": 0.4479,
-      "reward": 2.6805137395858765,
-      "reward_std": 0.4807371646165848,
-      "rewards/accuracy_reward": 0.7916666865348816,
+      "loss": 0.3112,
+      "reward": 2.711550772190094,
+      "reward_std": 0.4324747771024704,
+      "rewards/accuracy_reward": 0.817708358168602,
       "rewards/reasoning_steps_reward": 0.9843750149011612,
-      "rewards/repetition_penalty_reward": -0.06297590211033821,
-      "rewards/tag_count_reward": 0.9674479365348816,
+      "rewards/repetition_penalty_reward": -0.04886595252901316,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 547
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.45312881469727,
+      "completion_length": 264.12500762939453,
       "epoch": 0.8218972628421447,
-      "grad_norm": 0.8191568879278863,
-      "kl": 0.3046875,
+      "grad_norm": 10.26335940256424,
+      "kl": 3.107421875,
       "learning_rate": 1.854701450863744e-06,
-      "loss": 0.4753,
-      "reward": 2.549809992313385,
-      "reward_std": 0.5221479944884777,
-      "rewards/accuracy_reward": 0.6562500298023224,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.053922670893371105,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.3093,
+      "reward": 2.495303452014923,
+      "reward_std": 0.406343936920166,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.0489674867130816,
+      "rewards/tag_count_reward": 0.9557291865348816,
       "step": 548
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.0989646911621,
+      "completion_length": 268.10938262939453,
       "epoch": 0.8233970753655793,
-      "grad_norm": 0.9675577366532915,
-      "kl": 0.36083984375,
+      "grad_norm": 3.7641473071951963,
+      "kl": 3.146484375,
       "learning_rate": 1.8243878095585244e-06,
-      "loss": 0.6371,
-      "reward": 2.734562575817108,
-      "reward_std": 0.630949005484581,
-      "rewards/accuracy_reward": 0.8906250298023224,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.08314584195613861,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "loss": 0.1475,
+      "reward": 2.7090840935707092,
+      "reward_std": 0.482110857963562,
+      "rewards/accuracy_reward": 0.8281250298023224,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.04872854123823345,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 549
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 207.06250762939453,
+      "completion_length": 293.93750762939453,
       "epoch": 0.8248968878890138,
-      "grad_norm": 0.9898045914966018,
-      "kl": 0.30859375,
+      "grad_norm": 4.346280398373657,
+      "kl": 1.73583984375,
       "learning_rate": 1.7942990557901119e-06,
-      "loss": 0.3167,
-      "reward": 2.5159996151924133,
-      "reward_std": 0.4262428246438503,
-      "rewards/accuracy_reward": 0.5937500149011612,
+      "loss": 0.1208,
+      "reward": 2.5294079780578613,
+      "reward_std": 0.44582589715719223,
+      "rewards/accuracy_reward": 0.6197916939854622,
       "rewards/reasoning_steps_reward": 0.9895833432674408,
-      "rewards/repetition_penalty_reward": -0.04780261078849435,
-      "rewards/tag_count_reward": 0.9804687649011612,
+      "rewards/repetition_penalty_reward": -0.05262336507439613,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 550
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.83855056762695,
+      "completion_length": 268.5572967529297,
       "epoch": 0.8263967004124484,
-      "grad_norm": 1.3960120493498462,
-      "kl": 0.44775390625,
+      "grad_norm": 12.194807976372957,
+      "kl": 0.8740234375,
       "learning_rate": 1.7644360172134323e-06,
-      "loss": 0.7773,
-      "reward": 2.514442801475525,
-      "reward_std": 0.7914524525403976,
-      "rewards/accuracy_reward": 0.6927083432674408,
-      "rewards/reasoning_steps_reward": 0.9496528059244156,
-      "rewards/repetition_penalty_reward": -0.07974134013056755,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.2462,
+      "reward": 2.5935970544815063,
+      "reward_std": 0.3754644878208637,
+      "rewards/accuracy_reward": 0.6666667014360428,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.044423856772482395,
+      "rewards/tag_count_reward": 0.981770858168602,
       "step": 551
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.77605056762695,
+      "completion_length": 271.2864761352539,
       "epoch": 0.8278965129358831,
-      "grad_norm": 0.7179910870567698,
-      "kl": 0.3623046875,
+      "grad_norm": 3.492663781225749,
+      "kl": 0.78857421875,
       "learning_rate": 1.734799515274641e-06,
-      "loss": 0.507,
-      "reward": 2.6635890007019043,
-      "reward_std": 0.5695291832089424,
-      "rewards/accuracy_reward": 0.8072916716337204,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.07078609801828861,
-      "rewards/tag_count_reward": 0.9635416716337204,
+      "loss": 0.1673,
+      "reward": 2.57718825340271,
+      "reward_std": 0.3006473407149315,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.9913194477558136,
+      "rewards/repetition_penalty_reward": -0.0521521158516407,
+      "rewards/tag_count_reward": 0.981770858168602,
       "step": 552
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 184.89583587646484,
+      "completion_length": 206.7031364440918,
       "epoch": 0.8293963254593176,
-      "grad_norm": 1.660541115002357,
-      "kl": 0.3603515625,
+      "grad_norm": 1.0800649313598587,
+      "kl": 0.86865234375,
       "learning_rate": 1.7053903651885217e-06,
-      "loss": 0.3674,
-      "reward": 2.609849989414215,
-      "reward_std": 0.3290810212492943,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9791667014360428,
-      "rewards/repetition_penalty_reward": -0.0516084156697616,
-      "rewards/tag_count_reward": 0.9739583432674408,
+      "loss": 0.069,
+      "reward": 2.665630042552948,
+      "reward_std": 0.27732831984758377,
+      "rewards/accuracy_reward": 0.7135416865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.02924854727461934,
+      "rewards/tag_count_reward": 0.9882812649011612,
       "step": 553
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.2968864440918,
+      "completion_length": 255.51562881469727,
       "epoch": 0.8308961379827522,
-      "grad_norm": 1.1421644219209315,
-      "kl": 0.3388671875,
+      "grad_norm": 6.658607380817447,
+      "kl": 2.01953125,
       "learning_rate": 1.6762093759160614e-06,
-      "loss": 0.6045,
-      "reward": 2.6770655512809753,
-      "reward_std": 0.5518500655889511,
-      "rewards/accuracy_reward": 0.8177083432674408,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.08161513973027468,
-      "rewards/tag_count_reward": 0.958333358168602,
+      "loss": 0.247,
+      "reward": 2.5456653237342834,
+      "reward_std": 0.5418491065502167,
+      "rewards/accuracy_reward": 0.6718750298023224,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.051991009153425694,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 554
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 271.15625762939453,
+      "completion_length": 228.35938262939453,
       "epoch": 0.8323959505061868,
-      "grad_norm": 2.2156251851166755,
-      "kl": 0.462890625,
+      "grad_norm": 5.821343444236744,
+      "kl": 2.45849609375,
       "learning_rate": 1.647257350142204e-06,
-      "loss": 0.8727,
-      "reward": 2.427699863910675,
-      "reward_std": 0.8616139888763428,
-      "rewards/accuracy_reward": 0.6666666865348816,
-      "rewards/reasoning_steps_reward": 0.954861119389534,
-      "rewards/repetition_penalty_reward": -0.12221339344978333,
-      "rewards/tag_count_reward": 0.9283854514360428,
+      "loss": 0.1243,
+      "reward": 2.5485109090805054,
+      "reward_std": 0.4390419125556946,
+      "rewards/accuracy_reward": 0.645833358168602,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.04133300017565489,
+      "rewards/tag_count_reward": 0.9648437649011612,
       "step": 555
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.6354217529297,
+      "completion_length": 226.7291717529297,
       "epoch": 0.8338957630296213,
-      "grad_norm": 4.90298950509675,
-      "kl": 0.46337890625,
+      "grad_norm": 1.79998365352896,
+      "kl": 1.49853515625,
       "learning_rate": 1.618535084253765e-06,
-      "loss": 0.6818,
-      "reward": 2.632472336292267,
-      "reward_std": 0.5403143912553787,
-      "rewards/accuracy_reward": 0.7656250298023224,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.06457635015249252,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.1319,
+      "reward": 2.61370986700058,
+      "reward_std": 0.3187000434845686,
+      "rewards/accuracy_reward": 0.6822916716337204,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.03689793427474797,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 556
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 279.3125114440918,
+      "completion_length": 230.59375762939453,
       "epoch": 0.8353955755530559,
-      "grad_norm": 2.3574073221661074,
-      "kl": 0.6494140625,
+      "grad_norm": 16.824204922339664,
+      "kl": 3.234375,
       "learning_rate": 1.5900433683175277e-06,
-      "loss": 0.7594,
-      "reward": 2.3048887848854065,
-      "reward_std": 0.8010806366801262,
-      "rewards/accuracy_reward": 0.572916679084301,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.1365174800157547,
-      "rewards/tag_count_reward": 0.9153645932674408,
+      "loss": 0.5503,
+      "reward": 2.6835938692092896,
+      "reward_std": 0.4415631741285324,
+      "rewards/accuracy_reward": 0.7604166865348816,
+      "rewards/reasoning_steps_reward": 0.9930555522441864,
+      "rewards/repetition_penalty_reward": -0.04253482352942228,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 557
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.7135543823242,
+      "completion_length": 225.4375114440918,
       "epoch": 0.8368953880764904,
-      "grad_norm": 1.9632445237865204,
-      "kl": 0.466796875,
+      "grad_norm": 8.685664685007387,
+      "kl": 2.427734375,
       "learning_rate": 1.5617829860585087e-06,
-      "loss": 0.6438,
-      "reward": 2.505094826221466,
-      "reward_std": 0.7284489870071411,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.10992250964045525,
-      "rewards/tag_count_reward": 0.930989608168602,
+      "loss": 0.1994,
+      "reward": 2.531205892562866,
+      "reward_std": 0.43269092589616776,
+      "rewards/accuracy_reward": 0.6093750298023224,
+      "rewards/reasoning_steps_reward": 0.986111119389534,
+      "rewards/repetition_penalty_reward": -0.03172821528278291,
+      "rewards/tag_count_reward": 0.9674479365348816,
       "step": 558
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.82292556762695,
+      "completion_length": 208.06250762939453,
       "epoch": 0.838395200599925,
-      "grad_norm": 1.3529276790590763,
-      "kl": 0.50244140625,
+      "grad_norm": 11.917922673045826,
+      "kl": 2.44091796875,
       "learning_rate": 1.533754714838408e-06,
-      "loss": 0.7146,
-      "reward": 2.5260643362998962,
-      "reward_std": 0.6827712506055832,
-      "rewards/accuracy_reward": 0.7083333432674408,
-      "rewards/reasoning_steps_reward": 0.953125,
-      "rewards/repetition_penalty_reward": -0.07810238003730774,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.1954,
+      "reward": 2.4975586533546448,
+      "reward_std": 0.44412345439195633,
+      "rewards/accuracy_reward": 0.5937500149011612,
+      "rewards/reasoning_steps_reward": 0.9635416865348816,
+      "rewards/repetition_penalty_reward": -0.02848310861736536,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 559
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 295.43750762939453,
+      "completion_length": 259.4427185058594,
       "epoch": 0.8398950131233596,
-      "grad_norm": 1.3595681175219,
-      "kl": 0.5419921875,
+      "grad_norm": 4.400151882822108,
+      "kl": 2.544921875,
       "learning_rate": 1.5059593256342142e-06,
-      "loss": 0.5809,
-      "reward": 2.471269369125366,
-      "reward_std": 0.7434787154197693,
-      "rewards/accuracy_reward": 0.7239583507180214,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.14852236676961184,
-      "rewards/tag_count_reward": 0.9218750149011612,
+      "loss": 0.0563,
+      "reward": 2.6064106225967407,
+      "reward_std": 0.4480983540415764,
+      "rewards/accuracy_reward": 0.7187500149011612,
+      "rewards/reasoning_steps_reward": 0.9722222238779068,
+      "rewards/repetition_penalty_reward": -0.05331165995448828,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 560
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.3073043823242,
+      "completion_length": 234.78646850585938,
       "epoch": 0.8413948256467941,
-      "grad_norm": 3.39049441324729,
-      "kl": 0.57568359375,
+      "grad_norm": 4.108382543830119,
+      "kl": 3.171875,
       "learning_rate": 1.4783975830170028e-06,
-      "loss": 0.7564,
-      "reward": 2.414111316204071,
-      "reward_std": 0.9404040277004242,
-      "rewards/accuracy_reward": 0.6875000149011612,
-      "rewards/reasoning_steps_reward": 0.9392361491918564,
-      "rewards/repetition_penalty_reward": -0.1253854325041175,
-      "rewards/tag_count_reward": 0.9127604365348816,
+      "loss": 0.6147,
+      "reward": 2.4788121581077576,
+      "reward_std": 0.5859697312116623,
+      "rewards/accuracy_reward": 0.614583358168602,
+      "rewards/reasoning_steps_reward": 0.967013880610466,
+      "rewards/repetition_penalty_reward": -0.046795559115707874,
+      "rewards/tag_count_reward": 0.9440104514360428,
       "step": 561
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 256.3125114440918,
+      "completion_length": 219.51042938232422,
       "epoch": 0.8428946381702287,
-      "grad_norm": 2.8979024715584325,
-      "kl": 0.689453125,
+      "grad_norm": 3.9632943549968522,
+      "kl": 2.30029296875,
       "learning_rate": 1.4510702451309055e-06,
-      "loss": 0.8145,
-      "reward": 2.4051551818847656,
-      "reward_std": 0.7071145176887512,
-      "rewards/accuracy_reward": 0.6250000298023224,
-      "rewards/reasoning_steps_reward": 0.972222238779068,
-      "rewards/repetition_penalty_reward": -0.12175463326275349,
-      "rewards/tag_count_reward": 0.9296875149011612,
+      "loss": 0.2233,
+      "reward": 2.5965715646743774,
+      "reward_std": 0.48612427711486816,
+      "rewards/accuracy_reward": 0.7239583730697632,
+      "rewards/reasoning_steps_reward": 0.9600694924592972,
+      "rewards/repetition_penalty_reward": -0.04578963201493025,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 562
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.7708435058594,
+      "completion_length": 234.33855438232422,
       "epoch": 0.8443944506936633,
-      "grad_norm": 1.408501605320147,
-      "kl": 0.505859375,
+      "grad_norm": 12.689273098315706,
+      "kl": 2.89453125,
       "learning_rate": 1.4239780636722555e-06,
-      "loss": 0.7652,
-      "reward": 2.3463268280029297,
-      "reward_std": 0.7379028648138046,
-      "rewards/accuracy_reward": 0.5625000149011612,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.11374275013804436,
-      "rewards/tag_count_reward": 0.9322916865348816,
+      "loss": 0.5173,
+      "reward": 2.568632483482361,
+      "reward_std": 0.4845578037202358,
+      "rewards/accuracy_reward": 0.6875000074505806,
+      "rewards/reasoning_steps_reward": 0.9756944924592972,
+      "rewards/repetition_penalty_reward": -0.05029124254360795,
+      "rewards/tag_count_reward": 0.9557292014360428,
       "step": 563
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 273.82813262939453,
+      "completion_length": 255.00521087646484,
       "epoch": 0.8458942632170978,
-      "grad_norm": 2.6676821866666742,
-      "kl": 0.42431640625,
+      "grad_norm": 22.887883651104566,
+      "kl": 2.71875,
       "learning_rate": 1.39712178386891e-06,
-      "loss": 0.8024,
-      "reward": 2.43689888715744,
-      "reward_std": 0.8974379524588585,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.928819477558136,
-      "rewards/repetition_penalty_reward": -0.13905610889196396,
-      "rewards/tag_count_reward": 0.907552108168602,
+      "loss": 0.7815,
+      "reward": 2.606330990791321,
+      "reward_std": 0.6394063234329224,
+      "rewards/accuracy_reward": 0.7500000298023224,
+      "rewards/reasoning_steps_reward": 0.9618056118488312,
+      "rewards/repetition_penalty_reward": -0.05859959963709116,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 564
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 264.0989685058594,
+      "completion_length": 291.60939025878906,
       "epoch": 0.8473940757405324,
-      "grad_norm": 0.8627370825958761,
-      "kl": 0.43115234375,
+      "grad_norm": 26.21108108487782,
+      "kl": 7.546875,
       "learning_rate": 1.3705021444597521e-06,
-      "loss": 0.7752,
-      "reward": 2.607667088508606,
-      "reward_std": 0.782805323600769,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.11672540940344334,
-      "rewards/tag_count_reward": 0.9309895932674408,
+      "loss": 1.1027,
+      "reward": 2.4728458523750305,
+      "reward_std": 0.6928077340126038,
+      "rewards/accuracy_reward": 0.6406250149011612,
+      "rewards/reasoning_steps_reward": 0.96180559694767,
+      "rewards/repetition_penalty_reward": -0.07489718683063984,
+      "rewards/tag_count_reward": 0.9453125149011612,
       "step": 565
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 273.8802185058594,
+      "completion_length": 201.21875381469727,
       "epoch": 0.8488938882639671,
-      "grad_norm": 0.9159232949782135,
-      "kl": 0.4345703125,
+      "grad_norm": 3.5925945801436803,
+      "kl": 2.39453125,
       "learning_rate": 1.344119877674368e-06,
-      "loss": 0.9667,
-      "reward": 2.3450130224227905,
-      "reward_std": 0.9461807906627655,
-      "rewards/accuracy_reward": 0.6250000149011612,
-      "rewards/reasoning_steps_reward": 0.9375000149011612,
-      "rewards/repetition_penalty_reward": -0.1341537069529295,
-      "rewards/tag_count_reward": 0.9166667014360428,
+      "loss": 0.301,
+      "reward": 2.4886980652809143,
+      "reward_std": 0.45957837253808975,
+      "rewards/accuracy_reward": 0.5885416865348816,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.036041736137121916,
+      "rewards/tag_count_reward": 0.9674479216337204,
       "step": 566
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 273.5364685058594,
+      "completion_length": 256.2395896911621,
       "epoch": 0.8503937007874016,
-      "grad_norm": 0.9183785293807163,
-      "kl": 0.412109375,
+      "grad_norm": 20.274471532130267,
+      "kl": 5.91796875,
       "learning_rate": 1.3179757092129087e-06,
-      "loss": 0.7443,
-      "reward": 2.350478619337082,
-      "reward_std": 0.8575991243124008,
-      "rewards/accuracy_reward": 0.6250000223517418,
-      "rewards/reasoning_steps_reward": 0.9322917014360428,
-      "rewards/repetition_penalty_reward": -0.13129226304590702,
-      "rewards/tag_count_reward": 0.9244791865348816,
+      "loss": 1.0635,
+      "reward": 2.3603609800338745,
+      "reward_std": 0.6862609535455704,
+      "rewards/accuracy_reward": 0.5625000260770321,
+      "rewards/reasoning_steps_reward": 0.9513889104127884,
+      "rewards/repetition_penalty_reward": -0.06238204799592495,
+      "rewards/tag_count_reward": 0.9088541865348816,
       "step": 567
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 260.76563262939453,
+      "completion_length": 226.59375762939453,
       "epoch": 0.8518935133108362,
-      "grad_norm": 0.7672423282948194,
-      "kl": 0.32177734375,
+      "grad_norm": 9.701437197347186,
+      "kl": 8.5390625,
       "learning_rate": 1.292070358226124e-06,
-      "loss": 0.6237,
-      "reward": 2.4249655306339264,
-      "reward_std": 0.6657977253198624,
-      "rewards/accuracy_reward": 0.6302083507180214,
-      "rewards/reasoning_steps_reward": 0.9652778208255768,
-      "rewards/repetition_penalty_reward": -0.11583315394818783,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.3018,
+      "reward": 2.3854750990867615,
+      "reward_std": 0.6592359095811844,
+      "rewards/accuracy_reward": 0.5416666939854622,
+      "rewards/reasoning_steps_reward": 0.9565972536802292,
+      "rewards/repetition_penalty_reward": -0.05028895568102598,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 568
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 242.81250762939453,
+      "completion_length": 210.29687881469727,
       "epoch": 0.8533933258342707,
-      "grad_norm": 1.510802559149807,
-      "kl": 0.3408203125,
+      "grad_norm": 10.655977657198079,
+      "kl": 3.45703125,
       "learning_rate": 1.2664045372955858e-06,
-      "loss": 0.8092,
-      "reward": 2.3671931624412537,
-      "reward_std": 0.747007891535759,
-      "rewards/accuracy_reward": 0.5677083507180214,
-      "rewards/reasoning_steps_reward": 0.9583333730697632,
-      "rewards/repetition_penalty_reward": -0.10155703499913216,
-      "rewards/tag_count_reward": 0.942708358168602,
+      "loss": 0.6047,
+      "reward": 2.418867766857147,
+      "reward_std": 0.6335871517658234,
+      "rewards/accuracy_reward": 0.5729166865348816,
+      "rewards/reasoning_steps_reward": 0.9548611491918564,
+      "rewards/repetition_penalty_reward": -0.045107895508408546,
+      "rewards/tag_count_reward": 0.9361979365348816,
       "step": 569
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 245.81250762939453,
+      "completion_length": 277.40625762939453,
       "epoch": 0.8548931383577053,
-      "grad_norm": 1.2507925070262236,
-      "kl": 0.45947265625,
+      "grad_norm": 11.027587159101916,
+      "kl": 6.21484375,
       "learning_rate": 1.2409789524140813e-06,
-      "loss": 0.7475,
-      "reward": 2.5338348150253296,
-      "reward_std": 0.7423350065946579,
-      "rewards/accuracy_reward": 0.7500000298023224,
-      "rewards/reasoning_steps_reward": 0.9461805820465088,
-      "rewards/repetition_penalty_reward": -0.10375208128243685,
-      "rewards/tag_count_reward": 0.9414062798023224,
+      "loss": 0.854,
+      "reward": 2.5739906430244446,
+      "reward_std": 0.7429305166006088,
+      "rewards/accuracy_reward": 0.770833358168602,
+      "rewards/reasoning_steps_reward": 0.935763955116272,
+      "rewards/repetition_penalty_reward": -0.06750249583274126,
+      "rewards/tag_count_reward": 0.934895858168602,
       "step": 570
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 252.5000114440918,
+      "completion_length": 266.0937614440918,
       "epoch": 0.8563929508811399,
-      "grad_norm": 0.898004858587946,
-      "kl": 0.33984375,
+      "grad_norm": 14.64342890452312,
+      "kl": 9.6875,
       "learning_rate": 1.2157943029661977e-06,
-      "loss": 0.7782,
-      "reward": 2.514720618724823,
-      "reward_std": 0.7610578685998917,
-      "rewards/accuracy_reward": 0.7343750298023224,
-      "rewards/reasoning_steps_reward": 0.9548611491918564,
-      "rewards/repetition_penalty_reward": -0.1081093717366457,
-      "rewards/tag_count_reward": 0.9335937649011612,
+      "loss": 0.9433,
+      "reward": 2.343918889760971,
+      "reward_std": 0.8442835658788681,
+      "rewards/accuracy_reward": 0.6510416716337204,
+      "rewards/reasoning_steps_reward": 0.8923611491918564,
+      "rewards/repetition_penalty_reward": -0.0770882060751319,
+      "rewards/tag_count_reward": 0.8776041865348816,
       "step": 571
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.18750762939453,
+      "completion_length": 190.70312881469727,
       "epoch": 0.8578927634045744,
-      "grad_norm": 1.539413571101912,
-      "kl": 0.33935546875,
+      "grad_norm": 4.726128645967551,
+      "kl": 1.662109375,
       "learning_rate": 1.1908512817090833e-06,
-      "loss": 0.8174,
-      "reward": 2.4172632098197937,
-      "reward_std": 0.6794392615556717,
-      "rewards/accuracy_reward": 0.5520833432674408,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.06580978166311979,
-      "rewards/tag_count_reward": 0.962239608168602,
+      "loss": 0.2499,
+      "reward": 2.4979942440986633,
+      "reward_std": 0.40954509750008583,
+      "rewards/accuracy_reward": 0.5937500223517418,
+      "rewards/reasoning_steps_reward": 0.9826389253139496,
+      "rewards/repetition_penalty_reward": -0.032821862027049065,
+      "rewards/tag_count_reward": 0.954427108168602,
       "step": 572
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 240.3072967529297,
+      "completion_length": 229.52605056762695,
       "epoch": 0.859392575928009,
-      "grad_norm": 0.8770707592548431,
-      "kl": 0.335205078125,
+      "grad_norm": 5.56550512002148,
+      "kl": 2.75390625,
       "learning_rate": 1.1661505747533897e-06,
-      "loss": 0.5468,
-      "reward": 2.615067780017853,
-      "reward_std": 0.6282743141055107,
-      "rewards/accuracy_reward": 0.78125,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.09066134784370661,
-      "rewards/tag_count_reward": 0.9505208432674408,
+      "loss": 0.3795,
+      "reward": 2.5485902428627014,
+      "reward_std": 0.7243528515100479,
+      "rewards/accuracy_reward": 0.7343750149011612,
+      "rewards/reasoning_steps_reward": 0.9288194626569748,
+      "rewards/repetition_penalty_reward": -0.048198044300079346,
+      "rewards/tag_count_reward": 0.9335937649011612,
       "step": 573
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 207.15625762939453,
+      "completion_length": 243.60938262939453,
       "epoch": 0.8608923884514436,
-      "grad_norm": 0.952206754417322,
-      "kl": 0.29248046875,
+      "grad_norm": 7.741451341316265,
+      "kl": 3.44140625,
       "learning_rate": 1.1416928615444013e-06,
-      "loss": 0.4348,
-      "reward": 2.639313220977783,
-      "reward_std": 0.514240987598896,
-      "rewards/accuracy_reward": 0.7447916865348816,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.054697235114872456,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.5439,
+      "reward": 2.4548073410987854,
+      "reward_std": 0.7477606385946274,
+      "rewards/accuracy_reward": 0.6406250298023224,
+      "rewards/reasoning_steps_reward": 0.9531250596046448,
+      "rewards/repetition_penalty_reward": -0.05040103476494551,
+      "rewards/tag_count_reward": 0.911458358168602,
       "step": 574
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.3072967529297,
+      "completion_length": 239.36459350585938,
       "epoch": 0.8623922009748781,
-      "grad_norm": 0.9603023631517865,
-      "kl": 0.35107421875,
+      "grad_norm": 12.69637648259022,
+      "kl": 5.462890625,
       "learning_rate": 1.1174788148433423e-06,
-      "loss": 0.4322,
-      "reward": 2.698141098022461,
-      "reward_std": 0.5075501780956984,
-      "rewards/accuracy_reward": 0.8541667014360428,
-      "rewards/reasoning_steps_reward": 0.9704861342906952,
-      "rewards/repetition_penalty_reward": -0.08093887567520142,
-      "rewards/tag_count_reward": 0.9544270932674408,
+      "loss": 0.7872,
+      "reward": 2.5563725233078003,
+      "reward_std": 0.7221258133649826,
+      "rewards/accuracy_reward": 0.7760416716337204,
+      "rewards/reasoning_steps_reward": 0.9184028208255768,
+      "rewards/repetition_penalty_reward": -0.0625512283295393,
+      "rewards/tag_count_reward": 0.9244792014360428,
       "step": 575
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.0677146911621,
+      "completion_length": 232.67708587646484,
       "epoch": 0.8638920134983127,
-      "grad_norm": 1.2989707455803579,
-      "kl": 0.3115234375,
+      "grad_norm": 6.651240220699383,
+      "kl": 2.841796875,
       "learning_rate": 1.0935091007088761e-06,
-      "loss": 0.7183,
-      "reward": 2.5909855365753174,
-      "reward_std": 0.5980718731880188,
-      "rewards/accuracy_reward": 0.7447916716337204,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.08566383551806211,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.5463,
+      "reward": 2.4423410296440125,
+      "reward_std": 0.6437135934829712,
+      "rewards/accuracy_reward": 0.619791679084301,
+      "rewards/reasoning_steps_reward": 0.9409722238779068,
+      "rewards/repetition_penalty_reward": -0.0559229115024209,
+      "rewards/tag_count_reward": 0.9375000298023224,
       "step": 576
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.7135467529297,
+      "completion_length": 215.6822967529297,
       "epoch": 0.8653918260217472,
-      "grad_norm": 1.2239167370700748,
-      "kl": 0.29150390625,
+      "grad_norm": 9.069503918590028,
+      "kl": 3.73046875,
       "learning_rate": 1.069784378478781e-06,
-      "loss": 0.6738,
-      "reward": 2.5854490995407104,
-      "reward_std": 0.7286294102668762,
-      "rewards/accuracy_reward": 0.7291666865348816,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.07123497780412436,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.5511,
+      "reward": 2.417185962200165,
+      "reward_std": 0.6344876810908318,
+      "rewards/accuracy_reward": 0.6093750223517418,
+      "rewards/reasoning_steps_reward": 0.9340277761220932,
+      "rewards/repetition_penalty_reward": -0.04809193778783083,
+      "rewards/tag_count_reward": 0.9218750149011612,
       "step": 577
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 201.0989646911621,
+      "completion_length": 210.9166717529297,
       "epoch": 0.8668916385451818,
-      "grad_norm": 2.135809055954815,
-      "kl": 0.3212890625,
+      "grad_norm": 3.9657531302416285,
+      "kl": 2.365234375,
       "learning_rate": 1.046305300751811e-06,
-      "loss": 0.679,
-      "reward": 2.635705530643463,
-      "reward_std": 0.49747517332434654,
-      "rewards/accuracy_reward": 0.7395833507180214,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.05787099711596966,
-      "rewards/tag_count_reward": 0.9713542014360428,
+      "loss": 0.2354,
+      "reward": 2.5444520115852356,
+      "reward_std": 0.678747646510601,
+      "rewards/accuracy_reward": 0.7135416865348816,
+      "rewards/reasoning_steps_reward": 0.9531250149011612,
+      "rewards/repetition_penalty_reward": -0.0466939271427691,
+      "rewards/tag_count_reward": 0.9244791716337204,
       "step": 578
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.46875381469727,
+      "completion_length": 248.43750381469727,
       "epoch": 0.8683914510686164,
-      "grad_norm": 1.1578027094404484,
-      "kl": 0.3466796875,
+      "grad_norm": 13.803690175273248,
+      "kl": 3.46484375,
       "learning_rate": 1.0230725133697495e-06,
-      "loss": 0.7601,
-      "reward": 2.575222373008728,
-      "reward_std": 0.6852890402078629,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.9652777761220932,
-      "rewards/repetition_penalty_reward": -0.0905762929469347,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.7416,
+      "reward": 2.505746603012085,
+      "reward_std": 0.6760745644569397,
+      "rewards/accuracy_reward": 0.692708358168602,
+      "rewards/reasoning_steps_reward": 0.947916716337204,
+      "rewards/repetition_penalty_reward": -0.05935762915760279,
+      "rewards/tag_count_reward": 0.9244792014360428,
       "step": 579
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.43750762939453,
+      "completion_length": 222.7552146911621,
       "epoch": 0.869891263592051,
-      "grad_norm": 0.7213394754759388,
-      "kl": 0.404296875,
+      "grad_norm": 6.038364170548584,
+      "kl": 1.857421875,
       "learning_rate": 1.0000866553996436e-06,
-      "loss": 0.5595,
-      "reward": 2.5885783433914185,
-      "reward_std": 0.6372941508889198,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.06767181493341923,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "loss": 0.3797,
+      "reward": 2.563169300556183,
+      "reward_std": 0.49185874313116074,
+      "rewards/accuracy_reward": 0.6822916865348816,
+      "rewards/reasoning_steps_reward": 0.958333358168602,
+      "rewards/repetition_penalty_reward": -0.0383933181874454,
+      "rewards/tag_count_reward": 0.9609375298023224,
       "step": 580
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 193.3697967529297,
+      "completion_length": 206.24480056762695,
       "epoch": 0.8713910761154856,
-      "grad_norm": 352.68134893034215,
-      "kl": 4.25341796875,
+      "grad_norm": 2.7457030988838373,
+      "kl": 2.619140625,
       "learning_rate": 9.773483591162203e-07,
-      "loss": 1.1519,
-      "reward": 2.7451828718185425,
-      "reward_std": 0.4861754924058914,
-      "rewards/accuracy_reward": 0.8593750149011612,
-      "rewards/reasoning_steps_reward": 0.9722222238779068,
-      "rewards/repetition_penalty_reward": -0.05646645650267601,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.3962,
+      "reward": 2.5448489785194397,
+      "reward_std": 0.5937497019767761,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9635417014360428,
+      "rewards/repetition_penalty_reward": -0.04499485623091459,
+      "rewards/tag_count_reward": 0.938802108168602,
       "step": 581
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.60938262939453,
+      "completion_length": 204.1354217529297,
       "epoch": 0.8728908886389202,
-      "grad_norm": 1.0240611001356141,
-      "kl": 0.33935546875,
+      "grad_norm": 3.9924980474405847,
+      "kl": 3.34765625,
       "learning_rate": 9.548582499845015e-07,
-      "loss": 0.4393,
-      "reward": 2.83210825920105,
-      "reward_std": 0.46040425822138786,
-      "rewards/accuracy_reward": 0.9479167014360428,
-      "rewards/reasoning_steps_reward": 0.9774305522441864,
-      "rewards/repetition_penalty_reward": -0.06329114036634564,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.0155,
+      "reward": 2.46910959482193,
+      "reward_std": 0.7316218465566635,
+      "rewards/accuracy_reward": 0.6718750298023224,
+      "rewards/reasoning_steps_reward": 0.9114583730697632,
+      "rewards/repetition_penalty_reward": -0.04260919149965048,
+      "rewards/tag_count_reward": 0.9283854365348816,
       "step": 582
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.89062881469727,
+      "completion_length": 185.3177146911621,
       "epoch": 0.8743907011623547,
-      "grad_norm": 0.898626007525376,
-      "kl": 0.32861328125,
+      "grad_norm": 3.3857582260464882,
+      "kl": 1.8125,
       "learning_rate": 9.326169466425916e-07,
-      "loss": 0.7951,
-      "reward": 2.764460861682892,
-      "reward_std": 0.6820637285709381,
-      "rewards/accuracy_reward": 0.9062500149011612,
-      "rewards/reasoning_steps_reward": 0.9687500298023224,
-      "rewards/repetition_penalty_reward": -0.07408086117357016,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.2775,
+      "reward": 2.697448194026947,
+      "reward_std": 0.5078239142894745,
+      "rewards/accuracy_reward": 0.7760416865348816,
+      "rewards/reasoning_steps_reward": 0.9843750149011612,
+      "rewards/repetition_penalty_reward": -0.03432267066091299,
+      "rewards/tag_count_reward": 0.9713541865348816,
       "step": 583
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 203.23437881469727,
+      "completion_length": 206.1875,
       "epoch": 0.8758905136857893,
-      "grad_norm": 1.0744117383136889,
-      "kl": 0.33251953125,
+      "grad_norm": 11.742745507237299,
+      "kl": 2.9140625,
       "learning_rate": 9.106250608846679e-07,
-      "loss": 0.4911,
-      "reward": 2.625205934047699,
-      "reward_std": 0.5258033722639084,
-      "rewards/accuracy_reward": 0.739583358168602,
-      "rewards/reasoning_steps_reward": 0.9774305671453476,
-      "rewards/repetition_penalty_reward": -0.05795381683856249,
-      "rewards/tag_count_reward": 0.966145858168602,
+      "loss": 0.5072,
+      "reward": 2.6075586080551147,
+      "reward_std": 0.620074912905693,
+      "rewards/accuracy_reward": 0.7343750149011612,
+      "rewards/reasoning_steps_reward": 0.9600694924592972,
+      "rewards/repetition_penalty_reward": -0.036104677245020866,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 584
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 251.5260467529297,
+      "completion_length": 217.8541717529297,
       "epoch": 0.8773903262092239,
-      "grad_norm": 1.325096473638462,
-      "kl": 0.3818359375,
+      "grad_norm": 2.2041577561531684,
+      "kl": 2.1953125,
       "learning_rate": 8.888831976441481e-07,
-      "loss": 0.5365,
-      "reward": 2.3645836114883423,
-      "reward_std": 0.6718242466449738,
-      "rewards/accuracy_reward": 0.5833333432674408,
-      "rewards/reasoning_steps_reward": 0.9531250149011612,
-      "rewards/repetition_penalty_reward": -0.10026027075946331,
-      "rewards/tag_count_reward": 0.9283854365348816,
+      "loss": 0.4111,
+      "reward": 2.6042516231536865,
+      "reward_std": 0.47759709507226944,
+      "rewards/accuracy_reward": 0.6822916865348816,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.03159915190190077,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 585
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.04166793823242,
+      "completion_length": 205.8229217529297,
       "epoch": 0.8788901387326584,
-      "grad_norm": 0.7704092563337279,
-      "kl": 0.35693359375,
+      "grad_norm": 4.274612409465976,
+      "kl": 2.3701171875,
       "learning_rate": 8.673919549770483e-07,
-      "loss": 0.6,
-      "reward": 2.743525743484497,
-      "reward_std": 0.6834591180086136,
-      "rewards/accuracy_reward": 0.9010416865348816,
-      "rewards/reasoning_steps_reward": 0.96180559694767,
-      "rewards/repetition_penalty_reward": -0.07505077961832285,
-      "rewards/tag_count_reward": 0.9557292014360428,
+      "loss": 0.3398,
+      "reward": 2.611320972442627,
+      "reward_std": 0.5121708884835243,
+      "rewards/accuracy_reward": 0.7291666865348816,
+      "rewards/reasoning_steps_reward": 0.960069477558136,
+      "rewards/repetition_penalty_reward": -0.044061001390218735,
+      "rewards/tag_count_reward": 0.9661458432674408,
       "step": 586
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 230.9010467529297,
+      "completion_length": 202.00521087646484,
       "epoch": 0.880389951256093,
-      "grad_norm": 5.725122628830429,
-      "kl": 0.403564453125,
+      "grad_norm": 3.736601399113756,
+      "kl": 2.330078125,
       "learning_rate": 8.461519240455362e-07,
-      "loss": 0.6512,
-      "reward": 2.6582990884780884,
-      "reward_std": 0.676504597067833,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.08388850279152393,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.3635,
+      "reward": 2.6235088109970093,
+      "reward_std": 0.5086311176419258,
+      "rewards/accuracy_reward": 0.7187500149011612,
+      "rewards/reasoning_steps_reward": 0.986111119389534,
+      "rewards/repetition_penalty_reward": -0.037081570364534855,
+      "rewards/tag_count_reward": 0.9557291716337204,
       "step": 587
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.5572967529297,
+      "completion_length": 209.96355056762695,
       "epoch": 0.8818897637795275,
-      "grad_norm": 0.6438408724607655,
-      "kl": 0.33056640625,
+      "grad_norm": 17.45784244105432,
+      "kl": 20.078125,
       "learning_rate": 8.251636891016702e-07,
-      "loss": 0.6033,
-      "reward": 2.701736092567444,
-      "reward_std": 0.5977243855595589,
-      "rewards/accuracy_reward": 0.8489583432674408,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.074305709451437,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.5062,
+      "reward": 2.5059803128242493,
+      "reward_std": 0.631468877196312,
+      "rewards/accuracy_reward": 0.6354166865348816,
+      "rewards/reasoning_steps_reward": 0.9618055522441864,
+      "rewards/repetition_penalty_reward": -0.037856731098145247,
+      "rewards/tag_count_reward": 0.9466146230697632,
       "step": 588
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.6458396911621,
+      "completion_length": 219.26042556762695,
       "epoch": 0.8833895763029621,
-      "grad_norm": 0.6460605343575523,
-      "kl": 0.360595703125,
+      "grad_norm": 2.4924144055714925,
+      "kl": 2.31640625,
       "learning_rate": 8.044278274713246e-07,
-      "loss": 0.6139,
-      "reward": 2.7414156198501587,
-      "reward_std": 0.5733753256499767,
+      "loss": 0.6179,
+      "reward": 2.7582138180732727,
+      "reward_std": 0.4812832549214363,
       "rewards/accuracy_reward": 0.8697916865348816,
-      "rewards/reasoning_steps_reward": 0.9739583730697632,
-      "rewards/repetition_penalty_reward": -0.06717826426029205,
+      "rewards/reasoning_steps_reward": 0.9722222685813904,
+      "rewards/repetition_penalty_reward": -0.048643797636032104,
       "rewards/tag_count_reward": 0.9648437649011612,
       "step": 589
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.70313262939453,
+      "completion_length": 213.8072967529297,
       "epoch": 0.8848893888263967,
-      "grad_norm": 0.7977081741142966,
-      "kl": 0.2939453125,
+      "grad_norm": 4.087042616486125,
+      "kl": 2.037109375,
       "learning_rate": 7.839449095383111e-07,
-      "loss": 0.6594,
-      "reward": 2.5514962673187256,
-      "reward_std": 0.6692121252417564,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9635417014360428,
-      "rewards/repetition_penalty_reward": -0.07741007022559643,
-      "rewards/tag_count_reward": 0.95703125,
+      "loss": 0.4912,
+      "reward": 2.69020676612854,
+      "reward_std": 0.5107688158750534,
+      "rewards/accuracy_reward": 0.786458358168602,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.04026202671229839,
+      "rewards/tag_count_reward": 0.9648437798023224,
       "step": 590
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.4739646911621,
+      "completion_length": 220.7447967529297,
       "epoch": 0.8863892013498312,
-      "grad_norm": 0.6568761050630232,
-      "kl": 0.31201171875,
+      "grad_norm": 14.915815383649845,
+      "kl": 2.236328125,
       "learning_rate": 7.637154987286888e-07,
-      "loss": 0.4408,
-      "reward": 2.6473821997642517,
-      "reward_std": 0.49707260727882385,
-      "rewards/accuracy_reward": 0.7656250149011612,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.0652914484962821,
-      "rewards/tag_count_reward": 0.9713541865348816,
+      "loss": 0.4128,
+      "reward": 2.6318877935409546,
+      "reward_std": 0.41991502046585083,
+      "rewards/accuracy_reward": 0.7343750298023224,
+      "rewards/reasoning_steps_reward": 0.9826389104127884,
+      "rewards/repetition_penalty_reward": -0.04476172663271427,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 591
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.76562881469727,
+      "completion_length": 212.46875762939453,
       "epoch": 0.8878890138732658,
-      "grad_norm": 1.190854319926877,
-      "kl": 0.37451171875,
+      "grad_norm": 6.050727563412662,
+      "kl": 2.1787109375,
       "learning_rate": 7.437401514952646e-07,
-      "loss": 0.8083,
-      "reward": 2.5822657346725464,
-      "reward_std": 0.691101536154747,
-      "rewards/accuracy_reward": 0.7552083432674408,
-      "rewards/reasoning_steps_reward": 0.973958358168602,
-      "rewards/repetition_penalty_reward": -0.0974218100309372,
-      "rewards/tag_count_reward": 0.9505208432674408,
+      "loss": 0.3731,
+      "reward": 2.4536707997322083,
+      "reward_std": 0.4574524015188217,
+      "rewards/accuracy_reward": 0.5729166716337204,
+      "rewards/reasoning_steps_reward": 0.9704861342906952,
+      "rewards/repetition_penalty_reward": -0.04676327481865883,
+      "rewards/tag_count_reward": 0.9570312798023224,
       "step": 592
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.5312614440918,
+      "completion_length": 222.2552146911621,
       "epoch": 0.8893888263967004,
-      "grad_norm": 0.9514705424643457,
-      "kl": 0.33349609375,
+      "grad_norm": 9.16124525709699,
+      "kl": 4.005859375,
       "learning_rate": 7.240194173022941e-07,
-      "loss": 0.5884,
-      "reward": 2.755159914493561,
-      "reward_std": 0.5876848474144936,
-      "rewards/accuracy_reward": 0.9218750149011612,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.08945825602859259,
-      "rewards/tag_count_reward": 0.9557292014360428,
+      "loss": 0.5731,
+      "reward": 2.6355690360069275,
+      "reward_std": 0.5524905323982239,
+      "rewards/accuracy_reward": 0.7812500149011612,
+      "rewards/reasoning_steps_reward": 0.963541716337204,
+      "rewards/repetition_penalty_reward": -0.05713945999741554,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 593
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 208.0208396911621,
+      "completion_length": 231.3489646911621,
       "epoch": 0.890888638920135,
-      "grad_norm": 3.0869314018149523,
-      "kl": 0.38623046875,
+      "grad_norm": 22.380535968926747,
+      "kl": 3.015625,
       "learning_rate": 7.045538386103579e-07,
-      "loss": 0.4621,
-      "reward": 2.473863959312439,
-      "reward_std": 0.5747430324554443,
-      "rewards/accuracy_reward": 0.6093750149011612,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.06650061067193747,
-      "rewards/tag_count_reward": 0.962239608168602,
+      "loss": 0.4854,
+      "reward": 2.4118546843528748,
+      "reward_std": 0.6012802645564079,
+      "rewards/accuracy_reward": 0.5677083507180214,
+      "rewards/reasoning_steps_reward": 0.9600694477558136,
+      "rewards/repetition_penalty_reward": -0.057329487055540085,
+      "rewards/tag_count_reward": 0.9414062798023224,
       "step": 594
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.0052146911621,
+      "completion_length": 268.4322967529297,
       "epoch": 0.8923884514435696,
-      "grad_norm": 0.7131069872089879,
-      "kl": 0.281494140625,
+      "grad_norm": 3.774203451456834,
+      "kl": 3.220703125,
       "learning_rate": 6.853439508614412e-07,
-      "loss": 0.4492,
-      "reward": 2.5537226796150208,
-      "reward_std": 0.550928995013237,
-      "rewards/accuracy_reward": 0.6927083432674408,
-      "rewards/reasoning_steps_reward": 0.9704861491918564,
-      "rewards/repetition_penalty_reward": -0.07040940225124359,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.6382,
+      "reward": 2.497507393360138,
+      "reward_std": 0.5804141908884048,
+      "rewards/accuracy_reward": 0.6510416865348816,
+      "rewards/reasoning_steps_reward": 0.9739583283662796,
+      "rewards/repetition_penalty_reward": -0.06759683508425951,
+      "rewards/tag_count_reward": 0.9401041865348816,
       "step": 595
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.3333396911621,
+      "completion_length": 195.17709350585938,
       "epoch": 0.8938882639670042,
-      "grad_norm": 1.0361329256509342,
-      "kl": 0.32666015625,
+      "grad_norm": 4.560347288059126,
+      "kl": 2.53125,
       "learning_rate": 6.663902824642132e-07,
-      "loss": 0.7393,
-      "reward": 2.6442973017692566,
-      "reward_std": 0.7471431717276573,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9635416716337204,
-      "rewards/repetition_penalty_reward": -0.08226529462262988,
-      "rewards/tag_count_reward": 0.9453125298023224,
+      "loss": 0.2865,
+      "reward": 2.6934563517570496,
+      "reward_std": 0.5186980329453945,
+      "rewards/accuracy_reward": 0.8281250149011612,
+      "rewards/reasoning_steps_reward": 0.9496527761220932,
+      "rewards/repetition_penalty_reward": -0.03614447545260191,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 596
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 197.64583587646484,
+      "completion_length": 251.75,
       "epoch": 0.8953880764904387,
-      "grad_norm": 0.8179894329191135,
-      "kl": 0.2880859375,
+      "grad_norm": 20.778553368266753,
+      "kl": 2.6484375,
       "learning_rate": 6.47693354779484e-07,
-      "loss": 0.3874,
-      "reward": 2.6881872415542603,
-      "reward_std": 0.4334303140640259,
-      "rewards/accuracy_reward": 0.7864583432674408,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.053132264874875546,
-      "rewards/tag_count_reward": 0.9791667014360428,
+      "loss": 0.6244,
+      "reward": 2.6013853549957275,
+      "reward_std": 0.6506573259830475,
+      "rewards/accuracy_reward": 0.7552083507180214,
+      "rewards/reasoning_steps_reward": 0.9635416716337204,
+      "rewards/repetition_penalty_reward": -0.0626771878451109,
+      "rewards/tag_count_reward": 0.9453125,
       "step": 597
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 226.76562881469727,
+      "completion_length": 249.87500762939453,
       "epoch": 0.8968878890138733,
-      "grad_norm": 1.1693577356428269,
-      "kl": 0.33154296875,
+      "grad_norm": 9.731098045072335,
+      "kl": 2.041015625,
       "learning_rate": 6.29253682105866e-07,
-      "loss": 0.4538,
-      "reward": 2.6256433725357056,
-      "reward_std": 0.4847990833222866,
-      "rewards/accuracy_reward": 0.7812500298023224,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.08789830794557929,
-      "rewards/tag_count_reward": 0.9531250149011612,
+      "loss": 0.4267,
+      "reward": 2.6623805165290833,
+      "reward_std": 0.5037910491228104,
+      "rewards/accuracy_reward": 0.7916667014360428,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.05940787214785814,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 598
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.71354293823242,
+      "completion_length": 239.6197967529297,
       "epoch": 0.8983877015373078,
-      "grad_norm": 53.704269130642075,
-      "kl": 0.4990234375,
+      "grad_norm": 8.23836216740641,
+      "kl": 2.60546875,
       "learning_rate": 6.110717716656289e-07,
-      "loss": 0.4649,
-      "reward": 2.6057077050209045,
-      "reward_std": 0.5076233521103859,
-      "rewards/accuracy_reward": 0.7187500223517418,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.058354973793029785,
-      "rewards/tag_count_reward": 0.9713541716337204,
+      "loss": 0.4356,
+      "reward": 2.4078712463378906,
+      "reward_std": 0.6441041380167007,
+      "rewards/accuracy_reward": 0.5677083432674408,
+      "rewards/reasoning_steps_reward": 0.9496528059244156,
+      "rewards/repetition_penalty_reward": -0.06001073541119695,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 599
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.81250381469727,
+      "completion_length": 233.6458396911621,
       "epoch": 0.8998875140607424,
-      "grad_norm": 1.8065228297910518,
-      "kl": 0.36083984375,
+      "grad_norm": 5.950701052370844,
+      "kl": 3.33203125,
       "learning_rate": 5.931481235907466e-07,
-      "loss": 0.5947,
-      "reward": 2.6084994673728943,
-      "reward_std": 0.6163917481899261,
-      "rewards/accuracy_reward": 0.7395833432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0698860315605998,
-      "rewards/tag_count_reward": 0.9596354216337204,
+      "loss": 0.5106,
+      "reward": 2.4382471442222595,
+      "reward_std": 0.7465489208698273,
+      "rewards/accuracy_reward": 0.6406250149011612,
+      "rewards/reasoning_steps_reward": 0.927083358168602,
+      "rewards/repetition_penalty_reward": -0.05394035950303078,
+      "rewards/tag_count_reward": 0.9244791865348816,
       "step": 600
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 242.0989646911621,
+      "completion_length": 232.4635467529297,
       "epoch": 0.901387326584177,
-      "grad_norm": 0.7642591170420632,
-      "kl": 0.32080078125,
+      "grad_norm": 8.835485931240282,
+      "kl": 3.53515625,
       "learning_rate": 5.754832309091362e-07,
-      "loss": 0.7586,
-      "reward": 2.654149353504181,
-      "reward_std": 0.6473118215799332,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.10366316325962543,
-      "rewards/tag_count_reward": 0.9505208730697632,
+      "loss": 0.6214,
+      "reward": 2.6882564425468445,
+      "reward_std": 0.6361054480075836,
+      "rewards/accuracy_reward": 0.833333358168602,
+      "rewards/reasoning_steps_reward": 0.9670139253139496,
+      "rewards/repetition_penalty_reward": -0.058705421164631844,
+      "rewards/tag_count_reward": 0.946614608168602,
       "step": 601
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 197.6666717529297,
+      "completion_length": 213.64584350585938,
       "epoch": 0.9028871391076115,
-      "grad_norm": 0.782148037165739,
-      "kl": 0.28662109375,
+      "grad_norm": 4.936233068343242,
+      "kl": 2.7421875,
       "learning_rate": 5.580775795311033e-07,
-      "loss": 0.541,
-      "reward": 2.641181170940399,
-      "reward_std": 0.4843425452709198,
-      "rewards/accuracy_reward": 0.7656250298023224,
-      "rewards/reasoning_steps_reward": 0.9687500149011612,
-      "rewards/repetition_penalty_reward": -0.05543356016278267,
-      "rewards/tag_count_reward": 0.9622395932674408,
+      "loss": 0.3129,
+      "reward": 2.5619428157806396,
+      "reward_std": 0.6096071302890778,
+      "rewards/accuracy_reward": 0.713541679084301,
+      "rewards/reasoning_steps_reward": 0.9513889402151108,
+      "rewards/repetition_penalty_reward": -0.04439397854730487,
+      "rewards/tag_count_reward": 0.9414062798023224,
       "step": 602
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 247.57812881469727,
+      "completion_length": 226.42188262939453,
       "epoch": 0.9043869516310461,
-      "grad_norm": 0.6409249324968989,
-      "kl": 0.29345703125,
+      "grad_norm": 4.234086119916309,
+      "kl": 3.302734375,
       "learning_rate": 5.409316482359694e-07,
-      "loss": 0.7317,
-      "reward": 2.541344404220581,
-      "reward_std": 0.7429018467664719,
-      "rewards/accuracy_reward": 0.723958358168602,
-      "rewards/reasoning_steps_reward": 0.9600694924592972,
-      "rewards/repetition_penalty_reward": -0.09320436045527458,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.4198,
+      "reward": 2.5895190834999084,
+      "reward_std": 0.5498283728957176,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.0471997894346714,
+      "rewards/tag_count_reward": 0.954427108168602,
       "step": 603
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 207.79688262939453,
+      "completion_length": 213.32291793823242,
       "epoch": 0.9058867641544807,
-      "grad_norm": 0.8747881283239337,
-      "kl": 0.3603515625,
+      "grad_norm": 11.124045036921478,
+      "kl": 3.056640625,
       "learning_rate": 5.240459086589056e-07,
-      "loss": 0.7424,
-      "reward": 2.6282320618629456,
-      "reward_std": 0.7034382522106171,
-      "rewards/accuracy_reward": 0.7968750298023224,
-      "rewards/reasoning_steps_reward": 0.9548611342906952,
-      "rewards/repetition_penalty_reward": -0.07662920840084553,
-      "rewards/tag_count_reward": 0.9531250149011612,
+      "loss": 0.5874,
+      "reward": 2.640231668949127,
+      "reward_std": 0.507370337843895,
+      "rewards/accuracy_reward": 0.7656250298023224,
+      "rewards/reasoning_steps_reward": 0.9722222089767456,
+      "rewards/repetition_penalty_reward": -0.04683440877124667,
+      "rewards/tag_count_reward": 0.9492187649011612,
       "step": 604
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 236.0885467529297,
+      "completion_length": 252.64064025878906,
       "epoch": 0.9073865766779152,
-      "grad_norm": 1.25088846306247,
-      "kl": 0.345703125,
+      "grad_norm": 8.760847362194967,
+      "kl": 3.0859375,
       "learning_rate": 5.074208252779589e-07,
-      "loss": 0.6663,
-      "reward": 2.4092161655426025,
-      "reward_std": 0.7467872053384781,
-      "rewards/accuracy_reward": 0.583333358168602,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.08427347056567669,
-      "rewards/tag_count_reward": 0.946614608168602,
+      "loss": 0.6574,
+      "reward": 2.524926483631134,
+      "reward_std": 0.6083704084157944,
+      "rewards/accuracy_reward": 0.630208358168602,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.048424381762742996,
+      "rewards/tag_count_reward": 0.962239608168602,
       "step": 605
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.01562881469727,
+      "completion_length": 255.46355056762695,
       "epoch": 0.9088863892013498,
-      "grad_norm": 0.9993410900248464,
-      "kl": 0.33935546875,
+      "grad_norm": 10.952534285750453,
+      "kl": 3.94921875,
       "learning_rate": 4.910568554012751e-07,
-      "loss": 0.6047,
-      "reward": 2.4471018314361572,
-      "reward_std": 0.4864268973469734,
-      "rewards/accuracy_reward": 0.5572917014360428,
-      "rewards/reasoning_steps_reward": 0.987847238779068,
-      "rewards/repetition_penalty_reward": -0.06808935943990946,
-      "rewards/tag_count_reward": 0.970052108168602,
+      "loss": 0.7252,
+      "reward": 2.4818572998046875,
+      "reward_std": 0.5148201733827591,
+      "rewards/accuracy_reward": 0.5937500149011612,
+      "rewards/reasoning_steps_reward": 0.9878472238779068,
+      "rewards/repetition_penalty_reward": -0.06067758519202471,
+      "rewards/tag_count_reward": 0.9609375298023224,
       "step": 606
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.16146850585938,
+      "completion_length": 201.06771087646484,
       "epoch": 0.9103862017247843,
-      "grad_norm": 1.6025896501489152,
-      "kl": 0.474609375,
+      "grad_norm": 9.032595902462477,
+      "kl": 3.17578125,
       "learning_rate": 4.749544491545199e-07,
-      "loss": 0.651,
-      "reward": 2.516863226890564,
-      "reward_std": 0.6264981552958488,
-      "rewards/accuracy_reward": 0.6770833507180214,
-      "rewards/reasoning_steps_reward": 0.9670139253139496,
-      "rewards/repetition_penalty_reward": -0.08166120201349258,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.5553,
+      "reward": 2.5263285636901855,
+      "reward_std": 0.5500727593898773,
+      "rewards/accuracy_reward": 0.6562500223517418,
+      "rewards/reasoning_steps_reward": 0.9687500149011612,
+      "rewards/repetition_penalty_reward": -0.046588233672082424,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 607
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 213.46875762939453,
+      "completion_length": 234.6510467529297,
       "epoch": 0.911886014248219,
-      "grad_norm": 0.8390719889566893,
-      "kl": 0.30908203125,
+      "grad_norm": 3.4371655420891853,
+      "kl": 2.94140625,
       "learning_rate": 4.591140494684965e-07,
-      "loss": 0.3055,
-      "reward": 2.4858875274658203,
-      "reward_std": 0.4557424336671829,
-      "rewards/accuracy_reward": 0.5989583432674408,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.060987500473856926,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "loss": 0.5164,
+      "reward": 2.340811610221863,
+      "reward_std": 0.4512625113129616,
+      "rewards/accuracy_reward": 0.4635416865348816,
+      "rewards/reasoning_steps_reward": 0.9774305671453476,
+      "rewards/repetition_penalty_reward": -0.05198352737352252,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 608
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.48958587646484,
+      "completion_length": 238.08333587646484,
       "epoch": 0.9133858267716536,
-      "grad_norm": 0.603093011230838,
-      "kl": 0.2841796875,
+      "grad_norm": 5.5444529742596265,
+      "kl": 2.482421875,
       "learning_rate": 4.435360920669618e-07,
-      "loss": 0.5458,
-      "reward": 2.7762425541877747,
-      "reward_std": 0.5177741958759725,
-      "rewards/accuracy_reward": 0.9010416865348816,
-      "rewards/reasoning_steps_reward": 0.9774305522441864,
-      "rewards/repetition_penalty_reward": -0.06577137997373939,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.4373,
+      "reward": 2.7700709104537964,
+      "reward_std": 0.48688896745443344,
+      "rewards/accuracy_reward": 0.8750000149011612,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.0454674381762743,
+      "rewards/tag_count_reward": 0.9596354216337204,
       "step": 609
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.37500381469727,
+      "completion_length": 215.10937881469727,
       "epoch": 0.9148856392950881,
-      "grad_norm": 1.0751560656614039,
-      "kl": 0.35693359375,
+      "grad_norm": 2.692978335091646,
+      "kl": 3.86328125,
       "learning_rate": 4.282210054546454e-07,
-      "loss": 0.6732,
-      "reward": 2.5695890188217163,
-      "reward_std": 0.6582420766353607,
-      "rewards/accuracy_reward": 0.7187500149011612,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.08535904064774513,
-      "rewards/tag_count_reward": 0.9570312798023224,
+      "loss": 0.7832,
+      "reward": 2.5629987120628357,
+      "reward_std": 0.5417983531951904,
+      "rewards/accuracy_reward": 0.7031250223517418,
+      "rewards/reasoning_steps_reward": 0.9652778059244156,
+      "rewards/repetition_penalty_reward": -0.053320798091590405,
+      "rewards/tag_count_reward": 0.9479166865348816,
       "step": 610
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 231.01563262939453,
+      "completion_length": 201.1666717529297,
       "epoch": 0.9163854518185227,
-      "grad_norm": 0.7771230124140907,
-      "kl": 0.32470703125,
+      "grad_norm": 6.972427384378082,
+      "kl": 2.6015625,
       "learning_rate": 4.1316921090545305e-07,
-      "loss": 0.5413,
-      "reward": 2.4763482809066772,
-      "reward_std": 0.6009985208511353,
-      "rewards/accuracy_reward": 0.6354166865348816,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.09136011637747288,
-      "rewards/tag_count_reward": 0.9583333432674408,
+      "loss": 0.1151,
+      "reward": 2.58855801820755,
+      "reward_std": 0.4848596230149269,
+      "rewards/accuracy_reward": 0.6822916865348816,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.03513997979462147,
+      "rewards/tag_count_reward": 0.9674479365348816,
       "step": 611
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.92708587646484,
+      "completion_length": 235.22396850585938,
       "epoch": 0.9178852643419573,
-      "grad_norm": 1.1584104652860914,
-      "kl": 0.359375,
+      "grad_norm": 4.93152288537315,
+      "kl": 3.115234375,
       "learning_rate": 3.9838112245088934e-07,
-      "loss": 0.5215,
-      "reward": 2.5999078154563904,
-      "reward_std": 0.6818754225969315,
-      "rewards/accuracy_reward": 0.7500000149011612,
-      "rewards/reasoning_steps_reward": 0.9670139253139496,
-      "rewards/repetition_penalty_reward": -0.07283534575253725,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.5991,
+      "reward": 2.601243317127228,
+      "reward_std": 0.5846336483955383,
+      "rewards/accuracy_reward": 0.7395833730697632,
+      "rewards/reasoning_steps_reward": 0.9635416716337204,
+      "rewards/repetition_penalty_reward": -0.05240248655900359,
+      "rewards/tag_count_reward": 0.950520858168602,
       "step": 612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.7604217529297,
+      "completion_length": 262.22396087646484,
       "epoch": 0.9193850768653918,
-      "grad_norm": 0.7260908756916117,
-      "kl": 0.314453125,
+      "grad_norm": 12.62005524980775,
+      "kl": 5.4765625,
       "learning_rate": 3.8385714686866137e-07,
-      "loss": 0.5458,
-      "reward": 2.6635963916778564,
-      "reward_std": 0.5627726316452026,
-      "rewards/accuracy_reward": 0.802083358168602,
-      "rewards/reasoning_steps_reward": 0.9756944477558136,
-      "rewards/repetition_penalty_reward": -0.07381692994385958,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 1.1448,
+      "reward": 2.5160588026046753,
+      "reward_std": 0.7233484238386154,
+      "rewards/accuracy_reward": 0.7031250149011612,
+      "rewards/reasoning_steps_reward": 0.9531249850988388,
+      "rewards/repetition_penalty_reward": -0.06987872999161482,
+      "rewards/tag_count_reward": 0.9296875298023224,
       "step": 613
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 237.6979217529297,
+      "completion_length": 235.5989646911621,
       "epoch": 0.9208848893888264,
-      "grad_norm": 0.9565075434583165,
-      "kl": 0.298828125,
+      "grad_norm": 11.546226463954667,
+      "kl": 4.08984375,
       "learning_rate": 3.695976836714932e-07,
-      "loss": 0.503,
-      "reward": 2.370998799800873,
-      "reward_std": 0.6577398786321282,
-      "rewards/accuracy_reward": 0.5572916939854622,
-      "rewards/reasoning_steps_reward": 0.9600694626569748,
-      "rewards/repetition_penalty_reward": -0.09297691145911813,
-      "rewards/tag_count_reward": 0.946614608168602,
+      "loss": 0.6332,
+      "reward": 2.414819598197937,
+      "reward_std": 0.6042335405945778,
+      "rewards/accuracy_reward": 0.5677083507180214,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.05306240823119879,
+      "rewards/tag_count_reward": 0.9348958730697632,
       "step": 614
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.15625381469727,
+      "completion_length": 227.06250381469727,
       "epoch": 0.922384701912261,
-      "grad_norm": 1.135581810486635,
-      "kl": 0.34228515625,
+      "grad_norm": 8.789826083743023,
+      "kl": 2.94140625,
       "learning_rate": 3.556031250961356e-07,
-      "loss": 0.5926,
-      "reward": 2.516046404838562,
-      "reward_std": 0.5974976867437363,
-      "rewards/accuracy_reward": 0.6770833432674408,
-      "rewards/reasoning_steps_reward": 0.9670139253139496,
-      "rewards/repetition_penalty_reward": -0.08377996645867825,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.5855,
+      "reward": 2.4650281071662903,
+      "reward_std": 0.5545367747545242,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/reasoning_steps_reward": 0.9670139104127884,
+      "rewards/repetition_penalty_reward": -0.05146504007279873,
+      "rewards/tag_count_reward": 0.9453125,
       "step": 615
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 254.8489646911621,
+      "completion_length": 235.88542556762695,
       "epoch": 0.9238845144356955,
-      "grad_norm": 0.8735579754836578,
-      "kl": 0.34765625,
+      "grad_norm": 5.27373650876101,
+      "kl": 2.8310546875,
       "learning_rate": 3.4187385609257275e-07,
-      "loss": 0.7876,
-      "reward": 2.537445366382599,
-      "reward_std": 0.8377581238746643,
-      "rewards/accuracy_reward": 0.7604166865348816,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.11533251963555813,
-      "rewards/tag_count_reward": 0.9322917014360428,
+      "loss": 0.4564,
+      "reward": 2.5718677043914795,
+      "reward_std": 0.5033154115080833,
+      "rewards/accuracy_reward": 0.7031250298023224,
+      "rewards/reasoning_steps_reward": 0.9791667014360428,
+      "rewards/repetition_penalty_reward": -0.06224700016900897,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 616
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.47396087646484,
+      "completion_length": 254.36458587646484,
       "epoch": 0.9253843269591301,
-      "grad_norm": 0.7011606608162222,
-      "kl": 0.40087890625,
+      "grad_norm": 7.526278127901626,
+      "kl": 1.7294921875,
       "learning_rate": 3.284102543134426e-07,
-      "loss": 0.4159,
-      "reward": 2.5848045349121094,
-      "reward_std": 0.5568958222866058,
-      "rewards/accuracy_reward": 0.6979166865348816,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.06189696677029133,
-      "rewards/tag_count_reward": 0.9713541865348816,
+      "loss": 0.3597,
+      "reward": 2.546690046787262,
+      "reward_std": 0.5290744379162788,
+      "rewards/accuracy_reward": 0.6666666865348816,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.055740559473633766,
+      "rewards/tag_count_reward": 0.9635416716337204,
       "step": 617
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 194.4947967529297,
+      "completion_length": 206.28125762939453,
       "epoch": 0.9268841394825647,
-      "grad_norm": 0.779792570829681,
-      "kl": 0.267578125,
+      "grad_norm": 7.942979632041828,
+      "kl": 5.625,
       "learning_rate": 3.152126901036401e-07,
-      "loss": 0.3907,
-      "reward": 2.7681113481521606,
-      "reward_std": 0.4018867686390877,
-      "rewards/accuracy_reward": 0.8385416865348816,
-      "rewards/reasoning_steps_reward": 0.9947916716337204,
-      "rewards/repetition_penalty_reward": -0.04438872542232275,
-      "rewards/tag_count_reward": 0.9791666716337204,
+      "loss": 0.2052,
+      "reward": 2.519493043422699,
+      "reward_std": 0.4696878641843796,
+      "rewards/accuracy_reward": 0.6093750149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.035194564145058393,
+      "rewards/tag_count_reward": 0.966145858168602,
       "step": 618
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.7916717529297,
+      "completion_length": 228.27084350585938,
       "epoch": 0.9283839520059992,
-      "grad_norm": 0.9727936242036457,
-      "kl": 0.268310546875,
+      "grad_norm": 7.258620893937008,
+      "kl": 2.21875,
       "learning_rate": 3.0228152649013133e-07,
-      "loss": 0.5183,
-      "reward": 2.6839698553085327,
-      "reward_std": 0.5690836161375046,
-      "rewards/accuracy_reward": 0.8229166865348816,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.0716724512167275,
-      "rewards/tag_count_reward": 0.9570312798023224,
+      "loss": 0.5912,
+      "reward": 2.6479897499084473,
+      "reward_std": 0.4475140795111656,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/reasoning_steps_reward": 0.9930555671453476,
+      "rewards/repetition_penalty_reward": -0.05209715012460947,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 619
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.92708587646484,
+      "completion_length": 205.40625381469727,
       "epoch": 0.9298837645294338,
-      "grad_norm": 950.8548852246184,
-      "kl": 19.261474609375,
+      "grad_norm": 4.763052053787403,
+      "kl": 2.03466796875,
       "learning_rate": 2.896171191719743e-07,
-      "loss": 2.7638,
-      "reward": 2.5930131673812866,
-      "reward_std": 0.6507796198129654,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.06931330915540457,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.2601,
+      "reward": 2.6514768600463867,
+      "reward_std": 0.5323489122092724,
+      "rewards/accuracy_reward": 0.7552083432674408,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.03602320980280638,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 620
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 172.92708587646484,
+      "completion_length": 246.7291717529297,
       "epoch": 0.9313835770528683,
-      "grad_norm": 0.977711243590189,
-      "kl": 0.29345703125,
+      "grad_norm": 4.657452344039985,
+      "kl": 3.841796875,
       "learning_rate": 2.772198165105267e-07,
-      "loss": 0.2329,
-      "reward": 2.6393333673477173,
-      "reward_std": 0.36761191859841347,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9913194626569748,
-      "rewards/repetition_penalty_reward": -0.0316736598033458,
-      "rewards/tag_count_reward": 0.9869791716337204,
+      "loss": 0.9583,
+      "reward": 2.4812204241752625,
+      "reward_std": 0.6263424828648567,
+      "rewards/accuracy_reward": 0.6197916716337204,
+      "rewards/reasoning_steps_reward": 0.9722222238779068,
+      "rewards/repetition_penalty_reward": -0.06261651404201984,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 621
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.26562881469727,
+      "completion_length": 234.05730056762695,
       "epoch": 0.932883389576303,
-      "grad_norm": 1.0412352430260128,
-      "kl": 0.42578125,
+      "grad_norm": 7.137978430111716,
+      "kl": 3.41796875,
       "learning_rate": 2.6508995951986526e-07,
-      "loss": 0.6586,
-      "reward": 2.772718071937561,
-      "reward_std": 0.5336792543530464,
-      "rewards/accuracy_reward": 0.8906250149011612,
-      "rewards/reasoning_steps_reward": 0.9809027761220932,
-      "rewards/repetition_penalty_reward": -0.06495565082877874,
-      "rewards/tag_count_reward": 0.966145858168602,
+      "loss": 0.6458,
+      "reward": 2.60908043384552,
+      "reward_std": 0.6289382129907608,
+      "rewards/accuracy_reward": 0.7656250298023224,
+      "rewards/reasoning_steps_reward": 0.9565972685813904,
+      "rewards/repetition_penalty_reward": -0.06236053630709648,
+      "rewards/tag_count_reward": 0.9492187798023224,
       "step": 622
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 232.16667556762695,
+      "completion_length": 203.58855056762695,
       "epoch": 0.9343832020997376,
-      "grad_norm": 0.7362485021348766,
-      "kl": 0.3427734375,
+      "grad_norm": 8.613599095668501,
+      "kl": 2.337890625,
       "learning_rate": 2.532278818574108e-07,
-      "loss": 0.7523,
-      "reward": 2.6175056099891663,
-      "reward_std": 0.7539031505584717,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9548611491918564,
-      "rewards/repetition_penalty_reward": -0.09647011943161488,
-      "rewards/tag_count_reward": 0.9414062649011612,
+      "loss": 0.5707,
+      "reward": 2.6460150480270386,
+      "reward_std": 0.5471399649977684,
+      "rewards/accuracy_reward": 0.755208358168602,
+      "rewards/reasoning_steps_reward": 0.9774305671453476,
+      "rewards/repetition_penalty_reward": -0.04625924210995436,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 623
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 201.53646087646484,
+      "completion_length": 220.9322967529297,
       "epoch": 0.9358830146231721,
-      "grad_norm": 1.5000993664801836,
-      "kl": 0.28955078125,
+      "grad_norm": 3.902612646632179,
+      "kl": 0.83935546875,
       "learning_rate": 2.4163390981474354e-07,
-      "loss": 0.4566,
-      "reward": 2.5779688954353333,
-      "reward_std": 0.4579782895743847,
-      "rewards/accuracy_reward": 0.6718750149011612,
-      "rewards/reasoning_steps_reward": 0.975694477558136,
-      "rewards/repetition_penalty_reward": -0.048767429776489735,
-      "rewards/tag_count_reward": 0.9791666865348816,
+      "loss": 0.2083,
+      "reward": 2.6754491925239563,
+      "reward_std": 0.3636674992740154,
+      "rewards/accuracy_reward": 0.7500000298023224,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.041998728178441525,
+      "rewards/tag_count_reward": 0.977864608168602,
       "step": 624
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.2552146911621,
+      "completion_length": 235.92187881469727,
       "epoch": 0.9373828271466067,
-      "grad_norm": 1.0373325356696304,
-      "kl": 0.3564453125,
+      "grad_norm": 31.877078305835827,
+      "kl": 4.0859375,
       "learning_rate": 2.3030836230863108e-07,
-      "loss": 0.5518,
-      "reward": 2.4835113286972046,
-      "reward_std": 0.6010262817144394,
-      "rewards/accuracy_reward": 0.6354166939854622,
-      "rewards/reasoning_steps_reward": 0.9618056118488312,
-      "rewards/repetition_penalty_reward": -0.06813805643469095,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.728,
+      "reward": 2.5619365572929382,
+      "reward_std": 0.5274968221783638,
+      "rewards/accuracy_reward": 0.677083358168602,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.05568512622267008,
+      "rewards/tag_count_reward": 0.9596354514360428,
       "step": 625
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 225.14062881469727,
+      "completion_length": 234.72917556762695,
       "epoch": 0.9388826396700413,
-      "grad_norm": 0.8742390265642193,
-      "kl": 0.3603515625,
+      "grad_norm": 5.128413845770082,
+      "kl": 3.59765625,
       "learning_rate": 2.192515508722559e-07,
-      "loss": 0.5906,
-      "reward": 2.5894395112991333,
-      "reward_std": 0.679242342710495,
-      "rewards/accuracy_reward": 0.7760416865348816,
-      "rewards/reasoning_steps_reward": 0.9461805820465088,
-      "rewards/repetition_penalty_reward": -0.07809533644467592,
-      "rewards/tag_count_reward": 0.9453125149011612,
+      "loss": 0.5811,
+      "reward": 2.5278205275535583,
+      "reward_std": 0.5462368726730347,
+      "rewards/accuracy_reward": 0.6510416865348816,
+      "rewards/reasoning_steps_reward": 0.9687500298023224,
+      "rewards/repetition_penalty_reward": -0.04900246858596802,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 626
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.52084350585938,
+      "completion_length": 217.0572967529297,
       "epoch": 0.9403824521934758,
-      "grad_norm": 1.1468331051712704,
-      "kl": 0.361328125,
+      "grad_norm": 11.417578022441003,
+      "kl": 3.625,
       "learning_rate": 2.08463779646646e-07,
-      "loss": 0.4132,
-      "reward": 2.633046269416809,
-      "reward_std": 0.46498178830370307,
-      "rewards/accuracy_reward": 0.7708333432674408,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.06400250736624002,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.6657,
+      "reward": 2.617713212966919,
+      "reward_std": 0.613451674580574,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.049387591890990734,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 627
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.15625381469727,
+      "completion_length": 220.74480056762695,
       "epoch": 0.9418822647169104,
-      "grad_norm": 1.4986712256290156,
-      "kl": 0.365234375,
+      "grad_norm": 13.927624029030772,
+      "kl": 6.705078125,
       "learning_rate": 1.979453453723057e-07,
-      "loss": 0.6512,
-      "reward": 2.6833993792533875,
-      "reward_std": 0.7203980311751366,
-      "rewards/accuracy_reward": 0.833333358168602,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.06529862061142921,
-      "rewards/tag_count_reward": 0.9570312649011612,
+      "loss": 0.5758,
+      "reward": 2.5704716444015503,
+      "reward_std": 0.4331911653280258,
+      "rewards/accuracy_reward": 0.6770833432674408,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.03890332626178861,
+      "rewards/tag_count_reward": 0.9531250298023224,
       "step": 628
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 229.2447967529297,
+      "completion_length": 230.04687881469727,
       "epoch": 0.943382077240345,
-      "grad_norm": 0.7753884291535859,
-      "kl": 0.2939453125,
+      "grad_norm": 2.359934750542652,
+      "kl": 1.4609375,
       "learning_rate": 1.8769653738105797e-07,
-      "loss": 0.499,
-      "reward": 2.6547706723213196,
-      "reward_std": 0.4733446016907692,
-      "rewards/accuracy_reward": 0.786458358168602,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.077868377789855,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.1944,
+      "reward": 2.650016129016876,
+      "reward_std": 0.4671716019511223,
+      "rewards/accuracy_reward": 0.7812500298023224,
+      "rewards/reasoning_steps_reward": 0.9479166865348816,
+      "rewards/repetition_penalty_reward": -0.05180681962519884,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 629
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.28125381469727,
+      "completion_length": 241.45312881469727,
       "epoch": 0.9448818897637795,
-      "grad_norm": 1.3985799794968885,
-      "kl": 0.2900390625,
+      "grad_norm": 6.681812402325648,
+      "kl": 4.34375,
       "learning_rate": 1.7771763758808403e-07,
-      "loss": 0.6038,
-      "reward": 2.550901174545288,
-      "reward_std": 0.5799007415771484,
-      "rewards/accuracy_reward": 0.677083358168602,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.07236280757933855,
-      "rewards/tag_count_reward": 0.9635416865348816,
+      "loss": 0.7057,
+      "reward": 2.5360206961631775,
+      "reward_std": 0.6756476908922195,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/reasoning_steps_reward": 0.9704861342906952,
+      "rewards/repetition_penalty_reward": -0.06727802660316229,
+      "rewards/tag_count_reward": 0.9453125149011612,
       "step": 630
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 209.70313262939453,
+      "completion_length": 193.1041717529297,
       "epoch": 0.9463817022872141,
-      "grad_norm": 1.4263168938028885,
-      "kl": 0.3466796875,
+      "grad_norm": 4.5498762858817585,
+      "kl": 2.009765625,
       "learning_rate": 1.6800892048416618e-07,
-      "loss": 0.7189,
-      "reward": 2.665283203125,
-      "reward_std": 0.6292329207062721,
-      "rewards/accuracy_reward": 0.8072917014360428,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.0756023209542036,
-      "rewards/tag_count_reward": 0.9544271230697632,
+      "loss": 0.4715,
+      "reward": 2.745138168334961,
+      "reward_std": 0.4257928729057312,
+      "rewards/accuracy_reward": 0.8177083730697632,
+      "rewards/reasoning_steps_reward": 0.9878472238779068,
+      "rewards/repetition_penalty_reward": -0.03828221885487437,
+      "rewards/tag_count_reward": 0.977864608168602,
       "step": 631
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.7864646911621,
+      "completion_length": 224.62500762939453,
       "epoch": 0.9478815148106486,
-      "grad_norm": 0.7415274923254211,
-      "kl": 0.3037109375,
+      "grad_norm": 2.3610080061202314,
+      "kl": 3.5078125,
       "learning_rate": 1.5857065312814058e-07,
-      "loss": 0.5161,
-      "reward": 2.5291183590888977,
-      "reward_std": 0.5103181153535843,
-      "rewards/accuracy_reward": 0.651041679084301,
-      "rewards/reasoning_steps_reward": 0.973958358168602,
-      "rewards/repetition_penalty_reward": -0.06332961097359657,
-      "rewards/tag_count_reward": 0.9674479365348816,
+      "loss": 0.786,
+      "reward": 2.422154188156128,
+      "reward_std": 0.622757077217102,
+      "rewards/accuracy_reward": 0.5781250074505806,
+      "rewards/reasoning_steps_reward": 0.956597238779068,
+      "rewards/repetition_penalty_reward": -0.05657860916107893,
+      "rewards/tag_count_reward": 0.9440104365348816,
       "step": 632
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 211.75000381469727,
+      "completion_length": 206.20312881469727,
       "epoch": 0.9493813273340832,
-      "grad_norm": 1.3628095814309313,
-      "kl": 0.322265625,
+      "grad_norm": 14.033209063185351,
+      "kl": 3.33984375,
       "learning_rate": 1.4940309513955088e-07,
-      "loss": 0.6802,
-      "reward": 2.667730212211609,
-      "reward_std": 0.6961818635463715,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.958333358168602,
-      "rewards/repetition_penalty_reward": -0.07315511163324118,
-      "rewards/tag_count_reward": 0.954427108168602,
+      "loss": 0.782,
+      "reward": 2.64290452003479,
+      "reward_std": 0.5470430329442024,
+      "rewards/accuracy_reward": 0.7447917014360428,
+      "rewards/reasoning_steps_reward": 0.987847238779068,
+      "rewards/repetition_penalty_reward": -0.048067858442664146,
+      "rewards/tag_count_reward": 0.958333358168602,
       "step": 633
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.2291717529297,
+      "completion_length": 217.67709350585938,
       "epoch": 0.9508811398575178,
-      "grad_norm": 0.9795351526659545,
-      "kl": 0.369140625,
+      "grad_norm": 1.7544974641972677,
+      "kl": 2.810546875,
       "learning_rate": 1.405064986915028e-07,
-      "loss": 0.6991,
-      "reward": 2.5635343194007874,
-      "reward_std": 0.6203908771276474,
-      "rewards/accuracy_reward": 0.708333358168602,
-      "rewards/reasoning_steps_reward": 0.9826389104127884,
-      "rewards/repetition_penalty_reward": -0.08056299947202206,
-      "rewards/tag_count_reward": 0.9531250298023224,
+      "loss": 0.5779,
+      "reward": 2.556717336177826,
+      "reward_std": 0.5784207582473755,
+      "rewards/accuracy_reward": 0.6927083432674408,
+      "rewards/reasoning_steps_reward": 0.9583333730697632,
+      "rewards/repetition_penalty_reward": -0.051355627831071615,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 634
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 194.6927146911621,
+      "completion_length": 232.2031364440918,
       "epoch": 0.9523809523809523,
-      "grad_norm": 0.8730687949726732,
-      "kl": 0.32666015625,
+      "grad_norm": 2.733833244509274,
+      "kl": 2.9609375,
       "learning_rate": 1.3188110850373527e-07,
-      "loss": 0.4296,
-      "reward": 2.716920852661133,
-      "reward_std": 0.47606247290968895,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.967013880610466,
-      "rewards/repetition_penalty_reward": -0.050874427892267704,
-      "rewards/tag_count_reward": 0.9726562649011612,
+      "loss": 0.5971,
+      "reward": 2.5860196948051453,
+      "reward_std": 0.5797842293977737,
+      "rewards/accuracy_reward": 0.7135416865348816,
+      "rewards/reasoning_steps_reward": 0.970486119389534,
+      "rewards/repetition_penalty_reward": -0.05503946170210838,
+      "rewards/tag_count_reward": 0.9570312798023224,
       "step": 635
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.78125381469727,
+      "completion_length": 256.3697967529297,
       "epoch": 0.953880764904387,
-      "grad_norm": 1.1050385339520583,
-      "kl": 0.4296875,
+      "grad_norm": 16.69375796765008,
+      "kl": 4.93359375,
       "learning_rate": 1.2352716183588022e-07,
-      "loss": 0.7716,
-      "reward": 2.4985339045524597,
-      "reward_std": 0.7328899428248405,
+      "loss": 0.9024,
+      "reward": 2.4972673654556274,
+      "reward_std": 0.5852114260196686,
       "rewards/accuracy_reward": 0.6822916865348816,
-      "rewards/reasoning_steps_reward": 0.954861119389534,
-      "rewards/repetition_penalty_reward": -0.08393146842718124,
-      "rewards/tag_count_reward": 0.9453125298023224,
+      "rewards/reasoning_steps_reward": 0.9565972536802292,
+      "rewards/repetition_penalty_reward": -0.0674027856439352,
+      "rewards/tag_count_reward": 0.9257812649011612,
       "step": 636
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 220.67188262939453,
+      "completion_length": 237.43750381469727,
       "epoch": 0.9553805774278216,
-      "grad_norm": 1.7375333895919391,
-      "kl": 0.349609375,
+      "grad_norm": 2.7912977723178796,
+      "kl": 2.740234375,
       "learning_rate": 1.1544488848094338e-07,
-      "loss": 0.5867,
-      "reward": 2.678426444530487,
-      "reward_std": 0.5324868559837341,
-      "rewards/accuracy_reward": 0.7968750298023224,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.07287566550076008,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.4881,
+      "reward": 2.582638919353485,
+      "reward_std": 0.6020847111940384,
+      "rewards/accuracy_reward": 0.7343750149011612,
+      "rewards/reasoning_steps_reward": 0.9652778208255768,
+      "rewards/repetition_penalty_reward": -0.05190982669591904,
+      "rewards/tag_count_reward": 0.934895858168602,
       "step": 637
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 210.47916793823242,
+      "completion_length": 240.64063262939453,
       "epoch": 0.9568803899512561,
-      "grad_norm": 1.4004750786860491,
-      "kl": 0.3212890625,
+      "grad_norm": 6.968113723896311,
+      "kl": 2.9375,
       "learning_rate": 1.0763451075897713e-07,
-      "loss": 0.8042,
-      "reward": 2.6482399106025696,
-      "reward_std": 0.6535500586032867,
-      "rewards/accuracy_reward": 0.7812500149011612,
-      "rewards/reasoning_steps_reward": 0.9756944626569748,
-      "rewards/repetition_penalty_reward": -0.07485033478587866,
-      "rewards/tag_count_reward": 0.966145858168602,
+      "loss": 0.6358,
+      "reward": 2.5640820264816284,
+      "reward_std": 0.6016581207513809,
+      "rewards/accuracy_reward": 0.6875000223517418,
+      "rewards/reasoning_steps_reward": 0.9791666716337204,
+      "rewards/repetition_penalty_reward": -0.0635221004486084,
+      "rewards/tag_count_reward": 0.9609375298023224,
       "step": 638
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 190.1354217529297,
+      "completion_length": 226.46875762939453,
       "epoch": 0.9583802024746907,
-      "grad_norm": 1.0307017049735754,
-      "kl": 0.316650390625,
+      "grad_norm": 3.460380168793295,
+      "kl": 3.59765625,
       "learning_rate": 1.0009624351097313e-07,
-      "loss": 0.4842,
-      "reward": 2.681637763977051,
-      "reward_std": 0.5066114142537117,
-      "rewards/accuracy_reward": 0.7812500298023224,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.0462268297560513,
-      "rewards/tag_count_reward": 0.9726562798023224,
+      "loss": 0.5328,
+      "reward": 2.6055824160575867,
+      "reward_std": 0.5846581794321537,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.9600694477558136,
+      "rewards/repetition_penalty_reward": -0.05240369774401188,
+      "rewards/tag_count_reward": 0.9531250149011612,
       "step": 639
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 196.38021087646484,
+      "completion_length": 232.04688262939453,
       "epoch": 0.9598800149981253,
-      "grad_norm": 0.7851546590808128,
-      "kl": 0.29345703125,
+      "grad_norm": 5.342162377565693,
+      "kl": 2.919921875,
       "learning_rate": 9.283029409294263e-08,
-      "loss": 0.5919,
-      "reward": 2.8382840156555176,
-      "reward_std": 0.507376492023468,
-      "rewards/accuracy_reward": 0.942708358168602,
-      "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.05624724645167589,
+      "loss": 0.5766,
+      "reward": 2.615228056907654,
+      "reward_std": 0.5253854840993881,
+      "rewards/accuracy_reward": 0.7291667014360428,
+      "rewards/reasoning_steps_reward": 0.972222238779068,
+      "rewards/repetition_penalty_reward": -0.058817002922296524,
       "rewards/tag_count_reward": 0.9726562649011612,
       "step": 640
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 206.6770896911621,
+      "completion_length": 231.62500762939453,
       "epoch": 0.9613798275215598,
-      "grad_norm": 0.8675967780931345,
-      "kl": 0.32421875,
+      "grad_norm": 15.144779529429583,
+      "kl": 2.9951171875,
       "learning_rate": 8.583686237022105e-08,
-      "loss": 0.5485,
-      "reward": 2.5225971341133118,
-      "reward_std": 0.504936508834362,
-      "rewards/accuracy_reward": 0.6354166716337204,
-      "rewards/reasoning_steps_reward": 0.982638880610466,
-      "rewards/repetition_penalty_reward": -0.06551066134124994,
-      "rewards/tag_count_reward": 0.9700520932674408,
+      "loss": 0.6178,
+      "reward": 2.459158480167389,
+      "reward_std": 0.49489714950323105,
+      "rewards/accuracy_reward": 0.567708358168602,
+      "rewards/reasoning_steps_reward": 0.9791667014360428,
+      "rewards/repetition_penalty_reward": -0.055164570454508066,
+      "rewards/tag_count_reward": 0.9674479365348816,
       "step": 641
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 242.56250762939453,
+      "completion_length": 248.58334732055664,
       "epoch": 0.9628796400449944,
-      "grad_norm": 1.4191184069887932,
-      "kl": 0.40283203125,
+      "grad_norm": 7.8949182961312445,
+      "kl": 3.7138671875,
       "learning_rate": 7.911614071196671e-08,
-      "loss": 0.6117,
-      "reward": 2.552360415458679,
-      "reward_std": 0.6927186399698257,
-      "rewards/accuracy_reward": 0.75,
-      "rewards/reasoning_steps_reward": 0.953125,
-      "rewards/repetition_penalty_reward": -0.09477510303258896,
-      "rewards/tag_count_reward": 0.9440104514360428,
+      "loss": 0.7138,
+      "reward": 2.503873646259308,
+      "reward_std": 0.4214767701923847,
+      "rewards/accuracy_reward": 0.6562500149011612,
+      "rewards/reasoning_steps_reward": 0.9670139104127884,
+      "rewards/repetition_penalty_reward": -0.07251533772796392,
+      "rewards/tag_count_reward": 0.953125,
       "step": 642
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.17188262939453,
+      "completion_length": 221.640625,
       "epoch": 0.9643794525684289,
-      "grad_norm": 0.9682440226139685,
-      "kl": 0.35498046875,
+      "grad_norm": 3.935827963006508,
+      "kl": 2.220703125,
       "learning_rate": 7.266831398587082e-08,
-      "loss": 0.5619,
-      "reward": 2.6066702604293823,
-      "reward_std": 0.5623406581580639,
-      "rewards/accuracy_reward": 0.7552083432674408,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.07171526318416,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 0.3811,
+      "reward": 2.5909196734428406,
+      "reward_std": 0.5641670525074005,
+      "rewards/accuracy_reward": 0.7031250149011612,
+      "rewards/reasoning_steps_reward": 0.9791666865348816,
+      "rewards/repetition_penalty_reward": -0.043195023201406,
+      "rewards/tag_count_reward": 0.9518229514360428,
       "step": 643
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 265.9270896911621,
+      "completion_length": 249.91667938232422,
       "epoch": 0.9658792650918635,
-      "grad_norm": 108.30769155391553,
-      "kl": 1.31689453125,
+      "grad_norm": 3.3366997354557224,
+      "kl": 2.41796875,
       "learning_rate": 6.649355955306802e-08,
-      "loss": 0.7916,
-      "reward": 2.512334644794464,
-      "reward_std": 0.77546027302742,
-      "rewards/accuracy_reward": 0.7135417014360428,
-      "rewards/reasoning_steps_reward": 0.9670139402151108,
-      "rewards/repetition_penalty_reward": -0.10962733440101147,
-      "rewards/tag_count_reward": 0.9414062798023224,
+      "loss": 0.558,
+      "reward": 2.6643757820129395,
+      "reward_std": 0.4191970229148865,
+      "rewards/accuracy_reward": 0.770833358168602,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.05611046589910984,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 644
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 212.09375762939453,
+      "completion_length": 232.72396850585938,
       "epoch": 0.9673790776152981,
-      "grad_norm": 0.9073762922270306,
-      "kl": 0.27783203125,
+      "grad_norm": 6.998025777128476,
+      "kl": 2.767578125,
       "learning_rate": 6.059204726326373e-08,
-      "loss": 0.5087,
-      "reward": 2.4138490557670593,
-      "reward_std": 0.6195433586835861,
-      "rewards/accuracy_reward": 0.5364583507180214,
-      "rewards/reasoning_steps_reward": 0.9895833283662796,
-      "rewards/repetition_penalty_reward": -0.0731301549822092,
-      "rewards/tag_count_reward": 0.9609375149011612,
+      "loss": 0.6031,
+      "reward": 2.2929863333702087,
+      "reward_std": 0.6047337800264359,
+      "rewards/accuracy_reward": 0.416666679084301,
+      "rewards/reasoning_steps_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.04815956763923168,
+      "rewards/tag_count_reward": 0.9505208432674408,
       "step": 645
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 205.7291717529297,
+      "completion_length": 209.05208587646484,
       "epoch": 0.9688788901387326,
-      "grad_norm": 0.6693528675529495,
-      "kl": 0.2998046875,
+      "grad_norm": 7.463341518776408,
+      "kl": 2.57421875,
       "learning_rate": 5.4963939450057846e-08,
-      "loss": 0.4844,
-      "reward": 2.7782857418060303,
-      "reward_std": 0.5295575931668282,
-      "rewards/accuracy_reward": 0.9010416865348816,
-      "rewards/reasoning_steps_reward": 0.973958358168602,
-      "rewards/repetition_penalty_reward": -0.06025600666180253,
-      "rewards/tag_count_reward": 0.9635416716337204,
+      "loss": 0.5299,
+      "reward": 2.7416443824768066,
+      "reward_std": 0.513618029654026,
+      "rewards/accuracy_reward": 0.8385416865348816,
+      "rewards/reasoning_steps_reward": 0.9774305820465088,
+      "rewards/repetition_penalty_reward": -0.03917174320667982,
+      "rewards/tag_count_reward": 0.9648437798023224,
       "step": 646
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 200.9947967529297,
+      "completion_length": 230.57813262939453,
       "epoch": 0.9703787026621672,
-      "grad_norm": 60.998327736404455,
-      "kl": 48.24267578125,
+      "grad_norm": 6.850765735428718,
+      "kl": 1.62255859375,
       "learning_rate": 4.960939092648165e-08,
-      "loss": 0.6613,
-      "reward": 2.77788108587265,
-      "reward_std": 0.5485429763793945,
-      "rewards/accuracy_reward": 0.9062500298023224,
-      "rewards/reasoning_steps_reward": 0.9670139253139496,
-      "rewards/repetition_penalty_reward": -0.06022655125707388,
-      "rewards/tag_count_reward": 0.9648437649011612,
+      "loss": 0.3969,
+      "reward": 2.651937246322632,
+      "reward_std": 0.4466264098882675,
+      "rewards/accuracy_reward": 0.7343750149011612,
+      "rewards/reasoning_steps_reward": 0.9947916865348816,
+      "rewards/repetition_penalty_reward": -0.04728165362030268,
+      "rewards/tag_count_reward": 0.970052108168602,
       "step": 647
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 226.3489646911621,
+      "completion_length": 244.28646087646484,
       "epoch": 0.9718785151856018,
-      "grad_norm": 1.0839111689107002,
-      "kl": 0.3359375,
+      "grad_norm": 18.96391662542068,
+      "kl": 3.640625,
       "learning_rate": 4.452854898073788e-08,
-      "loss": 0.6235,
-      "reward": 2.5908501744270325,
-      "reward_std": 0.5783855766057968,
-      "rewards/accuracy_reward": 0.7395833432674408,
-      "rewards/reasoning_steps_reward": 0.9826388955116272,
-      "rewards/repetition_penalty_reward": -0.08189292438328266,
+      "loss": 0.5956,
+      "reward": 2.4319705963134766,
+      "reward_std": 0.581806406378746,
+      "rewards/accuracy_reward": 0.5885416716337204,
+      "rewards/reasoning_steps_reward": 0.9565972983837128,
+      "rewards/repetition_penalty_reward": -0.06368919461965561,
       "rewards/tag_count_reward": 0.950520858168602,
       "step": 648
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.47917938232422,
+      "completion_length": 228.5677146911621,
       "epoch": 0.9733783277090363,
-      "grad_norm": 1.1002454367127348,
-      "kl": 0.41015625,
+      "grad_norm": 6.53111177098122,
+      "kl": 2.421875,
       "learning_rate": 3.9721553372150665e-08,
-      "loss": 0.6111,
-      "reward": 2.5614100098609924,
-      "reward_std": 0.7080376967787743,
-      "rewards/accuracy_reward": 0.7343750223517418,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.08702756371349096,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "loss": 0.4821,
+      "reward": 2.584895968437195,
+      "reward_std": 0.510861761868,
+      "rewards/accuracy_reward": 0.697916679084301,
+      "rewards/reasoning_steps_reward": 0.9670139104127884,
+      "rewards/repetition_penalty_reward": -0.048784732818603516,
+      "rewards/tag_count_reward": 0.9687500149011612,
       "step": 649
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 241.73438262939453,
+      "completion_length": 248.70834350585938,
       "epoch": 0.974878140232471,
-      "grad_norm": 4.156144128333803,
-      "kl": 2.935546875,
+      "grad_norm": 8.617456792461612,
+      "kl": 3.447265625,
       "learning_rate": 3.5188536327318554e-08,
-      "loss": 0.533,
-      "reward": 2.4512782096862793,
-      "reward_std": 0.528814010322094,
-      "rewards/accuracy_reward": 0.6354166716337204,
-      "rewards/reasoning_steps_reward": 0.9635416865348816,
-      "rewards/repetition_penalty_reward": -0.09169065579771996,
-      "rewards/tag_count_reward": 0.9440104365348816,
+      "loss": 0.7325,
+      "reward": 2.51455420255661,
+      "reward_std": 0.6581666991114616,
+      "rewards/accuracy_reward": 0.6614583432674408,
+      "rewards/reasoning_steps_reward": 0.9652777761220932,
+      "rewards/repetition_penalty_reward": -0.05879658181220293,
+      "rewards/tag_count_reward": 0.946614608168602,
       "step": 650
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 176.15625381469727,
+      "completion_length": 219.52083587646484,
       "epoch": 0.9763779527559056,
-      "grad_norm": 0.9986867176141776,
-      "kl": 0.37939453125,
+      "grad_norm": 6.114393105789686,
+      "kl": 2.314453125,
       "learning_rate": 3.092962253648302e-08,
-      "loss": 0.352,
-      "reward": 2.7320080399513245,
-      "reward_std": 0.40247857104986906,
-      "rewards/accuracy_reward": 0.8072916865348816,
-      "rewards/reasoning_steps_reward": 0.9791666716337204,
-      "rewards/repetition_penalty_reward": -0.03752335952594876,
-      "rewards/tag_count_reward": 0.9830729365348816,
+      "loss": 0.4754,
+      "reward": 2.638841927051544,
+      "reward_std": 0.5403295606374741,
+      "rewards/accuracy_reward": 0.7500000149011612,
+      "rewards/reasoning_steps_reward": 0.9739583432674408,
+      "rewards/repetition_penalty_reward": -0.044752005487680435,
+      "rewards/tag_count_reward": 0.9596354365348816,
       "step": 651
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 194.25000381469727,
+      "completion_length": 222.9791717529297,
       "epoch": 0.9778777652793401,
-      "grad_norm": 0.7209747458961953,
-      "kl": 0.27294921875,
+      "grad_norm": 4.664735172295086,
+      "kl": 4.345703125,
       "learning_rate": 2.694492915009006e-08,
-      "loss": 0.3393,
-      "reward": 2.59340101480484,
-      "reward_std": 0.36479785293340683,
-      "rewards/accuracy_reward": 0.6979166865348816,
+      "loss": 0.5058,
+      "reward": 2.429598391056061,
+      "reward_std": 0.4925737604498863,
+      "rewards/accuracy_reward": 0.5468750149011612,
       "rewards/reasoning_steps_reward": 0.9791666865348816,
-      "rewards/repetition_penalty_reward": -0.05764078535139561,
-      "rewards/tag_count_reward": 0.973958358168602,
+      "rewards/repetition_penalty_reward": -0.0482663013972342,
+      "rewards/tag_count_reward": 0.9518229365348816,
       "step": 652
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 216.52083587646484,
+      "completion_length": 262.4739685058594,
       "epoch": 0.9793775778027747,
-      "grad_norm": 0.8162473177671608,
-      "kl": 0.30859375,
+      "grad_norm": 9.946082586920667,
+      "kl": 3.6181640625,
       "learning_rate": 2.3234565775575034e-08,
-      "loss": 0.5575,
-      "reward": 2.596774399280548,
-      "reward_std": 0.6674105823040009,
-      "rewards/accuracy_reward": 0.7447917014360428,
-      "rewards/reasoning_steps_reward": 0.9670139253139496,
-      "rewards/repetition_penalty_reward": -0.07466658856719732,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 0.7296,
+      "reward": 2.446805000305176,
+      "reward_std": 0.5700404495000839,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/reasoning_steps_reward": 0.9756944626569748,
+      "rewards/repetition_penalty_reward": -0.07316032983362675,
+      "rewards/tag_count_reward": 0.9453125298023224,
       "step": 653
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 218.06771087646484,
+      "completion_length": 213.90625381469727,
       "epoch": 0.9808773903262092,
-      "grad_norm": 1.3998005104320381,
-      "kl": 0.35595703125,
+      "grad_norm": 7.538573623853772,
+      "kl": 2.619140625,
       "learning_rate": 1.9798634474345048e-08,
-      "loss": 0.6469,
-      "reward": 2.451699197292328,
-      "reward_std": 0.6794094815850258,
-      "rewards/accuracy_reward": 0.6093750149011612,
-      "rewards/reasoning_steps_reward": 0.9670139104127884,
-      "rewards/repetition_penalty_reward": -0.07651268597692251,
-      "rewards/tag_count_reward": 0.9518229216337204,
+      "loss": 0.5537,
+      "reward": 2.517378091812134,
+      "reward_std": 0.41347331553697586,
+      "rewards/accuracy_reward": 0.5989583507180214,
+      "rewards/reasoning_steps_reward": 0.9895833432674408,
+      "rewards/repetition_penalty_reward": -0.043819915503263474,
+      "rewards/tag_count_reward": 0.9726562649011612,
       "step": 654
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 197.5833396911621,
+      "completion_length": 222.4791717529297,
       "epoch": 0.9823772028496438,
-      "grad_norm": 0.8512758770399678,
-      "kl": 0.31396484375,
+      "grad_norm": 1.4494224041136212,
+      "kl": 1.38916015625,
       "learning_rate": 1.6637229758970087e-08,
-      "loss": 0.4539,
-      "reward": 2.7271097898483276,
-      "reward_std": 0.4929804429411888,
-      "rewards/accuracy_reward": 0.817708358168602,
-      "rewards/reasoning_steps_reward": 0.9843750298023224,
-      "rewards/repetition_penalty_reward": -0.05283822864294052,
-      "rewards/tag_count_reward": 0.9778645932674408,
+      "loss": 0.2744,
+      "reward": 2.6669066548347473,
+      "reward_std": 0.3448048084974289,
+      "rewards/accuracy_reward": 0.7447916865348816,
+      "rewards/reasoning_steps_reward": 0.9878472238779068,
+      "rewards/repetition_penalty_reward": -0.04229486454278231,
+      "rewards/tag_count_reward": 0.9765625149011612,
       "step": 655
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 221.85417556762695,
+      "completion_length": 241.97396850585938,
       "epoch": 0.9838770153730784,
-      "grad_norm": 1.2498346639772517,
-      "kl": 0.3740234375,
+      "grad_norm": 5.752377864686793,
+      "kl": 1.896484375,
       "learning_rate": 1.3750438590586223e-08,
-      "loss": 0.5368,
-      "reward": 2.681597590446472,
-      "reward_std": 0.568534217774868,
-      "rewards/accuracy_reward": 0.833333358168602,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.07404482085257769,
-      "rewards/tag_count_reward": 0.962239608168602,
+      "loss": 0.4106,
+      "reward": 2.751551926136017,
+      "reward_std": 0.3733288496732712,
+      "rewards/accuracy_reward": 0.8437500149011612,
+      "rewards/reasoning_steps_reward": 0.9878472536802292,
+      "rewards/repetition_penalty_reward": -0.055305857211351395,
+      "rewards/tag_count_reward": 0.9752604365348816,
       "step": 656
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.24480056762695,
+      "completion_length": 233.6093864440918,
       "epoch": 0.9853768278965129,
-      "grad_norm": 0.8636210438416793,
-      "kl": 0.30517578125,
+      "grad_norm": 1.7146871873625331,
+      "kl": 2.14794921875,
       "learning_rate": 1.1138340376501966e-08,
-      "loss": 0.5454,
-      "reward": 2.747868835926056,
-      "reward_std": 0.6248507276177406,
-      "rewards/accuracy_reward": 0.8697916865348816,
-      "rewards/reasoning_steps_reward": 0.9722222536802292,
-      "rewards/repetition_penalty_reward": -0.0602909866720438,
-      "rewards/tag_count_reward": 0.9661458432674408,
+      "loss": 0.2227,
+      "reward": 2.6160547137260437,
+      "reward_std": 0.5579579994082451,
+      "rewards/accuracy_reward": 0.7343750149011612,
+      "rewards/reasoning_steps_reward": 0.9670139104127884,
+      "rewards/repetition_penalty_reward": -0.05538627551868558,
+      "rewards/tag_count_reward": 0.9700520932674408,
       "step": 657
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 199.9270896911621,
+      "completion_length": 221.94271087646484,
       "epoch": 0.9868766404199475,
-      "grad_norm": 1.3618095357818232,
-      "kl": 0.3759765625,
+      "grad_norm": 9.514836835014375,
+      "kl": 3.48046875,
       "learning_rate": 8.801006968012227e-09,
-      "loss": 0.6015,
-      "reward": 2.544634699821472,
-      "reward_std": 0.524773295968771,
-      "rewards/accuracy_reward": 0.6614583544433117,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.06300420686602592,
-      "rewards/tag_count_reward": 0.9687500298023224,
+      "loss": 0.6615,
+      "reward": 2.577666759490967,
+      "reward_std": 0.4780506566166878,
+      "rewards/accuracy_reward": 0.6875000149011612,
+      "rewards/reasoning_steps_reward": 0.9809028059244156,
+      "rewards/repetition_penalty_reward": -0.05167360603809357,
+      "rewards/tag_count_reward": 0.9609375149011612,
       "step": 658
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 238.6614646911621,
+      "completion_length": 194.54687881469727,
       "epoch": 0.9883764529433821,
-      "grad_norm": 0.8680279006911963,
-      "kl": 0.3662109375,
+      "grad_norm": 7.048358144573533,
+      "kl": 2.072265625,
       "learning_rate": 6.738502658426571e-09,
-      "loss": 0.6921,
-      "reward": 2.585418939590454,
-      "reward_std": 0.7059072330594063,
-      "rewards/accuracy_reward": 0.7812500149011612,
-      "rewards/reasoning_steps_reward": 0.9652777910232544,
-      "rewards/repetition_penalty_reward": -0.09860894456505775,
-      "rewards/tag_count_reward": 0.9375,
+      "loss": 0.4597,
+      "reward": 2.7473713755607605,
+      "reward_std": 0.4053123965859413,
+      "rewards/accuracy_reward": 0.8281250149011612,
+      "rewards/reasoning_steps_reward": 0.9861111342906952,
+      "rewards/repetition_penalty_reward": -0.035614716820418835,
+      "rewards/tag_count_reward": 0.9687500298023224,
       "step": 659
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 227.03125381469727,
+      "completion_length": 197.7760467529297,
       "epoch": 0.9898762654668166,
-      "grad_norm": 1.0096929149450597,
-      "kl": 0.33642578125,
+      "grad_norm": 7.604534130768124,
+      "kl": 1.7197265625,
       "learning_rate": 4.950884181295079e-09,
-      "loss": 0.6266,
-      "reward": 2.6765416860580444,
-      "reward_std": 0.5609493404626846,
-      "rewards/accuracy_reward": 0.8281250149011612,
-      "rewards/reasoning_steps_reward": 0.9774305820465088,
-      "rewards/repetition_penalty_reward": -0.0886493306607008,
-      "rewards/tag_count_reward": 0.9596354365348816,
+      "loss": 0.2393,
+      "reward": 2.58710515499115,
+      "reward_std": 0.4081360250711441,
+      "rewards/accuracy_reward": 0.661458358168602,
+      "rewards/reasoning_steps_reward": 0.986111119389534,
+      "rewards/repetition_penalty_reward": -0.04353731218725443,
+      "rewards/tag_count_reward": 0.9830729514360428,
       "step": 660
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 217.0104217529297,
+      "completion_length": 249.40105056762695,
       "epoch": 0.9913760779902512,
-      "grad_norm": 0.858588179176331,
-      "kl": 0.3212890625,
+      "grad_norm": 7.864265781403792,
+      "kl": 4.31640625,
       "learning_rate": 3.4382007088518134e-09,
-      "loss": 0.7794,
-      "reward": 2.381414532661438,
-      "reward_std": 0.6443270593881607,
+      "loss": 0.7781,
+      "reward": 2.3653112053871155,
+      "reward_std": 0.5962060615420341,
       "rewards/accuracy_reward": 0.5468750149011612,
-      "rewards/reasoning_steps_reward": 0.9618055671453476,
-      "rewards/repetition_penalty_reward": -0.0777870174497366,
-      "rewards/tag_count_reward": 0.950520858168602,
+      "rewards/reasoning_steps_reward": 0.9479167014360428,
+      "rewards/repetition_penalty_reward": -0.06047023739665747,
+      "rewards/tag_count_reward": 0.930989608168602,
       "step": 661
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 235.0833396911621,
+      "completion_length": 230.3489646911621,
       "epoch": 0.9928758905136857,
-      "grad_norm": 2.317140366000632,
-      "kl": 0.34619140625,
+      "grad_norm": 3.5888298694634995,
+      "kl": 3.0,
       "learning_rate": 2.200493850662566e-09,
-      "loss": 0.7031,
-      "reward": 2.485570192337036,
-      "reward_std": 0.7142708599567413,
-      "rewards/accuracy_reward": 0.692708358168602,
-      "rewards/reasoning_steps_reward": 0.9513888955116272,
-      "rewards/repetition_penalty_reward": -0.09863131493330002,
-      "rewards/tag_count_reward": 0.9401041865348816,
+      "loss": 0.5777,
+      "reward": 2.563965141773224,
+      "reward_std": 0.5070576220750809,
+      "rewards/accuracy_reward": 0.6822916716337204,
+      "rewards/reasoning_steps_reward": 0.9826389104127884,
+      "rewards/repetition_penalty_reward": -0.057996807619929314,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 662
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.2239646911621,
+      "completion_length": 223.26041793823242,
       "epoch": 0.9943757030371203,
-      "grad_norm": 0.8136792892151121,
-      "kl": 0.34765625,
+      "grad_norm": 4.0715790482727705,
+      "kl": 2.197265625,
       "learning_rate": 1.2377976524746705e-09,
-      "loss": 0.6723,
-      "reward": 2.587967872619629,
-      "reward_std": 0.66152124106884,
-      "rewards/accuracy_reward": 0.7343750149011612,
-      "rewards/reasoning_steps_reward": 0.9739583432674408,
-      "rewards/repetition_penalty_reward": -0.07609467767179012,
-      "rewards/tag_count_reward": 0.9557291865348816,
+      "loss": 0.2855,
+      "reward": 2.672169864177704,
+      "reward_std": 0.48223114758729935,
+      "rewards/accuracy_reward": 0.7916666865348816,
+      "rewards/reasoning_steps_reward": 0.9687500447034836,
+      "rewards/repetition_penalty_reward": -0.04527819249778986,
+      "rewards/tag_count_reward": 0.9570312649011612,
       "step": 663
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 214.48958587646484,
+      "completion_length": 246.0677146911621,
       "epoch": 0.995875515560555,
-      "grad_norm": 1.3047927636843426,
-      "kl": 0.3359375,
+      "grad_norm": 3.596922089624617,
+      "kl": 2.80078125,
       "learning_rate": 5.501385952888516e-10,
-      "loss": 0.751,
-      "reward": 2.50458562374115,
-      "reward_std": 0.6785130500793457,
-      "rewards/accuracy_reward": 0.6718750149011612,
-      "rewards/reasoning_steps_reward": 0.960069477558136,
-      "rewards/repetition_penalty_reward": -0.07397346664220095,
-      "rewards/tag_count_reward": 0.9466146230697632,
+      "loss": 0.8216,
+      "reward": 2.5335150957107544,
+      "reward_std": 0.5313072800636292,
+      "rewards/accuracy_reward": 0.6302083507180214,
+      "rewards/reasoning_steps_reward": 0.9947916716337204,
+      "rewards/repetition_penalty_reward": -0.04981834441423416,
+      "rewards/tag_count_reward": 0.9583333432674408,
       "step": 664
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 224.18750762939453,
+      "completion_length": 218.2447967529297,
       "epoch": 0.9973753280839895,
-      "grad_norm": 0.6420501828977786,
-      "kl": 0.3134765625,
+      "grad_norm": 3.9248590354460755,
+      "kl": 1.875,
       "learning_rate": 1.375355946242607e-10,
-      "loss": 0.6873,
-      "reward": 2.3991820216178894,
-      "reward_std": 0.6460757553577423,
-      "rewards/accuracy_reward": 0.5677083432674408,
-      "rewards/reasoning_steps_reward": 0.9600694626569748,
-      "rewards/repetition_penalty_reward": -0.08041872084140778,
-      "rewards/tag_count_reward": 0.9518229365348816,
+      "loss": 0.3974,
+      "reward": 2.5833805203437805,
+      "reward_std": 0.4426957219839096,
+      "rewards/accuracy_reward": 0.6718750298023224,
+      "rewards/reasoning_steps_reward": 0.9809027910232544,
+      "rewards/repetition_penalty_reward": -0.03944949712604284,
+      "rewards/tag_count_reward": 0.970052108168602,
       "step": 665
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 242.2552146911621,
+      "completion_length": 223.3671875,
       "epoch": 0.9988751406074241,
-      "grad_norm": 1.2779320053093417,
-      "kl": 0.5048828125,
+      "grad_norm": 7.299493407835698,
+      "kl": 2.71875,
       "learning_rate": 0.0,
-      "loss": 0.8081,
-      "reward": 2.5781980752944946,
-      "reward_std": 0.8304520845413208,
-      "rewards/accuracy_reward": 0.7968750149011612,
-      "rewards/reasoning_steps_reward": 0.9496528059244156,
-      "rewards/repetition_penalty_reward": -0.10322570707648993,
-      "rewards/tag_count_reward": 0.934895858168602,
+      "loss": 0.5344,
+      "reward": 2.6338536143302917,
+      "reward_std": 0.6461013555526733,
+      "rewards/accuracy_reward": 0.7656250149011612,
+      "rewards/reasoning_steps_reward": 0.963541716337204,
+      "rewards/repetition_penalty_reward": -0.045833950862288475,
+      "rewards/tag_count_reward": 0.950520858168602,
       "step": 666
     },
     {
       "epoch": 0.9988751406074241,
       "step": 666,
       "total_flos": 0.0,
-      "train_loss": 566.2065416834479,
-      "train_runtime": 15651.159,
-      "train_samples_per_second": 0.511,
-      "train_steps_per_second": 0.043
+      "train_loss": 14.041643001426444,
+      "train_runtime": 23054.463,
+      "train_samples_per_second": 0.347,
+      "train_steps_per_second": 0.029
     }
   ],
   "logging_steps": 1,