{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.999266862170088,
  "eval_steps": 500,
  "global_step": 1363,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 509.375,
      "epoch": 0.0007331378299120235,
      "grad_norm": 2.6448973612837636,
      "kl": 0.0,
      "learning_rate": 7.2992700729927e-09,
      "loss": -0.0482,
      "reward": 0.68954798579216,
      "reward_std": 0.25520985573530197,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.263888917863369,
      "rewards/repetition_penalty_reward": -0.07434091717004776,
      "rewards/tag_count_reward": 0.5,
      "step": 1
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.87501525878906,
      "epoch": 0.001466275659824047,
      "grad_norm": 2.76096812642669,
      "kl": 0.0,
      "learning_rate": 1.45985401459854e-08,
      "loss": -0.0176,
      "reward": 0.6545102000236511,
      "reward_std": 0.22549808025360107,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2083333507180214,
      "rewards/repetition_penalty_reward": -0.06423980556428432,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 2
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.4791717529297,
      "epoch": 0.0021994134897360706,
      "grad_norm": 2.7544190296661046,
      "kl": 0.0001468658447265625,
      "learning_rate": 2.1897810218978102e-08,
      "loss": -0.1206,
      "reward": 0.6828474402427673,
      "reward_std": 0.21180886030197144,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2430555745959282,
      "rewards/repetition_penalty_reward": -0.07062481716275215,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 3
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 490.04168701171875,
      "epoch": 0.002932551319648094,
      "grad_norm": 2.679496733955865,
      "kl": 0.00016498565673828125,
      "learning_rate": 2.91970802919708e-08,
      "loss": -0.0511,
      "reward": 0.7352340519428253,
      "reward_std": 0.3041670620441437,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.284722238779068,
      "rewards/repetition_penalty_reward": -0.07552988082170486,
      "rewards/tag_count_reward": 0.5260416865348816,
      "step": 4
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.62501525878906,
      "epoch": 0.0036656891495601175,
      "grad_norm": 2.7710748320387943,
      "kl": 0.00017213821411132812,
      "learning_rate": 3.64963503649635e-08,
      "loss": -0.0125,
      "reward": 0.6680092215538025,
      "reward_std": 0.24565115571022034,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2152777835726738,
      "rewards/repetition_penalty_reward": -0.06289358995854855,
      "rewards/tag_count_reward": 0.515625,
      "step": 5
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.625,
      "epoch": 0.004398826979472141,
      "grad_norm": 2.6419901655907245,
      "kl": 0.00017642974853515625,
      "learning_rate": 4.3795620437956203e-08,
      "loss": -0.0065,
      "reward": 0.7031907737255096,
      "reward_std": 0.24719806760549545,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2777777761220932,
      "rewards/repetition_penalty_reward": -0.07458702102303505,
      "rewards/tag_count_reward": 0.5,
      "step": 6
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.1458435058594,
      "epoch": 0.005131964809384164,
      "grad_norm": 2.575204146630783,
      "kl": 0.00015974044799804688,
      "learning_rate": 5.10948905109489e-08,
      "loss": 0.0184,
      "reward": 0.5842337310314178,
      "reward_std": 0.22514298558235168,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.166666679084301,
      "rewards/repetition_penalty_reward": -0.08243293687701225,
      "rewards/tag_count_reward": 0.5,
      "step": 7
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.72918701171875,
      "epoch": 0.005865102639296188,
      "grad_norm": 2.7932110624723743,
      "kl": 0.00015878677368164062,
      "learning_rate": 5.83941605839416e-08,
      "loss": 0.0322,
      "reward": 0.5849673748016357,
      "reward_std": 0.23537325859069824,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1666666716337204,
      "rewards/repetition_penalty_reward": -0.08169934153556824,
      "rewards/tag_count_reward": 0.5,
      "step": 8
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.81251525878906,
      "epoch": 0.006598240469208211,
      "grad_norm": 3.1047208356259914,
      "kl": 0.00018215179443359375,
      "learning_rate": 6.569343065693431e-08,
      "loss": -0.0461,
      "reward": 0.6473296880722046,
      "reward_std": 0.25502097606658936,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.208333358168602,
      "rewards/repetition_penalty_reward": -0.07142036035656929,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 9
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.18751525878906,
      "epoch": 0.007331378299120235,
      "grad_norm": 2.627504343626485,
      "kl": 0.00014257431030273438,
      "learning_rate": 7.2992700729927e-08,
      "loss": -0.0509,
      "reward": 0.5702269971370697,
      "reward_std": 0.17610464990139008,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1458333358168602,
      "rewards/repetition_penalty_reward": -0.08602304756641388,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.75,
      "epoch": 0.008064516129032258,
      "grad_norm": 2.551343107524344,
      "kl": 0.00016307830810546875,
      "learning_rate": 8.029197080291971e-08,
      "loss": -0.0545,
      "reward": 0.6536203324794769,
      "reward_std": 0.2523871883749962,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.243055559694767,
      "rewards/repetition_penalty_reward": -0.08943524211645126,
      "rewards/tag_count_reward": 0.5,
      "step": 11
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.2291717529297,
      "epoch": 0.008797653958944282,
      "grad_norm": 3.0366791357232406,
      "kl": 0.00017404556274414062,
      "learning_rate": 8.759124087591241e-08,
      "loss": 0.0279,
      "reward": 0.583998829126358,
      "reward_std": 0.21335972100496292,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1458333432674408,
      "rewards/repetition_penalty_reward": -0.06183452531695366,
      "rewards/tag_count_reward": 0.5,
      "step": 12
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.5625,
      "epoch": 0.009530791788856305,
      "grad_norm": 3.1395073617735614,
      "kl": 0.00017595291137695312,
      "learning_rate": 9.48905109489051e-08,
      "loss": -0.1077,
      "reward": 0.5609289705753326,
      "reward_std": 0.21441183984279633,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1250000037252903,
      "rewards/repetition_penalty_reward": -0.06407104432582855,
      "rewards/tag_count_reward": 0.5,
      "step": 13
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.56251525878906,
      "epoch": 0.010263929618768328,
      "grad_norm": 2.758079388838085,
      "kl": 0.00017261505126953125,
      "learning_rate": 1.021897810218978e-07,
      "loss": -0.0345,
      "reward": 0.5964665710926056,
      "reward_std": 0.17032359540462494,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1597222313284874,
      "rewards/repetition_penalty_reward": -0.07367238402366638,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 14
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.3125,
      "epoch": 0.010997067448680353,
      "grad_norm": 2.605821618375983,
      "kl": 0.00021219253540039062,
      "learning_rate": 1.0948905109489052e-07,
      "loss": -0.0017,
      "reward": 0.715076208114624,
      "reward_std": 0.2355574294924736,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2777777910232544,
      "rewards/repetition_penalty_reward": -0.06270160153508186,
      "rewards/tag_count_reward": 0.5,
      "step": 15
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.5833435058594,
      "epoch": 0.011730205278592375,
      "grad_norm": 2.722382736115358,
      "kl": 0.00017833709716796875,
      "learning_rate": 1.167883211678832e-07,
      "loss": -0.0496,
      "reward": 0.621931403875351,
      "reward_std": 0.23212532699108124,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1875000149011612,
      "rewards/repetition_penalty_reward": -0.07598524540662766,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 16
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 509.0625305175781,
      "epoch": 0.012463343108504398,
      "grad_norm": 2.7955490988819687,
      "kl": 0.00018405914306640625,
      "learning_rate": 1.240875912408759e-07,
      "loss": -0.0281,
      "reward": 0.6549810469150543,
      "reward_std": 0.27128641307353973,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.222222238779068,
      "rewards/repetition_penalty_reward": -0.06724120303988457,
      "rewards/tag_count_reward": 0.5,
      "step": 17
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.6041870117188,
      "epoch": 0.013196480938416423,
      "grad_norm": 2.723325734305699,
      "kl": 0.00018548965454101562,
      "learning_rate": 1.3138686131386862e-07,
      "loss": -0.0081,
      "reward": 0.584599107503891,
      "reward_std": 0.20393361896276474,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1527777872979641,
      "rewards/repetition_penalty_reward": -0.06817871518433094,
      "rewards/tag_count_reward": 0.5,
      "step": 18
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 409.0,
      "epoch": 0.013929618768328446,
      "grad_norm": 4.779504705709629,
      "kl": 0.00019550323486328125,
      "learning_rate": 1.386861313868613e-07,
      "loss": 0.0876,
      "reward": 0.5774352252483368,
      "reward_std": 0.16354358941316605,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1527777835726738,
      "rewards/repetition_penalty_reward": -0.0753425844013691,
      "rewards/tag_count_reward": 0.5,
      "step": 19
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.2083435058594,
      "epoch": 0.01466275659824047,
      "grad_norm": 3.0626779341878616,
      "kl": 0.00018215179443359375,
      "learning_rate": 1.45985401459854e-07,
      "loss": -0.0717,
      "reward": 0.5419801771640778,
      "reward_std": 0.16230151802301407,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1180555634200573,
      "rewards/repetition_penalty_reward": -0.07607538625597954,
      "rewards/tag_count_reward": 0.5,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 527.2083435058594,
      "epoch": 0.015395894428152493,
      "grad_norm": 2.413897203039519,
      "kl": 0.0001659393310546875,
      "learning_rate": 1.532846715328467e-07,
      "loss": 0.0023,
      "reward": 0.5849822759628296,
      "reward_std": 0.27357739210128784,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1805555671453476,
      "rewards/repetition_penalty_reward": -0.09557333588600159,
      "rewards/tag_count_reward": 0.5,
      "step": 21
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.56251525878906,
      "epoch": 0.016129032258064516,
      "grad_norm": 2.408879678071363,
      "kl": 0.00018405914306640625,
      "learning_rate": 1.6058394160583942e-07,
      "loss": 0.0098,
      "reward": 0.6279599368572235,
      "reward_std": 0.20339544862508774,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1944444552063942,
      "rewards/repetition_penalty_reward": -0.07690121605992317,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 22
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 555.5625305175781,
      "epoch": 0.01686217008797654,
      "grad_norm": 2.6019168865864306,
      "kl": 0.00014972686767578125,
      "learning_rate": 1.678832116788321e-07,
      "loss": -0.0692,
      "reward": 0.5722634494304657,
      "reward_std": 0.21821296960115433,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.166666679084301,
      "rewards/repetition_penalty_reward": -0.10481992736458778,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 23
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 467.3541717529297,
      "epoch": 0.017595307917888565,
      "grad_norm": 3.0166610353722354,
      "kl": 0.00017309188842773438,
      "learning_rate": 1.7518248175182481e-07,
      "loss": -0.0261,
      "reward": 0.6123618483543396,
      "reward_std": 0.19541333615779877,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.173611119389534,
      "rewards/repetition_penalty_reward": -0.06124930642545223,
      "rewards/tag_count_reward": 0.5,
      "step": 24
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.9166717529297,
      "epoch": 0.018328445747800588,
      "grad_norm": 3.3196057185136856,
      "kl": 0.0001983642578125,
      "learning_rate": 1.824817518248175e-07,
      "loss": -0.0708,
      "reward": 0.6493120789527893,
      "reward_std": 0.24062193930149078,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2083333432674408,
      "rewards/repetition_penalty_reward": -0.06943796388804913,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 25
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.0625,
      "epoch": 0.01906158357771261,
      "grad_norm": 2.8082986672044177,
      "kl": 0.00018548965454101562,
      "learning_rate": 1.897810218978102e-07,
      "loss": -0.0244,
      "reward": 0.78911292552948,
      "reward_std": 0.3358127474784851,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.2986111044883728,
      "rewards/repetition_penalty_reward": -0.05637324042618275,
      "rewards/tag_count_reward": 0.5260416865348816,
      "step": 26
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.79168701171875,
      "epoch": 0.019794721407624633,
      "grad_norm": 2.6824722929765668,
      "kl": 0.0001621246337890625,
      "learning_rate": 1.9708029197080292e-07,
      "loss": -0.0727,
      "reward": 0.5723992586135864,
      "reward_std": 0.2219652161002159,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.173611119389534,
      "rewards/repetition_penalty_reward": -0.10121183842420578,
      "rewards/tag_count_reward": 0.5,
      "step": 27
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 533.0,
      "epoch": 0.020527859237536656,
      "grad_norm": 2.870814349622882,
      "kl": 0.0001850128173828125,
      "learning_rate": 2.043795620437956e-07,
      "loss": -0.0336,
      "reward": 0.6264206767082214,
      "reward_std": 0.21734951436519623,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2152777910232544,
      "rewards/repetition_penalty_reward": -0.08885711058974266,
      "rewards/tag_count_reward": 0.5,
      "step": 28
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.7708435058594,
      "epoch": 0.02126099706744868,
      "grad_norm": 2.5069460426178423,
      "kl": 0.000171661376953125,
      "learning_rate": 2.116788321167883e-07,
      "loss": -0.0277,
      "reward": 0.6581361889839172,
      "reward_std": 0.23858975619077682,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2222222313284874,
      "rewards/repetition_penalty_reward": -0.07450271770358086,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 29
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.8750305175781,
      "epoch": 0.021994134897360705,
      "grad_norm": 2.648249474912757,
      "kl": 0.0001735687255859375,
      "learning_rate": 2.1897810218978103e-07,
      "loss": -0.0397,
      "reward": 0.6791504621505737,
      "reward_std": 0.2867739200592041,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2222222313284874,
      "rewards/repetition_penalty_reward": -0.07432174310088158,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.3958435058594,
      "epoch": 0.022727272727272728,
      "grad_norm": 2.890033559674892,
      "kl": 0.00019073486328125,
      "learning_rate": 2.2627737226277372e-07,
      "loss": -0.0641,
      "reward": 0.6335480809211731,
      "reward_std": 0.2339138686656952,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2013889104127884,
      "rewards/repetition_penalty_reward": -0.06784084439277649,
      "rewards/tag_count_reward": 0.5,
      "step": 31
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 526.6250152587891,
      "epoch": 0.02346041055718475,
      "grad_norm": 2.5853064468226976,
      "kl": 0.00019741058349609375,
      "learning_rate": 2.335766423357664e-07,
      "loss": 0.0082,
      "reward": 0.6064836084842682,
      "reward_std": 0.21031419932842255,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1875000111758709,
      "rewards/repetition_penalty_reward": -0.08101639151573181,
      "rewards/tag_count_reward": 0.5,
      "step": 32
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.12501525878906,
      "epoch": 0.024193548387096774,
      "grad_norm": 3.0609420622300325,
      "kl": 0.00016927719116210938,
      "learning_rate": 2.408759124087591e-07,
      "loss": -0.1695,
      "reward": 0.6632957458496094,
      "reward_std": 0.24054750055074692,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1944444589316845,
      "rewards/repetition_penalty_reward": -0.062398696318268776,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 33
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.1458435058594,
      "epoch": 0.024926686217008796,
      "grad_norm": 2.564707811238524,
      "kl": 0.00021886825561523438,
      "learning_rate": 2.481751824817518e-07,
      "loss": -0.0154,
      "reward": 0.7042053937911987,
      "reward_std": 0.2845487892627716,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2638888955116272,
      "rewards/repetition_penalty_reward": -0.07010022550821304,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 34
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.60418701171875,
      "epoch": 0.025659824046920823,
      "grad_norm": 2.646106845035658,
      "kl": 0.00020170211791992188,
      "learning_rate": 2.5547445255474454e-07,
      "loss": -0.0509,
      "reward": 0.7097957134246826,
      "reward_std": 0.21529126912355423,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2638889104127884,
      "rewards/repetition_penalty_reward": -0.07492654211819172,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 35
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.0625305175781,
      "epoch": 0.026392961876832845,
      "grad_norm": 2.856616633787257,
      "kl": 0.00019311904907226562,
      "learning_rate": 2.6277372262773725e-07,
      "loss": 0.0176,
      "reward": 0.6456855833530426,
      "reward_std": 0.27881423383951187,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.215277798473835,
      "rewards/repetition_penalty_reward": -0.08000890910625458,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 36
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 503.14585876464844,
      "epoch": 0.027126099706744868,
      "grad_norm": 2.665887051686472,
      "kl": 0.00020599365234375,
      "learning_rate": 2.700729927007299e-07,
      "loss": -0.0497,
      "reward": 0.6908453702926636,
      "reward_std": 0.23081645369529724,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2569444552063942,
      "rewards/repetition_penalty_reward": -0.07651573792099953,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 37
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.3958435058594,
      "epoch": 0.02785923753665689,
      "grad_norm": 2.9595822498097104,
      "kl": 0.00022125244140625,
      "learning_rate": 2.773722627737226e-07,
      "loss": -0.0005,
      "reward": 0.5840825140476227,
      "reward_std": 0.2131967693567276,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1527777872979641,
      "rewards/repetition_penalty_reward": -0.0686953105032444,
      "rewards/tag_count_reward": 0.5,
      "step": 38
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.2500152587891,
      "epoch": 0.028592375366568914,
      "grad_norm": 2.71164611926968,
      "kl": 0.0002307891845703125,
      "learning_rate": 2.846715328467153e-07,
      "loss": -0.0273,
      "reward": 0.624500185251236,
      "reward_std": 0.23453929275274277,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1944444626569748,
      "rewards/repetition_penalty_reward": -0.08036095649003983,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 39
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.1458435058594,
      "epoch": 0.02932551319648094,
      "grad_norm": 2.8793970958085917,
      "kl": 0.0002193450927734375,
      "learning_rate": 2.91970802919708e-07,
      "loss": -0.0961,
      "reward": 0.7346545159816742,
      "reward_std": 0.2827245742082596,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.270833358168602,
      "rewards/repetition_penalty_reward": -0.057012153789401054,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.5208435058594,
      "epoch": 0.030058651026392963,
      "grad_norm": 2.7202320117264907,
      "kl": 0.00029754638671875,
      "learning_rate": 2.9927007299270075e-07,
      "loss": 0.0366,
      "reward": 0.618072509765625,
      "reward_std": 0.23927630484104156,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.166666679084301,
      "rewards/repetition_penalty_reward": -0.06942753493785858,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 41
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.6250305175781,
      "epoch": 0.030791788856304986,
      "grad_norm": 2.558370045223577,
      "kl": 0.000270843505859375,
      "learning_rate": 3.065693430656934e-07,
      "loss": -0.0406,
      "reward": 0.698936402797699,
      "reward_std": 0.2520362436771393,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.270833358168602,
      "rewards/repetition_penalty_reward": -0.08231363818049431,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 42
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.97918701171875,
      "epoch": 0.03152492668621701,
      "grad_norm": 2.727560907345565,
      "kl": 0.0002727508544921875,
      "learning_rate": 3.138686131386861e-07,
      "loss": -0.0998,
      "reward": 0.688592404127121,
      "reward_std": 0.2755677103996277,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2430555745959282,
      "rewards/repetition_penalty_reward": -0.07529650256037712,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 43
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 519.9791870117188,
      "epoch": 0.03225806451612903,
      "grad_norm": 2.6698796736155446,
      "kl": 0.0003490447998046875,
      "learning_rate": 3.2116788321167883e-07,
      "loss": -0.0122,
      "reward": 0.7924045026302338,
      "reward_std": 0.28541746735572815,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.333333358168602,
      "rewards/repetition_penalty_reward": -0.06176219508051872,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 44
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 504.58335876464844,
      "epoch": 0.032991202346041054,
      "grad_norm": 2.452278139401127,
      "kl": 0.00032806396484375,
      "learning_rate": 3.284671532846715e-07,
      "loss": -0.0191,
      "reward": 0.6062445044517517,
      "reward_std": 0.21765749156475067,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.1944444626569748,
      "rewards/repetition_penalty_reward": -0.08819994330406189,
      "rewards/tag_count_reward": 0.5,
      "step": 45
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.10418701171875,
      "epoch": 0.03372434017595308,
      "grad_norm": 2.6384968933757307,
      "kl": 0.00043201446533203125,
      "learning_rate": 3.357664233576642e-07,
      "loss": -0.009,
      "reward": 0.7084953188896179,
      "reward_std": 0.29200321435928345,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2569444626569748,
      "rewards/repetition_penalty_reward": -0.07969915866851807,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 46
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.0208435058594,
      "epoch": 0.0344574780058651,
      "grad_norm": 2.662788904527241,
      "kl": 0.0004863739013671875,
      "learning_rate": 3.4306569343065697e-07,
      "loss": 0.0136,
      "reward": 0.6565942764282227,
      "reward_std": 0.2551596984267235,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2361111268401146,
      "rewards/repetition_penalty_reward": -0.10555854439735413,
      "rewards/tag_count_reward": 0.5260416865348816,
      "step": 47
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.5208740234375,
      "epoch": 0.03519061583577713,
      "grad_norm": 2.7029202066676996,
      "kl": 0.0005130767822265625,
      "learning_rate": 3.5036496350364963e-07,
      "loss": -0.0636,
      "reward": 0.7792027294635773,
      "reward_std": 0.25155991315841675,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.347222238779068,
      "rewards/repetition_penalty_reward": -0.06801950931549072,
      "rewards/tag_count_reward": 0.5,
      "step": 48
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.06251525878906,
      "epoch": 0.03592375366568915,
      "grad_norm": 2.7589483849725522,
      "kl": 0.0008373260498046875,
      "learning_rate": 3.5766423357664234e-07,
      "loss": -0.0326,
      "reward": 0.6618194282054901,
      "reward_std": 0.27763861417770386,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.25,
      "rewards/repetition_penalty_reward": -0.09859726577997208,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 49
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.0625305175781,
      "epoch": 0.036656891495601175,
      "grad_norm": 2.8648632394348303,
      "kl": 0.0007076263427734375,
      "learning_rate": 3.64963503649635e-07,
      "loss": -0.0441,
      "reward": 0.6885200440883636,
      "reward_std": 0.2172483429312706,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2777777835726738,
      "rewards/repetition_penalty_reward": -0.08925776183605194,
      "rewards/tag_count_reward": 0.5,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.91668701171875,
      "epoch": 0.0373900293255132,
      "grad_norm": 2.7944345979797833,
      "kl": 0.0007419586181640625,
      "learning_rate": 3.722627737226277e-07,
      "loss": -0.0331,
      "reward": 0.7741267681121826,
      "reward_std": 0.26387324929237366,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.3402777761220932,
      "rewards/repetition_penalty_reward": -0.07656766846776009,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 51
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.18751525878906,
      "epoch": 0.03812316715542522,
      "grad_norm": 2.6423146438087497,
      "kl": 0.00083160400390625,
      "learning_rate": 3.795620437956204e-07,
      "loss": 0.0049,
      "reward": 0.7249100506305695,
      "reward_std": 0.2071620374917984,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.2986111342906952,
      "rewards/repetition_penalty_reward": -0.07370108738541603,
      "rewards/tag_count_reward": 0.5,
      "step": 52
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.04168701171875,
      "epoch": 0.038856304985337244,
      "grad_norm": 2.6137555315943026,
      "kl": 0.001148223876953125,
      "learning_rate": 3.8686131386861313e-07,
      "loss": -0.0186,
      "reward": 0.7216832935810089,
      "reward_std": 0.2934323847293854,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.3055555671453476,
      "rewards/repetition_penalty_reward": -0.09428896009922028,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 53
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.9375,
      "epoch": 0.039589442815249266,
      "grad_norm": 2.9424116740549664,
      "kl": 0.00109100341796875,
      "learning_rate": 3.9416058394160584e-07,
      "loss": -0.022,
      "reward": 0.9018063545227051,
      "reward_std": 0.3424327075481415,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.4375000298023224,
      "rewards/repetition_penalty_reward": -0.06694366224110126,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 54
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.9583435058594,
      "epoch": 0.04032258064516129,
      "grad_norm": 2.4966957649374684,
      "kl": 0.0010433197021484375,
      "learning_rate": 4.0145985401459856e-07,
      "loss": -0.0116,
      "reward": 0.8005258738994598,
      "reward_std": 0.24090076982975006,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4166667014360428,
      "rewards/repetition_penalty_reward": -0.11614080145955086,
      "rewards/tag_count_reward": 0.5,
      "step": 55
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.4583740234375,
      "epoch": 0.04105571847507331,
      "grad_norm": 2.6094881117590223,
      "kl": 0.001262664794921875,
      "learning_rate": 4.087591240875912e-07,
      "loss": -0.0711,
      "reward": 0.6848195195198059,
      "reward_std": 0.23144569993019104,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.236111119389534,
      "rewards/repetition_penalty_reward": -0.07212491519749165,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 56
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 534.0000305175781,
      "epoch": 0.041788856304985335,
      "grad_norm": 2.5627446751027807,
      "kl": 0.001556396484375,
      "learning_rate": 4.160583941605839e-07,
      "loss": -0.0015,
      "reward": 0.8210827708244324,
      "reward_std": 0.26339250057935715,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4027778059244156,
      "rewards/repetition_penalty_reward": -0.09211170673370361,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 57
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.6041870117188,
      "epoch": 0.04252199413489736,
      "grad_norm": 2.787620990751815,
      "kl": 0.001438140869140625,
      "learning_rate": 4.233576642335766e-07,
      "loss": 0.0411,
      "reward": 0.8132742345333099,
      "reward_std": 0.2763310372829437,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.3611111342906952,
      "rewards/repetition_penalty_reward": -0.07908686250448227,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 58
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.4375,
      "epoch": 0.04325513196480939,
      "grad_norm": 2.5844944772028726,
      "kl": 0.00209808349609375,
      "learning_rate": 4.306569343065693e-07,
      "loss": -0.1141,
      "reward": 0.7877600789070129,
      "reward_std": 0.23524152487516403,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.3750000298023224,
      "rewards/repetition_penalty_reward": -0.10807328298687935,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 59
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 526.8333435058594,
      "epoch": 0.04398826979472141,
      "grad_norm": 2.4453183077687943,
      "kl": 0.002227783203125,
      "learning_rate": 4.3795620437956206e-07,
      "loss": -0.0189,
      "reward": 0.8026378750801086,
      "reward_std": 0.2494141310453415,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.381944477558136,
      "rewards/repetition_penalty_reward": -0.08972325921058655,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 538.2916870117188,
      "epoch": 0.04472140762463343,
      "grad_norm": 2.496023501476716,
      "kl": 0.00217437744140625,
      "learning_rate": 4.452554744525547e-07,
      "loss": -0.0263,
      "reward": 0.7900694012641907,
      "reward_std": 0.19147495925426483,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.3888889104127884,
      "rewards/repetition_penalty_reward": -0.10402785614132881,
      "rewards/tag_count_reward": 0.5052083432674408,
      "step": 61
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.1041717529297,
      "epoch": 0.045454545454545456,
      "grad_norm": 2.4902095639273654,
      "kl": 0.00255584716796875,
      "learning_rate": 4.5255474452554743e-07,
      "loss": 0.0029,
      "reward": 0.8510425984859467,
      "reward_std": 0.2535877972841263,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4236111342906952,
      "rewards/repetition_penalty_reward": -0.07256851345300674,
      "rewards/tag_count_reward": 0.5,
      "step": 62
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.2083435058594,
      "epoch": 0.04618768328445748,
      "grad_norm": 2.5574432170277417,
      "kl": 0.0037078857421875,
      "learning_rate": 4.5985401459854014e-07,
      "loss": -0.04,
      "reward": 0.7994670569896698,
      "reward_std": 0.21547260135412216,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4027777910232544,
      "rewards/repetition_penalty_reward": -0.10331075266003609,
      "rewards/tag_count_reward": 0.5,
      "step": 63
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.7083435058594,
      "epoch": 0.0469208211143695,
      "grad_norm": 2.725179825178671,
      "kl": 0.00246429443359375,
      "learning_rate": 4.671532846715328e-07,
      "loss": -0.0296,
      "reward": 0.9697330594062805,
      "reward_std": 0.295375719666481,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5208333432674408,
      "rewards/repetition_penalty_reward": -0.07193369045853615,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 64
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.29168701171875,
      "epoch": 0.047653958944281524,
      "grad_norm": 2.7484533646327804,
      "kl": 0.005218505859375,
      "learning_rate": 4.744525547445255e-07,
      "loss": -0.0117,
      "reward": 0.8709261417388916,
      "reward_std": 0.3177572637796402,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4305555522441864,
      "rewards/repetition_penalty_reward": -0.08046277612447739,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 65
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.1250305175781,
      "epoch": 0.04838709677419355,
      "grad_norm": 2.754230706652707,
      "kl": 0.0030059814453125,
      "learning_rate": 4.817518248175182e-07,
      "loss": 0.0394,
      "reward": 0.8668566048145294,
      "reward_std": 0.21845827251672745,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.423611119389534,
      "rewards/repetition_penalty_reward": -0.07758788764476776,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 66
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.5833435058594,
      "epoch": 0.04912023460410557,
      "grad_norm": 2.785853687350145,
      "kl": 0.00362396240234375,
      "learning_rate": 4.89051094890511e-07,
      "loss": -0.0255,
      "reward": 0.9353344142436981,
      "reward_std": 0.24234941601753235,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4861111342906952,
      "rewards/repetition_penalty_reward": -0.07161007076501846,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 67
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.4583435058594,
      "epoch": 0.04985337243401759,
      "grad_norm": 2.430982163529705,
      "kl": 0.00330352783203125,
      "learning_rate": 4.963503649635036e-07,
      "loss": -0.0115,
      "reward": 0.9278749823570251,
      "reward_std": 0.19417473673820496,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.520833358168602,
      "rewards/repetition_penalty_reward": -0.09295839816331863,
      "rewards/tag_count_reward": 0.5,
      "step": 68
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.8541870117188,
      "epoch": 0.050586510263929615,
      "grad_norm": 2.5489498982709047,
      "kl": 0.00344085693359375,
      "learning_rate": 5.036496350364964e-07,
      "loss": -0.0328,
      "reward": 0.9113207161426544,
      "reward_std": 0.2536340802907944,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.4861111342906952,
      "rewards/repetition_penalty_reward": -0.08520709350705147,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 69
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.4791870117188,
      "epoch": 0.051319648093841645,
      "grad_norm": 2.4000158911131897,
      "kl": 0.00331878662109375,
      "learning_rate": 5.109489051094891e-07,
      "loss": -0.0455,
      "reward": 0.9332021176815033,
      "reward_std": 0.20038650184869766,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5347222685813904,
      "rewards/repetition_penalty_reward": -0.10152019187808037,
      "rewards/tag_count_reward": 0.5,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.9583587646484,
      "epoch": 0.05205278592375367,
      "grad_norm": 2.6501302736560426,
      "kl": 0.00391387939453125,
      "learning_rate": 5.182481751824817e-07,
      "loss": -0.0121,
      "reward": 1.0358231365680695,
      "reward_std": 0.25363823771476746,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6041666865348816,
      "rewards/repetition_penalty_reward": -0.0891769677400589,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 71
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 588.2916870117188,
      "epoch": 0.05278592375366569,
      "grad_norm": 2.4485936157125074,
      "kl": 0.00411224365234375,
      "learning_rate": 5.255474452554745e-07,
      "loss": -0.0353,
      "reward": 0.9984837472438812,
      "reward_std": 0.23911786824464798,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5486111640930176,
      "rewards/repetition_penalty_reward": -0.07096070051193237,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 72
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 556.4375,
      "epoch": 0.053519061583577714,
      "grad_norm": 2.490917274894813,
      "kl": 0.0072174072265625,
      "learning_rate": 5.328467153284672e-07,
      "loss": -0.0127,
      "reward": 0.9354804754257202,
      "reward_std": 0.2260909304022789,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.534722238779068,
      "rewards/repetition_penalty_reward": -0.09924176707863808,
      "rewards/tag_count_reward": 0.5,
      "step": 73
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.7500305175781,
      "epoch": 0.054252199413489736,
      "grad_norm": 2.6783458493753733,
      "kl": 0.005462646484375,
      "learning_rate": 5.401459854014598e-07,
      "loss": -0.0287,
      "reward": 0.9104893207550049,
      "reward_std": 0.21142099052667618,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.486111119389534,
      "rewards/repetition_penalty_reward": -0.1068718284368515,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 74
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 512.2500305175781,
      "epoch": 0.05498533724340176,
      "grad_norm": 2.4199982126361843,
      "kl": 0.0055389404296875,
      "learning_rate": 5.474452554744526e-07,
      "loss": -0.0385,
      "reward": 0.9597910344600677,
      "reward_std": 0.2526519149541855,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5486111640930176,
      "rewards/repetition_penalty_reward": -0.09923676028847694,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 75
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.5000305175781,
      "epoch": 0.05571847507331378,
      "grad_norm": 2.567874458479384,
      "kl": 0.0051422119140625,
      "learning_rate": 5.547445255474452e-07,
      "loss": -0.0047,
      "reward": 1.0856189727783203,
      "reward_std": 0.24321593344211578,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.6250000298023224,
      "rewards/repetition_penalty_reward": -0.07063117437064648,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 76
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.2083435058594,
      "epoch": 0.056451612903225805,
      "grad_norm": 2.550528253133134,
      "kl": 0.0053863525390625,
      "learning_rate": 5.620437956204379e-07,
      "loss": 0.0184,
      "reward": 1.1505069136619568,
      "reward_std": 0.20630817860364914,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7152778208255768,
      "rewards/repetition_penalty_reward": -0.07518759742379189,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 77
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 490.1458435058594,
      "epoch": 0.05718475073313783,
      "grad_norm": 2.5568022714676157,
      "kl": 0.005523681640625,
      "learning_rate": 5.693430656934306e-07,
      "loss": -0.0381,
      "reward": 1.0803128480911255,
      "reward_std": 0.27904535830020905,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.638888955116272,
      "rewards/repetition_penalty_reward": -0.0794093906879425,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 78
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 570.5000305175781,
      "epoch": 0.05791788856304985,
      "grad_norm": 2.7737108529156207,
      "kl": 0.0061187744140625,
      "learning_rate": 5.766423357664233e-07,
      "loss": -0.0359,
      "reward": 1.125738263130188,
      "reward_std": 0.2861868143081665,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6527777910232544,
      "rewards/repetition_penalty_reward": -0.0791228711605072,
      "rewards/tag_count_reward": 0.5520833730697632,
      "step": 79
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 658.3125305175781,
      "epoch": 0.05865102639296188,
      "grad_norm": 2.3815187987627113,
      "kl": 0.0054473876953125,
      "learning_rate": 5.83941605839416e-07,
      "loss": 0.0008,
      "reward": 1.0200362801551819,
      "reward_std": 0.21494220197200775,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6458333730697632,
      "rewards/repetition_penalty_reward": -0.13621379435062408,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 573.5416717529297,
      "epoch": 0.0593841642228739,
      "grad_norm": 2.6130817675171194,
      "kl": 0.0069732666015625,
      "learning_rate": 5.912408759124087e-07,
      "loss": 0.0508,
      "reward": 1.1462955176830292,
      "reward_std": 0.28369559347629547,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.6527778208255768,
      "rewards/repetition_penalty_reward": -0.08981562405824661,
      "rewards/tag_count_reward": 0.5416666865348816,
      "step": 81
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 582.2291870117188,
      "epoch": 0.060117302052785926,
      "grad_norm": 2.25648691082032,
      "kl": 0.006988525390625,
      "learning_rate": 5.985401459854015e-07,
      "loss": -0.0314,
      "reward": 1.0307790040969849,
      "reward_std": 0.2735845670104027,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.5972222685813904,
      "rewards/repetition_penalty_reward": -0.09769327193498611,
      "rewards/tag_count_reward": 0.53125,
      "step": 82
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.8958435058594,
      "epoch": 0.06085043988269795,
      "grad_norm": 2.5748740896100406,
      "kl": 0.00799560546875,
      "learning_rate": 6.058394160583942e-07,
      "loss": -0.0757,
      "reward": 1.1210277676582336,
      "reward_std": 0.22354952991008759,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.694444477558136,
      "rewards/repetition_penalty_reward": -0.08383342623710632,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 83
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 540.6666870117188,
      "epoch": 0.06158357771260997,
      "grad_norm": 2.671125025547467,
      "kl": 0.009521484375,
      "learning_rate": 6.131386861313868e-07,
      "loss": -0.0565,
      "reward": 1.1098045110702515,
      "reward_std": 0.22741875797510147,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.6805556118488312,
      "rewards/repetition_penalty_reward": -0.07075115293264389,
      "rewards/tag_count_reward": 0.5,
      "step": 84
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.3333435058594,
      "epoch": 0.062316715542521994,
      "grad_norm": 2.7047116143217607,
      "kl": 0.008575439453125,
      "learning_rate": 6.204379562043796e-07,
      "loss": -0.034,
      "reward": 1.031806230545044,
      "reward_std": 0.23993152379989624,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.597222238779068,
      "rewards/repetition_penalty_reward": -0.08624938875436783,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 85
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.9791870117188,
      "epoch": 0.06304985337243402,
      "grad_norm": 2.3811852124777007,
      "kl": 0.011016845703125,
      "learning_rate": 6.277372262773722e-07,
      "loss": -0.059,
      "reward": 1.1634512543678284,
      "reward_std": 0.1828886717557907,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7430555820465088,
      "rewards/repetition_penalty_reward": -0.09002107009291649,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 86
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.7916870117188,
      "epoch": 0.06378299120234604,
      "grad_norm": 2.6708744424748825,
      "kl": 0.009613037109375,
      "learning_rate": 6.350364963503649e-07,
      "loss": 0.0257,
      "reward": 1.2677294611930847,
      "reward_std": 0.17205430567264557,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8263888955116272,
      "rewards/repetition_penalty_reward": -0.06907607242465019,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 87
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.62501525878906,
      "epoch": 0.06451612903225806,
      "grad_norm": 2.6527083044097615,
      "kl": 0.013580322265625,
      "learning_rate": 6.423357664233577e-07,
      "loss": -0.0816,
      "reward": 1.157953143119812,
      "reward_std": 0.24211852997541428,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.722222238779068,
      "rewards/repetition_penalty_reward": -0.08510247990489006,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 88
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.2083740234375,
      "epoch": 0.06524926686217009,
      "grad_norm": 2.254851707913722,
      "kl": 0.01177978515625,
      "learning_rate": 6.496350364963503e-07,
      "loss": -0.0616,
      "reward": 1.2707419395446777,
      "reward_std": 0.23218122124671936,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8263888955116272,
      "rewards/repetition_penalty_reward": -0.08689698204398155,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 89
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.0625,
      "epoch": 0.06598240469208211,
      "grad_norm": 2.466044255250126,
      "kl": 0.01318359375,
      "learning_rate": 6.56934306569343e-07,
      "loss": 0.0192,
      "reward": 1.2977005243301392,
      "reward_std": 0.2469094917178154,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.8472222685813904,
      "rewards/repetition_penalty_reward": -0.08077173680067062,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.8750305175781,
      "epoch": 0.06671554252199413,
      "grad_norm": 2.4627490545315553,
      "kl": 0.012664794921875,
      "learning_rate": 6.642335766423358e-07,
      "loss": -0.0433,
      "reward": 1.2336487770080566,
      "reward_std": 0.1906793713569641,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8055556118488312,
      "rewards/repetition_penalty_reward": -0.09274015948176384,
      "rewards/tag_count_reward": 0.5208333730697632,
      "step": 91
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.0416870117188,
      "epoch": 0.06744868035190615,
      "grad_norm": 2.4773692933804274,
      "kl": 0.01470947265625,
      "learning_rate": 6.715328467153284e-07,
      "loss": -0.0215,
      "reward": 1.2830377221107483,
      "reward_std": 0.24985270202159882,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8402778506278992,
      "rewards/repetition_penalty_reward": -0.09890671819448471,
      "rewards/tag_count_reward": 0.5416666865348816,
      "step": 92
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 631.0208435058594,
      "epoch": 0.06818181818181818,
      "grad_norm": 2.252251791829593,
      "kl": 0.015655517578125,
      "learning_rate": 6.788321167883211e-07,
      "loss": 0.0148,
      "reward": 1.3440173268318176,
      "reward_std": 0.15536434948444366,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9305555820465088,
      "rewards/repetition_penalty_reward": -0.10737163573503494,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 93
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.8958435058594,
      "epoch": 0.0689149560117302,
      "grad_norm": 2.371964666409008,
      "kl": 0.018798828125,
      "learning_rate": 6.861313868613139e-07,
      "loss": -0.065,
      "reward": 1.3092040419578552,
      "reward_std": 0.21491578966379166,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8888889253139496,
      "rewards/repetition_penalty_reward": -0.10051822662353516,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 94
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 638.7083740234375,
      "epoch": 0.06964809384164222,
      "grad_norm": 2.102439408725684,
      "kl": 0.01702880859375,
      "learning_rate": 6.934306569343066e-07,
      "loss": 0.0856,
      "reward": 1.3951058387756348,
      "reward_std": 0.23365377634763718,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.12225543707609177,
      "rewards/tag_count_reward": 0.5312500298023224,
      "step": 95
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 564.2708740234375,
      "epoch": 0.07038123167155426,
      "grad_norm": 2.327185590119073,
      "kl": 0.0244140625,
      "learning_rate": 7.007299270072993e-07,
      "loss": -0.0365,
      "reward": 1.4423339366912842,
      "reward_std": 0.1464700922369957,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.07849938794970512,
      "rewards/tag_count_reward": 0.5625000298023224,
      "step": 96
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 676.8750305175781,
      "epoch": 0.07111436950146628,
      "grad_norm": 2.3497921909453523,
      "kl": 0.021240234375,
      "learning_rate": 7.080291970802919e-07,
      "loss": 0.2078,
      "reward": 1.3351240158081055,
      "reward_std": 0.14220446348190308,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.14057040959596634,
      "rewards/tag_count_reward": 0.5104166865348816,
      "step": 97
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 649.0416870117188,
      "epoch": 0.0718475073313783,
      "grad_norm": 2.2789434818818886,
      "kl": 0.0260009765625,
      "learning_rate": 7.153284671532847e-07,
      "loss": 0.2727,
      "reward": 1.3547228574752808,
      "reward_std": 0.15613484382629395,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9374999701976776,
      "rewards/repetition_penalty_reward": -0.13486044853925705,
      "rewards/tag_count_reward": 0.5520833730697632,
      "step": 98
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 621.8333740234375,
      "epoch": 0.07258064516129033,
      "grad_norm": 2.239779876944864,
      "kl": 0.0238037109375,
      "learning_rate": 7.226277372262773e-07,
      "loss": -0.04,
      "reward": 1.4298600554466248,
      "reward_std": 0.12703320011496544,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.08055667206645012,
      "rewards/tag_count_reward": 0.5520833432674408,
      "step": 99
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.75,
      "epoch": 0.07331378299120235,
      "grad_norm": 2.8804572295856166,
      "kl": 0.02581787109375,
      "learning_rate": 7.2992700729927e-07,
      "loss": 0.0164,
      "reward": 1.377421259880066,
      "reward_std": 0.2720048576593399,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8819444179534912,
      "rewards/repetition_penalty_reward": -0.10348153859376907,
      "rewards/tag_count_reward": 0.5989583432674408,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 829.5625305175781,
      "epoch": 0.07404692082111437,
      "grad_norm": 2.345441719178201,
      "kl": 0.02825927734375,
      "learning_rate": 7.372262773722628e-07,
      "loss": 0.2908,
      "reward": 1.3878263235092163,
      "reward_std": 0.27931635081768036,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.17467374354600906,
      "rewards/tag_count_reward": 0.5625000298023224,
      "step": 101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 810.2708435058594,
      "epoch": 0.0747800586510264,
      "grad_norm": 2.029032638001561,
      "kl": 0.0281982421875,
      "learning_rate": 7.445255474452554e-07,
      "loss": 0.2321,
      "reward": 1.4438632726669312,
      "reward_std": 0.2681792825460434,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.14120623841881752,
      "rewards/tag_count_reward": 0.640625,
      "step": 102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 716.1875305175781,
      "epoch": 0.07551319648093842,
      "grad_norm": 2.150055244776667,
      "kl": 0.03033447265625,
      "learning_rate": 7.518248175182481e-07,
      "loss": 0.1382,
      "reward": 1.4972922205924988,
      "reward_std": 0.3046337366104126,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.12423554062843323,
      "rewards/tag_count_reward": 0.5729166865348816,
      "step": 103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 712.7916870117188,
      "epoch": 0.07624633431085044,
      "grad_norm": 2.314344363733894,
      "kl": 0.0306396484375,
      "learning_rate": 7.591240875912408e-07,
      "loss": 0.3068,
      "reward": 1.419297456741333,
      "reward_std": 0.2410280853509903,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.1414663940668106,
      "rewards/tag_count_reward": 0.5677083432674408,
      "step": 104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 708.4791870117188,
      "epoch": 0.07697947214076246,
      "grad_norm": 2.227593566299099,
      "kl": 0.02899169921875,
      "learning_rate": 7.664233576642335e-07,
      "loss": 0.2322,
      "reward": 1.5039226412773132,
      "reward_std": 0.3817121684551239,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.1523272842168808,
      "rewards/tag_count_reward": 0.6354166865348816,
      "step": 105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 741.1875305175781,
      "epoch": 0.07771260997067449,
      "grad_norm": 2.2189255233187275,
      "kl": 0.03448486328125,
      "learning_rate": 7.737226277372263e-07,
      "loss": 0.0745,
      "reward": 1.5402050018310547,
      "reward_std": 0.3311127871274948,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.13687820360064507,
      "rewards/tag_count_reward": 0.6354166865348816,
      "step": 106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 725.7708435058594,
      "epoch": 0.07844574780058651,
      "grad_norm": 2.3727721162936293,
      "kl": 0.03070068359375,
      "learning_rate": 7.81021897810219e-07,
      "loss": 0.0747,
      "reward": 1.601328730583191,
      "reward_std": 0.3444855064153671,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.8888889253139496,
      "rewards/repetition_penalty_reward": -0.11568531394004822,
      "rewards/tag_count_reward": 0.8072916865348816,
      "step": 107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 731.2500305175781,
      "epoch": 0.07917888563049853,
      "grad_norm": 2.208602964719147,
      "kl": 0.0318603515625,
      "learning_rate": 7.883211678832117e-07,
      "loss": 0.1092,
      "reward": 1.816445231437683,
      "reward_std": 0.4272291660308838,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9513888955116272,
      "rewards/repetition_penalty_reward": -0.11931872367858887,
      "rewards/tag_count_reward": 0.8177083432674408,
      "step": 108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 648.1041870117188,
      "epoch": 0.07991202346041056,
      "grad_norm": 2.180090722902742,
      "kl": 0.031005859375,
      "learning_rate": 7.956204379562043e-07,
      "loss": 0.0962,
      "reward": 1.7373812198638916,
      "reward_std": 0.31745412945747375,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9027777910232544,
      "rewards/repetition_penalty_reward": -0.11331330239772797,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.875,
      "epoch": 0.08064516129032258,
      "grad_norm": 2.24336862203659,
      "kl": 0.03515625,
      "learning_rate": 8.029197080291971e-07,
      "loss": 0.0259,
      "reward": 1.707243025302887,
      "reward_std": 0.2569514065980911,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8958333730697632,
      "rewards/repetition_penalty_reward": -0.11567378789186478,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 668.2916870117188,
      "epoch": 0.0813782991202346,
      "grad_norm": 2.1467393949027946,
      "kl": 0.0316162109375,
      "learning_rate": 8.102189781021898e-07,
      "loss": 0.1118,
      "reward": 1.7002267837524414,
      "reward_std": 0.3253027945756912,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9027777910232544,
      "rewards/repetition_penalty_reward": -0.15046779811382294,
      "rewards/tag_count_reward": 0.90625,
      "step": 111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.2291870117188,
      "epoch": 0.08211143695014662,
      "grad_norm": 2.3046724261447245,
      "kl": 0.03759765625,
      "learning_rate": 8.175182481751824e-07,
      "loss": -0.098,
      "reward": 1.6816839575767517,
      "reward_std": 0.24633130431175232,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8333334028720856,
      "rewards/repetition_penalty_reward": -0.10998266562819481,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.375,
      "epoch": 0.08284457478005865,
      "grad_norm": 2.5306732105186605,
      "kl": 0.034423828125,
      "learning_rate": 8.248175182481751e-07,
      "loss": -0.0392,
      "reward": 2.261577606201172,
      "reward_std": 0.3669068068265915,
      "rewards/accuracy_reward": 0.5416666716337204,
      "rewards/reasoning_steps_reward": 0.8194445371627808,
      "rewards/repetition_penalty_reward": -0.08390852063894272,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 649.6041870117188,
      "epoch": 0.08357771260997067,
      "grad_norm": 2.244871151106607,
      "kl": 0.0389404296875,
      "learning_rate": 8.321167883211679e-07,
      "loss": -0.0034,
      "reward": 1.8438727259635925,
      "reward_std": 0.42509177327156067,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/reasoning_steps_reward": 0.8333333134651184,
      "rewards/repetition_penalty_reward": -0.11446066945791245,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 634.2916870117188,
      "epoch": 0.08431085043988269,
      "grad_norm": 2.491100748223219,
      "kl": 0.0379638671875,
      "learning_rate": 8.394160583941605e-07,
      "loss": 0.0772,
      "reward": 1.9845237731933594,
      "reward_std": 0.4105287790298462,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/reasoning_steps_reward": 0.8958333134651184,
      "rewards/repetition_penalty_reward": -0.08318460360169411,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 685.6875,
      "epoch": 0.08504398826979472,
      "grad_norm": 2.344273362836253,
      "kl": 0.0421142578125,
      "learning_rate": 8.467153284671532e-07,
      "loss": 0.1762,
      "reward": 1.7933751940727234,
      "reward_std": 0.20816757529973984,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "rewards/repetition_penalty_reward": -0.10766644030809402,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 576.9583740234375,
      "epoch": 0.08577712609970674,
      "grad_norm": 2.2662508812576356,
      "kl": 0.042724609375,
      "learning_rate": 8.540145985401459e-07,
      "loss": -0.0667,
      "reward": 1.9130470752716064,
      "reward_std": 0.31153056025505066,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "rewards/repetition_penalty_reward": -0.10257799923419952,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 654.1875305175781,
      "epoch": 0.08651026392961877,
      "grad_norm": 2.3816109059086035,
      "kl": 0.0408935546875,
      "learning_rate": 8.613138686131386e-07,
      "loss": 0.0516,
      "reward": 1.8271796703338623,
      "reward_std": 0.26171302795410156,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "rewards/repetition_penalty_reward": -0.08948708325624466,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.9583435058594,
      "epoch": 0.0872434017595308,
      "grad_norm": 2.2625493199191613,
      "kl": 0.050537109375,
      "learning_rate": 8.686131386861314e-07,
      "loss": -0.02,
      "reward": 1.8098711371421814,
      "reward_std": 0.2411314696073532,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "rewards/repetition_penalty_reward": -0.10158723592758179,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.9583740234375,
      "epoch": 0.08797653958944282,
      "grad_norm": 2.491338730976297,
      "kl": 0.0498046875,
      "learning_rate": 8.759124087591241e-07,
      "loss": 0.0994,
      "reward": 1.9433124661445618,
      "reward_std": 0.28877225518226624,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.1052987314760685,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.4166870117188,
      "epoch": 0.08870967741935484,
      "grad_norm": 2.100723178631127,
      "kl": 0.049560546875,
      "learning_rate": 8.832116788321168e-07,
      "loss": -0.0021,
      "reward": 1.8328325152397156,
      "reward_std": 0.14558201283216476,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.09077860787510872,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.0416870117188,
      "epoch": 0.08944281524926687,
      "grad_norm": 2.0146574407917996,
      "kl": 0.0506591796875,
      "learning_rate": 8.905109489051094e-07,
      "loss": -0.0551,
      "reward": 1.9449394941329956,
      "reward_std": 0.26772307604551315,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 0.9236111044883728,
      "rewards/repetition_penalty_reward": -0.09325498715043068,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 647.875,
      "epoch": 0.09017595307917889,
      "grad_norm": 2.1647631689137072,
      "kl": 0.055908203125,
      "learning_rate": 8.978102189781022e-07,
      "loss": -0.0092,
      "reward": 2.107422709465027,
      "reward_std": 0.4037548154592514,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.09570235759019852,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.6458435058594,
      "epoch": 0.09090909090909091,
      "grad_norm": 2.3175998277197434,
      "kl": 0.0531005859375,
      "learning_rate": 9.051094890510949e-07,
      "loss": 0.0093,
      "reward": 2.0177698135375977,
      "reward_std": 0.21625616401433945,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.11243857070803642,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.5208435058594,
      "epoch": 0.09164222873900293,
      "grad_norm": 2.3635455743051135,
      "kl": 0.0628662109375,
      "learning_rate": 9.124087591240875e-07,
      "loss": 0.0655,
      "reward": 1.8874244093894958,
      "reward_std": 0.06788370944559574,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.09521446004509926,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.6458435058594,
      "epoch": 0.09237536656891496,
      "grad_norm": 4.714739215359856,
      "kl": 0.09521484375,
      "learning_rate": 9.197080291970803e-07,
      "loss": 0.0332,
      "reward": 1.857076346874237,
      "reward_std": 0.10263842344284058,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.1029931865632534,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.3958435058594,
      "epoch": 0.09310850439882698,
      "grad_norm": 2.242822379316528,
      "kl": 0.0604248046875,
      "learning_rate": 9.270072992700729e-07,
      "loss": 0.0292,
      "reward": 2.2475364208221436,
      "reward_std": 0.2705245167016983,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.07538021355867386,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.9791870117188,
      "epoch": 0.093841642228739,
      "grad_norm": 2.2965764822384434,
      "kl": 0.069580078125,
      "learning_rate": 9.343065693430656e-07,
      "loss": 0.0055,
      "reward": 2.1329785585403442,
      "reward_std": 0.1943557783961296,
      "rewards/accuracy_reward": 0.20833333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.07535484433174133,
      "rewards/tag_count_reward": 1.0,
      "step": 128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 639.4375,
      "epoch": 0.09457478005865103,
      "grad_norm": 2.7047332776537085,
      "kl": 0.066162109375,
      "learning_rate": 9.416058394160583e-07,
      "loss": 0.1901,
      "reward": 1.9127892851829529,
      "reward_std": 0.08384755812585354,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.07158574648201466,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 609.5000305175781,
      "epoch": 0.09530791788856305,
      "grad_norm": 2.4797993637993776,
      "kl": 0.069091796875,
      "learning_rate": 9.48905109489051e-07,
      "loss": -0.0213,
      "reward": 1.9225295186042786,
      "reward_std": 0.13330717384815216,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.07747054100036621,
      "rewards/tag_count_reward": 1.0,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.3750305175781,
      "epoch": 0.09604105571847507,
      "grad_norm": 2.3781148023687093,
      "kl": 0.07080078125,
      "learning_rate": 9.562043795620438e-07,
      "loss": 0.1265,
      "reward": 1.9733397364616394,
      "reward_std": 0.22801223397254944,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.08916043862700462,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 558.0625,
      "epoch": 0.0967741935483871,
      "grad_norm": 2.2188909082146813,
      "kl": 0.074462890625,
      "learning_rate": 9.635036496350364e-07,
      "loss": 0.042,
      "reward": 1.9614204168319702,
      "reward_std": 0.18102481961250305,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.10976015031337738,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.6666870117188,
      "epoch": 0.09750733137829912,
      "grad_norm": 2.3429168691260935,
      "kl": 0.077392578125,
      "learning_rate": 9.708029197080291e-07,
      "loss": 0.043,
      "reward": 1.9318488240242004,
      "reward_std": 0.02291060145944357,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.06815127283334732,
      "rewards/tag_count_reward": 1.0,
      "step": 133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.2708435058594,
      "epoch": 0.09824046920821114,
      "grad_norm": 2.523107372125059,
      "kl": 0.077392578125,
      "learning_rate": 9.78102189781022e-07,
      "loss": 0.0068,
      "reward": 1.9358287453651428,
      "reward_std": 0.18595868349075317,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.08326847851276398,
      "rewards/tag_count_reward": 0.984375,
      "step": 134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.5416870117188,
      "epoch": 0.09897360703812316,
      "grad_norm": 2.3009439072227766,
      "kl": 0.08154296875,
      "learning_rate": 9.854014598540146e-07,
      "loss": 0.0738,
      "reward": 1.959082305431366,
      "reward_std": 0.16214194893836975,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.07737604528665543,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.7916870117188,
      "epoch": 0.09970674486803519,
      "grad_norm": 2.3099658884043768,
      "kl": 0.07763671875,
      "learning_rate": 9.927007299270073e-07,
      "loss": 0.02,
      "reward": 1.9437535405158997,
      "reward_std": 0.18613886833190918,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.08055209368467331,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.7500305175781,
      "epoch": 0.10043988269794721,
      "grad_norm": 2.361601327653796,
      "kl": 0.08251953125,
      "learning_rate": 1e-06,
      "loss": 0.0423,
      "reward": 1.9818828105926514,
      "reward_std": 0.11443111579865217,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.059783823788166046,
      "rewards/tag_count_reward": 1.0,
      "step": 137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 608.9375,
      "epoch": 0.10117302052785923,
      "grad_norm": 2.454515004494713,
      "kl": 0.07861328125,
      "learning_rate": 9.999985249970096e-07,
      "loss": -0.0004,
      "reward": 1.9380502700805664,
      "reward_std": 0.10458014532923698,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.061949726194143295,
      "rewards/tag_count_reward": 1.0,
      "step": 138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.3958435058594,
      "epoch": 0.10190615835777127,
      "grad_norm": 2.269901600994151,
      "kl": 0.082763671875,
      "learning_rate": 9.999940999977079e-07,
      "loss": 0.0515,
      "reward": 1.9492172002792358,
      "reward_std": 0.1285417703911662,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.07508841529488564,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.4583435058594,
      "epoch": 0.10263929618768329,
      "grad_norm": 2.567033517686166,
      "kl": 0.08251953125,
      "learning_rate": 9.999867250311034e-07,
      "loss": 0.0618,
      "reward": 2.2221978902816772,
      "reward_std": 0.2952120155096054,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.07641324028372765,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 520.4791870117188,
      "epoch": 0.10337243401759531,
      "grad_norm": 9.621459270704188,
      "kl": 0.117919921875,
      "learning_rate": 9.99976400145543e-07,
      "loss": 0.0766,
      "reward": 1.9341915845870972,
      "reward_std": 0.0798512976616621,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.04671124555170536,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 576.3125,
      "epoch": 0.10410557184750734,
      "grad_norm": 2.309493750807184,
      "kl": 0.083251953125,
      "learning_rate": 9.999631254087124e-07,
      "loss": 0.0645,
      "reward": 2.1059885025024414,
      "reward_std": 0.15556566044688225,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.06762255355715752,
      "rewards/tag_count_reward": 1.0,
      "step": 142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.9166717529297,
      "epoch": 0.10483870967741936,
      "grad_norm": 2.492592510007256,
      "kl": 0.09814453125,
      "learning_rate": 9.99946900907635e-07,
      "loss": 0.054,
      "reward": 1.9212931394577026,
      "reward_std": 0.08056900650262833,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05787358991801739,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.125,
      "epoch": 0.10557184750733138,
      "grad_norm": 2.641625952434204,
      "kl": 0.092041015625,
      "learning_rate": 9.999277267486716e-07,
      "loss": -0.0104,
      "reward": 1.895661175251007,
      "reward_std": 0.09707108698785305,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.050519492477178574,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.3958435058594,
      "epoch": 0.1063049853372434,
      "grad_norm": 2.4813074698854085,
      "kl": 0.09912109375,
      "learning_rate": 9.999056030575195e-07,
      "loss": -0.0252,
      "reward": 2.3760710954666138,
      "reward_std": 0.5173959732055664,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.06663743779063225,
      "rewards/tag_count_reward": 0.984375,
      "step": 145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.9375305175781,
      "epoch": 0.10703812316715543,
      "grad_norm": 2.546987058241153,
      "kl": 0.097412109375,
      "learning_rate": 9.998805299792124e-07,
      "loss": 0.0225,
      "reward": 1.9302016496658325,
      "reward_std": 0.15545649453997612,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.08195120096206665,
      "rewards/tag_count_reward": 0.984375,
      "step": 146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.3333435058594,
      "epoch": 0.10777126099706745,
      "grad_norm": 2.279115521679075,
      "kl": 0.09375,
      "learning_rate": 9.998525076781186e-07,
      "loss": 0.0485,
      "reward": 2.1790050268173218,
      "reward_std": 0.343727208673954,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0709951352328062,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.3333435058594,
      "epoch": 0.10850439882697947,
      "grad_norm": 2.450437856988281,
      "kl": 0.109130859375,
      "learning_rate": 9.9982153633794e-07,
      "loss": 0.0185,
      "reward": 2.1389353275299072,
      "reward_std": 0.12949354946613312,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.05724521912634373,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.6666870117188,
      "epoch": 0.1092375366568915,
      "grad_norm": 2.392731425965375,
      "kl": 0.105224609375,
      "learning_rate": 9.997876161617116e-07,
      "loss": -0.0438,
      "reward": 1.9390915632247925,
      "reward_std": 0.14268473163247108,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.052227944135665894,
      "rewards/tag_count_reward": 0.984375,
      "step": 149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.4375305175781,
      "epoch": 0.10997067448680352,
      "grad_norm": 2.6243429866910577,
      "kl": 0.1064453125,
      "learning_rate": 9.997507473717993e-07,
      "loss": -0.0684,
      "reward": 1.918170690536499,
      "reward_std": 0.1779511570930481,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.05752386339008808,
      "rewards/tag_count_reward": 0.96875,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 526.9791870117188,
      "epoch": 0.11070381231671554,
      "grad_norm": 2.429431812645537,
      "kl": 0.110107421875,
      "learning_rate": 9.997109302098988e-07,
      "loss": 0.0351,
      "reward": 2.0930378437042236,
      "reward_std": 0.24497440457344055,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.04064269922673702,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.1041870117188,
      "epoch": 0.11143695014662756,
      "grad_norm": 2.735990047546789,
      "kl": 0.111572265625,
      "learning_rate": 9.996681649370347e-07,
      "loss": 0.0556,
      "reward": 2.1636458039283752,
      "reward_std": 0.18747984617948532,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0551042165607214,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.4583435058594,
      "epoch": 0.11217008797653959,
      "grad_norm": 2.325307078829229,
      "kl": 0.09814453125,
      "learning_rate": 9.996224518335572e-07,
      "loss": 0.0049,
      "reward": 1.9978720545768738,
      "reward_std": 0.13420861586928368,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05941970832645893,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.75,
      "epoch": 0.11290322580645161,
      "grad_norm": 2.4201064670759,
      "kl": 0.103515625,
      "learning_rate": 9.995737911991421e-07,
      "loss": -0.0234,
      "reward": 1.9454825520515442,
      "reward_std": 0.1356247467920184,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.05798974260687828,
      "rewards/tag_count_reward": 0.96875,
      "step": 154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 608.2916870117188,
      "epoch": 0.11363636363636363,
      "grad_norm": 2.250316333226382,
      "kl": 0.093017578125,
      "learning_rate": 9.995221833527873e-07,
      "loss": 0.0096,
      "reward": 1.9684556722640991,
      "reward_std": 0.14412052184343338,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.05411389470100403,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.2500305175781,
      "epoch": 0.11436950146627566,
      "grad_norm": 2.3123417188932414,
      "kl": 0.1025390625,
      "learning_rate": 9.994676286328118e-07,
      "loss": 0.0526,
      "reward": 1.957583487033844,
      "reward_std": 0.08784053660929203,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.06324994564056396,
      "rewards/tag_count_reward": 1.0,
      "step": 156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 555.4375305175781,
      "epoch": 0.11510263929618768,
      "grad_norm": 2.364580200558665,
      "kl": 0.10546875,
      "learning_rate": 9.994101273968526e-07,
      "loss": -0.0002,
      "reward": 1.9639785885810852,
      "reward_std": 0.2663791626691818,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.07247984036803246,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.6458435058594,
      "epoch": 0.1158357771260997,
      "grad_norm": 2.314171354857538,
      "kl": 0.109130859375,
      "learning_rate": 9.99349680021863e-07,
      "loss": 0.0229,
      "reward": 2.168446123600006,
      "reward_std": 0.11961105465888977,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05030396394431591,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.8750305175781,
      "epoch": 0.11656891495601172,
      "grad_norm": 2.3309162622734263,
      "kl": 0.094970703125,
      "learning_rate": 9.992862869041102e-07,
      "loss": -0.0195,
      "reward": 2.275045156478882,
      "reward_std": 0.29623332619667053,
      "rewards/accuracy_reward": 0.375,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.05828823521733284,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 555.9791870117188,
      "epoch": 0.11730205278592376,
      "grad_norm": 2.4125752206797633,
      "kl": 0.099609375,
      "learning_rate": 9.992199484591717e-07,
      "loss": -0.0082,
      "reward": 2.190155267715454,
      "reward_std": 0.15859412401914597,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05984491854906082,
      "rewards/tag_count_reward": 1.0,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.3333435058594,
      "epoch": 0.11803519061583578,
      "grad_norm": 2.492754544431609,
      "kl": 0.095703125,
      "learning_rate": 9.991506651219344e-07,
      "loss": 0.0522,
      "reward": 1.9383143186569214,
      "reward_std": 0.043892914429306984,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.04779680632054806,
      "rewards/tag_count_reward": 1.0,
      "step": 161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.0,
      "epoch": 0.1187683284457478,
      "grad_norm": 2.5627904900534975,
      "kl": 0.099609375,
      "learning_rate": 9.990784373465895e-07,
      "loss": 0.023,
      "reward": 2.162955939769745,
      "reward_std": 0.23758363723754883,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.05579404905438423,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 541.3958435058594,
      "epoch": 0.11950146627565983,
      "grad_norm": 2.5031797258210755,
      "kl": 0.097412109375,
      "learning_rate": 9.99003265606631e-07,
      "loss": 0.0472,
      "reward": 2.071454405784607,
      "reward_std": 0.14920172840356827,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.053545668721199036,
      "rewards/tag_count_reward": 1.0,
      "step": 163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.3958740234375,
      "epoch": 0.12023460410557185,
      "grad_norm": 2.547042259721191,
      "kl": 0.09033203125,
      "learning_rate": 9.989251503948531e-07,
      "loss": 0.0935,
      "reward": 2.1519184708595276,
      "reward_std": 0.1169380396604538,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.049470532685518265,
      "rewards/tag_count_reward": 1.0,
      "step": 164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.5208740234375,
      "epoch": 0.12096774193548387,
      "grad_norm": 2.2645297165562805,
      "kl": 0.093994140625,
      "learning_rate": 9.988440922233447e-07,
      "loss": 0.0799,
      "reward": 2.1653225421905518,
      "reward_std": 0.2170577123761177,
      "rewards/accuracy_reward": 0.2291666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.06384427845478058,
      "rewards/tag_count_reward": 1.0,
      "step": 165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.1666870117188,
      "epoch": 0.1217008797653959,
      "grad_norm": 2.431650538562101,
      "kl": 0.095458984375,
      "learning_rate": 9.987600916234887e-07,
      "loss": 0.1683,
      "reward": 1.938806176185608,
      "reward_std": 0.045028104446828365,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.05424942448735237,
      "rewards/tag_count_reward": 1.0,
      "step": 166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 603.6875305175781,
      "epoch": 0.12243401759530792,
      "grad_norm": 2.335284594764373,
      "kl": 0.08935546875,
      "learning_rate": 9.986731491459567e-07,
      "loss": 0.0245,
      "reward": 2.197871446609497,
      "reward_std": 0.15528446715325117,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.052128592506051064,
      "rewards/tag_count_reward": 1.0,
      "step": 167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 569.7500305175781,
      "epoch": 0.12316715542521994,
      "grad_norm": 2.3828481630789384,
      "kl": 0.093017578125,
      "learning_rate": 9.985832653607058e-07,
      "loss": 0.0957,
      "reward": 2.192627727985382,
      "reward_std": 0.03842144086956978,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.050427746027708054,
      "rewards/tag_count_reward": 1.0,
      "step": 168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.1666870117188,
      "epoch": 0.12390029325513197,
      "grad_norm": 2.160386876446579,
      "kl": 0.092529296875,
      "learning_rate": 9.984904408569757e-07,
      "loss": -0.0218,
      "reward": 1.9351824522018433,
      "reward_std": 0.14489805325865746,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.06481760554015636,
      "rewards/tag_count_reward": 1.0,
      "step": 169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.9791870117188,
      "epoch": 0.12463343108504399,
      "grad_norm": 2.582494728505769,
      "kl": 0.099853515625,
      "learning_rate": 9.98394676243284e-07,
      "loss": 0.1153,
      "reward": 2.173978328704834,
      "reward_std": 0.23065098375082016,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.04997998662292957,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.9791870117188,
      "epoch": 0.125366568914956,
      "grad_norm": 2.360291931663355,
      "kl": 0.1015625,
      "learning_rate": 9.982959721474219e-07,
      "loss": -0.0145,
      "reward": 2.192633032798767,
      "reward_std": 0.03827578388154507,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.050422552973032,
      "rewards/tag_count_reward": 1.0,
      "step": 171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.54168701171875,
      "epoch": 0.12609970674486803,
      "grad_norm": 2.644000756748961,
      "kl": 0.107666015625,
      "learning_rate": 9.981943292164507e-07,
      "loss": -0.0266,
      "reward": 2.1891872882843018,
      "reward_std": 0.16495954617857933,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05560445971786976,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.79168701171875,
      "epoch": 0.12683284457478006,
      "grad_norm": 2.4636582856331315,
      "kl": 0.104248046875,
      "learning_rate": 9.980897481166977e-07,
      "loss": 0.0109,
      "reward": 1.9538467526435852,
      "reward_std": 0.18937725573778152,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.056570012122392654,
      "rewards/tag_count_reward": 0.9895833730697632,
      "step": 173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 535.8750305175781,
      "epoch": 0.12756598240469208,
      "grad_norm": 2.3291019775434783,
      "kl": 0.10302734375,
      "learning_rate": 9.979822295337521e-07,
      "loss": -0.0373,
      "reward": 1.9403542280197144,
      "reward_std": 0.08776792883872986,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.03534029796719551,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.0000305175781,
      "epoch": 0.1282991202346041,
      "grad_norm": 2.105843364049476,
      "kl": 0.08984375,
      "learning_rate": 9.978717741724588e-07,
      "loss": 0.0256,
      "reward": 1.9570952653884888,
      "reward_std": 0.03407964622601867,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.035960348322987556,
      "rewards/tag_count_reward": 1.0,
      "step": 175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.4791870117188,
      "epoch": 0.12903225806451613,
      "grad_norm": 2.585212670700021,
      "kl": 0.09912109375,
      "learning_rate": 9.977583827569156e-07,
      "loss": 0.1018,
      "reward": 2.166927397251129,
      "reward_std": 0.08626264333724976,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.05529484711587429,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 574.4375,
      "epoch": 0.12976539589442815,
      "grad_norm": 2.3815955363709747,
      "kl": 0.105712890625,
      "learning_rate": 9.976420560304679e-07,
      "loss": -0.0233,
      "reward": 2.071603298187256,
      "reward_std": 0.26225684583187103,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.04992457665503025,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.3958435058594,
      "epoch": 0.13049853372434017,
      "grad_norm": 2.243479758643072,
      "kl": 0.100341796875,
      "learning_rate": 9.975227947557036e-07,
      "loss": 0.0422,
      "reward": 1.9449068903923035,
      "reward_std": 0.04067743383347988,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.04814865067601204,
      "rewards/tag_count_reward": 1.0,
      "step": 178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.5208435058594,
      "epoch": 0.1312316715542522,
      "grad_norm": 2.3950868693631735,
      "kl": 0.103759765625,
      "learning_rate": 9.974005997144479e-07,
      "loss": 0.0154,
      "reward": 2.0247842669487,
      "reward_std": 0.1975030368193984,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0585490707308054,
      "rewards/tag_count_reward": 1.0,
      "step": 179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.6458435058594,
      "epoch": 0.13196480938416422,
      "grad_norm": 2.2458633692097654,
      "kl": 0.1025390625,
      "learning_rate": 9.97275471707759e-07,
      "loss": 0.015,
      "reward": 1.9811076521873474,
      "reward_std": 0.08166738552972674,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03972569480538368,
      "rewards/tag_count_reward": 1.0,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 597.5416870117188,
      "epoch": 0.13269794721407624,
      "grad_norm": 2.208686653320979,
      "kl": 0.103515625,
      "learning_rate": 9.97147411555922e-07,
      "loss": -0.027,
      "reward": 2.1563020944595337,
      "reward_std": 0.2810695618391037,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.05376743897795677,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.4583740234375,
      "epoch": 0.13343108504398826,
      "grad_norm": 2.223637211770504,
      "kl": 0.098876953125,
      "learning_rate": 9.970164200984443e-07,
      "loss": 0.1221,
      "reward": 1.9517627954483032,
      "reward_std": 0.02038181759417057,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04823717288672924,
      "rewards/tag_count_reward": 1.0,
      "step": 182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 539.5416870117188,
      "epoch": 0.13416422287390029,
      "grad_norm": 2.185131937450779,
      "kl": 0.112060546875,
      "learning_rate": 9.968824981940493e-07,
      "loss": 0.0155,
      "reward": 2.033494234085083,
      "reward_std": 0.2103577759116888,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.056783486157655716,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.4166870117188,
      "epoch": 0.1348973607038123,
      "grad_norm": 2.2887490821871546,
      "kl": 0.103759765625,
      "learning_rate": 9.967456467206712e-07,
      "loss": 0.0392,
      "reward": 1.9644048810005188,
      "reward_std": 0.016866141464561224,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03559521585702896,
      "rewards/tag_count_reward": 1.0,
      "step": 184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.9583740234375,
      "epoch": 0.13563049853372433,
      "grad_norm": 2.075544050145113,
      "kl": 0.10791015625,
      "learning_rate": 9.966058665754494e-07,
      "loss": 0.0403,
      "reward": 2.1910440325737,
      "reward_std": 0.20203115046024323,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04333098791539669,
      "rewards/tag_count_reward": 0.984375,
      "step": 185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 575.8125,
      "epoch": 0.13636363636363635,
      "grad_norm": 2.444422689957302,
      "kl": 0.107666015625,
      "learning_rate": 9.964631586747222e-07,
      "loss": -0.0033,
      "reward": 2.5688068866729736,
      "reward_std": 0.3440853953361511,
      "rewards/accuracy_reward": 0.625,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.056193241849541664,
      "rewards/tag_count_reward": 1.0,
      "step": 186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.1458435058594,
      "epoch": 0.13709677419354838,
      "grad_norm": 2.3343020822873486,
      "kl": 0.10595703125,
      "learning_rate": 9.96317523954021e-07,
      "loss": 0.0113,
      "reward": 1.9665733575820923,
      "reward_std": 0.1026981808245182,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.0473155677318573,
      "rewards/tag_count_reward": 1.0,
      "step": 187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 527.1458435058594,
      "epoch": 0.1378299120234604,
      "grad_norm": 2.329781106869945,
      "kl": 0.11572265625,
      "learning_rate": 9.96168963368064e-07,
      "loss": 0.0768,
      "reward": 1.9751185774803162,
      "reward_std": 0.09284409787505865,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.035298120230436325,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.8125305175781,
      "epoch": 0.13856304985337242,
      "grad_norm": 2.482124615192751,
      "kl": 0.1162109375,
      "learning_rate": 9.960174778907511e-07,
      "loss": 0.0832,
      "reward": 1.9523666501045227,
      "reward_std": 0.051067665219306946,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03548061661422253,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.2083435058594,
      "epoch": 0.13929618768328444,
      "grad_norm": 2.7539326807930724,
      "kl": 0.128173828125,
      "learning_rate": 9.958630685151552e-07,
      "loss": -0.1067,
      "reward": 1.9934042692184448,
      "reward_std": 0.14851272106170654,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04305417276918888,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.1458435058594,
      "epoch": 0.14002932551319647,
      "grad_norm": 2.4239115093163774,
      "kl": 0.124755859375,
      "learning_rate": 9.957057362535175e-07,
      "loss": -0.0111,
      "reward": 1.9687672853469849,
      "reward_std": 0.11539381369948387,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04164946265518665,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.97918701171875,
      "epoch": 0.14076246334310852,
      "grad_norm": 2.519049551235326,
      "kl": 0.12939453125,
      "learning_rate": 9.955454821372408e-07,
      "loss": -0.0006,
      "reward": 1.9685339331626892,
      "reward_std": 0.20130838453769684,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.045354995876550674,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.125,
      "epoch": 0.14149560117302054,
      "grad_norm": 2.2656746914975896,
      "kl": 0.12841796875,
      "learning_rate": 9.953823072168818e-07,
      "loss": 0.0209,
      "reward": 2.5191445350646973,
      "reward_std": 0.3530745655298233,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.039883313700556755,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.1666717529297,
      "epoch": 0.14222873900293256,
      "grad_norm": 2.4378035107662335,
      "kl": 0.13720703125,
      "learning_rate": 9.95216212562145e-07,
      "loss": 0.0679,
      "reward": 1.995971918106079,
      "reward_std": 0.1278656329959631,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03354204259812832,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 512.6666870117188,
      "epoch": 0.1429618768328446,
      "grad_norm": 2.2820945478569987,
      "kl": 0.125732421875,
      "learning_rate": 9.950471992618755e-07,
      "loss": 0.0234,
      "reward": 1.9476872682571411,
      "reward_std": 0.05502081662416458,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03842394798994064,
      "rewards/tag_count_reward": 1.0,
      "step": 195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 588.9166870117188,
      "epoch": 0.1436950146627566,
      "grad_norm": 2.5028248973645755,
      "kl": 0.12353515625,
      "learning_rate": 9.948752684240514e-07,
      "loss": 0.0617,
      "reward": 1.9217350482940674,
      "reward_std": 0.07230636849999428,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.05569552071392536,
      "rewards/tag_count_reward": 0.984375,
      "step": 196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 537.6250305175781,
      "epoch": 0.14442815249266863,
      "grad_norm": 2.428726069054531,
      "kl": 0.115234375,
      "learning_rate": 9.94700421175777e-07,
      "loss": 0.0636,
      "reward": 2.27834951877594,
      "reward_std": 0.2576148062944412,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.054983872920274734,
      "rewards/tag_count_reward": 1.0,
      "step": 197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.4166717529297,
      "epoch": 0.14516129032258066,
      "grad_norm": 2.0921870960930993,
      "kl": 0.119873046875,
      "learning_rate": 9.945226586632757e-07,
      "loss": 0.0528,
      "reward": 2.110503077507019,
      "reward_std": 0.16293007880449295,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.04921908490359783,
      "rewards/tag_count_reward": 1.0,
      "step": 198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 533.7500305175781,
      "epoch": 0.14589442815249268,
      "grad_norm": 2.5544009433480603,
      "kl": 0.12841796875,
      "learning_rate": 9.94341982051882e-07,
      "loss": 0.1531,
      "reward": 2.2020418643951416,
      "reward_std": 0.04367715120315552,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.04101373255252838,
      "rewards/tag_count_reward": 1.0,
      "step": 199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.3958435058594,
      "epoch": 0.1466275659824047,
      "grad_norm": 2.2761467748200888,
      "kl": 0.1337890625,
      "learning_rate": 9.94158392526034e-07,
      "loss": 0.0584,
      "reward": 1.9831884503364563,
      "reward_std": 0.0833294466137886,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03243660740554333,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.9791870117188,
      "epoch": 0.14736070381231672,
      "grad_norm": 2.676798078696678,
      "kl": 0.124267578125,
      "learning_rate": 9.939718912892649e-07,
      "loss": 0.1067,
      "reward": 2.4419782757759094,
      "reward_std": 0.08668806962668896,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03718854580074549,
      "rewards/tag_count_reward": 1.0,
      "step": 201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.8541870117188,
      "epoch": 0.14809384164222875,
      "grad_norm": 2.201643714021596,
      "kl": 0.128662109375,
      "learning_rate": 9.937824795641966e-07,
      "loss": 0.0402,
      "reward": 2.1860954761505127,
      "reward_std": 0.05664380919188261,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.044807299971580505,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.0625305175781,
      "epoch": 0.14882697947214077,
      "grad_norm": 2.3529632476015143,
      "kl": 0.121826171875,
      "learning_rate": 9.935901585925309e-07,
      "loss": 0.0326,
      "reward": 1.9818111658096313,
      "reward_std": 0.07902031671255827,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.04596656560897827,
      "rewards/tag_count_reward": 1.0,
      "step": 203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 506.6250305175781,
      "epoch": 0.1495601173020528,
      "grad_norm": 2.216555100598739,
      "kl": 0.1240234375,
      "learning_rate": 9.933949296350412e-07,
      "loss": 0.0381,
      "reward": 1.9562581181526184,
      "reward_std": 0.034087372943758965,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.036797499284148216,
      "rewards/tag_count_reward": 1.0,
      "step": 204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 532.0833587646484,
      "epoch": 0.15029325513196481,
      "grad_norm": 2.252511834459066,
      "kl": 0.125732421875,
      "learning_rate": 9.931967939715641e-07,
      "loss": 0.0761,
      "reward": 1.960132360458374,
      "reward_std": 0.02215556614100933,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.039867645129561424,
      "rewards/tag_count_reward": 1.0,
      "step": 205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 515.1041870117188,
      "epoch": 0.15102639296187684,
      "grad_norm": 2.1090934911188004,
      "kl": 0.127197265625,
      "learning_rate": 9.929957529009918e-07,
      "loss": 0.0337,
      "reward": 1.995642364025116,
      "reward_std": 0.16707224398851395,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03560762293636799,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.4166717529297,
      "epoch": 0.15175953079178886,
      "grad_norm": 2.051423391569217,
      "kl": 0.13623046875,
      "learning_rate": 9.927918077412628e-07,
      "loss": -0.0048,
      "reward": 2.2103371620178223,
      "reward_std": 0.03615569323301315,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.03271842747926712,
      "rewards/tag_count_reward": 1.0,
      "step": 207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.3541717529297,
      "epoch": 0.15249266862170088,
      "grad_norm": 2.664772912161007,
      "kl": 0.15576171875,
      "learning_rate": 9.925849598293537e-07,
      "loss": 0.032,
      "reward": 2.417176127433777,
      "reward_std": 0.247524194419384,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03594890981912613,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 527.3958435058594,
      "epoch": 0.1532258064516129,
      "grad_norm": 2.7816240748478847,
      "kl": 0.14501953125,
      "learning_rate": 9.9237521052127e-07,
      "loss": -0.0241,
      "reward": 2.0370668172836304,
      "reward_std": 0.22554985573515296,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.0393221378326416,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.7708435058594,
      "epoch": 0.15395894428152493,
      "grad_norm": 2.4349590137522963,
      "kl": 0.13427734375,
      "learning_rate": 9.921625611920383e-07,
      "loss": 0.0232,
      "reward": 1.9492262601852417,
      "reward_std": 0.13168392330408096,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.047301506623625755,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.5625,
      "epoch": 0.15469208211143695,
      "grad_norm": 2.288220045433554,
      "kl": 0.1591796875,
      "learning_rate": 9.919470132356951e-07,
      "loss": 0.0722,
      "reward": 2.18506121635437,
      "reward_std": 0.11852885410189629,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03368875943124294,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.52085876464844,
      "epoch": 0.15542521994134897,
      "grad_norm": 2.4198341602493847,
      "kl": 0.14501953125,
      "learning_rate": 9.917285680652805e-07,
      "loss": 0.0407,
      "reward": 1.9904600381851196,
      "reward_std": 0.08161180093884468,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03037323523312807,
      "rewards/tag_count_reward": 1.0,
      "step": 212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 512.8333587646484,
      "epoch": 0.156158357771261,
      "grad_norm": 2.4090799066503377,
      "kl": 0.1572265625,
      "learning_rate": 9.915072271128267e-07,
      "loss": 0.0703,
      "reward": 2.2472126483917236,
      "reward_std": 0.13479421101510525,
      "rewards/accuracy_reward": 0.2916666679084301,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.030565201304852962,
      "rewards/tag_count_reward": 1.0,
      "step": 213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.8541717529297,
      "epoch": 0.15689149560117302,
      "grad_norm": 2.41265188004121,
      "kl": 0.15380859375,
      "learning_rate": 9.912829918293494e-07,
      "loss": -0.0356,
      "reward": 2.0343655347824097,
      "reward_std": 0.12357844784855843,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02813446894288063,
      "rewards/tag_count_reward": 1.0,
      "step": 214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 509.97918701171875,
      "epoch": 0.15762463343108504,
      "grad_norm": 2.5135257964207063,
      "kl": 0.1591796875,
      "learning_rate": 9.910558636848384e-07,
      "loss": 0.0185,
      "reward": 2.0641019344329834,
      "reward_std": 0.20102613419294357,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04006483219563961,
      "rewards/tag_count_reward": 1.0,
      "step": 215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 554.1250305175781,
      "epoch": 0.15835777126099707,
      "grad_norm": 2.4705818727306736,
      "kl": 0.15234375,
      "learning_rate": 9.908258441682483e-07,
      "loss": 0.1556,
      "reward": 1.9976014494895935,
      "reward_std": 0.11414317414164543,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04406532645225525,
      "rewards/tag_count_reward": 1.0,
      "step": 216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 447.06251525878906,
      "epoch": 0.1590909090909091,
      "grad_norm": 2.3388114870879972,
      "kl": 0.17236328125,
      "learning_rate": 9.905929347874875e-07,
      "loss": 0.1217,
      "reward": 2.140606701374054,
      "reward_std": 0.1381812645122409,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026059916242957115,
      "rewards/tag_count_reward": 1.0,
      "step": 217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.6458435058594,
      "epoch": 0.1598240469208211,
      "grad_norm": 2.4861533154135693,
      "kl": 0.16357421875,
      "learning_rate": 9.903571370694094e-07,
      "loss": 0.0441,
      "reward": 1.9717371463775635,
      "reward_std": 0.04522157460451126,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01784633845090866,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.9583435058594,
      "epoch": 0.16055718475073313,
      "grad_norm": 2.337842900368109,
      "kl": 0.17333984375,
      "learning_rate": 9.901184525598027e-07,
      "loss": 0.0557,
      "reward": 2.0282862186431885,
      "reward_std": 0.1811966523528099,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029005596414208412,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.7708435058594,
      "epoch": 0.16129032258064516,
      "grad_norm": 2.855863111930354,
      "kl": 0.18115234375,
      "learning_rate": 9.898768828233794e-07,
      "loss": 0.0382,
      "reward": 2.1459413170814514,
      "reward_std": 0.22265248745679855,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03461429849267006,
      "rewards/tag_count_reward": 1.0,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.7083435058594,
      "epoch": 0.16202346041055718,
      "grad_norm": 2.512452871604219,
      "kl": 0.1767578125,
      "learning_rate": 9.896324294437672e-07,
      "loss": -0.055,
      "reward": 2.0672988891601562,
      "reward_std": 0.27433933317661285,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03165953606367111,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.37501525878906,
      "epoch": 0.1627565982404692,
      "grad_norm": 2.497431270952545,
      "kl": 0.185546875,
      "learning_rate": 9.893850940234968e-07,
      "loss": 0.0612,
      "reward": 2.032313048839569,
      "reward_std": 0.1233673607930541,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03018704056739807,
      "rewards/tag_count_reward": 1.0,
      "step": 222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.0208435058594,
      "epoch": 0.16348973607038123,
      "grad_norm": 2.2171293698344763,
      "kl": 0.197265625,
      "learning_rate": 9.891348781839924e-07,
      "loss": 0.0565,
      "reward": 1.9839209914207458,
      "reward_std": 0.08671730384230614,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.036912497133016586,
      "rewards/tag_count_reward": 1.0,
      "step": 223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.68751525878906,
      "epoch": 0.16422287390029325,
      "grad_norm": 2.4157632367769506,
      "kl": 0.203125,
      "learning_rate": 9.888817835655614e-07,
      "loss": 0.0593,
      "reward": 2.203449249267578,
      "reward_std": 0.17519402969628572,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025717386044561863,
      "rewards/tag_count_reward": 1.0,
      "step": 224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.2708435058594,
      "epoch": 0.16495601173020527,
      "grad_norm": 2.1811901804547307,
      "kl": 0.203125,
      "learning_rate": 9.88625811827383e-07,
      "loss": 0.0335,
      "reward": 1.9971312880516052,
      "reward_std": 0.09780013933777809,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018493805546313524,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.3333435058594,
      "epoch": 0.1656891495601173,
      "grad_norm": 2.6019578181839544,
      "kl": 0.1923828125,
      "learning_rate": 9.883669646474973e-07,
      "loss": 0.0033,
      "reward": 2.0132646560668945,
      "reward_std": 0.11891119182109833,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023193655535578728,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.9791717529297,
      "epoch": 0.16642228739002932,
      "grad_norm": 2.3555410793667133,
      "kl": 0.20703125,
      "learning_rate": 9.881052437227952e-07,
      "loss": 0.034,
      "reward": 2.7692244052886963,
      "reward_std": 0.2729061245918274,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.025914611294865608,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.02085876464844,
      "epoch": 0.16715542521994134,
      "grad_norm": 2.3616091059425903,
      "kl": 0.185546875,
      "learning_rate": 9.878406507690057e-07,
      "loss": 0.0621,
      "reward": 1.9636911153793335,
      "reward_std": 0.03294796636328101,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.029364525340497494,
      "rewards/tag_count_reward": 1.0,
      "step": 228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.9791717529297,
      "epoch": 0.16788856304985336,
      "grad_norm": 2.6391305475663263,
      "kl": 0.1962890625,
      "learning_rate": 9.875731875206867e-07,
      "loss": -0.0174,
      "reward": 1.9969558715820312,
      "reward_std": 0.16866409545764327,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.023877506144344807,
      "rewards/tag_count_reward": 1.0,
      "step": 229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.18751525878906,
      "epoch": 0.16862170087976538,
      "grad_norm": 2.4059793072528244,
      "kl": 0.20166015625,
      "learning_rate": 9.873028557312117e-07,
      "loss": 0.0309,
      "reward": 2.2606165409088135,
      "reward_std": 0.4185255467891693,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.031050268560647964,
      "rewards/tag_count_reward": 1.0,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.9583435058594,
      "epoch": 0.1693548387096774,
      "grad_norm": 2.3075648633918915,
      "kl": 0.19482421875,
      "learning_rate": 9.870296571727593e-07,
      "loss": 0.0661,
      "reward": 2.091531753540039,
      "reward_std": 0.15529845468699932,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02825986687093973,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.2083435058594,
      "epoch": 0.17008797653958943,
      "grad_norm": 2.322103071917664,
      "kl": 0.2080078125,
      "learning_rate": 9.867535936363014e-07,
      "loss": -0.0263,
      "reward": 2.481574058532715,
      "reward_std": 0.3974439948797226,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.035787204280495644,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.8750305175781,
      "epoch": 0.17082111436950145,
      "grad_norm": 2.512718529548141,
      "kl": 0.19189453125,
      "learning_rate": 9.864746669315918e-07,
      "loss": 0.0368,
      "reward": 2.0009429454803467,
      "reward_std": 0.08158356510102749,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01989055424928665,
      "rewards/tag_count_reward": 1.0,
      "step": 233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 565.75,
      "epoch": 0.17155425219941348,
      "grad_norm": 2.4334008578543735,
      "kl": 0.17529296875,
      "learning_rate": 9.861928788871535e-07,
      "loss": 0.0988,
      "reward": 2.0528666973114014,
      "reward_std": 0.2537204041145742,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02873060293495655,
      "rewards/tag_count_reward": 0.984375,
      "step": 234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.4583435058594,
      "epoch": 0.17228739002932553,
      "grad_norm": 2.3972353284423304,
      "kl": 0.2041015625,
      "learning_rate": 9.859082313502675e-07,
      "loss": 0.0168,
      "reward": 2.2656466960906982,
      "reward_std": 0.33335772156715393,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026020064018666744,
      "rewards/tag_count_reward": 1.0,
      "step": 235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.16668701171875,
      "epoch": 0.17302052785923755,
      "grad_norm": 2.575842711191836,
      "kl": 0.19970703125,
      "learning_rate": 9.8562072618696e-07,
      "loss": 0.0457,
      "reward": 2.0120570063591003,
      "reward_std": 0.17007002606987953,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.022665289230644703,
      "rewards/tag_count_reward": 1.0,
      "step": 236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.7083435058594,
      "epoch": 0.17375366568914957,
      "grad_norm": 2.545760915484643,
      "kl": 0.201171875,
      "learning_rate": 9.853303652819915e-07,
      "loss": 0.0767,
      "reward": 2.1953667402267456,
      "reward_std": 0.10493875481188297,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.026855461299419403,
      "rewards/tag_count_reward": 1.0,
      "step": 237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.2708435058594,
      "epoch": 0.1744868035190616,
      "grad_norm": 2.7557749541944268,
      "kl": 0.2119140625,
      "learning_rate": 9.850371505388423e-07,
      "loss": 0.094,
      "reward": 1.9746447801589966,
      "reward_std": 0.013843707740306854,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025355206802487373,
      "rewards/tag_count_reward": 1.0,
      "step": 238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.6250305175781,
      "epoch": 0.17521994134897362,
      "grad_norm": 2.299442195057228,
      "kl": 0.19873046875,
      "learning_rate": 9.847410838797023e-07,
      "loss": -0.005,
      "reward": 2.4455658197402954,
      "reward_std": 0.34960001707077026,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028392494656145573,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.81251525878906,
      "epoch": 0.17595307917888564,
      "grad_norm": 2.4207285910028347,
      "kl": 0.21337890625,
      "learning_rate": 9.844421672454568e-07,
      "loss": 0.0215,
      "reward": 2.165701985359192,
      "reward_std": 0.2287914901971817,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.032214757055044174,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.4166870117188,
      "epoch": 0.17668621700879766,
      "grad_norm": 2.606638173149529,
      "kl": 0.2119140625,
      "learning_rate": 9.84140402595674e-07,
      "loss": -0.0635,
      "reward": 2.1458557844161987,
      "reward_std": 0.42205628752708435,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.0399082750082016,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.2083435058594,
      "epoch": 0.1774193548387097,
      "grad_norm": 2.3562918788818914,
      "kl": 0.1962890625,
      "learning_rate": 9.838357919085933e-07,
      "loss": -0.0014,
      "reward": 2.0086446404457092,
      "reward_std": 0.1550162397325039,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.026077693328261375,
      "rewards/tag_count_reward": 1.0,
      "step": 242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.68751525878906,
      "epoch": 0.1781524926686217,
      "grad_norm": 3.015046047499862,
      "kl": 0.19775390625,
      "learning_rate": 9.835283371811109e-07,
      "loss": -0.0831,
      "reward": 2.0528554916381836,
      "reward_std": 0.28607890009880066,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025269586592912674,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 556.4166870117188,
      "epoch": 0.17888563049853373,
      "grad_norm": 2.324053410132789,
      "kl": 0.18603515625,
      "learning_rate": 9.832180404287672e-07,
      "loss": 0.0356,
      "reward": 2.3999125957489014,
      "reward_std": 0.34801794588565826,
      "rewards/accuracy_reward": 0.4375000298023224,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03064296767115593,
      "rewards/tag_count_reward": 1.0,
      "step": 244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.3125305175781,
      "epoch": 0.17961876832844575,
      "grad_norm": 2.483675172609574,
      "kl": 0.18701171875,
      "learning_rate": 9.829049036857338e-07,
      "loss": -0.0115,
      "reward": 2.0943979024887085,
      "reward_std": 0.2273593619465828,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030602077022194862,
      "rewards/tag_count_reward": 1.0,
      "step": 245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.2500305175781,
      "epoch": 0.18035190615835778,
      "grad_norm": 2.261230507474765,
      "kl": 0.18115234375,
      "learning_rate": 9.825889290048009e-07,
      "loss": -0.0115,
      "reward": 1.9686490893363953,
      "reward_std": 0.03400381188839674,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.024406529031693935,
      "rewards/tag_count_reward": 1.0,
      "step": 246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.375,
      "epoch": 0.1810850439882698,
      "grad_norm": 2.4081317889508536,
      "kl": 0.1767578125,
      "learning_rate": 9.822701184573617e-07,
      "loss": -0.0415,
      "reward": 2.3041937351226807,
      "reward_std": 0.4814845621585846,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029139596037566662,
      "rewards/tag_count_reward": 1.0,
      "step": 247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 695.2916870117188,
      "epoch": 0.18181818181818182,
      "grad_norm": 2.013219887318077,
      "kl": 0.16162109375,
      "learning_rate": 9.819484741334009e-07,
      "loss": -0.0087,
      "reward": 2.386115550994873,
      "reward_std": 0.4011628329753876,
      "rewards/accuracy_reward": 0.458333358168602,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.04444010742008686,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 662.6041870117188,
      "epoch": 0.18255131964809385,
      "grad_norm": 2.121922144164688,
      "kl": 0.1767578125,
      "learning_rate": 9.816239981414798e-07,
      "loss": 0.1018,
      "reward": 2.027174472808838,
      "reward_std": 0.22916549444198608,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.04227009415626526,
      "rewards/tag_count_reward": 1.0,
      "step": 249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.3750305175781,
      "epoch": 0.18328445747800587,
      "grad_norm": 2.323030202609986,
      "kl": 0.1826171875,
      "learning_rate": 9.812966926087233e-07,
      "loss": -0.0441,
      "reward": 2.2639695405960083,
      "reward_std": 0.4275299608707428,
      "rewards/accuracy_reward": 0.3333333358168602,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.04158623516559601,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 634.3541870117188,
      "epoch": 0.1840175953079179,
      "grad_norm": 2.2692788356949185,
      "kl": 0.18994140625,
      "learning_rate": 9.809665596808052e-07,
      "loss": -0.0243,
      "reward": 2.1400359869003296,
      "reward_std": 0.311031524091959,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03704751655459404,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 642.2916870117188,
      "epoch": 0.18475073313782991,
      "grad_norm": 1.9963336498318256,
      "kl": 0.1689453125,
      "learning_rate": 9.80633601521935e-07,
      "loss": -0.0222,
      "reward": 2.2108322381973267,
      "reward_std": 0.38528619706630707,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.044376133009791374,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.9375305175781,
      "epoch": 0.18548387096774194,
      "grad_norm": 2.1395612032304605,
      "kl": 0.1923828125,
      "learning_rate": 9.802978203148422e-07,
      "loss": 0.0066,
      "reward": 2.5844688415527344,
      "reward_std": 0.35509173572063446,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05094785802066326,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.6458435058594,
      "epoch": 0.18621700879765396,
      "grad_norm": 1.895221846754078,
      "kl": 0.185546875,
      "learning_rate": 9.799592182607642e-07,
      "loss": 0.0354,
      "reward": 2.242966055870056,
      "reward_std": 0.3878481537103653,
      "rewards/accuracy_reward": 0.3125,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.05217302590608597,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.3541870117188,
      "epoch": 0.18695014662756598,
      "grad_norm": 2.3377888789478147,
      "kl": 0.17138671875,
      "learning_rate": 9.796177975794298e-07,
      "loss": 0.0756,
      "reward": 2.0248435735702515,
      "reward_std": 0.2661816030740738,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.041128676384687424,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 680.1041870117188,
      "epoch": 0.187683284457478,
      "grad_norm": 2.1512517683797894,
      "kl": 0.1572265625,
      "learning_rate": 9.79273560509046e-07,
      "loss": -0.0595,
      "reward": 2.554927945137024,
      "reward_std": 0.4941348135471344,
      "rewards/accuracy_reward": 0.625,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.04576661065220833,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 633.8125305175781,
      "epoch": 0.18841642228739003,
      "grad_norm": 2.7630684380572603,
      "kl": 0.18310546875,
      "learning_rate": 9.789265093062822e-07,
      "loss": 0.0441,
      "reward": 1.9179131984710693,
      "reward_std": 0.12576640397310257,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0404201652854681,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 573.6875305175781,
      "epoch": 0.18914956011730205,
      "grad_norm": 2.396423250364506,
      "kl": 0.18017578125,
      "learning_rate": 9.785766462462569e-07,
      "loss": -0.012,
      "reward": 2.2367652654647827,
      "reward_std": 0.28754863142967224,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.030595812946558,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.2708435058594,
      "epoch": 0.18988269794721407,
      "grad_norm": 2.450809574492532,
      "kl": 0.18896484375,
      "learning_rate": 9.782239736225212e-07,
      "loss": 0.0219,
      "reward": 2.128044545650482,
      "reward_std": 0.2238977551460266,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03862226940691471,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 609.7708740234375,
      "epoch": 0.1906158357771261,
      "grad_norm": 2.472322699922063,
      "kl": 0.1943359375,
      "learning_rate": 9.778684937470449e-07,
      "loss": -0.0137,
      "reward": 2.080292046070099,
      "reward_std": 0.2516675442457199,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.03602752089500427,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.0416870117188,
      "epoch": 0.19134897360703812,
      "grad_norm": 2.371141310592578,
      "kl": 0.189453125,
      "learning_rate": 9.775102089502006e-07,
      "loss": 0.0055,
      "reward": 2.4550044536590576,
      "reward_std": 0.4750853478908539,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.041523367166519165,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 671.1875305175781,
      "epoch": 0.19208211143695014,
      "grad_norm": 2.2457744714397823,
      "kl": 0.16943359375,
      "learning_rate": 9.771491215807494e-07,
      "loss": 0.036,
      "reward": 2.567304491996765,
      "reward_std": 0.27622977923601866,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.057695645838975906,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.9166870117188,
      "epoch": 0.19281524926686217,
      "grad_norm": 2.2302173486507244,
      "kl": 0.1708984375,
      "learning_rate": 9.76785234005824e-07,
      "loss": 0.0567,
      "reward": 2.4142779111862183,
      "reward_std": 0.15193303674459457,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04405543580651283,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 642.8333435058594,
      "epoch": 0.1935483870967742,
      "grad_norm": 2.0145102947205626,
      "kl": 0.169921875,
      "learning_rate": 9.764185486109145e-07,
      "loss": 0.0162,
      "reward": 2.172469139099121,
      "reward_std": 0.23066802322864532,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04628100246191025,
      "rewards/tag_count_reward": 0.96875,
      "step": 264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 629.7500305175781,
      "epoch": 0.1942815249266862,
      "grad_norm": 2.0038074970978776,
      "kl": 0.1630859375,
      "learning_rate": 9.760490677998522e-07,
      "loss": 0.0212,
      "reward": 2.1879026293754578,
      "reward_std": 0.05894716642796993,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.04820855334401131,
      "rewards/tag_count_reward": 1.0,
      "step": 265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 698.6875305175781,
      "epoch": 0.19501466275659823,
      "grad_norm": 2.2584906259961723,
      "kl": 0.14599609375,
      "learning_rate": 9.756767939947943e-07,
      "loss": 0.0732,
      "reward": 2.205389618873596,
      "reward_std": 0.015887603163719177,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.044610561802983284,
      "rewards/tag_count_reward": 1.0,
      "step": 266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 643.2291870117188,
      "epoch": 0.19574780058651026,
      "grad_norm": 2.342739537155942,
      "kl": 0.16650390625,
      "learning_rate": 9.753017296362071e-07,
      "loss": 0.0894,
      "reward": 2.6615763902664185,
      "reward_std": 0.15336718410253525,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.043284930288791656,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.5,
      "epoch": 0.19648093841642228,
      "grad_norm": 2.2474890401882432,
      "kl": 0.15087890625,
      "learning_rate": 9.749238771828508e-07,
      "loss": 0.0413,
      "reward": 2.3291032314300537,
      "reward_std": 0.29626287519931793,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05631352588534355,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.5208435058594,
      "epoch": 0.1972140762463343,
      "grad_norm": 2.1688862261955264,
      "kl": 0.17529296875,
      "learning_rate": 9.745432391117634e-07,
      "loss": 0.0159,
      "reward": 2.17527574300766,
      "reward_std": 0.11154358834028244,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.0400020070374012,
      "rewards/tag_count_reward": 1.0,
      "step": 269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.2291870117188,
      "epoch": 0.19794721407624633,
      "grad_norm": 2.272593328423986,
      "kl": 0.18359375,
      "learning_rate": 9.741598179182438e-07,
      "loss": 0.0672,
      "reward": 2.16366446018219,
      "reward_std": 0.218302384018898,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.037724535912275314,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.5416870117188,
      "epoch": 0.19868035190615835,
      "grad_norm": 2.145976535817121,
      "kl": 0.16748046875,
      "learning_rate": 9.73773616115836e-07,
      "loss": 0.0378,
      "reward": 2.7103559970855713,
      "reward_std": 0.017032308503985405,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0396440215408802,
      "rewards/tag_count_reward": 1.0,
      "step": 271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 587.3541870117188,
      "epoch": 0.19941348973607037,
      "grad_norm": 2.3472461743913517,
      "kl": 0.18408203125,
      "learning_rate": 9.733846362363127e-07,
      "loss": 0.0767,
      "reward": 2.156644105911255,
      "reward_std": 0.13528572767972946,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.037800345569849014,
      "rewards/tag_count_reward": 1.0,
      "step": 272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.0208435058594,
      "epoch": 0.2001466275659824,
      "grad_norm": 2.087923346496973,
      "kl": 0.162109375,
      "learning_rate": 9.729928808296582e-07,
      "loss": 0.0308,
      "reward": 2.173057436943054,
      "reward_std": 0.15152714774012566,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03527583181858063,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.2083435058594,
      "epoch": 0.20087976539589442,
      "grad_norm": 2.1601887207000066,
      "kl": 0.19677734375,
      "learning_rate": 9.725983524640518e-07,
      "loss": 0.0332,
      "reward": 1.9604487419128418,
      "reward_std": 0.03581496700644493,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03260680288076401,
      "rewards/tag_count_reward": 1.0,
      "step": 274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.00001525878906,
      "epoch": 0.20161290322580644,
      "grad_norm": 2.393209229139749,
      "kl": 0.18994140625,
      "learning_rate": 9.722010537258516e-07,
      "loss": 0.0625,
      "reward": 2.202053427696228,
      "reward_std": 0.04029459087178111,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.034057735465466976,
      "rewards/tag_count_reward": 1.0,
      "step": 275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.875,
      "epoch": 0.20234604105571846,
      "grad_norm": 2.382514107507378,
      "kl": 0.21142578125,
      "learning_rate": 9.71800987219577e-07,
      "loss": 0.0567,
      "reward": 2.2166248559951782,
      "reward_std": 0.036631904542446136,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02643065620213747,
      "rewards/tag_count_reward": 1.0,
      "step": 276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.29168701171875,
      "epoch": 0.20307917888563048,
      "grad_norm": 2.2044873376719267,
      "kl": 0.2001953125,
      "learning_rate": 9.713981555678912e-07,
      "loss": 0.0244,
      "reward": 2.4693304300308228,
      "reward_std": 0.03412939794361591,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.023725169710814953,
      "rewards/tag_count_reward": 1.0,
      "step": 277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.0416717529297,
      "epoch": 0.20381231671554254,
      "grad_norm": 2.3670075341233603,
      "kl": 0.20458984375,
      "learning_rate": 9.709925614115849e-07,
      "loss": 0.0399,
      "reward": 2.7084211111068726,
      "reward_std": 0.0664563006721437,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.024217759259045124,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.5,
      "epoch": 0.20454545454545456,
      "grad_norm": 2.191730991957038,
      "kl": 0.22216796875,
      "learning_rate": 9.705842074095585e-07,
      "loss": 0.0132,
      "reward": 2.4243065118789673,
      "reward_std": 0.15112738870084286,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.02881855797022581,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.35418701171875,
      "epoch": 0.20527859237536658,
      "grad_norm": 2.4081949008810892,
      "kl": 0.20947265625,
      "learning_rate": 9.70173096238805e-07,
      "loss": 0.0093,
      "reward": 2.2207422256469727,
      "reward_std": 0.02591150812804699,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024049400817602873,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 515.75,
      "epoch": 0.2060117302052786,
      "grad_norm": 2.1888626480370226,
      "kl": 0.19970703125,
      "learning_rate": 9.697592305943917e-07,
      "loss": 0.059,
      "reward": 2.210089087486267,
      "reward_std": 0.05643948353827,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02602214924991131,
      "rewards/tag_count_reward": 1.0,
      "step": 281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.06251525878906,
      "epoch": 0.20674486803519063,
      "grad_norm": 2.306900726886975,
      "kl": 0.234375,
      "learning_rate": 9.693426131894432e-07,
      "loss": 0.0345,
      "reward": 2.2312620878219604,
      "reward_std": 0.009207626804709435,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018738062120974064,
      "rewards/tag_count_reward": 1.0,
      "step": 282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.8125,
      "epoch": 0.20747800586510265,
      "grad_norm": 2.50092671528508,
      "kl": 0.2138671875,
      "learning_rate": 9.689232467551244e-07,
      "loss": 0.0516,
      "reward": 2.225408911705017,
      "reward_std": 0.02732059359550476,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019382827915251255,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.00001525878906,
      "epoch": 0.20821114369501467,
      "grad_norm": 2.242448357158379,
      "kl": 0.21533203125,
      "learning_rate": 9.6850113404062e-07,
      "loss": 0.0484,
      "reward": 2.4914671182632446,
      "reward_std": 0.08239620085805655,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029366333037614822,
      "rewards/tag_count_reward": 1.0,
      "step": 284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.5416870117188,
      "epoch": 0.2089442815249267,
      "grad_norm": 2.1535790290088297,
      "kl": 0.1884765625,
      "learning_rate": 9.68076277813119e-07,
      "loss": 0.0288,
      "reward": 2.2297321557998657,
      "reward_std": 0.009526743553578854,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02026796853169799,
      "rewards/tag_count_reward": 1.0,
      "step": 285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.4583435058594,
      "epoch": 0.20967741935483872,
      "grad_norm": 2.2587788742542476,
      "kl": 0.23486328125,
      "learning_rate": 9.67648680857796e-07,
      "loss": 0.0467,
      "reward": 2.2198795676231384,
      "reward_std": 0.011471754871308804,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030120414681732655,
      "rewards/tag_count_reward": 1.0,
      "step": 286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 503.2708435058594,
      "epoch": 0.21041055718475074,
      "grad_norm": 2.2164587123984467,
      "kl": 0.22021484375,
      "learning_rate": 9.672183459777922e-07,
      "loss": 0.0474,
      "reward": 2.4430179595947266,
      "reward_std": 0.08577717002481222,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025732184760272503,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.5833435058594,
      "epoch": 0.21114369501466276,
      "grad_norm": 2.362743221503858,
      "kl": 0.224609375,
      "learning_rate": 9.667852759941971e-07,
      "loss": 0.0202,
      "reward": 2.4414188861846924,
      "reward_std": 0.10892442986369133,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02733116876333952,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.3333435058594,
      "epoch": 0.2118768328445748,
      "grad_norm": 2.394523367281667,
      "kl": 0.24853515625,
      "learning_rate": 9.663494737460316e-07,
      "loss": 0.03,
      "reward": 2.4509284496307373,
      "reward_std": 0.11794408224523067,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.01608549989759922,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.35418701171875,
      "epoch": 0.2126099706744868,
      "grad_norm": 2.247143974513609,
      "kl": 0.23779296875,
      "learning_rate": 9.659109420902268e-07,
      "loss": 0.0313,
      "reward": 2.225088596343994,
      "reward_std": 0.02959524537436664,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.017966951709240675,
      "rewards/tag_count_reward": 1.0,
      "step": 290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.2916717529297,
      "epoch": 0.21334310850439883,
      "grad_norm": 2.2347183819263403,
      "kl": 0.244140625,
      "learning_rate": 9.654696839016074e-07,
      "loss": 0.0357,
      "reward": 2.465317726135254,
      "reward_std": 0.046680874191224575,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024265680462121964,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.47918701171875,
      "epoch": 0.21407624633431085,
      "grad_norm": 2.2968281472400487,
      "kl": 0.24072265625,
      "learning_rate": 9.650257020728714e-07,
      "loss": 0.0412,
      "reward": 2.6881933212280273,
      "reward_std": 0.11760031245648861,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03055677004158497,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.9583435058594,
      "epoch": 0.21480938416422288,
      "grad_norm": 2.6544213087854915,
      "kl": 0.24755859375,
      "learning_rate": 9.645789995145727e-07,
      "loss": 0.0737,
      "reward": 2.4477990865707397,
      "reward_std": 0.11806142888963223,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.01921477634459734,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.2291717529297,
      "epoch": 0.2155425219941349,
      "grad_norm": 2.4050553831347856,
      "kl": 0.23291015625,
      "learning_rate": 9.641295791551005e-07,
      "loss": 0.0226,
      "reward": 2.7129329442977905,
      "reward_std": 0.07855140301398933,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016233783215284348,
      "rewards/tag_count_reward": 1.0,
      "step": 294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.875,
      "epoch": 0.21627565982404692,
      "grad_norm": 2.469488150327451,
      "kl": 0.2431640625,
      "learning_rate": 9.63677443940661e-07,
      "loss": 0.0516,
      "reward": 2.4651942253112793,
      "reward_std": 0.03956274874508381,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.022653001360595226,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.06251525878906,
      "epoch": 0.21700879765395895,
      "grad_norm": 2.2897669783775063,
      "kl": 0.23681640625,
      "learning_rate": 9.632225968352577e-07,
      "loss": 0.0192,
      "reward": 2.234976053237915,
      "reward_std": 0.010166795924305916,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015024024993181229,
      "rewards/tag_count_reward": 1.0,
      "step": 296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.7708435058594,
      "epoch": 0.21774193548387097,
      "grad_norm": 2.3075335900529943,
      "kl": 0.26123046875,
      "learning_rate": 9.62765040820672e-07,
      "loss": -0.0061,
      "reward": 2.465970039367676,
      "reward_std": 0.06250624358654022,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018405052833259106,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.2708435058594,
      "epoch": 0.218475073313783,
      "grad_norm": 2.2643235265355184,
      "kl": 0.24951171875,
      "learning_rate": 9.623047788964438e-07,
      "loss": 0.0291,
      "reward": 1.9690996408462524,
      "reward_std": 0.06486085802316666,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013539265841245651,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.87501525878906,
      "epoch": 0.21920821114369501,
      "grad_norm": 2.3259557842622804,
      "kl": 0.2607421875,
      "learning_rate": 9.61841814079852e-07,
      "loss": 0.0513,
      "reward": 2.464868426322937,
      "reward_std": 0.07912581693381071,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01429840736091137,
      "rewards/tag_count_reward": 1.0,
      "step": 299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.9583435058594,
      "epoch": 0.21994134897360704,
      "grad_norm": 2.298594281909164,
      "kl": 0.2568359375,
      "learning_rate": 9.613761494058944e-07,
      "loss": 0.0419,
      "reward": 2.2143933176994324,
      "reward_std": 0.0780528886243701,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01477324403822422,
      "rewards/tag_count_reward": 1.0,
      "step": 300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 494.1666717529297,
      "epoch": 0.22067448680351906,
      "grad_norm": 2.473598352431548,
      "kl": 0.2529296875,
      "learning_rate": 9.609077879272677e-07,
      "loss": 0.0927,
      "reward": 2.474399447441101,
      "reward_std": 0.025512659922242165,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020392313599586487,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.85418701171875,
      "epoch": 0.22140762463343108,
      "grad_norm": 2.4769798485568435,
      "kl": 0.2724609375,
      "learning_rate": 9.604367327143478e-07,
      "loss": 0.0744,
      "reward": 2.7345763444900513,
      "reward_std": 0.009569189045578241,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015423623379319906,
      "rewards/tag_count_reward": 1.0,
      "step": 302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.9583435058594,
      "epoch": 0.2221407624633431,
      "grad_norm": 2.059232163669745,
      "kl": 0.271484375,
      "learning_rate": 9.599629868551694e-07,
      "loss": 0.0208,
      "reward": 2.714403748512268,
      "reward_std": 0.07619825517758727,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014763115905225277,
      "rewards/tag_count_reward": 1.0,
      "step": 303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.75001525878906,
      "epoch": 0.22287390029325513,
      "grad_norm": 2.284473798213216,
      "kl": 0.2861328125,
      "learning_rate": 9.594865534554065e-07,
      "loss": 0.0445,
      "reward": 2.2089085578918457,
      "reward_std": 0.10246565705165267,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.0133137465454638,
      "rewards/tag_count_reward": 1.0,
      "step": 304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 447.125,
      "epoch": 0.22360703812316715,
      "grad_norm": 2.340649408671738,
      "kl": 0.2978515625,
      "learning_rate": 9.59007435638351e-07,
      "loss": 0.0569,
      "reward": 2.461604356765747,
      "reward_std": 0.0789910196326673,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01756238378584385,
      "rewards/tag_count_reward": 1.0,
      "step": 305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 440.1875,
      "epoch": 0.22434017595307917,
      "grad_norm": 2.3064380591396088,
      "kl": 0.3193359375,
      "learning_rate": 9.585256365448923e-07,
      "loss": 0.0539,
      "reward": 1.9698742032051086,
      "reward_std": 0.04649292537942529,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01450089504942298,
      "rewards/tag_count_reward": 0.984375,
      "step": 306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.0833435058594,
      "epoch": 0.2250733137829912,
      "grad_norm": 2.648188486696646,
      "kl": 0.33203125,
      "learning_rate": 9.580411593334981e-07,
      "loss": 0.1127,
      "reward": 2.217950165271759,
      "reward_std": 0.06731168460100889,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.014688808470964432,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.37501525878906,
      "epoch": 0.22580645161290322,
      "grad_norm": 2.309228727065534,
      "kl": 0.3447265625,
      "learning_rate": 9.575540071801917e-07,
      "loss": 0.0566,
      "reward": 2.4283636808395386,
      "reward_std": 0.15362592600286007,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.012608693446964025,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.18751525878906,
      "epoch": 0.22653958944281524,
      "grad_norm": 2.614179249326471,
      "kl": 0.384765625,
      "learning_rate": 9.570641832785327e-07,
      "loss": 0.094,
      "reward": 2.6822060346603394,
      "reward_std": 0.13260857947170734,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01571073057129979,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.7708435058594,
      "epoch": 0.22727272727272727,
      "grad_norm": 2.417871183482608,
      "kl": 0.4619140625,
      "learning_rate": 9.565716908395955e-07,
      "loss": 0.0293,
      "reward": 2.8668872117996216,
      "reward_std": 0.2632347270846367,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018529420718550682,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.56251525878906,
      "epoch": 0.2280058651026393,
      "grad_norm": 3.0765232905747797,
      "kl": 0.4814453125,
      "learning_rate": 9.56076533091948e-07,
      "loss": -0.0079,
      "reward": 2.4041491746902466,
      "reward_std": 0.23771148175001144,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012517540715634823,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.8958435058594,
      "epoch": 0.2287390029325513,
      "grad_norm": 2.240908886249793,
      "kl": 0.4716796875,
      "learning_rate": 9.55578713281631e-07,
      "loss": 0.0439,
      "reward": 2.4784440994262695,
      "reward_std": 0.030433733016252518,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.014611462131142616,
      "rewards/tag_count_reward": 1.0,
      "step": 312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.1666717529297,
      "epoch": 0.22947214076246333,
      "grad_norm": 2.520573028942589,
      "kl": 0.4326171875,
      "learning_rate": 9.550782346721367e-07,
      "loss": 0.0075,
      "reward": 2.711169958114624,
      "reward_std": 0.07687797211110592,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.011052338872104883,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.8541717529297,
      "epoch": 0.23020527859237536,
      "grad_norm": 2.3656359919816317,
      "kl": 0.357421875,
      "learning_rate": 9.545751005443868e-07,
      "loss": 0.038,
      "reward": 2.6742382049560547,
      "reward_std": 0.11472383048385382,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.016734230797737837,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.85418701171875,
      "epoch": 0.23093841642228738,
      "grad_norm": 2.3225730368171638,
      "kl": 0.3291015625,
      "learning_rate": 9.54069314196712e-07,
      "loss": 0.0479,
      "reward": 2.733163356781006,
      "reward_std": 0.029640105552971363,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.009892286732792854,
      "rewards/tag_count_reward": 1.0,
      "step": 315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.16668701171875,
      "epoch": 0.2316715542521994,
      "grad_norm": 2.0945568663598833,
      "kl": 0.330078125,
      "learning_rate": 9.535608789448292e-07,
      "loss": -0.0054,
      "reward": 2.2132298946380615,
      "reward_std": 0.074584124609828,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.015936759300529957,
      "rewards/tag_count_reward": 1.0,
      "step": 316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.9166717529297,
      "epoch": 0.23240469208211142,
      "grad_norm": 2.2173137518118557,
      "kl": 0.31640625,
      "learning_rate": 9.53049798121821e-07,
      "loss": 0.0195,
      "reward": 2.6972047090530396,
      "reward_std": 0.1472337245941162,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011128632817417383,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.0208435058594,
      "epoch": 0.23313782991202345,
      "grad_norm": 2.2714359196119216,
      "kl": 0.298828125,
      "learning_rate": 9.525360750781127e-07,
      "loss": 0.023,
      "reward": 2.46536922454834,
      "reward_std": 0.05973909609019756,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.013797647785395384,
      "rewards/tag_count_reward": 1.0,
      "step": 318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.50001525878906,
      "epoch": 0.23387096774193547,
      "grad_norm": 2.3225641603627203,
      "kl": 0.310546875,
      "learning_rate": 9.520197131814513e-07,
      "loss": -0.0068,
      "reward": 2.4521666765213013,
      "reward_std": 0.10633763670921326,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.013111229985952377,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.54168701171875,
      "epoch": 0.23460410557184752,
      "grad_norm": 2.7993035724053668,
      "kl": 0.2958984375,
      "learning_rate": 9.515007158168826e-07,
      "loss": 0.0932,
      "reward": 2.487420082092285,
      "reward_std": 0.01015830459073186,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012580114882439375,
      "rewards/tag_count_reward": 1.0,
      "step": 320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.37501525878906,
      "epoch": 0.23533724340175954,
      "grad_norm": 2.299642746627153,
      "kl": 0.3056640625,
      "learning_rate": 9.509790863867295e-07,
      "loss": 0.0191,
      "reward": 2.6968696117401123,
      "reward_std": 0.13661886751651764,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.014936027117073536,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.31251525878906,
      "epoch": 0.23607038123167157,
      "grad_norm": 2.302831523396359,
      "kl": 0.3037109375,
      "learning_rate": 9.504548283105699e-07,
      "loss": 0.0451,
      "reward": 2.207852602005005,
      "reward_std": 0.10325483605265617,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.01436968706548214,
      "rewards/tag_count_reward": 1.0,
      "step": 322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.7916717529297,
      "epoch": 0.2368035190615836,
      "grad_norm": 2.5294492963009243,
      "kl": 0.3466796875,
      "learning_rate": 9.499279450252134e-07,
      "loss": 0.0435,
      "reward": 2.4603819847106934,
      "reward_std": 0.07487065717577934,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.01531249936670065,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.0625,
      "epoch": 0.2375366568914956,
      "grad_norm": 2.895694121410533,
      "kl": 0.369140625,
      "learning_rate": 9.493984399846797e-07,
      "loss": 0.0487,
      "reward": 2.2224709391593933,
      "reward_std": 0.04628606699407101,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.010167931206524372,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.1875,
      "epoch": 0.23826979472140764,
      "grad_norm": 2.8875499359334356,
      "kl": 0.3447265625,
      "learning_rate": 9.488663166601758e-07,
      "loss": 0.0641,
      "reward": 2.215409219264984,
      "reward_std": 0.07832126133143902,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.01375747099518776,
      "rewards/tag_count_reward": 1.0,
      "step": 325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 504.1458435058594,
      "epoch": 0.23900293255131966,
      "grad_norm": 3.1100488401558453,
      "kl": 0.40234375,
      "learning_rate": 9.483315785400726e-07,
      "loss": 0.1025,
      "reward": 2.4860798120498657,
      "reward_std": 0.008559350855648518,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013920174911618233,
      "rewards/tag_count_reward": 1.0,
      "step": 326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.77085876464844,
      "epoch": 0.23973607038123168,
      "grad_norm": 4.380042599170408,
      "kl": 0.435546875,
      "learning_rate": 9.477942291298827e-07,
      "loss": 0.0878,
      "reward": 2.7181226015090942,
      "reward_std": 0.08395953010767698,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.009308004518970847,
      "rewards/tag_count_reward": 0.984375,
      "step": 327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.16668701171875,
      "epoch": 0.2404692082111437,
      "grad_norm": 5.1350823066691245,
      "kl": 0.4521484375,
      "learning_rate": 9.472542719522371e-07,
      "loss": 0.0624,
      "reward": 2.9456522464752197,
      "reward_std": 0.14936763793230057,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012681130785495043,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.2708435058594,
      "epoch": 0.24120234604105573,
      "grad_norm": 24.607110481841282,
      "kl": 1.037109375,
      "learning_rate": 9.467117105468623e-07,
      "loss": 0.1827,
      "reward": 2.4695119857788086,
      "reward_std": 0.07141697756014764,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013127019628882408,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.8333435058594,
      "epoch": 0.24193548387096775,
      "grad_norm": 65.55752383537028,
      "kl": 1.91015625,
      "learning_rate": 9.461665484705571e-07,
      "loss": 0.1293,
      "reward": 2.2242066860198975,
      "reward_std": 0.04578477330505848,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010168405715376139,
      "rewards/tag_count_reward": 0.984375,
      "step": 330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.18751525878906,
      "epoch": 0.24266862170087977,
      "grad_norm": 27.520381811057142,
      "kl": 1.36328125,
      "learning_rate": 9.456187892971687e-07,
      "loss": 0.1238,
      "reward": 2.4319708347320557,
      "reward_std": 0.148020438849926,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.009001555386930704,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.9166717529297,
      "epoch": 0.2434017595307918,
      "grad_norm": 5.897429847753733,
      "kl": 0.580078125,
      "learning_rate": 9.450684366175703e-07,
      "loss": 0.0808,
      "reward": 2.2141419649124146,
      "reward_std": 0.08268354088068008,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013288679532706738,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.56251525878906,
      "epoch": 0.24413489736070382,
      "grad_norm": 4.821721286003609,
      "kl": 0.48828125,
      "learning_rate": 9.445154940396367e-07,
      "loss": 0.0482,
      "reward": 2.23613703250885,
      "reward_std": 0.008423366351053119,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01386305270716548,
      "rewards/tag_count_reward": 1.0,
      "step": 333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 461.72918701171875,
      "epoch": 0.24486803519061584,
      "grad_norm": 4.5305477335749424,
      "kl": 0.39453125,
      "learning_rate": 9.439599651882211e-07,
      "loss": 0.0641,
      "reward": 1.9890110492706299,
      "reward_std": 0.12262681126594543,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010989056900143623,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.4166717529297,
      "epoch": 0.24560117302052786,
      "grad_norm": 3.0480664219928526,
      "kl": 0.3857421875,
      "learning_rate": 9.43401853705131e-07,
      "loss": 0.0616,
      "reward": 2.2384225726127625,
      "reward_std": 0.008934499695897102,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011577559635043144,
      "rewards/tag_count_reward": 1.0,
      "step": 335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.37501525878906,
      "epoch": 0.24633431085043989,
      "grad_norm": 2.9009848462349264,
      "kl": 0.443359375,
      "learning_rate": 9.428411632491048e-07,
      "loss": 0.054,
      "reward": 2.1951489448547363,
      "reward_std": 0.10253655072301626,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013184436596930027,
      "rewards/tag_count_reward": 1.0,
      "step": 336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.5833435058594,
      "epoch": 0.2470674486803519,
      "grad_norm": 7.098171576738261,
      "kl": 0.4609375,
      "learning_rate": 9.422778974957873e-07,
      "loss": -0.0096,
      "reward": 2.2252637147903442,
      "reward_std": 0.20562057942152023,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.007375375367701054,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.5833435058594,
      "epoch": 0.24780058651026393,
      "grad_norm": 4.45344368844307,
      "kl": 0.4345703125,
      "learning_rate": 9.41712060137706e-07,
      "loss": 0.0747,
      "reward": 2.2418224811553955,
      "reward_std": 0.006912755314260721,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.008177584502846003,
      "rewards/tag_count_reward": 1.0,
      "step": 338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.27085876464844,
      "epoch": 0.24853372434017595,
      "grad_norm": 6.6523792877479675,
      "kl": 0.51953125,
      "learning_rate": 9.411436548842465e-07,
      "loss": 0.1281,
      "reward": 2.1983273029327393,
      "reward_std": 0.1371548529714346,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013478230219334364,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.12501525878906,
      "epoch": 0.24926686217008798,
      "grad_norm": 3.555591622399211,
      "kl": 0.599609375,
      "learning_rate": 9.405726854616288e-07,
      "loss": 0.0606,
      "reward": 2.445413589477539,
      "reward_std": 0.10354876844212413,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012919682543724775,
      "rewards/tag_count_reward": 1.0,
      "step": 340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.8333435058594,
      "epoch": 0.25,
      "grad_norm": 4.3052672307178526,
      "kl": 0.67578125,
      "learning_rate": 9.399991556128821e-07,
      "loss": 0.0259,
      "reward": 2.4495670795440674,
      "reward_std": 0.14659255044534802,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.00876629538834095,
      "rewards/tag_count_reward": 1.0,
      "step": 341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 447.7708435058594,
      "epoch": 0.250733137829912,
      "grad_norm": 7.772010913258851,
      "kl": 0.564453125,
      "learning_rate": 9.394230690978209e-07,
      "loss": 0.0445,
      "reward": 2.4938722252845764,
      "reward_std": 0.0052741896361112595,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.00612785667181015,
      "rewards/tag_count_reward": 1.0,
      "step": 342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.29168701171875,
      "epoch": 0.25146627565982405,
      "grad_norm": 5.815094134114697,
      "kl": 0.5634765625,
      "learning_rate": 9.388444296930198e-07,
      "loss": 0.0456,
      "reward": 2.4859039783477783,
      "reward_std": 0.022549844114109874,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.00888778269290924,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.0208435058594,
      "epoch": 0.25219941348973607,
      "grad_norm": 9.393448474685972,
      "kl": 0.58203125,
      "learning_rate": 9.382632411917896e-07,
      "loss": 0.0719,
      "reward": 2.7372546195983887,
      "reward_std": 0.007755943341180682,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012745357118546963,
      "rewards/tag_count_reward": 1.0,
      "step": 344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.4791717529297,
      "epoch": 0.2529325513196481,
      "grad_norm": 5.15109218597285,
      "kl": 0.611328125,
      "learning_rate": 9.376795074041511e-07,
      "loss": 0.0736,
      "reward": 1.992047905921936,
      "reward_std": 0.007327872794121504,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0079521588049829,
      "rewards/tag_count_reward": 1.0,
      "step": 345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.4375152587891,
      "epoch": 0.2536656891495601,
      "grad_norm": 32.341677849946365,
      "kl": 1.18359375,
      "learning_rate": 9.370932321568116e-07,
      "loss": 0.2629,
      "reward": 2.4761067628860474,
      "reward_std": 0.04537955252453685,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01347667258232832,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 522.5,
      "epoch": 0.25439882697947214,
      "grad_norm": 28.958564691751725,
      "kl": 2.06640625,
      "learning_rate": 9.36504419293139e-07,
      "loss": 0.2469,
      "reward": 2.23344486951828,
      "reward_std": 0.02600767184048891,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01134685194119811,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 511.7083435058594,
      "epoch": 0.25513196480938416,
      "grad_norm": 50.041207601652744,
      "kl": 2.23046875,
      "learning_rate": 9.359130726731364e-07,
      "loss": 0.2488,
      "reward": 2.407168984413147,
      "reward_std": 0.16616932256147265,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.016442209482192993,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.9583435058594,
      "epoch": 0.2558651026392962,
      "grad_norm": 8.90761662789548,
      "kl": 1.38671875,
      "learning_rate": 9.353191961734172e-07,
      "loss": 0.151,
      "reward": 2.44021075963974,
      "reward_std": 0.12433899194002151,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.011178134009242058,
      "rewards/tag_count_reward": 1.0,
      "step": 349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.3333435058594,
      "epoch": 0.2565982404692082,
      "grad_norm": 27.671954739000196,
      "kl": 0.587890625,
      "learning_rate": 9.347227936871798e-07,
      "loss": 0.153,
      "reward": 2.46974778175354,
      "reward_std": 0.07871474791318178,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.009418966248631477,
      "rewards/tag_count_reward": 1.0,
      "step": 350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.06251525878906,
      "epoch": 0.25733137829912023,
      "grad_norm": 4.774439255958196,
      "kl": 0.546875,
      "learning_rate": 9.341238691241817e-07,
      "loss": 0.0509,
      "reward": 2.4622308015823364,
      "reward_std": 0.1002035103738308,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.00999134499579668,
      "rewards/tag_count_reward": 1.0,
      "step": 351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.1041717529297,
      "epoch": 0.25806451612903225,
      "grad_norm": 7.830072090889241,
      "kl": 0.47265625,
      "learning_rate": 9.33522426410714e-07,
      "loss": 0.0825,
      "reward": 2.218370020389557,
      "reward_std": 0.07793176430277526,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010796691058203578,
      "rewards/tag_count_reward": 1.0,
      "step": 352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.3125,
      "epoch": 0.2587976539589443,
      "grad_norm": 5.924916968606259,
      "kl": 0.966796875,
      "learning_rate": 9.329184694895761e-07,
      "loss": 0.0849,
      "reward": 2.240042746067047,
      "reward_std": 0.006934693781659007,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.00995726091787219,
      "rewards/tag_count_reward": 1.0,
      "step": 353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.62501525878906,
      "epoch": 0.2595307917888563,
      "grad_norm": 17.74912709208456,
      "kl": 1.1953125,
      "learning_rate": 9.323120023200489e-07,
      "loss": 0.0712,
      "reward": 2.201182782649994,
      "reward_std": 0.10400985646992922,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.00715067470446229,
      "rewards/tag_count_reward": 1.0,
      "step": 354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.87501525878906,
      "epoch": 0.2602639296187683,
      "grad_norm": 5.313270709600229,
      "kl": 0.552734375,
      "learning_rate": 9.317030288778698e-07,
      "loss": 0.0269,
      "reward": 2.7366254329681396,
      "reward_std": 0.009935126174241304,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013374709524214268,
      "rewards/tag_count_reward": 1.0,
      "step": 355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.50001525878906,
      "epoch": 0.26099706744868034,
      "grad_norm": 8.580062044235554,
      "kl": 0.4072265625,
      "learning_rate": 9.31091553155206e-07,
      "loss": -0.008,
      "reward": 2.261789321899414,
      "reward_std": 0.07716286275535822,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.009044124279171228,
      "rewards/tag_count_reward": 1.0,
      "step": 356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.87501525878906,
      "epoch": 0.26173020527859236,
      "grad_norm": 3.3894194064813576,
      "kl": 0.3427734375,
      "learning_rate": 9.30477579160629e-07,
      "loss": 0.0268,
      "reward": 2.9032580852508545,
      "reward_std": 0.2916463017463684,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013408492784947157,
      "rewards/tag_count_reward": 1.0,
      "step": 357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.87501525878906,
      "epoch": 0.2624633431085044,
      "grad_norm": 3.2273474029147002,
      "kl": 0.333984375,
      "learning_rate": 9.298611109190873e-07,
      "loss": 0.0711,
      "reward": 2.4881826639175415,
      "reward_std": 0.010318218730390072,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011817488819360733,
      "rewards/tag_count_reward": 1.0,
      "step": 358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.5416717529297,
      "epoch": 0.2631964809384164,
      "grad_norm": 2.7387770155536293,
      "kl": 0.330078125,
      "learning_rate": 9.29242152471881e-07,
      "loss": 0.0634,
      "reward": 2.7406634092330933,
      "reward_std": 0.006734333001077175,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.009336648043245077,
      "rewards/tag_count_reward": 1.0,
      "step": 359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 453.85418701171875,
      "epoch": 0.26392961876832843,
      "grad_norm": 2.420440222664315,
      "kl": 0.322265625,
      "learning_rate": 9.286207078766348e-07,
      "loss": -0.0136,
      "reward": 2.707916021347046,
      "reward_std": 0.11361571587622166,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010834058281034231,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.29168701171875,
      "epoch": 0.26466275659824046,
      "grad_norm": 2.2704308739154233,
      "kl": 0.322265625,
      "learning_rate": 9.279967812072717e-07,
      "loss": 0.0326,
      "reward": 2.7088087797164917,
      "reward_std": 0.1134856294374913,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.009941152296960354,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.54168701171875,
      "epoch": 0.2653958944281525,
      "grad_norm": 2.6765119623946028,
      "kl": 0.3115234375,
      "learning_rate": 9.273703765539856e-07,
      "loss": 0.0532,
      "reward": 2.6793943643569946,
      "reward_std": 0.14904301008209586,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.008105819579213858,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.6458435058594,
      "epoch": 0.2661290322580645,
      "grad_norm": 2.334226266301674,
      "kl": 0.322265625,
      "learning_rate": 9.267414980232156e-07,
      "loss": 0.019,
      "reward": 2.674462676048279,
      "reward_std": 0.17157460749149323,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013037360273301601,
      "rewards/tag_count_reward": 1.0,
      "step": 363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.2916717529297,
      "epoch": 0.2668621700879765,
      "grad_norm": 2.3774041304092175,
      "kl": 0.328125,
      "learning_rate": 9.261101497376183e-07,
      "loss": 0.045,
      "reward": 2.487114191055298,
      "reward_std": 0.008130959002301097,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012885776348412037,
      "rewards/tag_count_reward": 1.0,
      "step": 364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.4166717529297,
      "epoch": 0.26759530791788855,
      "grad_norm": 2.2848004947697653,
      "kl": 0.296875,
      "learning_rate": 9.254763358360404e-07,
      "loss": 0.0543,
      "reward": 2.480908155441284,
      "reward_std": 0.039752448443323374,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.008675360586494207,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.8958435058594,
      "epoch": 0.26832844574780057,
      "grad_norm": 4.808091297344941,
      "kl": 0.337890625,
      "learning_rate": 9.248400604734929e-07,
      "loss": 0.0747,
      "reward": 2.193628668785095,
      "reward_std": 0.16610116511583328,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.009496402461081743,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.66668701171875,
      "epoch": 0.2690615835777126,
      "grad_norm": 2.720687783905429,
      "kl": 0.333984375,
      "learning_rate": 9.242013278211226e-07,
      "loss": 0.046,
      "reward": 2.4815183877944946,
      "reward_std": 0.02494870498776436,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013273344840854406,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.6458435058594,
      "epoch": 0.2697947214076246,
      "grad_norm": 2.362309533450861,
      "kl": 0.3330078125,
      "learning_rate": 9.235601420661854e-07,
      "loss": 0.0187,
      "reward": 2.4759992361068726,
      "reward_std": 0.04343183804303408,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013584255706518888,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.43751525878906,
      "epoch": 0.27052785923753664,
      "grad_norm": 2.899002651460847,
      "kl": 0.359375,
      "learning_rate": 9.22916507412019e-07,
      "loss": 0.0293,
      "reward": 2.932681679725647,
      "reward_std": 0.19901539757847786,
      "rewards/accuracy_reward": 0.9583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010026867035776377,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 369
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.7291717529297,
      "epoch": 0.27126099706744866,
      "grad_norm": 2.5066447293184693,
      "kl": 0.4091796875,
      "learning_rate": 9.222704280780141e-07,
      "loss": 0.0151,
      "reward": 2.1932421922683716,
      "reward_std": 0.12493787333369255,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.008146827574819326,
      "rewards/tag_count_reward": 1.0,
      "step": 370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.97918701171875,
      "epoch": 0.2719941348973607,
      "grad_norm": 2.5236209781956798,
      "kl": 0.431640625,
      "learning_rate": 9.216219082995888e-07,
      "loss": 0.0406,
      "reward": 2.231236457824707,
      "reward_std": 0.029424049891531467,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.011819119565188885,
      "rewards/tag_count_reward": 1.0,
      "step": 371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.9583435058594,
      "epoch": 0.2727272727272727,
      "grad_norm": 2.617827825257977,
      "kl": 0.52734375,
      "learning_rate": 9.209709523281587e-07,
      "loss": 0.0485,
      "reward": 2.238226532936096,
      "reward_std": 0.00962640717625618,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011773544363677502,
      "rewards/tag_count_reward": 1.0,
      "step": 372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.4166870117188,
      "epoch": 0.27346041055718473,
      "grad_norm": 19.050904643830204,
      "kl": 0.6015625,
      "learning_rate": 9.20317564431111e-07,
      "loss": 0.2268,
      "reward": 2.730633020401001,
      "reward_std": 0.025867179967463017,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014158804900944233,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.00001525878906,
      "epoch": 0.27419354838709675,
      "grad_norm": 5.424273414099897,
      "kl": 0.9375,
      "learning_rate": 9.196617488917744e-07,
      "loss": 0.1183,
      "reward": 2.421747326850891,
      "reward_std": 0.22977232933044434,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.008808402344584465,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.2291717529297,
      "epoch": 0.2749266862170088,
      "grad_norm": 6.51976669479584,
      "kl": 1.08203125,
      "learning_rate": 9.190035100093934e-07,
      "loss": 0.0622,
      "reward": 2.4945380687713623,
      "reward_std": 0.005227633053436875,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.005462077213451266,
      "rewards/tag_count_reward": 1.0,
      "step": 375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.89585876464844,
      "epoch": 0.2756598240469208,
      "grad_norm": 12.551923228481087,
      "kl": 2.0859375,
      "learning_rate": 9.183428520990979e-07,
      "loss": 0.2216,
      "reward": 2.7031989097595215,
      "reward_std": 0.13187365233898163,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010342813329771161,
      "rewards/tag_count_reward": 0.984375,
      "step": 376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.9375305175781,
      "epoch": 0.2763929618768328,
      "grad_norm": 16.830833423074687,
      "kl": 2.2734375,
      "learning_rate": 9.176797794918766e-07,
      "loss": 0.3048,
      "reward": 2.2347198724746704,
      "reward_std": 0.024037683382630348,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010071944678202271,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.875,
      "epoch": 0.27712609970674484,
      "grad_norm": 5.46041924584287,
      "kl": 1.14453125,
      "learning_rate": 9.170142965345474e-07,
      "loss": 0.072,
      "reward": 2.2421175837516785,
      "reward_std": 0.005587070249021053,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.00788251287303865,
      "rewards/tag_count_reward": 1.0,
      "step": 378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.6458435058594,
      "epoch": 0.27785923753665687,
      "grad_norm": 7.285649773138782,
      "kl": 1.068359375,
      "learning_rate": 9.163464075897298e-07,
      "loss": 0.0662,
      "reward": 2.491139054298401,
      "reward_std": 0.0070568344090133905,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.008861158974468708,
      "rewards/tag_count_reward": 1.0,
      "step": 379
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.29168701171875,
      "epoch": 0.2785923753665689,
      "grad_norm": 3.9106992141973937,
      "kl": 0.5595703125,
      "learning_rate": 9.156761170358157e-07,
      "loss": 0.0285,
      "reward": 2.4897278547286987,
      "reward_std": 0.007526291534304619,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010272293351590633,
      "rewards/tag_count_reward": 1.0,
      "step": 380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.0,
      "epoch": 0.2793255131964809,
      "grad_norm": 3.1702715469625407,
      "kl": 0.3798828125,
      "learning_rate": 9.15003429266941e-07,
      "loss": 0.0529,
      "reward": 2.733282208442688,
      "reward_std": 0.029079753905534744,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.009773501195013523,
      "rewards/tag_count_reward": 1.0,
      "step": 381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.0833435058594,
      "epoch": 0.28005865102639294,
      "grad_norm": 4.944163236819044,
      "kl": 0.3662109375,
      "learning_rate": 9.143283486929567e-07,
      "loss": 0.0531,
      "reward": 2.7383430004119873,
      "reward_std": 0.007190744858235121,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011657027993351221,
      "rewards/tag_count_reward": 1.0,
      "step": 382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.1458435058594,
      "epoch": 0.28079178885630496,
      "grad_norm": 3.016754740608089,
      "kl": 0.38671875,
      "learning_rate": 9.136508797393999e-07,
      "loss": 0.0325,
      "reward": 2.474005341529846,
      "reward_std": 0.0372047598939389,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.012105878442525864,
      "rewards/tag_count_reward": 1.0,
      "step": 383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.75001525878906,
      "epoch": 0.28152492668621704,
      "grad_norm": 2.902012592999401,
      "kl": 0.314453125,
      "learning_rate": 9.129710268474652e-07,
      "loss": 0.0353,
      "reward": 2.4901161789894104,
      "reward_std": 0.007005092455074191,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.009883841034024954,
      "rewards/tag_count_reward": 1.0,
      "step": 384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 422.2291717529297,
      "epoch": 0.28225806451612906,
      "grad_norm": 4.99704224289973,
      "kl": 0.40234375,
      "learning_rate": 9.122887944739747e-07,
      "loss": 0.0667,
      "reward": 2.4585758447647095,
      "reward_std": 0.11278056120499969,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01017436245456338,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.93751525878906,
      "epoch": 0.2829912023460411,
      "grad_norm": 3.207572366812953,
      "kl": 0.3779296875,
      "learning_rate": 9.116041870913498e-07,
      "loss": 0.0314,
      "reward": 2.7009975910186768,
      "reward_std": 0.12883948348462582,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012544109020382166,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.7916717529297,
      "epoch": 0.2837243401759531,
      "grad_norm": 3.455020971556175,
      "kl": 0.4365234375,
      "learning_rate": 9.109172091875813e-07,
      "loss": 0.0533,
      "reward": 2.4524088501930237,
      "reward_std": 0.11647403798997402,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016341304872184992,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.56251525878906,
      "epoch": 0.2844574780058651,
      "grad_norm": 5.021925533382141,
      "kl": 0.724609375,
      "learning_rate": 9.102278652662004e-07,
      "loss": 0.1052,
      "reward": 2.488985061645508,
      "reward_std": 0.006767880171537399,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01101499842479825,
      "rewards/tag_count_reward": 1.0,
      "step": 388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.9166717529297,
      "epoch": 0.28519061583577715,
      "grad_norm": 4.237467170835808,
      "kl": 0.658203125,
      "learning_rate": 9.095361598462483e-07,
      "loss": 0.0624,
      "reward": 2.239302396774292,
      "reward_std": 0.008108881767839193,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010697626508772373,
      "rewards/tag_count_reward": 1.0,
      "step": 389
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 530.1875,
      "epoch": 0.2859237536656892,
      "grad_norm": 28.582624592710438,
      "kl": 1.0234375,
      "learning_rate": 9.088420974622477e-07,
      "loss": 0.3534,
      "reward": 2.409157693386078,
      "reward_std": 0.1983821764588356,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.009245133958756924,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.5,
      "epoch": 0.2866568914956012,
      "grad_norm": 16.488952128647092,
      "kl": 1.00390625,
      "learning_rate": 9.081456826641725e-07,
      "loss": 0.2223,
      "reward": 2.2143354415893555,
      "reward_std": 0.09019448328763247,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.011359069496393204,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 658.8125305175781,
      "epoch": 0.2873900293255132,
      "grad_norm": 39.80719794913905,
      "kl": 4.6328125,
      "learning_rate": 9.074469200174174e-07,
      "loss": 0.4892,
      "reward": 2.1642203330993652,
      "reward_std": 0.3343081623315811,
      "rewards/accuracy_reward": 0.2708333395421505,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.0059186555445194244,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.4375,
      "epoch": 0.28812316715542524,
      "grad_norm": 18.491008323344726,
      "kl": 3.28125,
      "learning_rate": 9.067458141027694e-07,
      "loss": 0.3781,
      "reward": 2.3546512126922607,
      "reward_std": 0.2867864668369293,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.008195979055017233,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.0625,
      "epoch": 0.28885630498533726,
      "grad_norm": 9.410508125378785,
      "kl": 1.158203125,
      "learning_rate": 9.060423695163764e-07,
      "loss": 0.1123,
      "reward": 2.433341920375824,
      "reward_std": 0.14605514332652092,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014574835076928139,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 453.18751525878906,
      "epoch": 0.2895894428152493,
      "grad_norm": 4.260076100230029,
      "kl": 0.810546875,
      "learning_rate": 9.053365908697181e-07,
      "loss": 0.0791,
      "reward": 2.447802424430847,
      "reward_std": 0.13183430582284927,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010531116742640734,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 511.1875,
      "epoch": 0.2903225806451613,
      "grad_norm": 31.980218688565657,
      "kl": 0.724609375,
      "learning_rate": 9.046284827895746e-07,
      "loss": 0.3394,
      "reward": 2.4297736287117004,
      "reward_std": 0.2000921592116356,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012934757862240076,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 420.37501525878906,
      "epoch": 0.29105571847507333,
      "grad_norm": 3.3699821366968212,
      "kl": 0.501953125,
      "learning_rate": 9.039180499179973e-07,
      "loss": 0.0411,
      "reward": 2.673474907875061,
      "reward_std": 0.11912347562611103,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014025256969034672,
      "rewards/tag_count_reward": 1.0,
      "step": 397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.7708435058594,
      "epoch": 0.29178885630498536,
      "grad_norm": 19.872465311776544,
      "kl": 1.212890625,
      "learning_rate": 9.032052969122781e-07,
      "loss": 0.35,
      "reward": 2.1702736616134644,
      "reward_std": 0.17028960585594177,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017226402647793293,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.68751525878906,
      "epoch": 0.2925219941348974,
      "grad_norm": 14.8359150453612,
      "kl": 0.9453125,
      "learning_rate": 9.024902284449181e-07,
      "loss": 0.2402,
      "reward": 2.6931817531585693,
      "reward_std": 0.14234615676105022,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.013415634166449308,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 399
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.6666717529297,
      "epoch": 0.2932551319648094,
      "grad_norm": 12.406429499182185,
      "kl": 0.853515625,
      "learning_rate": 9.017728492035978e-07,
      "loss": 0.0062,
      "reward": 2.2172019481658936,
      "reward_std": 0.04633156303316355,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.015437084715813398,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.2083435058594,
      "epoch": 0.2939882697947214,
      "grad_norm": 13.871825287384443,
      "kl": 1.33984375,
      "learning_rate": 9.010531638911465e-07,
      "loss": 0.0515,
      "reward": 2.1981945037841797,
      "reward_std": 0.14712171256542206,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010138920042663813,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 401
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 414.9583435058594,
      "epoch": 0.29472140762463345,
      "grad_norm": 3.378020607722317,
      "kl": 0.4638671875,
      "learning_rate": 9.003311772255106e-07,
      "loss": 0.0614,
      "reward": 1.9696611762046814,
      "reward_std": 0.047247909009456635,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.018186070024967194,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 402
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.54168701171875,
      "epoch": 0.29545454545454547,
      "grad_norm": 5.901425872850612,
      "kl": 0.4560546875,
      "learning_rate": 8.996068939397233e-07,
      "loss": -0.0004,
      "reward": 2.6546950340270996,
      "reward_std": 0.1604913668707013,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011971795465797186,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 403
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.43751525878906,
      "epoch": 0.2961876832844575,
      "grad_norm": 3.2421459777125703,
      "kl": 0.4638671875,
      "learning_rate": 8.98880318781874e-07,
      "loss": 0.0314,
      "reward": 2.4531060457229614,
      "reward_std": 0.07071313261985779,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.01564402598887682,
      "rewards/tag_count_reward": 0.9895833730697632,
      "step": 404
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.1458435058594,
      "epoch": 0.2969208211143695,
      "grad_norm": 8.347266976997215,
      "kl": 1.50390625,
      "learning_rate": 8.981514565150758e-07,
      "loss": 0.2145,
      "reward": 2.5850037336349487,
      "reward_std": 0.260950468480587,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01916305348277092,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 405
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.37501525878906,
      "epoch": 0.29765395894428154,
      "grad_norm": 12.481716504683666,
      "kl": 0.7548828125,
      "learning_rate": 8.974203119174354e-07,
      "loss": 0.2422,
      "reward": 2.203757107257843,
      "reward_std": 0.09926661476492882,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013256918638944626,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 406
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.9583435058594,
      "epoch": 0.29838709677419356,
      "grad_norm": 20.555500703198362,
      "kl": 0.615234375,
      "learning_rate": 8.966868897820217e-07,
      "loss": -0.0515,
      "reward": 2.4867031574249268,
      "reward_std": 0.007832993287593126,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013296912424266338,
      "rewards/tag_count_reward": 1.0,
      "step": 407
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 405.93751525878906,
      "epoch": 0.2991202346041056,
      "grad_norm": 4.055403353159463,
      "kl": 0.3583984375,
      "learning_rate": 8.95951194916834e-07,
      "loss": 0.0832,
      "reward": 2.4320058822631836,
      "reward_std": 0.18413013964891434,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015910861548036337,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 408
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 438.5833435058594,
      "epoch": 0.2998533724340176,
      "grad_norm": 21.309615660717455,
      "kl": 0.556640625,
      "learning_rate": 8.952132321447707e-07,
      "loss": 0.2093,
      "reward": 2.435889959335327,
      "reward_std": 0.1703370437026024,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.010290783829987049,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 409
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 396.7916717529297,
      "epoch": 0.30058651026392963,
      "grad_norm": 4.617605546670348,
      "kl": 0.3681640625,
      "learning_rate": 8.944730063035973e-07,
      "loss": 0.0619,
      "reward": 2.2141241431236267,
      "reward_std": 0.0688196187838912,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013306473847478628,
      "rewards/tag_count_reward": 0.984375,
      "step": 410
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.31251525878906,
      "epoch": 0.30131964809384165,
      "grad_norm": 3.1262505616665806,
      "kl": 0.4921875,
      "learning_rate": 8.937305222459156e-07,
      "loss": 0.0334,
      "reward": 2.4272764921188354,
      "reward_std": 0.2919757291674614,
      "rewards/accuracy_reward": 0.45833333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010223534889519215,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 411
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.5,
      "epoch": 0.3020527859237537,
      "grad_norm": 14.530492359657364,
      "kl": 3.458984375,
      "learning_rate": 8.929857848391308e-07,
      "loss": 0.4275,
      "reward": 2.0301916003227234,
      "reward_std": 0.32898490130901337,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.009738977532833815,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 412
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.8125305175781,
      "epoch": 0.3027859237536657,
      "grad_norm": 16.103298225019277,
      "kl": 1.69921875,
      "learning_rate": 8.922387989654202e-07,
      "loss": 0.5684,
      "reward": 2.507889747619629,
      "reward_std": 0.48949065804481506,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.011207538656890392,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 413
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.56251525878906,
      "epoch": 0.3035190615835777,
      "grad_norm": 8.332687659618854,
      "kl": 2.203125,
      "learning_rate": 8.914895695217011e-07,
      "loss": 0.513,
      "reward": 2.341689109802246,
      "reward_std": 0.316712461411953,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.014213801361620426,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 414
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 835.7500305175781,
      "epoch": 0.30425219941348974,
      "grad_norm": 39.2963962140608,
      "kl": 5.984375,
      "learning_rate": 8.907381014195989e-07,
      "loss": 0.7308,
      "reward": 2.089294672012329,
      "reward_std": 0.4655766934156418,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.004455308895558119,
      "rewards/tag_count_reward": 0.78125,
      "step": 415
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 724.8750305175781,
      "epoch": 0.30498533724340177,
      "grad_norm": 14.61779528445159,
      "kl": 4.7890625,
      "learning_rate": 8.899843995854142e-07,
      "loss": 1.091,
      "reward": 2.286299228668213,
      "reward_std": 0.3357388377189636,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0157841881737113,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 416
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.0625305175781,
      "epoch": 0.3057184750733138,
      "grad_norm": 14.48002086498947,
      "kl": 3.3359375,
      "learning_rate": 8.892284689600917e-07,
      "loss": 0.4826,
      "reward": 2.311539053916931,
      "reward_std": 0.3173745572566986,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.013113727793097496,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 417
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.7916870117188,
      "epoch": 0.3064516129032258,
      "grad_norm": 12.734623287810342,
      "kl": 3.015625,
      "learning_rate": 8.88470314499186e-07,
      "loss": 0.5337,
      "reward": 2.267106056213379,
      "reward_std": 0.41217756271362305,
      "rewards/accuracy_reward": 0.375,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.012407994829118252,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 418
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.4791870117188,
      "epoch": 0.30718475073313783,
      "grad_norm": 16.767038731550095,
      "kl": 3.59375,
      "learning_rate": 8.877099411728314e-07,
      "loss": 0.4868,
      "reward": 2.0982948541641235,
      "reward_std": 0.2590210735797882,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.009344066493213177,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 419
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.7083435058594,
      "epoch": 0.30791788856304986,
      "grad_norm": 6.045360274295084,
      "kl": 1.833984375,
      "learning_rate": 8.869473539657074e-07,
      "loss": 0.2533,
      "reward": 2.378178358078003,
      "reward_std": 0.27451788214966655,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01244673365727067,
      "rewards/tag_count_reward": 0.953125,
      "step": 420
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.0208435058594,
      "epoch": 0.3086510263929619,
      "grad_norm": 5.635897679272559,
      "kl": 0.875,
      "learning_rate": 8.861825578770069e-07,
      "loss": 0.0649,
      "reward": 2.3644415140151978,
      "reward_std": 0.2842712849378586,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.012294710613787174,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 421
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 422.37501525878906,
      "epoch": 0.3093841642228739,
      "grad_norm": 3.9672336398242374,
      "kl": 0.5673828125,
      "learning_rate": 8.854155579204036e-07,
      "loss": 0.0106,
      "reward": 2.935629725456238,
      "reward_std": 0.12748303078114986,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.017495382577180862,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 422
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.50001525878906,
      "epoch": 0.3101173020527859,
      "grad_norm": 4.249069913225125,
      "kl": 0.5078125,
      "learning_rate": 8.84646359124018e-07,
      "loss": 0.0199,
      "reward": 2.429058015346527,
      "reward_std": 0.17704454949125648,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.015386473387479782,
      "rewards/tag_count_reward": 1.0,
      "step": 423
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.6458435058594,
      "epoch": 0.31085043988269795,
      "grad_norm": 11.718746465515885,
      "kl": 0.59375,
      "learning_rate": 8.83874966530386e-07,
      "loss": -0.0174,
      "reward": 2.216548442840576,
      "reward_std": 0.11675330437719822,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017826574854552746,
      "rewards/tag_count_reward": 0.984375,
      "step": 424
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.7291717529297,
      "epoch": 0.31158357771260997,
      "grad_norm": 3.99754517757241,
      "kl": 0.3359375,
      "learning_rate": 8.831013851964253e-07,
      "loss": -0.0056,
      "reward": 2.6643564701080322,
      "reward_std": 0.20628847926855087,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.01967142429202795,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 425
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 407.68751525878906,
      "epoch": 0.312316715542522,
      "grad_norm": 3.0243285560646918,
      "kl": 0.3134765625,
      "learning_rate": 8.823256201934009e-07,
      "loss": -0.0137,
      "reward": 2.472022771835327,
      "reward_std": 0.03336298279464245,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.021032861433923244,
      "rewards/tag_count_reward": 1.0,
      "step": 426
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.1666717529297,
      "epoch": 0.313049853372434,
      "grad_norm": 6.739707368856835,
      "kl": 0.541015625,
      "learning_rate": 8.81547676606894e-07,
      "loss": 0.0628,
      "reward": 2.461642861366272,
      "reward_std": 0.08788503333926201,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.01926009263843298,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 427
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.2708435058594,
      "epoch": 0.31378299120234604,
      "grad_norm": 6.748145314971122,
      "kl": 0.421875,
      "learning_rate": 8.807675595367674e-07,
      "loss": 0.1198,
      "reward": 2.1878883838653564,
      "reward_std": 0.13607415929436684,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025653420016169548,
      "rewards/tag_count_reward": 0.984375,
      "step": 428
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.31251525878906,
      "epoch": 0.31451612903225806,
      "grad_norm": 7.1793774023164145,
      "kl": 0.5166015625,
      "learning_rate": 8.799852740971323e-07,
      "loss": 0.0118,
      "reward": 2.4083354473114014,
      "reward_std": 0.20769641920924187,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.027428350411355495,
      "rewards/tag_count_reward": 0.984375,
      "step": 429
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.6458435058594,
      "epoch": 0.3152492668621701,
      "grad_norm": 4.178510346631957,
      "kl": 0.353515625,
      "learning_rate": 8.792008254163145e-07,
      "loss": 0.0192,
      "reward": 2.216019093990326,
      "reward_std": 0.05499478569254279,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02009205799549818,
      "rewards/tag_count_reward": 1.0,
      "step": 430
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.1875152587891,
      "epoch": 0.3159824046920821,
      "grad_norm": 12.228179652584759,
      "kl": 1.5625,
      "learning_rate": 8.784142186368214e-07,
      "loss": 0.2563,
      "reward": 2.4159883856773376,
      "reward_std": 0.11997727863490582,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026720006950199604,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 431
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 506.875,
      "epoch": 0.31671554252199413,
      "grad_norm": 8.456013908011222,
      "kl": 1.7109375,
      "learning_rate": 8.776254589153081e-07,
      "loss": 0.2094,
      "reward": 2.1472460627555847,
      "reward_std": 0.1969931460916996,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.012476155068725348,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 432
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.7083587646484,
      "epoch": 0.31744868035190615,
      "grad_norm": 20.44702979218028,
      "kl": 2.8828125,
      "learning_rate": 8.768345514225431e-07,
      "loss": 0.3417,
      "reward": 2.5165975093841553,
      "reward_std": 0.4180612862110138,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019861001521348953,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 433
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 627.4375305175781,
      "epoch": 0.3181818181818182,
      "grad_norm": 13.430874608120844,
      "kl": 4.34375,
      "learning_rate": 8.76041501343375e-07,
      "loss": 0.7845,
      "reward": 2.2989736795425415,
      "reward_std": 0.6288765966892242,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.022207094356417656,
      "rewards/tag_count_reward": 0.8072916865348816,
      "step": 434
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.9791870117188,
      "epoch": 0.3189149560117302,
      "grad_norm": 29.560773552065303,
      "kl": 4.59375,
      "learning_rate": 8.752463138766981e-07,
      "loss": 0.5636,
      "reward": 2.0621426105499268,
      "reward_std": 0.28306297212839127,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.01771850883960724,
      "rewards/tag_count_reward": 0.8645833432674408,
      "step": 435
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.7916870117188,
      "epoch": 0.3196480938416422,
      "grad_norm": 22.441957468784093,
      "kl": 3.7109375,
      "learning_rate": 8.744489942354187e-07,
      "loss": 0.675,
      "reward": 2.1259257793426514,
      "reward_std": 0.3373235762119293,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019907758571207523,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 436
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 685.5625305175781,
      "epoch": 0.32038123167155425,
      "grad_norm": 12.825077973059518,
      "kl": 4.0,
      "learning_rate": 8.736495476464205e-07,
      "loss": 0.68,
      "reward": 2.335544228553772,
      "reward_std": 0.2173374593257904,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02383077424019575,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 437
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 541.1666717529297,
      "epoch": 0.32111436950146627,
      "grad_norm": 20.43850556963088,
      "kl": 2.25,
      "learning_rate": 8.728479793505308e-07,
      "loss": 0.4834,
      "reward": 1.9290331602096558,
      "reward_std": 0.1057676412165165,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024091887287795544,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 438
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.0416870117188,
      "epoch": 0.3218475073313783,
      "grad_norm": 16.888244534119845,
      "kl": 2.65625,
      "learning_rate": 8.720442946024855e-07,
      "loss": 0.3783,
      "reward": 2.275824010372162,
      "reward_std": 0.40398430824279785,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.024523337371647358,
      "rewards/tag_count_reward": 0.9114583730697632,
      "step": 439
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 530.0416717529297,
      "epoch": 0.3225806451612903,
      "grad_norm": 26.375467728384585,
      "kl": 1.7265625,
      "learning_rate": 8.712384986708953e-07,
      "loss": 0.4054,
      "reward": 2.3330430388450623,
      "reward_std": 0.3513893634080887,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.024595932103693485,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 440
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.2083435058594,
      "epoch": 0.32331378299120234,
      "grad_norm": 24.099276246580605,
      "kl": 2.86328125,
      "learning_rate": 8.704305968382112e-07,
      "loss": 0.7114,
      "reward": 2.1199684143066406,
      "reward_std": 0.2733127325773239,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020656662993133068,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 441
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 596.9166870117188,
      "epoch": 0.32404692082111436,
      "grad_norm": 24.107301778659405,
      "kl": 4.1875,
      "learning_rate": 8.696205944006891e-07,
      "loss": 0.7505,
      "reward": 2.107983946800232,
      "reward_std": 0.268925741314888,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017016036435961723,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 442
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 613.2916870117188,
      "epoch": 0.3247800586510264,
      "grad_norm": 49.39061448190325,
      "kl": 6.421875,
      "learning_rate": 8.688084966683557e-07,
      "loss": 0.5934,
      "reward": 2.1915996074676514,
      "reward_std": 0.4412628412246704,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016733783297240734,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 443
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 836.8750305175781,
      "epoch": 0.3255131964809384,
      "grad_norm": 77.73635730936726,
      "kl": 11.03125,
      "learning_rate": 8.679943089649737e-07,
      "loss": 0.951,
      "reward": 1.8464696407318115,
      "reward_std": 0.46440982818603516,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/reasoning_steps_reward": 0.9791667461395264,
      "rewards/repetition_penalty_reward": -0.018113664351403713,
      "rewards/tag_count_reward": 0.7604166865348816,
      "step": 444
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 684.8125305175781,
      "epoch": 0.3262463343108504,
      "grad_norm": 43.20397648755034,
      "kl": 6.484375,
      "learning_rate": 8.671780366280067e-07,
      "loss": 0.9399,
      "reward": 2.0885465145111084,
      "reward_std": 0.508235827088356,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02082844078540802,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 445
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.4583435058594,
      "epoch": 0.32697947214076245,
      "grad_norm": 13.78943058368852,
      "kl": 2.203125,
      "learning_rate": 8.66359685008584e-07,
      "loss": 0.2261,
      "reward": 2.1724031567573547,
      "reward_std": 0.14021247252821922,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.01856919191777706,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 446
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.9375,
      "epoch": 0.3277126099706745,
      "grad_norm": 18.641202440944074,
      "kl": 1.48046875,
      "learning_rate": 8.655392594714661e-07,
      "loss": 0.3041,
      "reward": 2.3693387508392334,
      "reward_std": 0.2319539673626423,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016078063752502203,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 447
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 511.50001525878906,
      "epoch": 0.3284457478005865,
      "grad_norm": 10.100849867977697,
      "kl": 1.19140625,
      "learning_rate": 8.647167653950092e-07,
      "loss": 0.2502,
      "reward": 1.9037845134735107,
      "reward_std": 0.1535169705748558,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.01982666738331318,
      "rewards/tag_count_reward": 0.9375,
      "step": 448
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 415.3958435058594,
      "epoch": 0.3291788856304985,
      "grad_norm": 6.39755512266102,
      "kl": 0.931640625,
      "learning_rate": 8.638922081711295e-07,
      "loss": 0.0919,
      "reward": 2.8837406635284424,
      "reward_std": 0.193980960175395,
      "rewards/accuracy_reward": 0.9375,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.015564900357276201,
      "rewards/tag_count_reward": 0.96875,
      "step": 449
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 504.8958435058594,
      "epoch": 0.32991202346041054,
      "grad_norm": 11.85855042798546,
      "kl": 1.451171875,
      "learning_rate": 8.63065593205269e-07,
      "loss": 0.366,
      "reward": 2.794464588165283,
      "reward_std": 0.44993289560079575,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/reasoning_steps_reward": 0.9791666567325592,
      "rewards/repetition_penalty_reward": -0.01803573127835989,
      "rewards/tag_count_reward": 0.9375,
      "step": 450
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.0833435058594,
      "epoch": 0.33064516129032256,
      "grad_norm": 18.349554724503466,
      "kl": 1.203125,
      "learning_rate": 8.622369259163588e-07,
      "loss": 0.3583,
      "reward": 2.379144310951233,
      "reward_std": 0.22539783269166946,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011480757035315037,
      "rewards/tag_count_reward": 0.953125,
      "step": 451
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 543.8125305175781,
      "epoch": 0.3313782991202346,
      "grad_norm": 42.831501126634414,
      "kl": 1.2265625,
      "learning_rate": 8.614062117367846e-07,
      "loss": 0.6447,
      "reward": 2.5604196786880493,
      "reward_std": 0.5051280111074448,
      "rewards/accuracy_reward": 0.6666666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.014233164954930544,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 452
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.6458435058594,
      "epoch": 0.3321114369501466,
      "grad_norm": 8.498854597259745,
      "kl": 1.859375,
      "learning_rate": 8.6057345611235e-07,
      "loss": 0.3801,
      "reward": 2.386213481426239,
      "reward_std": 0.2767922133207321,
      "rewards/accuracy_reward": 0.5000000204890966,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.0096200630068779,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 453
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 467.68751525878906,
      "epoch": 0.33284457478005863,
      "grad_norm": 10.655046074477987,
      "kl": 1.2392578125,
      "learning_rate": 8.597386645022423e-07,
      "loss": 0.2894,
      "reward": 2.347404420375824,
      "reward_std": 0.3219123715534806,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.01023465720936656,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 454
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.2083435058594,
      "epoch": 0.33357771260997066,
      "grad_norm": 13.16671124138141,
      "kl": 1.1796875,
      "learning_rate": 8.589018423789951e-07,
      "loss": 0.2794,
      "reward": 2.66903293132782,
      "reward_std": 0.16836241632699966,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.014994919300079346,
      "rewards/tag_count_reward": 0.96875,
      "step": 455
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.8958435058594,
      "epoch": 0.3343108504398827,
      "grad_norm": 13.161941875430305,
      "kl": 3.9375,
      "learning_rate": 8.580629952284534e-07,
      "loss": 1.3136,
      "reward": 2.3228167295455933,
      "reward_std": 0.4149315506219864,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.010516760405153036,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 456
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 530.5208435058594,
      "epoch": 0.3350439882697947,
      "grad_norm": 26.618723827545875,
      "kl": 4.53125,
      "learning_rate": 8.572221285497378e-07,
      "loss": 0.8534,
      "reward": 1.884135127067566,
      "reward_std": 0.19925276935100555,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.01517043774947524,
      "rewards/tag_count_reward": 0.90625,
      "step": 457
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 550.4166870117188,
      "epoch": 0.3357771260997067,
      "grad_norm": 28.703091822389183,
      "kl": 3.875,
      "learning_rate": 8.563792478552071e-07,
      "loss": 0.7495,
      "reward": 2.278742492198944,
      "reward_std": 0.38903089612722397,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.012924263253808022,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 458
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.0416870117188,
      "epoch": 0.33651026392961875,
      "grad_norm": 27.90049267018379,
      "kl": 4.4296875,
      "learning_rate": 8.555343586704242e-07,
      "loss": 0.8235,
      "reward": 2.1318034529685974,
      "reward_std": 0.558455765247345,
      "rewards/accuracy_reward": 0.3125,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.012293811421841383,
      "rewards/tag_count_reward": 0.859375,
      "step": 459
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 533.5416717529297,
      "epoch": 0.33724340175953077,
      "grad_norm": 22.430193881631553,
      "kl": 3.5234375,
      "learning_rate": 8.546874665341181e-07,
      "loss": 0.4792,
      "reward": 2.256991147994995,
      "reward_std": 0.4296814352273941,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.012106035370379686,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 460
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.0416870117188,
      "epoch": 0.3379765395894428,
      "grad_norm": 20.303533243217544,
      "kl": 2.9609375,
      "learning_rate": 8.538385769981488e-07,
      "loss": 0.4452,
      "reward": 2.025463283061981,
      "reward_std": 0.41344672441482544,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.012731055729091167,
      "rewards/tag_count_reward": 0.8645833730697632,
      "step": 461
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.2500152587891,
      "epoch": 0.3387096774193548,
      "grad_norm": 11.57285794591874,
      "kl": 2.9765625,
      "learning_rate": 8.529876956274698e-07,
      "loss": 0.6475,
      "reward": 2.311686098575592,
      "reward_std": 0.29963135719299316,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.018175031058490276,
      "rewards/tag_count_reward": 0.8645833730697632,
      "step": 462
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.56251525878906,
      "epoch": 0.33944281524926684,
      "grad_norm": 6.220846068922538,
      "kl": 1.05859375,
      "learning_rate": 8.521348280000924e-07,
      "loss": 0.2887,
      "reward": 2.1803677678108215,
      "reward_std": 0.08419075515121222,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017548908479511738,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 463
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 493.85418701171875,
      "epoch": 0.34017595307917886,
      "grad_norm": 24.101035227375732,
      "kl": 1.578125,
      "learning_rate": 8.512799797070492e-07,
      "loss": 0.6789,
      "reward": 2.3085252046585083,
      "reward_std": 0.4135167822241783,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9791666567325592,
      "rewards/repetition_penalty_reward": -0.019599976018071175,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 464
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.1666717529297,
      "epoch": 0.3409090909090909,
      "grad_norm": 23.665461110852053,
      "kl": 1.0625,
      "learning_rate": 8.504231563523573e-07,
      "loss": 0.5876,
      "reward": 2.1471781730651855,
      "reward_std": 0.3046387583017349,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.014280236326158047,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 465
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.5000305175781,
      "epoch": 0.3416422287390029,
      "grad_norm": 8.232517144541893,
      "kl": 1.29296875,
      "learning_rate": 8.495643635529809e-07,
      "loss": 0.2298,
      "reward": 2.6147353649139404,
      "reward_std": 0.2032028939574957,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015473092906177044,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 466
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 348.4166717529297,
      "epoch": 0.34237536656891493,
      "grad_norm": 10.338324346543883,
      "kl": 0.7734375,
      "learning_rate": 8.487036069387953e-07,
      "loss": 0.0658,
      "reward": 2.450138568878174,
      "reward_std": 0.1330912890844047,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013403074350208044,
      "rewards/tag_count_reward": 0.984375,
      "step": 467
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.16668701171875,
      "epoch": 0.34310850439882695,
      "grad_norm": 15.816345871806671,
      "kl": 0.84765625,
      "learning_rate": 8.4784089215255e-07,
      "loss": 0.1334,
      "reward": 2.4448307752609253,
      "reward_std": 0.14922725409269333,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013502615503966808,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 468
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 399.9791717529297,
      "epoch": 0.34384164222873903,
      "grad_norm": 25.38232544197375,
      "kl": 0.8203125,
      "learning_rate": 8.469762248498307e-07,
      "loss": 0.1797,
      "reward": 1.9597020745277405,
      "reward_std": 0.06006414443254471,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0194645868614316,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 469
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.68751525878906,
      "epoch": 0.34457478005865105,
      "grad_norm": 11.384146881799431,
      "kl": 1.71875,
      "learning_rate": 8.461096106990241e-07,
      "loss": 0.4859,
      "reward": 2.122660994529724,
      "reward_std": 0.3244031220674515,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.01622793171554804,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 470
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 427.5208435058594,
      "epoch": 0.3453079178885631,
      "grad_norm": 7.64042070760251,
      "kl": 1.35546875,
      "learning_rate": 8.452410553812784e-07,
      "loss": 0.334,
      "reward": 2.4085933566093445,
      "reward_std": 0.2034970000386238,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.015017746016383171,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 471
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.1666870117188,
      "epoch": 0.3460410557184751,
      "grad_norm": 12.197273976275588,
      "kl": 2.9609375,
      "learning_rate": 8.443705645904678e-07,
      "loss": 0.7164,
      "reward": 2.0220767855644226,
      "reward_std": 0.40696029365062714,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.010909311473369598,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 472
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.1458435058594,
      "epoch": 0.3467741935483871,
      "grad_norm": 26.782940873029442,
      "kl": 2.94140625,
      "learning_rate": 8.434981440331549e-07,
      "loss": 0.4876,
      "reward": 1.8921802043914795,
      "reward_std": 0.2121252343058586,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666567325592,
      "rewards/repetition_penalty_reward": -0.014069781638681889,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 473
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 535.5,
      "epoch": 0.34750733137829914,
      "grad_norm": 18.31310978578589,
      "kl": 2.7265625,
      "learning_rate": 8.426237994285525e-07,
      "loss": 0.7942,
      "reward": 2.537790536880493,
      "reward_std": 0.4235878735780716,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014292994979768991,
      "rewards/tag_count_reward": 0.90625,
      "step": 474
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 572.1458435058594,
      "epoch": 0.34824046920821117,
      "grad_norm": 11.85507041751325,
      "kl": 2.875,
      "learning_rate": 8.417475365084871e-07,
      "loss": 0.8618,
      "reward": 2.508628726005554,
      "reward_std": 0.5431976318359375,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.015676844865083694,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 475
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.3125305175781,
      "epoch": 0.3489736070381232,
      "grad_norm": 28.639038429417123,
      "kl": 3.234375,
      "learning_rate": 8.408693610173603e-07,
      "loss": 0.5474,
      "reward": 2.3011252880096436,
      "reward_std": 0.40642261505126953,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.011374846566468477,
      "rewards/tag_count_reward": 0.875,
      "step": 476
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.4166717529297,
      "epoch": 0.3497067448680352,
      "grad_norm": 18.88985204699429,
      "kl": 1.48046875,
      "learning_rate": 8.39989278712112e-07,
      "loss": 0.5386,
      "reward": 2.6290500164031982,
      "reward_std": 0.32656364142894745,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.015047314576804638,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 477
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.3333587646484,
      "epoch": 0.35043988269794724,
      "grad_norm": 11.451206533941894,
      "kl": 2.65234375,
      "learning_rate": 8.391072953621826e-07,
      "loss": 0.5397,
      "reward": 2.279217839241028,
      "reward_std": 0.34354250878095627,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.014185154810547829,
      "rewards/tag_count_reward": 0.890625,
      "step": 478
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.6458435058594,
      "epoch": 0.35117302052785926,
      "grad_norm": 7.27832965984057,
      "kl": 1.1796875,
      "learning_rate": 8.382234167494747e-07,
      "loss": 0.3302,
      "reward": 2.147601544857025,
      "reward_std": 0.2115662805736065,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.01732906699180603,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 479
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 371.93751525878906,
      "epoch": 0.3519061583577713,
      "grad_norm": 10.45608432872573,
      "kl": 1.12109375,
      "learning_rate": 8.373376486683149e-07,
      "loss": 0.2231,
      "reward": 2.1965653896331787,
      "reward_std": 0.09365869220346212,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022184578701853752,
      "rewards/tag_count_reward": 0.96875,
      "step": 480
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 357.7083435058594,
      "epoch": 0.3526392961876833,
      "grad_norm": 9.253957750096733,
      "kl": 0.95703125,
      "learning_rate": 8.364499969254174e-07,
      "loss": 0.1801,
      "reward": 2.3384850025177,
      "reward_std": 0.3187159597873688,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.022626149468123913,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 481
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.00001525878906,
      "epoch": 0.3533724340175953,
      "grad_norm": 7.045055176755826,
      "kl": 1.1748046875,
      "learning_rate": 8.35560467339844e-07,
      "loss": 0.1558,
      "reward": 2.6686532497406006,
      "reward_std": 0.20646232273429632,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.017110710497945547,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 482
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 308.91668701171875,
      "epoch": 0.35410557184750735,
      "grad_norm": 4.762432815291462,
      "kl": 0.3720703125,
      "learning_rate": 8.346690657429672e-07,
      "loss": 0.0247,
      "reward": 2.2265055179595947,
      "reward_std": 0.031516775488853455,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.016550065483897924,
      "rewards/tag_count_reward": 1.0,
      "step": 483
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 333.00001525878906,
      "epoch": 0.3548387096774194,
      "grad_norm": 8.645951391731817,
      "kl": 0.46484375,
      "learning_rate": 8.337757979784315e-07,
      "loss": 0.0418,
      "reward": 2.2375470995903015,
      "reward_std": 0.0075986802112311125,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012452858500182629,
      "rewards/tag_count_reward": 1.0,
      "step": 484
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.7083435058594,
      "epoch": 0.3555718475073314,
      "grad_norm": 7.441907733438074,
      "kl": 0.646484375,
      "learning_rate": 8.328806699021155e-07,
      "loss": 0.203,
      "reward": 2.6804587841033936,
      "reward_std": 0.17669676430523396,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.020930366590619087,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 485
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.25001525878906,
      "epoch": 0.3563049853372434,
      "grad_norm": 6.326596783751009,
      "kl": 0.44140625,
      "learning_rate": 8.319836873820926e-07,
      "loss": 0.0394,
      "reward": 2.6759073734283447,
      "reward_std": 0.12399306986480951,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.013328731525689363,
      "rewards/tag_count_reward": 0.953125,
      "step": 486
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.9166717529297,
      "epoch": 0.35703812316715544,
      "grad_norm": 17.88113563714185,
      "kl": 0.6357421875,
      "learning_rate": 8.310848562985935e-07,
      "loss": 0.0157,
      "reward": 2.671896457672119,
      "reward_std": 0.22538332641124725,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013867528643459082,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 487
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.56251525878906,
      "epoch": 0.35777126099706746,
      "grad_norm": 8.614526501689246,
      "kl": 0.9169921875,
      "learning_rate": 8.301841825439674e-07,
      "loss": 0.328,
      "reward": 2.169337749481201,
      "reward_std": 0.2654203623533249,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.021634459495544434,
      "rewards/tag_count_reward": 0.96875,
      "step": 488
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.7708435058594,
      "epoch": 0.3585043988269795,
      "grad_norm": 9.126566406167589,
      "kl": 0.71875,
      "learning_rate": 8.292816720226429e-07,
      "loss": 0.3833,
      "reward": 2.3876397609710693,
      "reward_std": 0.2834826409816742,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013401838950812817,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 489
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 384.4583435058594,
      "epoch": 0.3592375366568915,
      "grad_norm": 4.9502265845193145,
      "kl": 0.5224609375,
      "learning_rate": 8.283773306510903e-07,
      "loss": 0.0681,
      "reward": 2.374760627746582,
      "reward_std": 0.37007441371679306,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01586443232372403,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 490
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.9791717529297,
      "epoch": 0.35997067448680353,
      "grad_norm": 6.705292937977975,
      "kl": 0.7734375,
      "learning_rate": 8.274711643577812e-07,
      "loss": 0.1881,
      "reward": 2.1267879605293274,
      "reward_std": 0.17756187077611685,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01904546469449997,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 491
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.37501525878906,
      "epoch": 0.36070381231671556,
      "grad_norm": 6.170093231897857,
      "kl": 0.794921875,
      "learning_rate": 8.265631790831513e-07,
      "loss": 0.2968,
      "reward": 1.9459967613220215,
      "reward_std": 0.09664355963468552,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0227531548589468,
      "rewards/tag_count_reward": 0.96875,
      "step": 492
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.5833435058594,
      "epoch": 0.3614369501466276,
      "grad_norm": 11.129735561164555,
      "kl": 1.158203125,
      "learning_rate": 8.256533807795607e-07,
      "loss": 0.366,
      "reward": 1.9230691194534302,
      "reward_std": 0.2331734150648117,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.026583708822727203,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 493
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.64585876464844,
      "epoch": 0.3621700879765396,
      "grad_norm": 11.115235107040252,
      "kl": 1.203125,
      "learning_rate": 8.247417754112548e-07,
      "loss": 0.5382,
      "reward": 1.9273149967193604,
      "reward_std": 0.23959805816411972,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02233781013637781,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 494
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 509.43751525878906,
      "epoch": 0.3629032258064516,
      "grad_norm": 15.68299311864471,
      "kl": 1.400390625,
      "learning_rate": 8.238283689543252e-07,
      "loss": 0.4682,
      "reward": 1.9225846529006958,
      "reward_std": 0.3457977622747421,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.018387647345662117,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 495
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.4166870117188,
      "epoch": 0.36363636363636365,
      "grad_norm": 6.773746675176151,
      "kl": 1.05078125,
      "learning_rate": 8.229131673966708e-07,
      "loss": 0.3773,
      "reward": 1.9133232831954956,
      "reward_std": 0.26244693249464035,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.018968377262353897,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 496
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.04168701171875,
      "epoch": 0.36436950146627567,
      "grad_norm": 8.290342632836095,
      "kl": 0.978515625,
      "learning_rate": 8.219961767379586e-07,
      "loss": 0.4217,
      "reward": 2.1250281929969788,
      "reward_std": 0.25319022685289383,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.024277442134916782,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 497
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.8958435058594,
      "epoch": 0.3651026392961877,
      "grad_norm": 10.77527531050857,
      "kl": 0.8828125,
      "learning_rate": 8.21077402989584e-07,
      "loss": 0.3326,
      "reward": 2.1549705266952515,
      "reward_std": 0.19552180310711265,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.025585101917386055,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 498
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.8125152587891,
      "epoch": 0.3658357771260997,
      "grad_norm": 63.70158740638487,
      "kl": 2.2021484375,
      "learning_rate": 8.201568521746314e-07,
      "loss": 0.6263,
      "reward": 2.017093539237976,
      "reward_std": 0.38255129382014275,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/reasoning_steps_reward": 0.965277761220932,
      "rewards/repetition_penalty_reward": -0.021101072430610657,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 499
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 413.25001525878906,
      "epoch": 0.36656891495601174,
      "grad_norm": 14.422611186019756,
      "kl": 0.6953125,
      "learning_rate": 8.192345303278351e-07,
      "loss": 0.2335,
      "reward": 1.9486969113349915,
      "reward_std": 0.1088674496859312,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.021789253689348698,
      "rewards/tag_count_reward": 0.984375,
      "step": 500
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.3333435058594,
      "epoch": 0.36730205278592376,
      "grad_norm": 43.60045387371852,
      "kl": 1.4921875,
      "learning_rate": 8.183104434955395e-07,
      "loss": 0.5019,
      "reward": 1.9558414220809937,
      "reward_std": 0.16421754658222198,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.026797562837600708,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 501
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.18751525878906,
      "epoch": 0.3680351906158358,
      "grad_norm": 139.1743325769162,
      "kl": 1.78515625,
      "learning_rate": 8.173845977356594e-07,
      "loss": 0.468,
      "reward": 1.9216685891151428,
      "reward_std": 0.14234358817338943,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.027984178625047207,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 502
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.7916717529297,
      "epoch": 0.3687683284457478,
      "grad_norm": 145.4472171807426,
      "kl": 3.671875,
      "learning_rate": 8.164569991176405e-07,
      "loss": 0.7199,
      "reward": 2.0667614936828613,
      "reward_std": 0.3162480816245079,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.023516294546425343,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 503
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 395.4791717529297,
      "epoch": 0.36950146627565983,
      "grad_norm": 25.89876003065372,
      "kl": 1.1796875,
      "learning_rate": 8.155276537224194e-07,
      "loss": 0.4086,
      "reward": 1.917527198791504,
      "reward_std": 0.22057230025529861,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.01997281052172184,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 504
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.83335876464844,
      "epoch": 0.37023460410557185,
      "grad_norm": 150.8827097979688,
      "kl": 5.7138671875,
      "learning_rate": 8.145965676423837e-07,
      "loss": 0.5975,
      "reward": 1.8190749883651733,
      "reward_std": 0.19131757970899343,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9305555820465088,
      "rewards/repetition_penalty_reward": -0.017730488441884518,
      "rewards/tag_count_reward": 0.90625,
      "step": 505
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.9166717529297,
      "epoch": 0.3709677419354839,
      "grad_norm": 22.8478805496014,
      "kl": 1.41015625,
      "learning_rate": 8.136637469813322e-07,
      "loss": 0.2955,
      "reward": 1.9509990811347961,
      "reward_std": 0.09807348623871803,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.02122316136956215,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 506
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.70835876464844,
      "epoch": 0.3717008797653959,
      "grad_norm": 45.306018801969856,
      "kl": 1.9794921875,
      "learning_rate": 8.127291978544354e-07,
      "loss": 0.4052,
      "reward": 1.8993171453475952,
      "reward_std": 0.19246254302561283,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.020821738056838512,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 507
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.9375305175781,
      "epoch": 0.3724340175953079,
      "grad_norm": 40.87142241010334,
      "kl": 1.71875,
      "learning_rate": 8.117929263881942e-07,
      "loss": 0.577,
      "reward": 1.9061757326126099,
      "reward_std": 0.18592821806669235,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.022643746808171272,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 508
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 659.2916870117188,
      "epoch": 0.37316715542521994,
      "grad_norm": 115.61873644021891,
      "kl": 5.5703125,
      "learning_rate": 8.108549387204003e-07,
      "loss": 1.1436,
      "reward": 1.7973338961601257,
      "reward_std": 0.3085802122950554,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9513889253139496,
      "rewards/repetition_penalty_reward": -0.013430023565888405,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 509
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 567.9583435058594,
      "epoch": 0.37390029325513197,
      "grad_norm": 26.50908771676089,
      "kl": 2.62890625,
      "learning_rate": 8.09915241000097e-07,
      "loss": 0.4909,
      "reward": 1.8572303652763367,
      "reward_std": 0.30207861959934235,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.958333432674408,
      "rewards/repetition_penalty_reward": -0.017769566271454096,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 510
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.5208435058594,
      "epoch": 0.374633431085044,
      "grad_norm": 11.75236991564634,
      "kl": 0.5400390625,
      "learning_rate": 8.089738393875371e-07,
      "loss": 0.075,
      "reward": 1.9674814939498901,
      "reward_std": 0.0658029681071639,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.015157437417656183,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 511
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.83335876464844,
      "epoch": 0.375366568914956,
      "grad_norm": 42.108031734612005,
      "kl": 1.453125,
      "learning_rate": 8.080307400541438e-07,
      "loss": 0.3499,
      "reward": 1.920167326927185,
      "reward_std": 0.1508631743490696,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.015596664976328611,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 512
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 685.3958740234375,
      "epoch": 0.37609970674486803,
      "grad_norm": 34.90049805526321,
      "kl": 2.3828125,
      "learning_rate": 8.070859491824697e-07,
      "loss": 0.6664,
      "reward": 1.6676543951034546,
      "reward_std": 0.4811856746673584,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9097222685813904,
      "rewards/repetition_penalty_reward": -0.01810950506478548,
      "rewards/tag_count_reward": 0.7760416865348816,
      "step": 513
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 657.5416870117188,
      "epoch": 0.37683284457478006,
      "grad_norm": 39.735639055218364,
      "kl": 4.6875,
      "learning_rate": 8.061394729661564e-07,
      "loss": 0.6612,
      "reward": 1.9260591268539429,
      "reward_std": 0.5082510709762573,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9305555820465088,
      "rewards/repetition_penalty_reward": -0.020121485460549593,
      "rewards/tag_count_reward": 0.8281250298023224,
      "step": 514
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 730.8333435058594,
      "epoch": 0.3775659824046921,
      "grad_norm": 29.337370968228235,
      "kl": 4.078125,
      "learning_rate": 8.051913176098937e-07,
      "loss": 0.5808,
      "reward": 1.7654681205749512,
      "reward_std": 0.5887759923934937,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.9027777910232544,
      "rewards/repetition_penalty_reward": -0.012309623882174492,
      "rewards/tag_count_reward": 0.7708333432674408,
      "step": 515
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 674.8541870117188,
      "epoch": 0.3782991202346041,
      "grad_norm": 56.98097498554146,
      "kl": 4.3203125,
      "learning_rate": 8.042414893293796e-07,
      "loss": 0.7913,
      "reward": 1.6792184114456177,
      "reward_std": 0.48759625852108,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9097221791744232,
      "rewards/repetition_penalty_reward": -0.011753852013498545,
      "rewards/tag_count_reward": 0.7812500298023224,
      "step": 516
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.2708740234375,
      "epoch": 0.3790322580645161,
      "grad_norm": 64.88172032217534,
      "kl": 4.671875,
      "learning_rate": 8.032899943512785e-07,
      "loss": 0.8505,
      "reward": 1.762292504310608,
      "reward_std": 0.3404271602630615,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9305556118488312,
      "rewards/repetition_penalty_reward": -0.012013083323836327,
      "rewards/tag_count_reward": 0.84375,
      "step": 517
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 538.2500305175781,
      "epoch": 0.37976539589442815,
      "grad_norm": 57.22402136535535,
      "kl": 5.5,
      "learning_rate": 8.023368389131815e-07,
      "loss": 0.7508,
      "reward": 1.769698143005371,
      "reward_std": 0.43798917531967163,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9305555522441864,
      "rewards/repetition_penalty_reward": -0.015024195425212383,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 518
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.625,
      "epoch": 0.38049853372434017,
      "grad_norm": 33.77773388568201,
      "kl": 5.6875,
      "learning_rate": 8.013820292635645e-07,
      "loss": 0.6833,
      "reward": 1.5902305245399475,
      "reward_std": 0.46116843819618225,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8611111044883728,
      "rewards/repetition_penalty_reward": -0.0156723465770483,
      "rewards/tag_count_reward": 0.7447916865348816,
      "step": 519
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.2291870117188,
      "epoch": 0.3812316715542522,
      "grad_norm": 39.50621531257809,
      "kl": 4.1484375,
      "learning_rate": 8.00425571661748e-07,
      "loss": 0.5575,
      "reward": 1.657406985759735,
      "reward_std": 0.4130554646253586,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8888888955116272,
      "rewards/repetition_penalty_reward": -0.012731941416859627,
      "rewards/tag_count_reward": 0.7812500298023224,
      "step": 520
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 395.4791717529297,
      "epoch": 0.3819648093841642,
      "grad_norm": 12.986688921654492,
      "kl": 0.744140625,
      "learning_rate": 7.994674723778559e-07,
      "loss": 0.1766,
      "reward": 1.9165648221969604,
      "reward_std": 0.13351602852344513,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.01572699472308159,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 521
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 533.0833435058594,
      "epoch": 0.38269794721407624,
      "grad_norm": 15.833753392603134,
      "kl": 2.90625,
      "learning_rate": 7.985077376927734e-07,
      "loss": 0.3802,
      "reward": 1.7569490671157837,
      "reward_std": 0.6436266899108887,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/reasoning_steps_reward": 0.8750000298023224,
      "rewards/repetition_penalty_reward": -0.01909259706735611,
      "rewards/tag_count_reward": 0.7552083432674408,
      "step": 522
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.12501525878906,
      "epoch": 0.38343108504398826,
      "grad_norm": 28.762701865778784,
      "kl": 1.380859375,
      "learning_rate": 7.975463738981078e-07,
      "loss": 0.1971,
      "reward": 1.8199856877326965,
      "reward_std": 0.37226808071136475,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.015083822421729565,
      "rewards/tag_count_reward": 0.890625,
      "step": 523
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.1041717529297,
      "epoch": 0.3841642228739003,
      "grad_norm": 19.52603801272797,
      "kl": 1.326171875,
      "learning_rate": 7.965833872961455e-07,
      "loss": 0.2245,
      "reward": 2.1146620512008667,
      "reward_std": 0.39242707192897797,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.01901856018230319,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 524
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.43751525878906,
      "epoch": 0.3848973607038123,
      "grad_norm": 55.45231535878981,
      "kl": 1.9140625,
      "learning_rate": 7.956187841998115e-07,
      "loss": 0.1649,
      "reward": 1.8645141124725342,
      "reward_std": 0.23954802006483078,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.015694267582148314,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 525
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 401.93751525878906,
      "epoch": 0.38563049853372433,
      "grad_norm": 377.2247094447684,
      "kl": 9.21875,
      "learning_rate": 7.946525709326278e-07,
      "loss": 0.8067,
      "reward": 2.0004115104675293,
      "reward_std": 0.5633389353752136,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9513889253139496,
      "rewards/repetition_penalty_reward": -0.01868572738021612,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 526
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 367.72918701171875,
      "epoch": 0.38636363636363635,
      "grad_norm": 161.61232633219788,
      "kl": 6.125,
      "learning_rate": 7.936847538286718e-07,
      "loss": 0.3533,
      "reward": 1.9359618425369263,
      "reward_std": 0.4424874410033226,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 0.9236111044883728,
      "rewards/repetition_penalty_reward": -0.01889927126467228,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 527
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 423.3958435058594,
      "epoch": 0.3870967741935484,
      "grad_norm": 527.3727986310253,
      "kl": 22.8125,
      "learning_rate": 7.927153392325354e-07,
      "loss": 1.1885,
      "reward": 1.6565093398094177,
      "reward_std": 0.403203621506691,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 0.8472223281860352,
      "rewards/repetition_penalty_reward": -0.018837854266166687,
      "rewards/tag_count_reward": 0.7864583432674408,
      "step": 528
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.6458435058594,
      "epoch": 0.3878299120234604,
      "grad_norm": 440.63322937171586,
      "kl": 15.8125,
      "learning_rate": 7.917443334992828e-07,
      "loss": 0.7378,
      "reward": 1.6151684522628784,
      "reward_std": 0.482510581612587,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8541666865348816,
      "rewards/repetition_penalty_reward": -0.015039919875562191,
      "rewards/tag_count_reward": 0.7760416865348816,
      "step": 529
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 424.0416717529297,
      "epoch": 0.3885630498533724,
      "grad_norm": 26.175191456831758,
      "kl": 2.45703125,
      "learning_rate": 7.907717429944086e-07,
      "loss": 0.2639,
      "reward": 1.9304482340812683,
      "reward_std": 0.43061530590057373,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.951388955116272,
      "rewards/repetition_penalty_reward": -0.01573240989819169,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 530
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 392.54168701171875,
      "epoch": 0.38929618768328444,
      "grad_norm": 108.93805300951178,
      "kl": 3.6484375,
      "learning_rate": 7.897975740937971e-07,
      "loss": 0.2442,
      "reward": 1.883158266544342,
      "reward_std": 0.4635079950094223,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 0.9166667461395264,
      "rewards/repetition_penalty_reward": -0.017883423250168562,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 531
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.8958435058594,
      "epoch": 0.39002932551319647,
      "grad_norm": 16.48994140669,
      "kl": 2.4921875,
      "learning_rate": 7.888218331836796e-07,
      "loss": 0.1526,
      "reward": 1.784899353981018,
      "reward_std": 0.46506692469120026,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 0.8611111640930176,
      "rewards/repetition_penalty_reward": -0.0137117775157094,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 532
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 400.12501525878906,
      "epoch": 0.3907624633431085,
      "grad_norm": 33.79509036125726,
      "kl": 1.51171875,
      "learning_rate": 7.878445266605926e-07,
      "loss": 0.3311,
      "reward": 1.8051475286483765,
      "reward_std": 0.43154197931289673,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9305555522441864,
      "rewards/repetition_penalty_reward": -0.021241379901766777,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 533
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 420.43751525878906,
      "epoch": 0.3914956011730205,
      "grad_norm": 23.678075563625335,
      "kl": 1.59375,
      "learning_rate": 7.868656609313362e-07,
      "loss": 0.2481,
      "reward": 2.0650064945220947,
      "reward_std": 0.543351411819458,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 0.9236111342906952,
      "rewards/repetition_penalty_reward": -0.025271371938288212,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 534
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 392.37501525878906,
      "epoch": 0.39222873900293254,
      "grad_norm": 22.282050616576207,
      "kl": 2.3359375,
      "learning_rate": 7.858852424129324e-07,
      "loss": 0.2428,
      "reward": 1.957649052143097,
      "reward_std": 0.49290692806243896,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/reasoning_steps_reward": 0.9375,
      "rewards/repetition_penalty_reward": -0.016309399623423815,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 535
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 396.0208435058594,
      "epoch": 0.39296187683284456,
      "grad_norm": 30.90817986477352,
      "kl": 1.71875,
      "learning_rate": 7.849032775325824e-07,
      "loss": 0.2754,
      "reward": 1.8743115067481995,
      "reward_std": 0.2350020781159401,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.014577506110072136,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 536
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 319.04168701171875,
      "epoch": 0.3936950146627566,
      "grad_norm": 78.90804951173097,
      "kl": 1.923828125,
      "learning_rate": 7.839197727276241e-07,
      "loss": 0.0928,
      "reward": 1.9332107305526733,
      "reward_std": 0.16725022345781326,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.018178191035985947,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 537
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 372.4583435058594,
      "epoch": 0.3944281524926686,
      "grad_norm": 21.225171374291154,
      "kl": 1.98828125,
      "learning_rate": 7.829347344454912e-07,
      "loss": 0.2118,
      "reward": 1.8861700892448425,
      "reward_std": 0.2927362248301506,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.028760461136698723,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 538
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 377.5833435058594,
      "epoch": 0.3951612903225806,
      "grad_norm": 317.0519620942445,
      "kl": 8.40625,
      "learning_rate": 7.819481691436702e-07,
      "loss": 0.7884,
      "reward": 1.985667645931244,
      "reward_std": 0.473098486661911,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9375000596046448,
      "rewards/repetition_penalty_reward": -0.02995745651423931,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 539
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 382.18751525878906,
      "epoch": 0.39589442815249265,
      "grad_norm": 267.21929696428475,
      "kl": 9.0625,
      "learning_rate": 7.809600832896575e-07,
      "loss": 0.8933,
      "reward": 1.7952839732170105,
      "reward_std": 0.3674754351377487,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9305556118488312,
      "rewards/repetition_penalty_reward": -0.025896546430885792,
      "rewards/tag_count_reward": 0.890625,
      "step": 540
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 330.7708435058594,
      "epoch": 0.3966275659824047,
      "grad_norm": 76.5820325975885,
      "kl": 3.671875,
      "learning_rate": 7.799704833609181e-07,
      "loss": 0.178,
      "reward": 1.8716963529586792,
      "reward_std": 0.5188014209270477,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "rewards/repetition_penalty_reward": -0.018928625620901585,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 541
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 353.3958435058594,
      "epoch": 0.3973607038123167,
      "grad_norm": 16.599400277332023,
      "kl": 2.689453125,
      "learning_rate": 7.789793758448425e-07,
      "loss": 0.1534,
      "reward": 1.7878945469856262,
      "reward_std": 0.3570132479071617,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "rewards/repetition_penalty_reward": -0.02460549771785736,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 542
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 345.3958435058594,
      "epoch": 0.3980938416422287,
      "grad_norm": 11.634824337183156,
      "kl": 1.5234375,
      "learning_rate": 7.779867672387041e-07,
      "loss": 0.0672,
      "reward": 1.8370883464813232,
      "reward_std": 0.2631266638636589,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.029231124557554722,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 543
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 357.7083435058594,
      "epoch": 0.39882697947214074,
      "grad_norm": 19.639453122914002,
      "kl": 1.65234375,
      "learning_rate": 7.769926640496172e-07,
      "loss": 0.0726,
      "reward": 1.8252497911453247,
      "reward_std": 0.3410525470972061,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "rewards/repetition_penalty_reward": -0.023708656430244446,
      "rewards/tag_count_reward": 0.9114583730697632,
      "step": 544
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 361.79168701171875,
      "epoch": 0.39956011730205276,
      "grad_norm": 12.084490762032976,
      "kl": 2.21875,
      "learning_rate": 7.759970727944935e-07,
      "loss": 0.0599,
      "reward": 1.9157754182815552,
      "reward_std": 0.457296222448349,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 0.9444445371627808,
      "rewards/repetition_penalty_reward": -0.023460770957171917,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 545
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 393.00001525878906,
      "epoch": 0.4002932551319648,
      "grad_norm": 6.558264956898931,
      "kl": 0.908203125,
      "learning_rate": 7.75e-07,
      "loss": 0.0845,
      "reward": 2.127650022506714,
      "reward_std": 0.2033278215676546,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03207237180322409,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 546
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 342.4375,
      "epoch": 0.4010263929618768,
      "grad_norm": 19.898261789890924,
      "kl": 1.8046875,
      "learning_rate": 7.740014522025161e-07,
      "loss": -0.008,
      "reward": 1.6998693346977234,
      "reward_std": 0.4570258557796478,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.881944477558136,
      "rewards/repetition_penalty_reward": -0.02061682753264904,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 547
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 334.4583435058594,
      "epoch": 0.40175953079178883,
      "grad_norm": 18.537407189384908,
      "kl": 3.6171875,
      "learning_rate": 7.730014359480907e-07,
      "loss": 0.2439,
      "reward": 1.6735277771949768,
      "reward_std": 0.42917297780513763,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9027778506278992,
      "rewards/repetition_penalty_reward": -0.02091677486896515,
      "rewards/tag_count_reward": 0.7916666865348816,
      "step": 548
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 352.25,
      "epoch": 0.40249266862170086,
      "grad_norm": 18.14928759631804,
      "kl": 2.76171875,
      "learning_rate": 7.719999577923992e-07,
      "loss": 0.2292,
      "reward": 1.7686306834220886,
      "reward_std": 0.3580906316637993,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375,
      "rewards/repetition_penalty_reward": -0.028244351968169212,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 549
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.2083435058594,
      "epoch": 0.4032258064516129,
      "grad_norm": 78.70452703784652,
      "kl": 4.25390625,
      "learning_rate": 7.709970243007005e-07,
      "loss": 0.3906,
      "reward": 1.721606194972992,
      "reward_std": 0.36094823479652405,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.045755001716315746,
      "rewards/tag_count_reward": 0.8020833432674408,
      "step": 550
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 363.7291717529297,
      "epoch": 0.4039589442815249,
      "grad_norm": 17.339896170616278,
      "kl": 3.609375,
      "learning_rate": 7.699926420477944e-07,
      "loss": 0.0842,
      "reward": 1.8914108872413635,
      "reward_std": 0.4989718496799469,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 0.9166666865348816,
      "rewards/repetition_penalty_reward": -0.02525589056313038,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 551
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 388.8333435058594,
      "epoch": 0.4046920821114369,
      "grad_norm": 92.32063302575182,
      "kl": 9.015625,
      "learning_rate": 7.689868176179775e-07,
      "loss": 0.3559,
      "reward": 1.6695754528045654,
      "reward_std": 0.4239191710948944,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8749999701976776,
      "rewards/repetition_penalty_reward": -0.03354958910495043,
      "rewards/tag_count_reward": 0.828125,
      "step": 552
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 382.00001525878906,
      "epoch": 0.40542521994134895,
      "grad_norm": 23.4586762829187,
      "kl": 2.8359375,
      "learning_rate": 7.679795576050013e-07,
      "loss": 0.0767,
      "reward": 1.771458923816681,
      "reward_std": 0.41519203782081604,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9305556118488312,
      "rewards/repetition_penalty_reward": -0.03409669268876314,
      "rewards/tag_count_reward": 0.875,
      "step": 553
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.7916717529297,
      "epoch": 0.40615835777126097,
      "grad_norm": 13.509457748782284,
      "kl": 3.4453125,
      "learning_rate": 7.669708686120282e-07,
      "loss": 0.2013,
      "reward": 1.7756158113479614,
      "reward_std": 0.5011553764343262,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 0.902777761220932,
      "rewards/repetition_penalty_reward": -0.03341205231845379,
      "rewards/tag_count_reward": 0.8229166865348816,
      "step": 554
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.2708435058594,
      "epoch": 0.40689149560117305,
      "grad_norm": 10.674269085308994,
      "kl": 0.70703125,
      "learning_rate": 7.659607572515884e-07,
      "loss": 0.0192,
      "reward": 1.9148439764976501,
      "reward_std": 0.18313531577587128,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.022656043991446495,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 555
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 368.87501525878906,
      "epoch": 0.40762463343108507,
      "grad_norm": 8.82430760579767,
      "kl": 0.8994140625,
      "learning_rate": 7.649492301455363e-07,
      "loss": 0.0822,
      "reward": 2.157172203063965,
      "reward_std": 0.19496209174394608,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.028591575101017952,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 556
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.2291717529297,
      "epoch": 0.4083577712609971,
      "grad_norm": 23.122266769477772,
      "kl": 1.99609375,
      "learning_rate": 7.639362939250076e-07,
      "loss": 0.3555,
      "reward": 1.9366953372955322,
      "reward_std": 0.46149471402168274,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 0.9444444477558136,
      "rewards/repetition_penalty_reward": -0.04420755058526993,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 557
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.8333435058594,
      "epoch": 0.4090909090909091,
      "grad_norm": 41.38830099154527,
      "kl": 4.744140625,
      "learning_rate": 7.629219552303754e-07,
      "loss": 0.5603,
      "reward": 1.8085232377052307,
      "reward_std": 0.2977941185235977,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.03175466135144234,
      "rewards/tag_count_reward": 0.875,
      "step": 558
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.1666717529297,
      "epoch": 0.40982404692082114,
      "grad_norm": 20.29442532919148,
      "kl": 1.107421875,
      "learning_rate": 7.619062207112068e-07,
      "loss": 0.212,
      "reward": 1.9000099897384644,
      "reward_std": 0.2104347199201584,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028809464536607265,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 559
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 366.54168701171875,
      "epoch": 0.41055718475073316,
      "grad_norm": 8.727738513089783,
      "kl": 1.0615234375,
      "learning_rate": 7.608890970262194e-07,
      "loss": 0.0707,
      "reward": 1.9224351644515991,
      "reward_std": 0.123790193349123,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.028953732922673225,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 560
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 379.12501525878906,
      "epoch": 0.4112903225806452,
      "grad_norm": 14.723980230907916,
      "kl": 1.166015625,
      "learning_rate": 7.598705908432375e-07,
      "loss": 0.2379,
      "reward": 2.101100206375122,
      "reward_std": 0.3793186992406845,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.04299703519791365,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 561
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.3125,
      "epoch": 0.4120234604105572,
      "grad_norm": 9.505002145135581,
      "kl": 1.28515625,
      "learning_rate": 7.588507088391487e-07,
      "loss": 0.2369,
      "reward": 1.803601086139679,
      "reward_std": 0.3192812353372574,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.05924614891409874,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 562
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.29168701171875,
      "epoch": 0.41275659824046923,
      "grad_norm": 14.43161494631361,
      "kl": 1.603515625,
      "learning_rate": 7.578294576998594e-07,
      "loss": 0.2643,
      "reward": 2.1314350366592407,
      "reward_std": 0.541794627904892,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.07689837738871574,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 563
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.0208435058594,
      "epoch": 0.41348973607038125,
      "grad_norm": 14.848679504928713,
      "kl": 1.63671875,
      "learning_rate": 7.568068441202519e-07,
      "loss": 0.544,
      "reward": 1.7557438015937805,
      "reward_std": 0.41191862523555756,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9444444179534912,
      "rewards/repetition_penalty_reward": -0.10536744445562363,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 564
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.1250152587891,
      "epoch": 0.4142228739002933,
      "grad_norm": 49.12981105771819,
      "kl": 5.0625,
      "learning_rate": 7.557828748041399e-07,
      "loss": 0.7422,
      "reward": 1.5565171241760254,
      "reward_std": 0.9230948686599731,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 0.8125,
      "rewards/repetition_penalty_reward": -0.1674412302672863,
      "rewards/tag_count_reward": 0.7864583432674408,
      "step": 565
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.00001525878906,
      "epoch": 0.4149560117302053,
      "grad_norm": 29.421892340472176,
      "kl": 3.5234375,
      "learning_rate": 7.547575564642248e-07,
      "loss": 0.4018,
      "reward": 1.9395569562911987,
      "reward_std": 0.5897162556648254,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/reasoning_steps_reward": 0.951388955116272,
      "rewards/repetition_penalty_reward": -0.0795401930809021,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 566
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 649.0833435058594,
      "epoch": 0.4156891495601173,
      "grad_norm": 16.04782963498486,
      "kl": 2.515625,
      "learning_rate": 7.537308958220516e-07,
      "loss": 0.5091,
      "reward": 1.5547910928726196,
      "reward_std": 0.8353258967399597,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/reasoning_steps_reward": 0.8263889253139496,
      "rewards/repetition_penalty_reward": -0.22472276538610458,
      "rewards/tag_count_reward": 0.7656250298023224,
      "step": 567
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.6666870117188,
      "epoch": 0.41642228739002934,
      "grad_norm": 17.758582322238592,
      "kl": 2.8671875,
      "learning_rate": 7.527028996079647e-07,
      "loss": 0.451,
      "reward": 1.5067104697227478,
      "reward_std": 0.675364226102829,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8958333432674408,
      "rewards/repetition_penalty_reward": -0.17558125406503677,
      "rewards/tag_count_reward": 0.7864583730697632,
      "step": 568
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 558.6250152587891,
      "epoch": 0.41715542521994137,
      "grad_norm": 15.295317041112742,
      "kl": 1.40234375,
      "learning_rate": 7.516735745610641e-07,
      "loss": 0.5649,
      "reward": 1.7219347953796387,
      "reward_std": 0.4677434712648392,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.951388955116272,
      "rewards/repetition_penalty_reward": -0.12007906287908554,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 569
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.5625305175781,
      "epoch": 0.4178885630498534,
      "grad_norm": 56.80424556977392,
      "kl": 0.93359375,
      "learning_rate": 7.50642927429161e-07,
      "loss": 0.5743,
      "reward": 1.7323921918869019,
      "reward_std": 0.47409604489803314,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.10788561776280403,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 570
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.7708435058594,
      "epoch": 0.4186217008797654,
      "grad_norm": 143.1280548384441,
      "kl": 8.46875,
      "learning_rate": 7.496109649687336e-07,
      "loss": 0.5721,
      "reward": 1.6834684610366821,
      "reward_std": 0.6084943413734436,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.916666716337204,
      "rewards/repetition_penalty_reward": -0.10298987478017807,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 571
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.1666717529297,
      "epoch": 0.41935483870967744,
      "grad_norm": 129677.80062291445,
      "kl": 768.5,
      "learning_rate": 7.485776939448831e-07,
      "loss": 64.3934,
      "reward": 1.7917594909667969,
      "reward_std": 0.3990024924278259,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9444444179534912,
      "rewards/repetition_penalty_reward": -0.06935160979628563,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 572
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.29168701171875,
      "epoch": 0.42008797653958946,
      "grad_norm": 3810326.3768206835,
      "kl": 14339.5,
      "learning_rate": 7.475431211312886e-07,
      "loss": 1697.3242,
      "reward": 1.9151965379714966,
      "reward_std": 0.544783428311348,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.09174791350960732,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 573
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 506.3750305175781,
      "epoch": 0.4208211143695015,
      "grad_norm": 37994.57020687281,
      "kl": 282.0,
      "learning_rate": 7.465072533101633e-07,
      "loss": 20.5828,
      "reward": 2.073698043823242,
      "reward_std": 0.3669005036354065,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.07039912790060043,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 574
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.125,
      "epoch": 0.4215542521994135,
      "grad_norm": 1231.8851669305193,
      "kl": 9.5,
      "learning_rate": 7.454700972722102e-07,
      "loss": 1.2964,
      "reward": 1.826287567615509,
      "reward_std": 0.4451441168785095,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 0.951388955116272,
      "rewards/repetition_penalty_reward": -0.046976424753665924,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 575
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 440.2916717529297,
      "epoch": 0.4222873900293255,
      "grad_norm": 13.78789946205212,
      "kl": 1.40625,
      "learning_rate": 7.444316598165771e-07,
      "loss": 0.1817,
      "reward": 1.935817837715149,
      "reward_std": 0.4649259001016617,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.05550179071724415,
      "rewards/tag_count_reward": 0.8177083730697632,
      "step": 576
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.10418701171875,
      "epoch": 0.42302052785923755,
      "grad_norm": 12.69432344405188,
      "kl": 0.638671875,
      "learning_rate": 7.433919477508122e-07,
      "loss": 0.2687,
      "reward": 1.9238691926002502,
      "reward_std": 0.20775415003299713,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03446421958506107,
      "rewards/tag_count_reward": 0.9375,
      "step": 577
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.25001525878906,
      "epoch": 0.4237536656891496,
      "grad_norm": 12.156642111389008,
      "kl": 0.55859375,
      "learning_rate": 7.423509678908197e-07,
      "loss": 0.2053,
      "reward": 1.9572932720184326,
      "reward_std": 0.23687171936035156,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027081767097115517,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 578
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.9166717529297,
      "epoch": 0.4244868035190616,
      "grad_norm": 12.901366210323863,
      "kl": 1.06640625,
      "learning_rate": 7.413087270608142e-07,
      "loss": 0.3456,
      "reward": 1.9319626688957214,
      "reward_std": 0.44203020632267,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 0.9583334028720856,
      "rewards/repetition_penalty_reward": -0.031579023227095604,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 579
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.0,
      "epoch": 0.4252199413489736,
      "grad_norm": 5.351454860184803,
      "kl": 0.92578125,
      "learning_rate": 7.402652320932778e-07,
      "loss": 0.0296,
      "reward": 1.9846732020378113,
      "reward_std": 0.47941556572914124,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9305555820465088,
      "rewards/repetition_penalty_reward": -0.02400730736553669,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 580
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.4375305175781,
      "epoch": 0.42595307917888564,
      "grad_norm": 7.963531966396582,
      "kl": 0.79296875,
      "learning_rate": 7.392204898289134e-07,
      "loss": 0.4304,
      "reward": 1.854543387889862,
      "reward_std": 0.24265119433403015,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.029137184843420982,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 581
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.7083435058594,
      "epoch": 0.42668621700879766,
      "grad_norm": 5.484500184954792,
      "kl": 1.0458984375,
      "learning_rate": 7.381745071166008e-07,
      "loss": 0.2121,
      "reward": 1.8330828547477722,
      "reward_std": 0.2432198002934456,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375,
      "rewards/repetition_penalty_reward": -0.03670879080891609,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 582
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 689.2291717529297,
      "epoch": 0.4274193548387097,
      "grad_norm": 4.163101070137608,
      "kl": 1.4345703125,
      "learning_rate": 7.371272908133517e-07,
      "loss": 0.2019,
      "reward": 1.8426572680473328,
      "reward_std": 0.3393200449645519,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.840277761220932,
      "rewards/repetition_penalty_reward": -0.0288705974817276,
      "rewards/tag_count_reward": 0.78125,
      "step": 583
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.0000305175781,
      "epoch": 0.4281524926686217,
      "grad_norm": 5.91565183853525,
      "kl": 0.826171875,
      "learning_rate": 7.360788477842648e-07,
      "loss": 0.4024,
      "reward": 2.025831699371338,
      "reward_std": 0.3373628966510296,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.033196162432432175,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 584
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 658.75,
      "epoch": 0.42888563049853373,
      "grad_norm": 7.01606828210777,
      "kl": 0.93359375,
      "learning_rate": 7.350291849024802e-07,
      "loss": 0.6511,
      "reward": 2.2463026642799377,
      "reward_std": 0.3866378962993622,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.958333283662796,
      "rewards/repetition_penalty_reward": -0.040155697613954544,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 585
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 631.1041870117188,
      "epoch": 0.42961876832844575,
      "grad_norm": 5.140346553565747,
      "kl": 1.259765625,
      "learning_rate": 7.339783090491357e-07,
      "loss": 0.4162,
      "reward": 1.7601860761642456,
      "reward_std": 0.364535853266716,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9236111640930176,
      "rewards/repetition_penalty_reward": -0.02280005533248186,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 586
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 842.2083740234375,
      "epoch": 0.4303519061583578,
      "grad_norm": 8.722800979257899,
      "kl": 2.41796875,
      "learning_rate": 7.329262271133198e-07,
      "loss": 0.5189,
      "reward": 1.3562277555465698,
      "reward_std": 0.685504287481308,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.7430556118488312,
      "rewards/repetition_penalty_reward": -0.027452876791357994,
      "rewards/tag_count_reward": 0.6406250298023224,
      "step": 587
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.9583587646484,
      "epoch": 0.4310850439882698,
      "grad_norm": 5.737199758652915,
      "kl": 1.12890625,
      "learning_rate": 7.318729459920285e-07,
      "loss": 0.3464,
      "reward": 1.767576813697815,
      "reward_std": 0.36326418817043304,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9236111342906952,
      "rewards/repetition_penalty_reward": -0.025825947523117065,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 588
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 667.5416870117188,
      "epoch": 0.4318181818181818,
      "grad_norm": 9.981678337385196,
      "kl": 1.375,
      "learning_rate": 7.308184725901184e-07,
      "loss": 0.4301,
      "reward": 1.7179012894630432,
      "reward_std": 0.4680147022008896,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8819444477558136,
      "rewards/repetition_penalty_reward": -0.018209854140877724,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 589
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 527.3958435058594,
      "epoch": 0.43255131964809385,
      "grad_norm": 5.970499864844468,
      "kl": 0.75390625,
      "learning_rate": 7.297628138202627e-07,
      "loss": 0.6867,
      "reward": 1.855049967765808,
      "reward_std": 0.2735976576805115,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.026894627138972282,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 590
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 423.5625,
      "epoch": 0.43328445747800587,
      "grad_norm": 6.423946368381474,
      "kl": 0.734375,
      "learning_rate": 7.287059766029048e-07,
      "loss": 0.3071,
      "reward": 2.242375373840332,
      "reward_std": 0.3972780704498291,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.023249639198184013,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 591
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.7291870117188,
      "epoch": 0.4340175953079179,
      "grad_norm": 4.887451300319632,
      "kl": 0.9296875,
      "learning_rate": 7.276479678662142e-07,
      "loss": 0.694,
      "reward": 2.0136942863464355,
      "reward_std": 0.4511658251285553,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9305555522441864,
      "rewards/repetition_penalty_reward": -0.021027985960245132,
      "rewards/tag_count_reward": 0.8958333730697632,
      "step": 592
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.5416870117188,
      "epoch": 0.4347507331378299,
      "grad_norm": 7.661491807669517,
      "kl": 0.939453125,
      "learning_rate": 7.265887945460399e-07,
      "loss": 0.4451,
      "reward": 1.8619901537895203,
      "reward_std": 0.2486792877316475,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.025162680074572563,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 593
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.5833435058594,
      "epoch": 0.43548387096774194,
      "grad_norm": 9.321412543739491,
      "kl": 0.796875,
      "learning_rate": 7.255284635858654e-07,
      "loss": 0.4428,
      "reward": 1.8684191703796387,
      "reward_std": 0.2588324770331383,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03609476983547211,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 594
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.2708435058594,
      "epoch": 0.43621700879765396,
      "grad_norm": 5.574219705760587,
      "kl": 1.2734375,
      "learning_rate": 7.244669819367635e-07,
      "loss": 0.8792,
      "reward": 1.7151203751564026,
      "reward_std": 0.5295811295509338,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.8888889253139496,
      "rewards/repetition_penalty_reward": -0.022726922295987606,
      "rewards/tag_count_reward": 0.8489583432674408,
      "step": 595
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.6041717529297,
      "epoch": 0.436950146627566,
      "grad_norm": 7.654459613602763,
      "kl": 0.75390625,
      "learning_rate": 7.2340435655735e-07,
      "loss": 0.7024,
      "reward": 1.8384817838668823,
      "reward_std": 0.36958810687065125,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9374999701976776,
      "rewards/repetition_penalty_reward": -0.020893272012472153,
      "rewards/tag_count_reward": 0.921875,
      "step": 596
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.8958435058594,
      "epoch": 0.437683284457478,
      "grad_norm": 7.854088448222693,
      "kl": 0.619140625,
      "learning_rate": 7.223405944137391e-07,
      "loss": 0.6323,
      "reward": 1.9075292348861694,
      "reward_std": 0.23356913030147552,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.024762499146163464,
      "rewards/tag_count_reward": 0.953125,
      "step": 597
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 538.9375152587891,
      "epoch": 0.43841642228739003,
      "grad_norm": 10.82627900467281,
      "kl": 1.205078125,
      "learning_rate": 7.212757024794963e-07,
      "loss": 0.6552,
      "reward": 1.823222577571869,
      "reward_std": 0.34460779651999474,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375,
      "rewards/repetition_penalty_reward": -0.025735745206475258,
      "rewards/tag_count_reward": 0.9114583730697632,
      "step": 598
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.50001525878906,
      "epoch": 0.43914956011730205,
      "grad_norm": 17.304697371168608,
      "kl": 0.70703125,
      "learning_rate": 7.202096877355943e-07,
      "loss": 0.4098,
      "reward": 1.9486218690872192,
      "reward_std": 0.09528243541717529,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02533646486699581,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 599
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.3750152587891,
      "epoch": 0.4398826979472141,
      "grad_norm": 10.712298357559916,
      "kl": 0.5244140625,
      "learning_rate": 7.191425571703661e-07,
      "loss": 0.3627,
      "reward": 1.8139049410820007,
      "reward_std": 0.31058455258607864,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9097222685813904,
      "rewards/repetition_penalty_reward": -0.017692371271550655,
      "rewards/tag_count_reward": 0.921875,
      "step": 600
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.1041717529297,
      "epoch": 0.4406158357771261,
      "grad_norm": 7.6757110936792765,
      "kl": 0.626953125,
      "learning_rate": 7.180743177794596e-07,
      "loss": 0.2585,
      "reward": 1.9423617124557495,
      "reward_std": 0.10574298352003098,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021179988980293274,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 601
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.9583435058594,
      "epoch": 0.4413489736070381,
      "grad_norm": 4.489868769575807,
      "kl": 0.4794921875,
      "learning_rate": 7.170049765657915e-07,
      "loss": 0.1947,
      "reward": 1.9460084438323975,
      "reward_std": 0.1343548847362399,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.017533178441226482,
      "rewards/tag_count_reward": 0.984375,
      "step": 602
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.5625305175781,
      "epoch": 0.44208211143695014,
      "grad_norm": 7.150423783435916,
      "kl": 1.00390625,
      "learning_rate": 7.159345405395021e-07,
      "loss": 0.4532,
      "reward": 2.0186060070991516,
      "reward_std": 0.43175019323825836,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9097222089767456,
      "rewards/repetition_penalty_reward": -0.026532936841249466,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 603
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.0833435058594,
      "epoch": 0.44281524926686217,
      "grad_norm": 14.289522543503129,
      "kl": 0.783203125,
      "learning_rate": 7.148630167179082e-07,
      "loss": 0.7236,
      "reward": 1.852538287639618,
      "reward_std": 0.35337747633457184,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.024197802878916264,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 604
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.2291717529297,
      "epoch": 0.4435483870967742,
      "grad_norm": 11.952594597793968,
      "kl": 0.5205078125,
      "learning_rate": 7.137904121254578e-07,
      "loss": 0.1753,
      "reward": 1.763185977935791,
      "reward_std": 0.2357357507571578,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9097222685813904,
      "rewards/repetition_penalty_reward": -0.026744673028588295,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 605
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 375.25001525878906,
      "epoch": 0.4442815249266862,
      "grad_norm": 3.703107528625227,
      "kl": 0.408203125,
      "learning_rate": 7.127167337936845e-07,
      "loss": 0.0196,
      "reward": 1.982218861579895,
      "reward_std": 0.011761181056499481,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017781143076717854,
      "rewards/tag_count_reward": 1.0,
      "step": 606
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.3958435058594,
      "epoch": 0.44501466275659823,
      "grad_norm": 20.03177568564077,
      "kl": 0.65625,
      "learning_rate": 7.116419887611605e-07,
      "loss": 0.4329,
      "reward": 2.1548226475715637,
      "reward_std": 0.25495945662260056,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.022260690107941628,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 607
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 320.6666717529297,
      "epoch": 0.44574780058651026,
      "grad_norm": 3.804969767713346,
      "kl": 0.4248046875,
      "learning_rate": 7.105661840734506e-07,
      "loss": 0.017,
      "reward": 2.4734570384025574,
      "reward_std": 0.01555747864767909,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02654305938631296,
      "rewards/tag_count_reward": 1.0,
      "step": 608
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 360.8333435058594,
      "epoch": 0.4464809384164223,
      "grad_norm": 3.580449205687791,
      "kl": 0.390625,
      "learning_rate": 7.094893267830666e-07,
      "loss": 0.0074,
      "reward": 2.1633920669555664,
      "reward_std": 0.1211917675100267,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024107900448143482,
      "rewards/tag_count_reward": 1.0,
      "step": 609
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 338.8541717529297,
      "epoch": 0.4472140762463343,
      "grad_norm": 3.775779917602866,
      "kl": 0.42578125,
      "learning_rate": 7.084114239494209e-07,
      "loss": 0.0204,
      "reward": 1.9812775254249573,
      "reward_std": 0.01065837498754263,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018722583539783955,
      "rewards/tag_count_reward": 1.0,
      "step": 610
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 323.62501525878906,
      "epoch": 0.4479472140762463,
      "grad_norm": 3.4928929408017324,
      "kl": 0.39453125,
      "learning_rate": 7.073324826387792e-07,
      "loss": 0.0202,
      "reward": 2.223867654800415,
      "reward_std": 0.014575928449630737,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026132473722100258,
      "rewards/tag_count_reward": 1.0,
      "step": 611
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.50001525878906,
      "epoch": 0.44868035190615835,
      "grad_norm": 40.78856978225071,
      "kl": 0.494140625,
      "learning_rate": 7.062525099242161e-07,
      "loss": 0.2242,
      "reward": 2.185540795326233,
      "reward_std": 0.16539057483896613,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.019320469349622726,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 612
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 374.31251525878906,
      "epoch": 0.44941348973607037,
      "grad_norm": 3.2067514129166974,
      "kl": 0.34375,
      "learning_rate": 7.051715128855665e-07,
      "loss": 0.037,
      "reward": 1.9826087951660156,
      "reward_std": 0.010490587446838617,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017391293309628963,
      "rewards/tag_count_reward": 1.0,
      "step": 613
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.8958435058594,
      "epoch": 0.4501466275659824,
      "grad_norm": 85.78107516846322,
      "kl": 1.4580078125,
      "learning_rate": 7.040894986093814e-07,
      "loss": 0.2902,
      "reward": 1.982279896736145,
      "reward_std": 0.09320326708257198,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028136792592704296,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 614
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 385.7708435058594,
      "epoch": 0.4508797653958944,
      "grad_norm": 2.815951559024344,
      "kl": 0.330078125,
      "learning_rate": 7.030064741888798e-07,
      "loss": 0.0066,
      "reward": 1.9806150794029236,
      "reward_std": 0.012543195858597755,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019384922459721565,
      "rewards/tag_count_reward": 1.0,
      "step": 615
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 401.87501525878906,
      "epoch": 0.45161290322580644,
      "grad_norm": 52.55065929758277,
      "kl": 1.103515625,
      "learning_rate": 7.019224467239025e-07,
      "loss": 0.2908,
      "reward": 2.6719231605529785,
      "reward_std": 0.2000698889605701,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.022521505132317543,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 616
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 392.2083435058594,
      "epoch": 0.45234604105571846,
      "grad_norm": 63.52951187805423,
      "kl": 1.818359375,
      "learning_rate": 7.008374233208667e-07,
      "loss": 0.4064,
      "reward": 1.9457017183303833,
      "reward_std": 0.10482199117541313,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.0265205055475235,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 617
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.1666717529297,
      "epoch": 0.4530791788856305,
      "grad_norm": 2.7120803027810174,
      "kl": 0.306640625,
      "learning_rate": 6.997514110927176e-07,
      "loss": 0.0391,
      "reward": 1.9820279479026794,
      "reward_std": 0.009422503411769867,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017972068395465612,
      "rewards/tag_count_reward": 1.0,
      "step": 618
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 386.0833435058594,
      "epoch": 0.4538123167155425,
      "grad_norm": 2.632747872063834,
      "kl": 0.3076171875,
      "learning_rate": 6.986644171588833e-07,
      "loss": 0.026,
      "reward": 2.224295914173126,
      "reward_std": 0.013977315742522478,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02570413239300251,
      "rewards/tag_count_reward": 1.0,
      "step": 619
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 385.6041717529297,
      "epoch": 0.45454545454545453,
      "grad_norm": 2.8309147137871613,
      "kl": 0.3193359375,
      "learning_rate": 6.975764486452274e-07,
      "loss": 0.0364,
      "reward": 2.4791120290756226,
      "reward_std": 0.010151438880711794,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020888016559183598,
      "rewards/tag_count_reward": 1.0,
      "step": 620
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.3333435058594,
      "epoch": 0.45527859237536655,
      "grad_norm": 35.189103192855995,
      "kl": 1.181640625,
      "learning_rate": 6.964875126840023e-07,
      "loss": 0.332,
      "reward": 1.9061416387557983,
      "reward_std": 0.1184447268024087,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.019205675926059484,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 621
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.41668701171875,
      "epoch": 0.4560117302052786,
      "grad_norm": 66.83089282659809,
      "kl": 0.80859375,
      "learning_rate": 6.953976164138027e-07,
      "loss": 0.3831,
      "reward": 1.9612208604812622,
      "reward_std": 0.18723435327410698,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017945820465683937,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 622
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 405.3125,
      "epoch": 0.4567448680351906,
      "grad_norm": 24.93646819069722,
      "kl": 0.423828125,
      "learning_rate": 6.943067669795185e-07,
      "loss": 0.2185,
      "reward": 2.20524525642395,
      "reward_std": 0.06307589076459408,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02912973240017891,
      "rewards/tag_count_reward": 0.984375,
      "step": 623
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.3333435058594,
      "epoch": 0.4574780058651026,
      "grad_norm": 43.16415673427742,
      "kl": 1.5078125,
      "learning_rate": 6.932149715322886e-07,
      "loss": 0.4779,
      "reward": 2.1597553491592407,
      "reward_std": 0.28502483665943146,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.024272335693240166,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 624
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 385.5208435058594,
      "epoch": 0.45821114369501464,
      "grad_norm": 2.6099512459968337,
      "kl": 0.3330078125,
      "learning_rate": 6.921222372294529e-07,
      "loss": 0.0136,
      "reward": 1.9811992049217224,
      "reward_std": 0.011327789165079594,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018800782039761543,
      "rewards/tag_count_reward": 1.0,
      "step": 625
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.8958435058594,
      "epoch": 0.45894428152492667,
      "grad_norm": 11.277984902992305,
      "kl": 0.5712890625,
      "learning_rate": 6.910285712345065e-07,
      "loss": 0.2365,
      "reward": 2.384067118167877,
      "reward_std": 0.24414547625929117,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022182924207299948,
      "rewards/tag_count_reward": 0.96875,
      "step": 626
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.06251525878906,
      "epoch": 0.4596774193548387,
      "grad_norm": 5718.023712216834,
      "kl": 57.65234375,
      "learning_rate": 6.899339807170521e-07,
      "loss": 8.7021,
      "reward": 1.962087333202362,
      "reward_std": 0.06420454941689968,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02228778973221779,
      "rewards/tag_count_reward": 0.984375,
      "step": 627
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.43751525878906,
      "epoch": 0.4604105571847507,
      "grad_norm": 7150.668791263632,
      "kl": 115.890625,
      "learning_rate": 6.888384728527532e-07,
      "loss": 12.9975,
      "reward": 2.137051224708557,
      "reward_std": 0.3158814609050751,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.020934815518558025,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 628
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.4583587646484,
      "epoch": 0.46114369501466274,
      "grad_norm": 8244.611512935808,
      "kl": 215.15234375,
      "learning_rate": 6.877420548232871e-07,
      "loss": 22.5839,
      "reward": 2.3565913438796997,
      "reward_std": 0.23759527131915092,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.020144745707511902,
      "rewards/tag_count_reward": 0.953125,
      "step": 629
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 412.50001525878906,
      "epoch": 0.46187683284457476,
      "grad_norm": 10.67765423637928,
      "kl": 0.3955078125,
      "learning_rate": 6.866447338162975e-07,
      "loss": 0.2181,
      "reward": 1.9459137916564941,
      "reward_std": 0.10560346394777298,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.02110019139945507,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 630
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.9583435058594,
      "epoch": 0.4626099706744868,
      "grad_norm": 11.397428720346749,
      "kl": 0.3564453125,
      "learning_rate": 6.855465170253479e-07,
      "loss": 0.2139,
      "reward": 2.1977256536483765,
      "reward_std": 0.11736413929611444,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021024403162300587,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 631
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.6250152587891,
      "epoch": 0.4633431085043988,
      "grad_norm": 594219.6460833271,
      "kl": 8192.1513671875,
      "learning_rate": 6.844474116498742e-07,
      "loss": 662.2282,
      "reward": 1.8581966161727905,
      "reward_std": 0.1760244253091514,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.965277761220932,
      "rewards/repetition_penalty_reward": -0.018539583310484886,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 632
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.41668701171875,
      "epoch": 0.4640762463343108,
      "grad_norm": 36.19090425617034,
      "kl": 0.5078125,
      "learning_rate": 6.833474248951372e-07,
      "loss": 0.5879,
      "reward": 1.9268569946289062,
      "reward_std": 0.15591158717870712,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02105969563126564,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 633
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.2708435058594,
      "epoch": 0.46480938416422285,
      "grad_norm": 35.71072908814854,
      "kl": 0.626953125,
      "learning_rate": 6.822465639721759e-07,
      "loss": 0.6124,
      "reward": 1.8967062830924988,
      "reward_std": 0.24515408277511597,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.018224384635686874,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 634
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.2916870117188,
      "epoch": 0.4655425219941349,
      "grad_norm": 95.19295300214017,
      "kl": 2.70703125,
      "learning_rate": 6.811448360977596e-07,
      "loss": 0.6447,
      "reward": 2.1306493878364563,
      "reward_std": 0.2458694726228714,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025600734166800976,
      "rewards/tag_count_reward": 0.9270833730697632,
      "step": 635
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.875,
      "epoch": 0.4662756598240469,
      "grad_norm": 44.15333708156457,
      "kl": 3.00390625,
      "learning_rate": 6.800422484943417e-07,
      "loss": 0.6232,
      "reward": 2.059449315071106,
      "reward_std": 0.43308182805776596,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.009995209518820047,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 636
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 537.4583435058594,
      "epoch": 0.4670087976539589,
      "grad_norm": 18.55847948178239,
      "kl": 1.6640625,
      "learning_rate": 6.789388083900107e-07,
      "loss": 0.6202,
      "reward": 1.8917770385742188,
      "reward_std": 0.2116881087422371,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.017945221159607172,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 637
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 520.1041870117188,
      "epoch": 0.46774193548387094,
      "grad_norm": 89.39468645925008,
      "kl": 3.1953125,
      "learning_rate": 6.778345230184444e-07,
      "loss": 0.7171,
      "reward": 2.0839056372642517,
      "reward_std": 0.33054201304912567,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.018525044433772564,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 638
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.2708587646484,
      "epoch": 0.46847507331378296,
      "grad_norm": 174.26079161224064,
      "kl": 4.8349609375,
      "learning_rate": 6.767293996188617e-07,
      "loss": 0.8189,
      "reward": 1.8636788129806519,
      "reward_std": 0.21642551571130753,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.016529573127627373,
      "rewards/tag_count_reward": 0.921875,
      "step": 639
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 534.9166870117188,
      "epoch": 0.46920821114369504,
      "grad_norm": 8.999925285401675,
      "kl": 0.55078125,
      "learning_rate": 6.756234454359747e-07,
      "loss": 0.6351,
      "reward": 2.163374960422516,
      "reward_std": 0.22264650464057922,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013708437792956829,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 640
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.8958435058594,
      "epoch": 0.46994134897360706,
      "grad_norm": 32.04944493041125,
      "kl": 1.7216796875,
      "learning_rate": 6.745166677199426e-07,
      "loss": 0.4936,
      "reward": 1.9193060994148254,
      "reward_std": 0.12536632781848311,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.01993004372343421,
      "rewards/tag_count_reward": 0.953125,
      "step": 641
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 530.9166870117188,
      "epoch": 0.4706744868035191,
      "grad_norm": 4.858789332267112,
      "kl": 0.7841796875,
      "learning_rate": 6.734090737263228e-07,
      "loss": 0.4012,
      "reward": 2.09183669090271,
      "reward_std": 0.37891362607479095,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.015802277252078056,
      "rewards/tag_count_reward": 0.90625,
      "step": 642
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.20835876464844,
      "epoch": 0.4714076246334311,
      "grad_norm": 9.696078299064906,
      "kl": 1.1181640625,
      "learning_rate": 6.72300670716024e-07,
      "loss": 0.4131,
      "reward": 2.2706050872802734,
      "reward_std": 0.4469531998038292,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.02106165699660778,
      "rewards/tag_count_reward": 0.9375,
      "step": 643
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.0416717529297,
      "epoch": 0.47214076246334313,
      "grad_norm": 56.129441337094114,
      "kl": 0.8037109375,
      "learning_rate": 6.711914659552582e-07,
      "loss": 0.2667,
      "reward": 1.9539560675621033,
      "reward_std": 0.11034089652821422,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.016530086286365986,
      "rewards/tag_count_reward": 0.984375,
      "step": 644
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.0625,
      "epoch": 0.47287390029325516,
      "grad_norm": 6.554459896651348,
      "kl": 1.6884765625,
      "learning_rate": 6.70081466715494e-07,
      "loss": 0.7371,
      "reward": 2.142140805721283,
      "reward_std": 0.2443421185016632,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.02278986293822527,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 645
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.9375,
      "epoch": 0.4736070381231672,
      "grad_norm": 3.081702889935719,
      "kl": 0.328125,
      "learning_rate": 6.689706802734074e-07,
      "loss": 0.0562,
      "reward": 1.9774357676506042,
      "reward_std": 0.011296110693365335,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0225642342120409,
      "rewards/tag_count_reward": 1.0,
      "step": 646
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 390.5416717529297,
      "epoch": 0.4743401759530792,
      "grad_norm": 2.3819237237230233,
      "kl": 0.3095703125,
      "learning_rate": 6.678591139108357e-07,
      "loss": 0.0264,
      "reward": 1.98467218875885,
      "reward_std": 0.00978016760200262,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015327838715165854,
      "rewards/tag_count_reward": 1.0,
      "step": 647
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 398.7291717529297,
      "epoch": 0.4750733137829912,
      "grad_norm": 189.14687079985282,
      "kl": 5.7578125,
      "learning_rate": 6.667467749147286e-07,
      "loss": 0.9668,
      "reward": 2.2045015692710876,
      "reward_std": 0.23807373270392418,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01945687923580408,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 648
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 388.8958435058594,
      "epoch": 0.47580645161290325,
      "grad_norm": 2.57434822582919,
      "kl": 0.33203125,
      "learning_rate": 6.656336705771011e-07,
      "loss": 0.0186,
      "reward": 2.2355542182922363,
      "reward_std": 0.008534513413906097,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014445837587118149,
      "rewards/tag_count_reward": 1.0,
      "step": 649
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 393.37501525878906,
      "epoch": 0.47653958944281527,
      "grad_norm": 3.0952793766641205,
      "kl": 0.396484375,
      "learning_rate": 6.64519808194985e-07,
      "loss": 0.2247,
      "reward": 1.9666798114776611,
      "reward_std": 0.060795275028795004,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01769520714879036,
      "rewards/tag_count_reward": 0.984375,
      "step": 650
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.4583435058594,
      "epoch": 0.4772727272727273,
      "grad_norm": 3.0392356131499154,
      "kl": 0.3896484375,
      "learning_rate": 6.634051950703822e-07,
      "loss": 0.1672,
      "reward": 1.970879852771759,
      "reward_std": 0.06113596260547638,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013495232909917831,
      "rewards/tag_count_reward": 0.984375,
      "step": 651
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.5208435058594,
      "epoch": 0.4780058651026393,
      "grad_norm": 5.45870950409704,
      "kl": 0.52734375,
      "learning_rate": 6.622898385102155e-07,
      "loss": 0.6202,
      "reward": 2.131287693977356,
      "reward_std": 0.2859160155057907,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.018017924390733242,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 652
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.2291717529297,
      "epoch": 0.47873900293255134,
      "grad_norm": 5.882125844096172,
      "kl": 0.4833984375,
      "learning_rate": 6.611737458262817e-07,
      "loss": 0.3992,
      "reward": 1.9523559212684631,
      "reward_std": 0.12868256820365787,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.011185822542756796,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 653
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 362.87501525878906,
      "epoch": 0.47947214076246336,
      "grad_norm": 2.5561243606757795,
      "kl": 0.3603515625,
      "learning_rate": 6.600569243352032e-07,
      "loss": 0.0136,
      "reward": 2.214748799800873,
      "reward_std": 0.08119441103190184,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01441799383610487,
      "rewards/tag_count_reward": 1.0,
      "step": 654
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.93751525878906,
      "epoch": 0.4802052785923754,
      "grad_norm": 3.516134461894916,
      "kl": 0.40234375,
      "learning_rate": 6.589393813583804e-07,
      "loss": 0.2105,
      "reward": 1.9548333883285522,
      "reward_std": 0.11708549410104752,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.012180462013930082,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 655
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.43751525878906,
      "epoch": 0.4809384164222874,
      "grad_norm": 7.738154644635577,
      "kl": 0.7421875,
      "learning_rate": 6.578211242219429e-07,
      "loss": 0.5974,
      "reward": 2.122410535812378,
      "reward_std": 0.37096796184778214,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.019950571469962597,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 656
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.91668701171875,
      "epoch": 0.48167155425219943,
      "grad_norm": 3.665848451385049,
      "kl": 0.505859375,
      "learning_rate": 6.567021602567025e-07,
      "loss": 0.3077,
      "reward": 1.9053021669387817,
      "reward_std": 0.22535160183906555,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.01657282141968608,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 657
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.6875305175781,
      "epoch": 0.48240469208211145,
      "grad_norm": 93.57278211870775,
      "kl": 1.8466796875,
      "learning_rate": 6.555824967981047e-07,
      "loss": 0.3318,
      "reward": 1.928690791130066,
      "reward_std": 0.13919126242399216,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.014017567038536072,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 658
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 645.0833587646484,
      "epoch": 0.4831378299120235,
      "grad_norm": 64.99941439648312,
      "kl": 3.0859375,
      "learning_rate": 6.5446214118618e-07,
      "loss": 0.7544,
      "reward": 1.7792481184005737,
      "reward_std": 0.43339620530605316,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.909722238779068,
      "rewards/repetition_penalty_reward": -0.010682477615773678,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 659
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 526.9166717529297,
      "epoch": 0.4838709677419355,
      "grad_norm": 10.62723614596486,
      "kl": 0.767578125,
      "learning_rate": 6.533411007654971e-07,
      "loss": 0.5132,
      "reward": 2.2929834127426147,
      "reward_std": 0.40529730916023254,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.022988826036453247,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 660
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.50001525878906,
      "epoch": 0.4846041055718475,
      "grad_norm": 4.804017350233964,
      "kl": 0.4326171875,
      "learning_rate": 6.522193828851133e-07,
      "loss": 0.3632,
      "reward": 1.9454867243766785,
      "reward_std": 0.12859196960926056,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018054993357509375,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 661
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.5833435058594,
      "epoch": 0.48533724340175954,
      "grad_norm": 3.08066934948154,
      "kl": 0.419921875,
      "learning_rate": 6.510969948985278e-07,
      "loss": 0.1574,
      "reward": 1.9654483199119568,
      "reward_std": 0.0782310045324266,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013718396425247192,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 662
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 539.7291717529297,
      "epoch": 0.48607038123167157,
      "grad_norm": 37.92285966334552,
      "kl": 0.845703125,
      "learning_rate": 6.49973944163632e-07,
      "loss": 0.2618,
      "reward": 1.9112797379493713,
      "reward_std": 0.23218698799610138,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.01927582174539566,
      "rewards/tag_count_reward": 0.9375,
      "step": 663
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.62501525878906,
      "epoch": 0.4868035190615836,
      "grad_norm": 3.1051785069904727,
      "kl": 0.525390625,
      "learning_rate": 6.488502380426625e-07,
      "loss": 0.305,
      "reward": 1.9035282135009766,
      "reward_std": 0.2898576706647873,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.023555109277367592,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 664
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.4791870117188,
      "epoch": 0.4875366568914956,
      "grad_norm": 4.4288209453427205,
      "kl": 0.55859375,
      "learning_rate": 6.477258839021519e-07,
      "loss": 0.4062,
      "reward": 2.354710102081299,
      "reward_std": 0.31429797410964966,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.013345747254788876,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 665
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 642.9375,
      "epoch": 0.48826979472140764,
      "grad_norm": 19.16682548072327,
      "kl": 1.3427734375,
      "learning_rate": 6.466008891128814e-07,
      "loss": 0.6273,
      "reward": 1.7963217496871948,
      "reward_std": 0.35257695615291595,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9444444179534912,
      "rewards/repetition_penalty_reward": -0.012706090230494738,
      "rewards/tag_count_reward": 0.8645833432674408,
      "step": 666
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 858.1041870117188,
      "epoch": 0.48900293255131966,
      "grad_norm": 7.789096598920068,
      "kl": 1.79296875,
      "learning_rate": 6.454752610498317e-07,
      "loss": 0.9041,
      "reward": 1.8778371810913086,
      "reward_std": 0.5289941728115082,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "rewards/repetition_penalty_reward": -0.012787907849997282,
      "rewards/tag_count_reward": 0.7656250298023224,
      "step": 667
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 671.4583740234375,
      "epoch": 0.4897360703812317,
      "grad_norm": 14.917358872470148,
      "kl": 1.033203125,
      "learning_rate": 6.44349007092135e-07,
      "loss": 0.7233,
      "reward": 1.8810378909111023,
      "reward_std": 0.295869916677475,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02000374812632799,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 668
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 681.5208435058594,
      "epoch": 0.4904692082111437,
      "grad_norm": 6.570905634332384,
      "kl": 1.029296875,
      "learning_rate": 6.432221346230269e-07,
      "loss": 0.6374,
      "reward": 1.8366022109985352,
      "reward_std": 0.24832479655742645,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.014092199504375458,
      "rewards/tag_count_reward": 0.8645833432674408,
      "step": 669
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 813.3333435058594,
      "epoch": 0.4912023460410557,
      "grad_norm": 7.4287126906422305,
      "kl": 1.06640625,
      "learning_rate": 6.420946510297972e-07,
      "loss": 0.6177,
      "reward": 1.6895498037338257,
      "reward_std": 0.4474469721317291,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9375000596046448,
      "rewards/repetition_penalty_reward": -0.013575221411883831,
      "rewards/tag_count_reward": 0.765625,
      "step": 670
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.0208587646484,
      "epoch": 0.49193548387096775,
      "grad_norm": 8.927590711913593,
      "kl": 0.697265625,
      "learning_rate": 6.409665637037424e-07,
      "loss": 0.57,
      "reward": 1.8452393412590027,
      "reward_std": 0.31727316975593567,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.014135753270238638,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 671
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 705.3958740234375,
      "epoch": 0.49266862170087977,
      "grad_norm": 163.2675376427096,
      "kl": 2.66796875,
      "learning_rate": 6.398378800401165e-07,
      "loss": 0.6324,
      "reward": 2.011242628097534,
      "reward_std": 0.4974839687347412,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 0.9513889253139496,
      "rewards/repetition_penalty_reward": -0.0182713121175766,
      "rewards/tag_count_reward": 0.8281250298023224,
      "step": 672
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.85418701171875,
      "epoch": 0.4934017595307918,
      "grad_norm": 6.11656633433207,
      "kl": 0.65234375,
      "learning_rate": 6.38708607438083e-07,
      "loss": 0.3118,
      "reward": 2.2023180723190308,
      "reward_std": 0.18355269357562065,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.014695859514176846,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 673
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 770.5,
      "epoch": 0.4941348973607038,
      "grad_norm": 15.273687304662792,
      "kl": 0.986328125,
      "learning_rate": 6.375787533006663e-07,
      "loss": 0.7539,
      "reward": 1.7749381065368652,
      "reward_std": 0.43552330136299133,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.018464769702404737,
      "rewards/tag_count_reward": 0.8281250298023224,
      "step": 674
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 678.0208435058594,
      "epoch": 0.49486803519061584,
      "grad_norm": 33.6137719864803,
      "kl": 0.86328125,
      "learning_rate": 6.364483250347026e-07,
      "loss": 0.7555,
      "reward": 1.79839426279068,
      "reward_std": 0.37121328711509705,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.014105740003287792,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 675
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.7083435058594,
      "epoch": 0.49560117302052786,
      "grad_norm": 35.389228624701744,
      "kl": 0.537109375,
      "learning_rate": 6.353173300507927e-07,
      "loss": 0.2845,
      "reward": 1.9582674503326416,
      "reward_std": 0.06902057770639658,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015690917149186134,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 676
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 567.4166870117188,
      "epoch": 0.4963343108504399,
      "grad_norm": 134.9821081723637,
      "kl": 0.685546875,
      "learning_rate": 6.341857757632519e-07,
      "loss": 0.4546,
      "reward": 2.1232765913009644,
      "reward_std": 0.26673005893826485,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.010404008906334639,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 677
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.5,
      "epoch": 0.4970674486803519,
      "grad_norm": 2037.170056297148,
      "kl": 13.15625,
      "learning_rate": 6.330536695900622e-07,
      "loss": 2.2526,
      "reward": 1.8933287858963013,
      "reward_std": 0.2740514874458313,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018129662610590458,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 678
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.2708435058594,
      "epoch": 0.49780058651026393,
      "grad_norm": 76.54198788837205,
      "kl": 0.474609375,
      "learning_rate": 6.319210189528236e-07,
      "loss": 0.2031,
      "reward": 2.4265220165252686,
      "reward_std": 0.14526664419099689,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01618638401851058,
      "rewards/tag_count_reward": 0.984375,
      "step": 679
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 387.66668701171875,
      "epoch": 0.49853372434017595,
      "grad_norm": 5.588199951956003,
      "kl": 0.4443359375,
      "learning_rate": 6.307878312767053e-07,
      "loss": 0.0165,
      "reward": 1.9998939037322998,
      "reward_std": 0.08089298009872437,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020939476788043976,
      "rewards/tag_count_reward": 1.0,
      "step": 680
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.68751525878906,
      "epoch": 0.499266862170088,
      "grad_norm": 3.4731976371563276,
      "kl": 0.3974609375,
      "learning_rate": 6.296541139903971e-07,
      "loss": 0.0327,
      "reward": 1.9804431796073914,
      "reward_std": 0.011249262373894453,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019556839019060135,
      "rewards/tag_count_reward": 1.0,
      "step": 681
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.2916717529297,
      "epoch": 0.5,
      "grad_norm": 59.927063692740646,
      "kl": 1.0146484375,
      "learning_rate": 6.285198745260607e-07,
      "loss": 0.2747,
      "reward": 2.4471405744552612,
      "reward_std": 0.13266543252393603,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016401106491684914,
      "rewards/tag_count_reward": 0.984375,
      "step": 682
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.85418701171875,
      "epoch": 0.500733137829912,
      "grad_norm": 21.88560764955481,
      "kl": 0.4296875,
      "learning_rate": 6.273851203192812e-07,
      "loss": 0.1805,
      "reward": 2.208536744117737,
      "reward_std": 0.07908271765336394,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020630055107176304,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 683
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.58335876464844,
      "epoch": 0.501466275659824,
      "grad_norm": 42.20078371159907,
      "kl": 0.9228515625,
      "learning_rate": 6.262498588090177e-07,
      "loss": 0.3676,
      "reward": 1.9697940945625305,
      "reward_std": 0.1708728987723589,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014581031166017056,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 684
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 389.31251525878906,
      "epoch": 0.5021994134897361,
      "grad_norm": 31.580308454709506,
      "kl": 1.0966796875,
      "learning_rate": 6.251140974375553e-07,
      "loss": 0.0433,
      "reward": 1.9906669855117798,
      "reward_std": 0.08381603378802538,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02495804987847805,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 685
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 396.5208435058594,
      "epoch": 0.5029325513196481,
      "grad_norm": 2.872906331597035,
      "kl": 0.376953125,
      "learning_rate": 6.239778436504557e-07,
      "loss": 0.0133,
      "reward": 2.2325448989868164,
      "reward_std": 0.009967302437871695,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01745530776679516,
      "rewards/tag_count_reward": 1.0,
      "step": 686
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.93751525878906,
      "epoch": 0.5036656891495601,
      "grad_norm": 4.24523828143186,
      "kl": 0.3828125,
      "learning_rate": 6.228411048965091e-07,
      "loss": 0.0373,
      "reward": 2.255759596824646,
      "reward_std": 0.07914062775671482,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015073771122843027,
      "rewards/tag_count_reward": 1.0,
      "step": 687
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.7916717529297,
      "epoch": 0.5043988269794721,
      "grad_norm": 1346.6192060577287,
      "kl": 11.50390625,
      "learning_rate": 6.217038886276845e-07,
      "loss": 1.8327,
      "reward": 2.191466748714447,
      "reward_std": 0.08447868470102549,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02728334814310074,
      "rewards/tag_count_reward": 0.96875,
      "step": 688
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 400.3333435058594,
      "epoch": 0.5051319648093842,
      "grad_norm": 3.0240299756883062,
      "kl": 0.3564453125,
      "learning_rate": 6.205662022990814e-07,
      "loss": 0.0086,
      "reward": 2.2511375546455383,
      "reward_std": 0.1696284885983914,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01969574484974146,
      "rewards/tag_count_reward": 1.0,
      "step": 689
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 385.9166717529297,
      "epoch": 0.5058651026392962,
      "grad_norm": 3.2645934417801348,
      "kl": 0.3955078125,
      "learning_rate": 6.194280533688809e-07,
      "loss": -0.0101,
      "reward": 2.0662108659744263,
      "reward_std": 0.24287840723991394,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017122572287917137,
      "rewards/tag_count_reward": 1.0,
      "step": 690
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 424.81251525878906,
      "epoch": 0.5065982404692082,
      "grad_norm": 3.119032374376464,
      "kl": 0.3515625,
      "learning_rate": 6.182894492982969e-07,
      "loss": 0.0356,
      "reward": 2.2503284215927124,
      "reward_std": 0.07950186124071479,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020504925400018692,
      "rewards/tag_count_reward": 1.0,
      "step": 691
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 506.97918701171875,
      "epoch": 0.5073313782991202,
      "grad_norm": 24.267710233732213,
      "kl": 1.06640625,
      "learning_rate": 6.171503975515265e-07,
      "loss": 0.2784,
      "reward": 1.993408441543579,
      "reward_std": 0.2670893892645836,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027424994856119156,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 692
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.1458435058594,
      "epoch": 0.5080645161290323,
      "grad_norm": 70.97774177635779,
      "kl": 1.5078125,
      "learning_rate": 6.160109055957018e-07,
      "loss": 0.4593,
      "reward": 2.029819965362549,
      "reward_std": 0.3379950374364853,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027471921406686306,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 693
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 541.4166717529297,
      "epoch": 0.5087976539589443,
      "grad_norm": 24.216422460189005,
      "kl": 1.705078125,
      "learning_rate": 6.148709809008409e-07,
      "loss": 0.468,
      "reward": 1.959551990032196,
      "reward_std": 0.3680807575583458,
      "rewards/accuracy_reward": 0.08333333395421505,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.024823017418384552,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 694
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 643.4166870117188,
      "epoch": 0.5095307917888563,
      "grad_norm": 36.347168163912684,
      "kl": 3.21875,
      "learning_rate": 6.137306309397986e-07,
      "loss": 0.8839,
      "reward": 2.162288546562195,
      "reward_std": 0.46551817655563354,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03042002022266388,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 695
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 757.7916870117188,
      "epoch": 0.5102639296187683,
      "grad_norm": 51.19725173793361,
      "kl": 4.4453125,
      "learning_rate": 6.125898631882174e-07,
      "loss": 0.8215,
      "reward": 2.0202183723449707,
      "reward_std": 0.491269052028656,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021448221988976002,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 696
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 723.6666870117188,
      "epoch": 0.5109970674486803,
      "grad_norm": 32.11893685151525,
      "kl": 3.703125,
      "learning_rate": 6.114486851244793e-07,
      "loss": 0.8158,
      "reward": 2.060223937034607,
      "reward_std": 0.4704440087080002,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028317784890532494,
      "rewards/tag_count_reward": 0.8802083730697632,
      "step": 697
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 857.7916870117188,
      "epoch": 0.5117302052785924,
      "grad_norm": 18.784707199764576,
      "kl": 3.7109375,
      "learning_rate": 6.103071042296551e-07,
      "loss": 0.7494,
      "reward": 1.9297525882720947,
      "reward_std": 0.38079968094825745,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023372489027678967,
      "rewards/tag_count_reward": 0.828125,
      "step": 698
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 870.1875305175781,
      "epoch": 0.5124633431085044,
      "grad_norm": 14.677437827096641,
      "kl": 2.234375,
      "learning_rate": 6.091651279874574e-07,
      "loss": 0.5725,
      "reward": 2.004097819328308,
      "reward_std": 0.5094822645187378,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02888854220509529,
      "rewards/tag_count_reward": 0.7760416865348816,
      "step": 699
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 828.7708740234375,
      "epoch": 0.5131964809384164,
      "grad_norm": 11.821380844349749,
      "kl": 1.96484375,
      "learning_rate": 6.0802276388419e-07,
      "loss": 0.459,
      "reward": 2.201478123664856,
      "reward_std": 0.5592115372419357,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027688627131283283,
      "rewards/tag_count_reward": 0.8125000298023224,
      "step": 700
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 871.2500305175781,
      "epoch": 0.5139296187683284,
      "grad_norm": 22.568142496900485,
      "kl": 2.109375,
      "learning_rate": 6.068800194086989e-07,
      "loss": 0.7207,
      "reward": 1.8745365738868713,
      "reward_std": 0.4898378700017929,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0265052430331707,
      "rewards/tag_count_reward": 0.7552083432674408,
      "step": 701
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1003.5416870117188,
      "epoch": 0.5146627565982405,
      "grad_norm": 28.302531166420113,
      "kl": 3.484375,
      "learning_rate": 6.057369020523249e-07,
      "loss": 0.5456,
      "reward": 1.9380370378494263,
      "reward_std": 0.4967404901981354,
      "rewards/accuracy_reward": 0.3125,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.028976941481232643,
      "rewards/tag_count_reward": 0.6614583432674408,
      "step": 702
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 816.2291870117188,
      "epoch": 0.5153958944281525,
      "grad_norm": 10.672850559175945,
      "kl": 2.453125,
      "learning_rate": 6.045934193088521e-07,
      "loss": 0.5804,
      "reward": 2.036511540412903,
      "reward_std": 0.5523365437984467,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025988491252064705,
      "rewards/tag_count_reward": 0.7708333432674408,
      "step": 703
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 764.3125,
      "epoch": 0.5161290322580645,
      "grad_norm": 39.735651963128014,
      "kl": 2.3515625,
      "learning_rate": 6.034495786744605e-07,
      "loss": 0.7015,
      "reward": 1.9637788534164429,
      "reward_std": 0.5475030541419983,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02580451127141714,
      "rewards/tag_count_reward": 0.7395833432674408,
      "step": 704
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 895.4166870117188,
      "epoch": 0.5168621700879765,
      "grad_norm": 27.423399312980752,
      "kl": 1.82421875,
      "learning_rate": 6.023053876476761e-07,
      "loss": 0.7014,
      "reward": 1.7406333684921265,
      "reward_std": 0.5075753778219223,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.026727747172117233,
      "rewards/tag_count_reward": 0.6979166865348816,
      "step": 705
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 887.8125,
      "epoch": 0.5175953079178885,
      "grad_norm": 21.410467041793627,
      "kl": 2.12109375,
      "learning_rate": 6.01160853729322e-07,
      "loss": 0.6424,
      "reward": 2.2163281440734863,
      "reward_std": 0.7610662877559662,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02325525600463152,
      "rewards/tag_count_reward": 0.6979166865348816,
      "step": 706
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 783.6041870117188,
      "epoch": 0.5183284457478006,
      "grad_norm": 27.22995745005586,
      "kl": 1.9765625,
      "learning_rate": 6.000159844224693e-07,
      "loss": 0.6752,
      "reward": 1.9180487990379333,
      "reward_std": 0.5266700834035873,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029867863282561302,
      "rewards/tag_count_reward": 0.7187500298023224,
      "step": 707
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 804.5000305175781,
      "epoch": 0.5190615835777126,
      "grad_norm": 35.4164868878839,
      "kl": 2.60546875,
      "learning_rate": 5.988707872323869e-07,
      "loss": 0.6535,
      "reward": 2.0066672563552856,
      "reward_std": 0.5585867166519165,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.031527137383818626,
      "rewards/tag_count_reward": 0.6979166865348816,
      "step": 708
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 681.2500305175781,
      "epoch": 0.5197947214076246,
      "grad_norm": 42.58931418473554,
      "kl": 2.08203125,
      "learning_rate": 5.977252696664944e-07,
      "loss": 0.4843,
      "reward": 2.1872243881225586,
      "reward_std": 0.6637312173843384,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03152578230947256,
      "rewards/tag_count_reward": 0.7812500298023224,
      "step": 709
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 786.3541870117188,
      "epoch": 0.5205278592375366,
      "grad_norm": 935.9645040339218,
      "kl": 6.93359375,
      "learning_rate": 5.965794392343109e-07,
      "loss": 0.8653,
      "reward": 1.8304345607757568,
      "reward_std": 0.45126180350780487,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023732122033834457,
      "rewards/tag_count_reward": 0.7291666865348816,
      "step": 710
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 814.2083740234375,
      "epoch": 0.5212609970674487,
      "grad_norm": 175.06802015741212,
      "kl": 5.234375,
      "learning_rate": 5.954333034474068e-07,
      "loss": 0.9546,
      "reward": 1.9417012929916382,
      "reward_std": 0.5177436172962189,
      "rewards/accuracy_reward": 0.229166679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02704876847565174,
      "rewards/tag_count_reward": 0.7395833730697632,
      "step": 711
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 907.2708740234375,
      "epoch": 0.5219941348973607,
      "grad_norm": 48.81417891282692,
      "kl": 3.7734375,
      "learning_rate": 5.942868698193538e-07,
      "loss": 0.7592,
      "reward": 1.8927278518676758,
      "reward_std": 0.5524491965770721,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029147211462259293,
      "rewards/tag_count_reward": 0.671875,
      "step": 712
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 995.7292175292969,
      "epoch": 0.5227272727272727,
      "grad_norm": 139.6123070474988,
      "kl": 6.234375,
      "learning_rate": 5.931401458656767e-07,
      "loss": 0.8624,
      "reward": 1.710960566997528,
      "reward_std": 0.45395517349243164,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028622757643461227,
      "rewards/tag_count_reward": 0.65625,
      "step": 713
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 937.7291870117188,
      "epoch": 0.5234604105571847,
      "grad_norm": 71.2076844274725,
      "kl": 3.390625,
      "learning_rate": 5.919931391038036e-07,
      "loss": 0.6294,
      "reward": 1.9709495306015015,
      "reward_std": 0.7317883968353271,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023842180147767067,
      "rewards/tag_count_reward": 0.6822916865348816,
      "step": 714
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 904.5208435058594,
      "epoch": 0.5241935483870968,
      "grad_norm": 41.114481536946386,
      "kl": 3.4375,
      "learning_rate": 5.908458570530159e-07,
      "loss": 0.7369,
      "reward": 2.023408830165863,
      "reward_std": 0.7161271274089813,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0338828694075346,
      "rewards/tag_count_reward": 0.6822916865348816,
      "step": 715
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 909.625,
      "epoch": 0.5249266862170088,
      "grad_norm": 84.79032997074457,
      "kl": 4.078125,
      "learning_rate": 5.896983072344002e-07,
      "loss": 0.8869,
      "reward": 1.843784511089325,
      "reward_std": 0.5026722997426987,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026007202453911304,
      "rewards/tag_count_reward": 0.6614583432674408,
      "step": 716
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1022.0416870117188,
      "epoch": 0.5256598240469208,
      "grad_norm": 192.89777198011595,
      "kl": 4.53125,
      "learning_rate": 5.885504971707984e-07,
      "loss": 0.892,
      "reward": 1.8601387739181519,
      "reward_std": 0.5931964814662933,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030486296862363815,
      "rewards/tag_count_reward": 0.5989583432674408,
      "step": 717
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1011.5625305175781,
      "epoch": 0.5263929618768328,
      "grad_norm": 84.5201492882185,
      "kl": 3.578125,
      "learning_rate": 5.874024343867583e-07,
      "loss": 0.8796,
      "reward": 1.7078853249549866,
      "reward_std": 0.5262158215045929,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021281354129314423,
      "rewards/tag_count_reward": 0.625,
      "step": 718
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 866.7291870117188,
      "epoch": 0.5271260997067448,
      "grad_norm": 43.25500266243787,
      "kl": 2.0234375,
      "learning_rate": 5.862541264084846e-07,
      "loss": 0.7905,
      "reward": 1.9441114664077759,
      "reward_std": 0.5518654584884644,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029846942983567715,
      "rewards/tag_count_reward": 0.7239583730697632,
      "step": 719
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1271.8333740234375,
      "epoch": 0.5278592375366569,
      "grad_norm": 70.03986882968586,
      "kl": 4.6640625,
      "learning_rate": 5.851055807637892e-07,
      "loss": 0.7332,
      "reward": 1.7508472800254822,
      "reward_std": 0.6809434294700623,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030402755364775658,
      "rewards/tag_count_reward": 0.4895833432674408,
      "step": 720
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 887.2708740234375,
      "epoch": 0.5285923753665689,
      "grad_norm": 58.680154588359265,
      "kl": 1.609375,
      "learning_rate": 5.839568049820423e-07,
      "loss": 0.5473,
      "reward": 2.2397154569625854,
      "reward_std": 0.7437396347522736,
      "rewards/accuracy_reward": 0.5833333730697632,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025909623131155968,
      "rewards/tag_count_reward": 0.6822916865348816,
      "step": 721
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 953.0417175292969,
      "epoch": 0.5293255131964809,
      "grad_norm": 36.23136798556369,
      "kl": 2.73046875,
      "learning_rate": 5.828078065941225e-07,
      "loss": 0.7843,
      "reward": 1.9861117005348206,
      "reward_std": 0.7317814528942108,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02777726948261261,
      "rewards/tag_count_reward": 0.6666666865348816,
      "step": 722
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1127.5208435058594,
      "epoch": 0.5300586510263929,
      "grad_norm": 152.22428686952142,
      "kl": 8.75,
      "learning_rate": 5.816585931323679e-07,
      "loss": 1.1706,
      "reward": 1.7878764867782593,
      "reward_std": 0.623430460691452,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02462371066212654,
      "rewards/tag_count_reward": 0.5416666716337204,
      "step": 723
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1075.0416870117188,
      "epoch": 0.530791788856305,
      "grad_norm": 199.94524867359831,
      "kl": 6.140625,
      "learning_rate": 5.805091721305264e-07,
      "loss": 0.941,
      "reward": 1.703671395778656,
      "reward_std": 0.5384046882390976,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03070361725986004,
      "rewards/tag_count_reward": 0.5885416865348816,
      "step": 724
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1210.6250610351562,
      "epoch": 0.531524926686217,
      "grad_norm": 31.78135460130777,
      "kl": 3.453125,
      "learning_rate": 5.793595511237067e-07,
      "loss": 0.7312,
      "reward": 1.6445240378379822,
      "reward_std": 0.531583845615387,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022142627276480198,
      "rewards/tag_count_reward": 0.5208333432674408,
      "step": 725
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 985.4166870117188,
      "epoch": 0.532258064516129,
      "grad_norm": 28.979448973880633,
      "kl": 2.671875,
      "learning_rate": 5.782097376483281e-07,
      "loss": 0.6303,
      "reward": 2.1739208698272705,
      "reward_std": 0.731708288192749,
      "rewards/accuracy_reward": 0.5625000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02920421026647091,
      "rewards/tag_count_reward": 0.6406250298023224,
      "step": 726
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 873.7083435058594,
      "epoch": 0.532991202346041,
      "grad_norm": 17.02643874548067,
      "kl": 2.875,
      "learning_rate": 5.770597392420724e-07,
      "loss": 0.7263,
      "reward": 1.9745637774467468,
      "reward_std": 0.5388579368591309,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030644604936242104,
      "rewards/tag_count_reward": 0.7135416865348816,
      "step": 727
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1042.1458740234375,
      "epoch": 0.533724340175953,
      "grad_norm": 69.68061124599399,
      "kl": 5.828125,
      "learning_rate": 5.759095634438331e-07,
      "loss": 0.7917,
      "reward": 1.869464635848999,
      "reward_std": 0.6467162668704987,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026368800550699234,
      "rewards/tag_count_reward": 0.5625000298023224,
      "step": 728
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1039.625,
      "epoch": 0.5344574780058651,
      "grad_norm": 28.905645179972318,
      "kl": 4.609375,
      "learning_rate": 5.747592177936669e-07,
      "loss": 0.7375,
      "reward": 1.7492436170578003,
      "reward_std": 0.6043170094490051,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026798022910952568,
      "rewards/tag_count_reward": 0.5885416716337204,
      "step": 729
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 927.3958435058594,
      "epoch": 0.5351906158357771,
      "grad_norm": 35.675576206435075,
      "kl": 1.775390625,
      "learning_rate": 5.736087098327438e-07,
      "loss": 0.5483,
      "reward": 2.0073986649513245,
      "reward_std": 0.4903212785720825,
      "rewards/accuracy_reward": 0.375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023851441219449043,
      "rewards/tag_count_reward": 0.6562500149011612,
      "step": 730
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 972.8958435058594,
      "epoch": 0.5359237536656891,
      "grad_norm": 44.292846595818396,
      "kl": 1.5859375,
      "learning_rate": 5.72458047103298e-07,
      "loss": 0.5784,
      "reward": 1.8557514548301697,
      "reward_std": 0.5746296048164368,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.026192973367869854,
      "rewards/tag_count_reward": 0.6250000298023224,
      "step": 731
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1216.7291870117188,
      "epoch": 0.5366568914956011,
      "grad_norm": 31.19157029985504,
      "kl": 2.7265625,
      "learning_rate": 5.713072371485783e-07,
      "loss": 0.6276,
      "reward": 1.7138049602508545,
      "reward_std": 0.5935538113117218,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02577844075858593,
      "rewards/tag_count_reward": 0.4895833432674408,
      "step": 732
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1203.354248046875,
      "epoch": 0.5373900293255132,
      "grad_norm": 23.572066288373804,
      "kl": 4.59375,
      "learning_rate": 5.701562875127986e-07,
      "loss": 0.7303,
      "reward": 1.4909549355506897,
      "reward_std": 0.4130130261182785,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0246700718998909,
      "rewards/tag_count_reward": 0.4947916865348816,
      "step": 733
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1072.75,
      "epoch": 0.5381231671554252,
      "grad_norm": 58.6203440113047,
      "kl": 5.65625,
      "learning_rate": 5.690052057410885e-07,
      "loss": 0.8741,
      "reward": 2.004941701889038,
      "reward_std": 0.7281341552734375,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03151674382388592,
      "rewards/tag_count_reward": 0.5781250298023224,
      "step": 734
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 960.6458740234375,
      "epoch": 0.5388563049853372,
      "grad_norm": 15.332845312739705,
      "kl": 3.2421875,
      "learning_rate": 5.678539993794435e-07,
      "loss": 0.6949,
      "reward": 1.7642380595207214,
      "reward_std": 0.5163361728191376,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03263694699853659,
      "rewards/tag_count_reward": 0.6302083432674408,
      "step": 735
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 861.8958435058594,
      "epoch": 0.5395894428152492,
      "grad_norm": 44.73059916771767,
      "kl": 2.1171875,
      "learning_rate": 5.667026759746766e-07,
      "loss": 0.7097,
      "reward": 2.103455603122711,
      "reward_std": 0.6455656886100769,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.031961165368556976,
      "rewards/tag_count_reward": 0.65625,
      "step": 736
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 839.375,
      "epoch": 0.5403225806451613,
      "grad_norm": 41.77144504367488,
      "kl": 2.1171875,
      "learning_rate": 5.655512430743674e-07,
      "loss": 0.6587,
      "reward": 2.0384910702705383,
      "reward_std": 0.6447021067142487,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029217291623353958,
      "rewards/tag_count_reward": 0.6718750298023224,
      "step": 737
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 837.0833435058594,
      "epoch": 0.5410557184750733,
      "grad_norm": 127.98277053064835,
      "kl": 5.734375,
      "learning_rate": 5.643997082268135e-07,
      "loss": 0.8749,
      "reward": 1.7961390018463135,
      "reward_std": 0.5022356361150742,
      "rewards/accuracy_reward": 0.18750000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0319860465824604,
      "rewards/tag_count_reward": 0.6406250298023224,
      "step": 738
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 792.3958740234375,
      "epoch": 0.5417888563049853,
      "grad_norm": 662.9580863707783,
      "kl": 9.25,
      "learning_rate": 5.63248078980981e-07,
      "loss": 1.3764,
      "reward": 1.779019296169281,
      "reward_std": 0.45541003346443176,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028272357769310474,
      "rewards/tag_count_reward": 0.6822916865348816,
      "step": 739
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 865.1250305175781,
      "epoch": 0.5425219941348973,
      "grad_norm": 53.129583456399715,
      "kl": 5.125,
      "learning_rate": 5.620963628864547e-07,
      "loss": 0.8805,
      "reward": 2.087476968765259,
      "reward_std": 0.6577587723731995,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02710629813373089,
      "rewards/tag_count_reward": 0.6770833432674408,
      "step": 740
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 799.125,
      "epoch": 0.5432551319648093,
      "grad_norm": 47.00311282870559,
      "kl": 2.5234375,
      "learning_rate": 5.609445674933886e-07,
      "loss": 0.7153,
      "reward": 1.8923691511154175,
      "reward_std": 0.5534811615943909,
      "rewards/accuracy_reward": 0.2500000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029505793005228043,
      "rewards/tag_count_reward": 0.671875,
      "step": 741
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 1089.6458740234375,
      "epoch": 0.5439882697947214,
      "grad_norm": 25.779958061997704,
      "kl": 3.6015625,
      "learning_rate": 5.59792700352457e-07,
      "loss": 0.747,
      "reward": 1.580857276916504,
      "reward_std": 0.4260368049144745,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028517894446849823,
      "rewards/tag_count_reward": 0.567708358168602,
      "step": 742
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 885.6666870117188,
      "epoch": 0.5447214076246334,
      "grad_norm": 26.450864433872862,
      "kl": 4.078125,
      "learning_rate": 5.586407690148037e-07,
      "loss": 0.6532,
      "reward": 1.9195644855499268,
      "reward_std": 0.5701983422040939,
      "rewards/accuracy_reward": 0.3125000111758709,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028352378867566586,
      "rewards/tag_count_reward": 0.6354166865348816,
      "step": 743
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 776.0833740234375,
      "epoch": 0.5454545454545454,
      "grad_norm": 24.009947817737903,
      "kl": 3.109375,
      "learning_rate": 5.574887810319946e-07,
      "loss": 0.6748,
      "reward": 1.9898723363876343,
      "reward_std": 0.6006492376327515,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03096117079257965,
      "rewards/tag_count_reward": 0.6666666865348816,
      "step": 744
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 960.0208740234375,
      "epoch": 0.5461876832844574,
      "grad_norm": 33.79328160042349,
      "kl": 5.625,
      "learning_rate": 5.563367439559657e-07,
      "loss": 0.9255,
      "reward": 1.6592678427696228,
      "reward_std": 0.4428327679634094,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028232182376086712,
      "rewards/tag_count_reward": 0.6041666865348816,
      "step": 745
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.1875305175781,
      "epoch": 0.5469208211143695,
      "grad_norm": 25.32495424125435,
      "kl": 2.6484375,
      "learning_rate": 5.551846653389754e-07,
      "loss": 0.6263,
      "reward": 2.261523962020874,
      "reward_std": 0.5468275845050812,
      "rewards/accuracy_reward": 0.5416666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03014293871819973,
      "rewards/tag_count_reward": 0.75,
      "step": 746
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 681.7708740234375,
      "epoch": 0.5476539589442815,
      "grad_norm": 73.78278585282082,
      "kl": 5.328125,
      "learning_rate": 5.540325527335547e-07,
      "loss": 0.9039,
      "reward": 1.9347513914108276,
      "reward_std": 0.47221839427948,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.033998677507042885,
      "rewards/tag_count_reward": 0.7395833730697632,
      "step": 747
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 791.4791870117188,
      "epoch": 0.5483870967741935,
      "grad_norm": 90.42777038947605,
      "kl": 6.1640625,
      "learning_rate": 5.528804136924571e-07,
      "loss": 0.9191,
      "reward": 1.9225658774375916,
      "reward_std": 0.4990091919898987,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025350838899612427,
      "rewards/tag_count_reward": 0.7395833730697632,
      "step": 748
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 874.2291870117188,
      "epoch": 0.5491202346041055,
      "grad_norm": 18.450252877965003,
      "kl": 4.484375,
      "learning_rate": 5.517282557686091e-07,
      "loss": 0.696,
      "reward": 1.7531982064247131,
      "reward_std": 0.5390603840351105,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028051897883415222,
      "rewards/tag_count_reward": 0.5937500298023224,
      "step": 749
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 653.0208435058594,
      "epoch": 0.5498533724340176,
      "grad_norm": 52.140637292566204,
      "kl": 1.453125,
      "learning_rate": 5.505760865150613e-07,
      "loss": 0.4664,
      "reward": 2.0003074407577515,
      "reward_std": 0.5500705242156982,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03094259649515152,
      "rewards/tag_count_reward": 0.7395833432674408,
      "step": 750
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 571.9791870117188,
      "epoch": 0.5505865102639296,
      "grad_norm": 38.39356021633937,
      "kl": 0.94921875,
      "learning_rate": 5.494239134849388e-07,
      "loss": 0.3249,
      "reward": 2.200824737548828,
      "reward_std": 0.644676610827446,
      "rewards/accuracy_reward": 0.458333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03355027176439762,
      "rewards/tag_count_reward": 0.7760416865348816,
      "step": 751
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 780.4375305175781,
      "epoch": 0.5513196480938416,
      "grad_norm": 57.63946506829144,
      "kl": 1.86328125,
      "learning_rate": 5.48271744231391e-07,
      "loss": 0.6424,
      "reward": 1.7193049192428589,
      "reward_std": 0.3903712034225464,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030695032328367233,
      "rewards/tag_count_reward": 0.7083333730697632,
      "step": 752
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 773.2708435058594,
      "epoch": 0.5520527859237536,
      "grad_norm": 46.738838518138174,
      "kl": 3.81640625,
      "learning_rate": 5.471195863075431e-07,
      "loss": 0.7577,
      "reward": 1.955974280834198,
      "reward_std": 0.6104044318199158,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028400634415447712,
      "rewards/tag_count_reward": 0.671875,
      "step": 753
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 757.1458435058594,
      "epoch": 0.5527859237536656,
      "grad_norm": 70.68302962276599,
      "kl": 5.609375,
      "learning_rate": 5.459674472664451e-07,
      "loss": 0.7409,
      "reward": 1.9917755722999573,
      "reward_std": 0.5736424177885056,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02905783336609602,
      "rewards/tag_count_reward": 0.6875,
      "step": 754
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 824.3333740234375,
      "epoch": 0.5535190615835777,
      "grad_norm": 57.39574382552266,
      "kl": 5.40625,
      "learning_rate": 5.448153346610246e-07,
      "loss": 0.8608,
      "reward": 1.7963295578956604,
      "reward_std": 0.5229825377464294,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0265871724113822,
      "rewards/tag_count_reward": 0.6354166865348816,
      "step": 755
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.6250305175781,
      "epoch": 0.5542521994134897,
      "grad_norm": 16.480205960183262,
      "kl": 2.0546875,
      "learning_rate": 5.436632560440343e-07,
      "loss": 0.2668,
      "reward": 1.8957591652870178,
      "reward_std": 0.5015785098075867,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03132414259016514,
      "rewards/tag_count_reward": 0.7187500298023224,
      "step": 756
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 718.8333435058594,
      "epoch": 0.5549853372434017,
      "grad_norm": 35.6619139947997,
      "kl": 2.5,
      "learning_rate": 5.425112189680056e-07,
      "loss": 0.6965,
      "reward": 1.8117918968200684,
      "reward_std": 0.4706086814403534,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026749805547297,
      "rewards/tag_count_reward": 0.6927083730697632,
      "step": 757
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 725.7500305175781,
      "epoch": 0.5557184750733137,
      "grad_norm": 23.569771815446728,
      "kl": 3.6953125,
      "learning_rate": 5.413592309851963e-07,
      "loss": 0.6908,
      "reward": 1.898435115814209,
      "reward_std": 0.5756514668464661,
      "rewards/accuracy_reward": 0.2708333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03906491957604885,
      "rewards/tag_count_reward": 0.6666666865348816,
      "step": 758
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 788.1875,
      "epoch": 0.5564516129032258,
      "grad_norm": 10.635869330106727,
      "kl": 3.6171875,
      "learning_rate": 5.402072996475432e-07,
      "loss": 0.687,
      "reward": 2.104902744293213,
      "reward_std": 0.6718497276306152,
      "rewards/accuracy_reward": 0.4375000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03051395993679762,
      "rewards/tag_count_reward": 0.6979166865348816,
      "step": 759
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.7916870117188,
      "epoch": 0.5571847507331378,
      "grad_norm": 7.951630673232543,
      "kl": 1.93359375,
      "learning_rate": 5.390554325066114e-07,
      "loss": 0.3941,
      "reward": 1.937668800354004,
      "reward_std": 0.4101848602294922,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.031081256456673145,
      "rewards/tag_count_reward": 0.8020833432674408,
      "step": 760
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 652.4791870117188,
      "epoch": 0.5579178885630498,
      "grad_norm": 18.25749794578066,
      "kl": 3.859375,
      "learning_rate": 5.379036371135453e-07,
      "loss": 0.6928,
      "reward": 1.7474979162216187,
      "reward_std": 0.34113722294569016,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02854372374713421,
      "rewards/tag_count_reward": 0.7760416865348816,
      "step": 761
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.3750305175781,
      "epoch": 0.5586510263929618,
      "grad_norm": 11.93049781932339,
      "kl": 2.515625,
      "learning_rate": 5.367519210190191e-07,
      "loss": 0.5786,
      "reward": 2.156864047050476,
      "reward_std": 0.6391881704330444,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030635923147201538,
      "rewards/tag_count_reward": 0.7708333730697632,
      "step": 762
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 582.7708435058594,
      "epoch": 0.5593841642228738,
      "grad_norm": 24.399553709161914,
      "kl": 2.58203125,
      "learning_rate": 5.356002917731864e-07,
      "loss": 0.5849,
      "reward": 1.8041017055511475,
      "reward_std": 0.3177919387817383,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.034439937211573124,
      "rewards/tag_count_reward": 0.7968750298023224,
      "step": 763
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 643.2083435058594,
      "epoch": 0.5601173020527859,
      "grad_norm": 9.855696397433391,
      "kl": 2.3203125,
      "learning_rate": 5.344487569256327e-07,
      "loss": 0.4902,
      "reward": 2.1870139837265015,
      "reward_std": 0.6778040528297424,
      "rewards/accuracy_reward": 0.4375000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03694435581564903,
      "rewards/tag_count_reward": 0.7864583432674408,
      "step": 764
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 735.0833740234375,
      "epoch": 0.5608504398826979,
      "grad_norm": 9.493175966711302,
      "kl": 3.28125,
      "learning_rate": 5.332973240253234e-07,
      "loss": 0.617,
      "reward": 2.359973430633545,
      "reward_std": 0.752300500869751,
      "rewards/accuracy_reward": 0.6458333730697632,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025443391874432564,
      "rewards/tag_count_reward": 0.7395833432674408,
      "step": 765
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 662.4791870117188,
      "epoch": 0.5615835777126099,
      "grad_norm": 9.25052938293034,
      "kl": 3.3359375,
      "learning_rate": 5.321460006205565e-07,
      "loss": 0.6242,
      "reward": 1.9359582662582397,
      "reward_std": 0.5609914809465408,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03800009563565254,
      "rewards/tag_count_reward": 0.7239583432674408,
      "step": 766
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 582.6250305175781,
      "epoch": 0.5623167155425219,
      "grad_norm": 19.547089040558244,
      "kl": 1.88671875,
      "learning_rate": 5.309947942589114e-07,
      "loss": 0.5295,
      "reward": 2.224452018737793,
      "reward_std": 0.6053149402141571,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0359647162258625,
      "rewards/tag_count_reward": 0.8229166865348816,
      "step": 767
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 707.3125305175781,
      "epoch": 0.5630498533724341,
      "grad_norm": 49.41788880303197,
      "kl": 5.1953125,
      "learning_rate": 5.298437124872013e-07,
      "loss": 0.8048,
      "reward": 1.7083222270011902,
      "reward_std": 0.3275119215250015,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04167785868048668,
      "rewards/tag_count_reward": 0.75,
      "step": 768
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.16668701171875,
      "epoch": 0.5637829912023461,
      "grad_norm": 10.00552596434989,
      "kl": 1.140625,
      "learning_rate": 5.286927628514217e-07,
      "loss": 0.178,
      "reward": 2.171727418899536,
      "reward_std": 0.43328505754470825,
      "rewards/accuracy_reward": 0.2916666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03139766305685043,
      "rewards/tag_count_reward": 0.9114583730697632,
      "step": 769
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.1458435058594,
      "epoch": 0.5645161290322581,
      "grad_norm": 15.644106947033833,
      "kl": 1.78515625,
      "learning_rate": 5.27541952896702e-07,
      "loss": 0.3509,
      "reward": 2.035298228263855,
      "reward_std": 0.40297262370586395,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0324101448059082,
      "rewards/tag_count_reward": 0.8802083730697632,
      "step": 770
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.3125,
      "epoch": 0.5652492668621701,
      "grad_norm": 74.13652540498771,
      "kl": 4.0859375,
      "learning_rate": 5.263912901672561e-07,
      "loss": 0.7203,
      "reward": 2.2360010147094727,
      "reward_std": 0.5515131950378418,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.034832315519452095,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 771
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 493.5833435058594,
      "epoch": 0.5659824046920822,
      "grad_norm": 8.6360252044363,
      "kl": 1.291015625,
      "learning_rate": 5.252407822063332e-07,
      "loss": 0.199,
      "reward": 1.9898422360420227,
      "reward_std": 0.3721628934144974,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025782877579331398,
      "rewards/tag_count_reward": 0.8281250298023224,
      "step": 772
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.79168701171875,
      "epoch": 0.5667155425219942,
      "grad_norm": 22.245313397026667,
      "kl": 0.763671875,
      "learning_rate": 5.240904365561669e-07,
      "loss": 0.1329,
      "reward": 2.130028009414673,
      "reward_std": 0.4469859153032303,
      "rewards/accuracy_reward": 0.3125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03143035527318716,
      "rewards/tag_count_reward": 0.8489583730697632,
      "step": 773
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.0833435058594,
      "epoch": 0.5674486803519062,
      "grad_norm": 16.58377376399728,
      "kl": 0.9140625,
      "learning_rate": 5.229402607579277e-07,
      "loss": 0.1466,
      "reward": 1.8467799425125122,
      "reward_std": 0.4250985085964203,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03863669000566006,
      "rewards/tag_count_reward": 0.8020833730697632,
      "step": 774
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.2708435058594,
      "epoch": 0.5681818181818182,
      "grad_norm": 6.383368310310399,
      "kl": 0.599609375,
      "learning_rate": 5.217902623516717e-07,
      "loss": 0.0636,
      "reward": 2.2422069311141968,
      "reward_std": 0.6459289789199829,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03383495286107063,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 775
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.93751525878906,
      "epoch": 0.5689149560117303,
      "grad_norm": 6.21109163951882,
      "kl": 0.765625,
      "learning_rate": 5.206404488762933e-07,
      "loss": 0.1408,
      "reward": 2.2062381505966187,
      "reward_std": 0.4520144984126091,
      "rewards/accuracy_reward": 0.35416667722165585,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04376194626092911,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 776
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.5,
      "epoch": 0.5696480938416423,
      "grad_norm": 11.089411677156567,
      "kl": 0.81640625,
      "learning_rate": 5.194908278694736e-07,
      "loss": 0.0762,
      "reward": 2.4853463172912598,
      "reward_std": 0.4210961163043976,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.035487134009599686,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 777
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.50001525878906,
      "epoch": 0.5703812316715543,
      "grad_norm": 5.649480356582214,
      "kl": 1.078125,
      "learning_rate": 5.183414068676321e-07,
      "loss": 0.1901,
      "reward": 2.011263608932495,
      "reward_std": 0.28793443739414215,
      "rewards/accuracy_reward": 0.125,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03561144880950451,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 778
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.0833435058594,
      "epoch": 0.5711143695014663,
      "grad_norm": 45.52300400424727,
      "kl": 3.40625,
      "learning_rate": 5.171921934058775e-07,
      "loss": 0.2789,
      "reward": 2.1760915517807007,
      "reward_std": 0.6365633606910706,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.05307510495185852,
      "rewards/tag_count_reward": 0.8333333432674408,
      "step": 779
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.8750305175781,
      "epoch": 0.5718475073313783,
      "grad_norm": 18.610581583071962,
      "kl": 2.71875,
      "learning_rate": 5.160431950179577e-07,
      "loss": 0.5859,
      "reward": 2.0504915714263916,
      "reward_std": 0.4479319751262665,
      "rewards/accuracy_reward": 0.2291666679084301,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.055411264300346375,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 780
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.5833435058594,
      "epoch": 0.5725806451612904,
      "grad_norm": 11.952290754347626,
      "kl": 1.0283203125,
      "learning_rate": 5.148944192362108e-07,
      "loss": 0.1858,
      "reward": 2.307385563850403,
      "reward_std": 0.5844225138425827,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03636452369391918,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 781
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.1041870117188,
      "epoch": 0.5733137829912024,
      "grad_norm": 35.347459858014,
      "kl": 0.90234375,
      "learning_rate": 5.137458735915154e-07,
      "loss": 0.3501,
      "reward": 2.0038501024246216,
      "reward_std": 0.3343339115381241,
      "rewards/accuracy_reward": 0.1458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.05864992365241051,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 782
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.875,
      "epoch": 0.5740469208211144,
      "grad_norm": 12.297175402440889,
      "kl": 1.1396484375,
      "learning_rate": 5.125975656132417e-07,
      "loss": 0.2126,
      "reward": 2.012514591217041,
      "reward_std": 0.3432723581790924,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04998534545302391,
      "rewards/tag_count_reward": 0.8958333730697632,
      "step": 783
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.79168701171875,
      "epoch": 0.5747800586510264,
      "grad_norm": 10.558960266569809,
      "kl": 0.802734375,
      "learning_rate": 5.114495028292016e-07,
      "loss": 0.2242,
      "reward": 2.0655742287635803,
      "reward_std": 0.28712810575962067,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03859252668917179,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 784
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.2708435058594,
      "epoch": 0.5755131964809385,
      "grad_norm": 2.6200652288087567,
      "kl": 0.3642578125,
      "learning_rate": 5.103016927655997e-07,
      "loss": 0.0087,
      "reward": 1.981192708015442,
      "reward_std": 0.18765612691640854,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024015757255256176,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 785
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.41668701171875,
      "epoch": 0.5762463343108505,
      "grad_norm": 3.1631841093704973,
      "kl": 0.3896484375,
      "learning_rate": 5.09154142946984e-07,
      "loss": 0.0069,
      "reward": 2.364975333213806,
      "reward_std": 0.23586179316043854,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025649672374129295,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 786
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.2083435058594,
      "epoch": 0.5769794721407625,
      "grad_norm": 143.08815161211146,
      "kl": 3.056640625,
      "learning_rate": 5.080068608961965e-07,
      "loss": 0.3752,
      "reward": 2.5566176176071167,
      "reward_std": 0.5731297731399536,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.047549253329634666,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 787
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.0416717529297,
      "epoch": 0.5777126099706745,
      "grad_norm": 4.206661576025536,
      "kl": 0.4052734375,
      "learning_rate": 5.068598541343234e-07,
      "loss": 0.0059,
      "reward": 2.296063780784607,
      "reward_std": 0.33597442507743835,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.032061291858553886,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 788
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.4791870117188,
      "epoch": 0.5784457478005866,
      "grad_norm": 120.55140185532244,
      "kl": 3.2978515625,
      "learning_rate": 5.057131301806463e-07,
      "loss": 0.4419,
      "reward": 2.227821409702301,
      "reward_std": 0.4409473240375519,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.037803635001182556,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 789
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.54168701171875,
      "epoch": 0.5791788856304986,
      "grad_norm": 104.00715130995349,
      "kl": 3.8349609375,
      "learning_rate": 5.045666965525934e-07,
      "loss": 0.4773,
      "reward": 1.9311189651489258,
      "reward_std": 0.2578328549861908,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.053256092593073845,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 790
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.5416870117188,
      "epoch": 0.5799120234604106,
      "grad_norm": 63.31064118479974,
      "kl": 2.330078125,
      "learning_rate": 5.034205607656892e-07,
      "loss": 0.4197,
      "reward": 2.354369640350342,
      "reward_std": 0.4720756560564041,
      "rewards/accuracy_reward": 0.458333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04667205922305584,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 791
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.7291717529297,
      "epoch": 0.5806451612903226,
      "grad_norm": 2.3908286014334084,
      "kl": 0.3271484375,
      "learning_rate": 5.022747303335056e-07,
      "loss": -0.0011,
      "reward": 2.4147515296936035,
      "reward_std": 0.2904389202594757,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04358202964067459,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 792
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.93751525878906,
      "epoch": 0.5813782991202346,
      "grad_norm": 3.227299361726288,
      "kl": 0.3525390625,
      "learning_rate": 5.01129212767613e-07,
      "loss": 0.0012,
      "reward": 2.1776065826416016,
      "reward_std": 0.25459666550159454,
      "rewards/accuracy_reward": 0.2291666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03593523986637592,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 793
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.5208435058594,
      "epoch": 0.5821114369501467,
      "grad_norm": 14.106380781519254,
      "kl": 0.423828125,
      "learning_rate": 4.999840155775309e-07,
      "loss": 0.1497,
      "reward": 2.129902422428131,
      "reward_std": 0.27987994998693466,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03676432091742754,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 794
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.1875,
      "epoch": 0.5828445747800587,
      "grad_norm": 2.6873106735549945,
      "kl": 0.333984375,
      "learning_rate": 4.988391462706778e-07,
      "loss": -0.0256,
      "reward": 2.383494257926941,
      "reward_std": 0.4004615694284439,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04358913190662861,
      "rewards/tag_count_reward": 0.96875,
      "step": 795
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 512.0833587646484,
      "epoch": 0.5835777126099707,
      "grad_norm": 61.545096621591924,
      "kl": 0.833984375,
      "learning_rate": 4.976946123523238e-07,
      "loss": 0.3688,
      "reward": 1.9309577345848083,
      "reward_std": 0.21935289353132248,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03779237158596516,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 796
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.0833587646484,
      "epoch": 0.5843108504398827,
      "grad_norm": 22.68360336288523,
      "kl": 0.583984375,
      "learning_rate": 4.965504213255394e-07,
      "loss": 0.1888,
      "reward": 2.5947617292404175,
      "reward_std": 0.2748841196298599,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0302383815869689,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 797
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 513.7916717529297,
      "epoch": 0.5850439882697948,
      "grad_norm": 10.564895085544316,
      "kl": 0.615234375,
      "learning_rate": 4.954065806911479e-07,
      "loss": 0.1524,
      "reward": 2.284646213054657,
      "reward_std": 0.31503356993198395,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04347882606089115,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 798
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.8333435058594,
      "epoch": 0.5857771260997068,
      "grad_norm": 2.2790864512290345,
      "kl": 0.2880859375,
      "learning_rate": 4.942630979476751e-07,
      "loss": -0.002,
      "reward": 2.2442930936813354,
      "reward_std": 0.29676416516304016,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03695691470056772,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 799
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 511.06251525878906,
      "epoch": 0.5865102639296188,
      "grad_norm": 6.579082854864219,
      "kl": 0.8193359375,
      "learning_rate": 4.931199805913011e-07,
      "loss": 0.1724,
      "reward": 2.698206305503845,
      "reward_std": 0.3876982778310776,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.036168841645121574,
      "rewards/tag_count_reward": 0.984375,
      "step": 800
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.1458435058594,
      "epoch": 0.5872434017595308,
      "grad_norm": 2.41829385323641,
      "kl": 0.3115234375,
      "learning_rate": 4.919772361158101e-07,
      "loss": 0.0349,
      "reward": 2.018336534500122,
      "reward_std": 0.15515825897455215,
      "rewards/accuracy_reward": 0.0625,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03374684602022171,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 801
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.0625305175781,
      "epoch": 0.5879765395894428,
      "grad_norm": 19.929897025421052,
      "kl": 0.794921875,
      "learning_rate": 4.908348720125425e-07,
      "loss": 0.387,
      "reward": 2.131339430809021,
      "reward_std": 0.3124546855688095,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.05963288061320782,
      "rewards/tag_count_reward": 0.96875,
      "step": 802
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.9166717529297,
      "epoch": 0.5887096774193549,
      "grad_norm": 2.518606038282831,
      "kl": 0.3056640625,
      "learning_rate": 4.896928957703449e-07,
      "loss": -0.0062,
      "reward": 2.529616117477417,
      "reward_std": 0.34028075635433197,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027675677090883255,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 803
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.8125152587891,
      "epoch": 0.5894428152492669,
      "grad_norm": 2.3826860767082434,
      "kl": 0.296875,
      "learning_rate": 4.885513148755207e-07,
      "loss": 0.0078,
      "reward": 2.4222702980041504,
      "reward_std": 0.10937895812094212,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0360631225630641,
      "rewards/tag_count_reward": 1.0,
      "step": 804
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 461.9583435058594,
      "epoch": 0.5901759530791789,
      "grad_norm": 2.994895720204756,
      "kl": 0.3349609375,
      "learning_rate": 4.874101368117825e-07,
      "loss": 0.0334,
      "reward": 2.157669723033905,
      "reward_std": 0.14807479828596115,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03851080499589443,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 805
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 705.8125,
      "epoch": 0.5909090909090909,
      "grad_norm": 6.6598445557207775,
      "kl": 1.083984375,
      "learning_rate": 4.862693690602015e-07,
      "loss": 0.2519,
      "reward": 1.9881237149238586,
      "reward_std": 0.6753402352333069,
      "rewards/accuracy_reward": 0.3125000149011612,
      "rewards/reasoning_steps_reward": 0.9305556416511536,
      "rewards/repetition_penalty_reward": -0.1455569975078106,
      "rewards/tag_count_reward": 0.890625,
      "step": 806
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.1875305175781,
      "epoch": 0.591642228739003,
      "grad_norm": 2.535021258369295,
      "kl": 0.3037109375,
      "learning_rate": 4.851290190991592e-07,
      "loss": 0.0369,
      "reward": 2.1697142124176025,
      "reward_std": 0.22860877960920334,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03861923888325691,
      "rewards/tag_count_reward": 1.0,
      "step": 807
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.8541717529297,
      "epoch": 0.592375366568915,
      "grad_norm": 8.442938463472068,
      "kl": 0.548828125,
      "learning_rate": 4.839890944042982e-07,
      "loss": 0.4029,
      "reward": 2.536786675453186,
      "reward_std": 0.5133970677852631,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.07085224241018295,
      "rewards/tag_count_reward": 0.96875,
      "step": 808
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.8750305175781,
      "epoch": 0.593108504398827,
      "grad_norm": 9.598470869048404,
      "kl": 0.681640625,
      "learning_rate": 4.828496024484737e-07,
      "loss": 0.563,
      "reward": 2.4663429260253906,
      "reward_std": 0.6941099762916565,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.11351823806762695,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 809
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.7916870117188,
      "epoch": 0.593841642228739,
      "grad_norm": 6.7043292538402355,
      "kl": 0.5751953125,
      "learning_rate": 4.817105507017031e-07,
      "loss": 0.3073,
      "reward": 2.1016518473625183,
      "reward_std": 0.38975587766617537,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.06848715990781784,
      "rewards/tag_count_reward": 0.96875,
      "step": 810
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.8541870117188,
      "epoch": 0.594574780058651,
      "grad_norm": 5.364924944020763,
      "kl": 0.5087890625,
      "learning_rate": 4.80571946631119e-07,
      "loss": 0.2888,
      "reward": 2.335654377937317,
      "reward_std": 0.3818696141242981,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.07754014804959297,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 811
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 629.6041870117188,
      "epoch": 0.5953079178885631,
      "grad_norm": 17.22316737485544,
      "kl": 0.83203125,
      "learning_rate": 4.794337977009185e-07,
      "loss": 0.4649,
      "reward": 2.1872715950012207,
      "reward_std": 0.6461509764194489,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9513889253139496,
      "rewards/repetition_penalty_reward": -0.11307556927204132,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 812
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.0833435058594,
      "epoch": 0.5960410557184751,
      "grad_norm": 4.506049614552083,
      "kl": 0.392578125,
      "learning_rate": 4.782961113723155e-07,
      "loss": 0.0013,
      "reward": 2.4307708740234375,
      "reward_std": 0.21797269582748413,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03277082648128271,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 813
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.04168701171875,
      "epoch": 0.5967741935483871,
      "grad_norm": 5.653050177842232,
      "kl": 0.359375,
      "learning_rate": 4.771588951034908e-07,
      "loss": 0.0841,
      "reward": 2.136378526687622,
      "reward_std": 0.18476275354623795,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04070477373898029,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 814
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.3958435058594,
      "epoch": 0.5975073313782991,
      "grad_norm": 8.107659270152181,
      "kl": 0.677734375,
      "learning_rate": 4.760221563495442e-07,
      "loss": 0.4121,
      "reward": 1.859411895275116,
      "reward_std": 0.30691710114479065,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.0728798434138298,
      "rewards/tag_count_reward": 0.953125,
      "step": 815
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 603.2083587646484,
      "epoch": 0.5982404692082112,
      "grad_norm": 8.61441795310822,
      "kl": 0.8076171875,
      "learning_rate": 4.7488590256244464e-07,
      "loss": 0.27,
      "reward": 2.0655227303504944,
      "reward_std": 0.2962368158623576,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.06815778650343418,
      "rewards/tag_count_reward": 0.953125,
      "step": 816
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 573.8750305175781,
      "epoch": 0.5989736070381232,
      "grad_norm": 5.521496682273347,
      "kl": 0.4189453125,
      "learning_rate": 4.737501411909823e-07,
      "loss": 0.1851,
      "reward": 1.9504121541976929,
      "reward_std": 0.07043480267748237,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04437953233718872,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 817
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 634.0208435058594,
      "epoch": 0.5997067448680352,
      "grad_norm": 48.31708229348907,
      "kl": 0.8837890625,
      "learning_rate": 4.726148796807189e-07,
      "loss": 0.4391,
      "reward": 2.511850595474243,
      "reward_std": 0.4401156660169363,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.09752444550395012,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 818
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.6041870117188,
      "epoch": 0.6004398826979472,
      "grad_norm": 18.48522146272581,
      "kl": 0.591796875,
      "learning_rate": 4.7148012547393925e-07,
      "loss": 0.3583,
      "reward": 2.0937827825546265,
      "reward_std": 0.4004402905702591,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.07462002336978912,
      "rewards/tag_count_reward": 0.953125,
      "step": 819
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 534.0625,
      "epoch": 0.6011730205278593,
      "grad_norm": 25.1154484599897,
      "kl": 0.5087890625,
      "learning_rate": 4.703458860096029e-07,
      "loss": 0.3437,
      "reward": 2.3650914430618286,
      "reward_std": 0.36587995290756226,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.056783514097332954,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 820
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.9583435058594,
      "epoch": 0.6019061583577713,
      "grad_norm": 56.1391698496597,
      "kl": 0.55859375,
      "learning_rate": 4.692121687232947e-07,
      "loss": 0.4509,
      "reward": 2.358267903327942,
      "reward_std": 0.37750261276960373,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.07228780351579189,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 821
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 690.8541870117188,
      "epoch": 0.6026392961876833,
      "grad_norm": 77.0977681349766,
      "kl": 0.80078125,
      "learning_rate": 4.6807898104717646e-07,
      "loss": 0.4843,
      "reward": 2.49636173248291,
      "reward_std": 0.5223219692707062,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.09912440925836563,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 822
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 659.8333740234375,
      "epoch": 0.6033724340175953,
      "grad_norm": 90.83371935104837,
      "kl": 0.78125,
      "learning_rate": 4.669463304099378e-07,
      "loss": 0.4246,
      "reward": 2.3206570148468018,
      "reward_std": 0.3920210897922516,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.06475986167788506,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 823
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.8958435058594,
      "epoch": 0.6041055718475073,
      "grad_norm": 83.46788794993483,
      "kl": 0.486328125,
      "learning_rate": 4.658142242367481e-07,
      "loss": 0.2377,
      "reward": 1.9662054181098938,
      "reward_std": 0.24156315624713898,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03900298476219177,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 824
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.4166870117188,
      "epoch": 0.6048387096774194,
      "grad_norm": 99.53659085190704,
      "kl": 0.501953125,
      "learning_rate": 4.6468266994920725e-07,
      "loss": 0.3287,
      "reward": 2.660859227180481,
      "reward_std": 0.20507730171084404,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.04052967391908169,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 825
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.0625,
      "epoch": 0.6055718475073314,
      "grad_norm": 107.50085509256628,
      "kl": 1.2265625,
      "learning_rate": 4.6355167496529736e-07,
      "loss": 0.4649,
      "reward": 2.8116308450698853,
      "reward_std": 0.42871353030204773,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.037327712401747704,
      "rewards/tag_count_reward": 0.953125,
      "step": 826
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.1041870117188,
      "epoch": 0.6063049853372434,
      "grad_norm": 2.173496981310859,
      "kl": 0.2783203125,
      "learning_rate": 4.624212466993338e-07,
      "loss": 0.0277,
      "reward": 2.7007949352264404,
      "reward_std": 0.0959350299090147,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023163380101323128,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 827
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.0833435058594,
      "epoch": 0.6070381231671554,
      "grad_norm": 103.29060562834302,
      "kl": 0.4951171875,
      "learning_rate": 4.6129139256191694e-07,
      "loss": 0.221,
      "reward": 2.6394749879837036,
      "reward_std": 0.2795245796442032,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03240011818706989,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 828
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.91668701171875,
      "epoch": 0.6077712609970675,
      "grad_norm": 39.15109601141074,
      "kl": 0.3662109375,
      "learning_rate": 4.6016211995988354e-07,
      "loss": 0.1692,
      "reward": 2.188190758228302,
      "reward_std": 0.11946690082550049,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030559342354536057,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 829
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 564.4791870117188,
      "epoch": 0.6085043988269795,
      "grad_norm": 38.62440550306976,
      "kl": 0.5986328125,
      "learning_rate": 4.590334362962576e-07,
      "loss": 0.1895,
      "reward": 2.1769083738327026,
      "reward_std": 0.1629810556769371,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.027952796779572964,
      "rewards/tag_count_reward": 0.96875,
      "step": 830
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 565.9791870117188,
      "epoch": 0.6092375366568915,
      "grad_norm": 58.04515466935745,
      "kl": 0.92578125,
      "learning_rate": 4.579053489702027e-07,
      "loss": 0.3217,
      "reward": 1.8493124842643738,
      "reward_std": 0.23448748886585236,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.04304862767457962,
      "rewards/tag_count_reward": 0.90625,
      "step": 831
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.1041870117188,
      "epoch": 0.6099706744868035,
      "grad_norm": 38.13203675394943,
      "kl": 0.623046875,
      "learning_rate": 4.5677786537697305e-07,
      "loss": 0.1495,
      "reward": 2.393915832042694,
      "reward_std": 0.2697073072195053,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.029695474542677402,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 832
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.7916870117188,
      "epoch": 0.6107038123167156,
      "grad_norm": 49.182375386745534,
      "kl": 0.73828125,
      "learning_rate": 4.5565099290786503e-07,
      "loss": 0.2963,
      "reward": 2.4932984113693237,
      "reward_std": 0.4969503581523895,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.032743205316364765,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 833
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.0416870117188,
      "epoch": 0.6114369501466276,
      "grad_norm": 41.51590481283137,
      "kl": 1.5390625,
      "learning_rate": 4.545247389501683e-07,
      "loss": 0.2424,
      "reward": 2.3008153438568115,
      "reward_std": 0.44770413637161255,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02904599905014038,
      "rewards/tag_count_reward": 0.90625,
      "step": 834
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.4791870117188,
      "epoch": 0.6121700879765396,
      "grad_norm": 8.246011895143058,
      "kl": 0.498046875,
      "learning_rate": 4.533991108871187e-07,
      "loss": 0.0343,
      "reward": 2.6834018230438232,
      "reward_std": 0.13353276997804642,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030139826238155365,
      "rewards/tag_count_reward": 0.984375,
      "step": 835
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.0,
      "epoch": 0.6129032258064516,
      "grad_norm": 6.039794360121051,
      "kl": 0.6142578125,
      "learning_rate": 4.5227411609784815e-07,
      "loss": -0.0113,
      "reward": 1.8693063855171204,
      "reward_std": 0.24499638378620148,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.958333432674408,
      "rewards/repetition_penalty_reward": -0.031735366210341454,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 836
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.4375305175781,
      "epoch": 0.6136363636363636,
      "grad_norm": 8.66036724884791,
      "kl": 0.568359375,
      "learning_rate": 4.5114976195733765e-07,
      "loss": 0.0996,
      "reward": 2.1761062145233154,
      "reward_std": 0.3079090416431427,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03743559028953314,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 837
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.7083435058594,
      "epoch": 0.6143695014662757,
      "grad_norm": 18.181326014032848,
      "kl": 1.322265625,
      "learning_rate": 4.50026055836368e-07,
      "loss": 0.2942,
      "reward": 2.2245534658432007,
      "reward_std": 0.4769989103078842,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.025446675717830658,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 838
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.7916870117188,
      "epoch": 0.6151026392961877,
      "grad_norm": 19.95718172965576,
      "kl": 2.0390625,
      "learning_rate": 4.4890300510147227e-07,
      "loss": 0.346,
      "reward": 2.209823966026306,
      "reward_std": 0.5654549300670624,
      "rewards/accuracy_reward": 0.41666667722165585,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.034967634826898575,
      "rewards/tag_count_reward": 0.8489583432674408,
      "step": 839
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.8750305175781,
      "epoch": 0.6158357771260997,
      "grad_norm": 17.575865868504714,
      "kl": 2.046875,
      "learning_rate": 4.477806171148866e-07,
      "loss": 0.2612,
      "reward": 2.2379040718078613,
      "reward_std": 0.5341173410415649,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.027721069753170013,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 840
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.4791870117188,
      "epoch": 0.6165689149560117,
      "grad_norm": 17.666580487382166,
      "kl": 1.64453125,
      "learning_rate": 4.4665889923450296e-07,
      "loss": 0.3535,
      "reward": 2.071997821331024,
      "reward_std": 0.34587332606315613,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.0252243559807539,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 841
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 644.1875305175781,
      "epoch": 0.6173020527859238,
      "grad_norm": 20.63550526329548,
      "kl": 1.85546875,
      "learning_rate": 4.455378588138199e-07,
      "loss": 0.3912,
      "reward": 2.285509705543518,
      "reward_std": 0.3511117547750473,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.023518214002251625,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 842
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 666.2916870117188,
      "epoch": 0.6180351906158358,
      "grad_norm": 36.605797933132436,
      "kl": 2.40234375,
      "learning_rate": 4.444175032018953e-07,
      "loss": 0.4583,
      "reward": 2.0598318576812744,
      "reward_std": 0.4984627813100815,
      "rewards/accuracy_reward": 0.2500000111758709,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.026973859407007694,
      "rewards/tag_count_reward": 0.8645833730697632,
      "step": 843
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 513.4791870117188,
      "epoch": 0.6187683284457478,
      "grad_norm": 24.959025179156438,
      "kl": 1.7265625,
      "learning_rate": 4.4329783974329725e-07,
      "loss": 0.2129,
      "reward": 2.3399888277053833,
      "reward_std": 0.34585636854171753,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.024594685062766075,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 844
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.8333740234375,
      "epoch": 0.6195014662756598,
      "grad_norm": 69.5951941998575,
      "kl": 4.34375,
      "learning_rate": 4.4217887577805715e-07,
      "loss": 0.2437,
      "reward": 2.0339152812957764,
      "reward_std": 0.4007200002670288,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.025112648494541645,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 845
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 515.6041870117188,
      "epoch": 0.6202346041055719,
      "grad_norm": 5.858765632804924,
      "kl": 0.4033203125,
      "learning_rate": 4.410606186416196e-07,
      "loss": 0.0125,
      "reward": 2.3807249665260315,
      "reward_std": 0.3000316321849823,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.018580769188702106,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 846
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.2291717529297,
      "epoch": 0.6209677419354839,
      "grad_norm": 4.655844732233269,
      "kl": 0.619140625,
      "learning_rate": 4.399430756647967e-07,
      "loss": -0.0073,
      "reward": 2.2223470211029053,
      "reward_std": 0.12450448423624039,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.024180795066058636,
      "rewards/tag_count_reward": 0.9895833730697632,
      "step": 847
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.2083740234375,
      "epoch": 0.6217008797653959,
      "grad_norm": 52.630109847835854,
      "kl": 1.5185546875,
      "learning_rate": 4.3882625417371845e-07,
      "loss": 0.2387,
      "reward": 2.3624809980392456,
      "reward_std": 0.3020096570253372,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03335241973400116,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 848
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.5833435058594,
      "epoch": 0.6224340175953079,
      "grad_norm": 28.526409416857014,
      "kl": 2.85546875,
      "learning_rate": 4.377101614897846e-07,
      "loss": 0.352,
      "reward": 2.195107579231262,
      "reward_std": 0.5218371152877808,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9652778506278992,
      "rewards/repetition_penalty_reward": -0.03579512611031532,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 849
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 577.4166870117188,
      "epoch": 0.6231671554252199,
      "grad_norm": 37.260587944631546,
      "kl": 0.650390625,
      "learning_rate": 4.36594804929618e-07,
      "loss": 0.2685,
      "reward": 2.1056848764419556,
      "reward_std": 0.3163499981164932,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.034940145909786224,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 850
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 567.8125305175781,
      "epoch": 0.623900293255132,
      "grad_norm": 33.15755307793014,
      "kl": 0.625,
      "learning_rate": 4.3548019180501507e-07,
      "loss": 0.2817,
      "reward": 2.364286184310913,
      "reward_std": 0.4741703271865845,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.033283334225416183,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 851
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 598.2708435058594,
      "epoch": 0.624633431085044,
      "grad_norm": 36.042445713246025,
      "kl": 1.0625,
      "learning_rate": 4.3436632942289906e-07,
      "loss": 0.3447,
      "reward": 2.3856871128082275,
      "reward_std": 0.2271340936422348,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02577120065689087,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 852
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 653.6250305175781,
      "epoch": 0.625366568914956,
      "grad_norm": 23.030611745917525,
      "kl": 1.63671875,
      "learning_rate": 4.332532250852714e-07,
      "loss": 0.2798,
      "reward": 2.5467569828033447,
      "reward_std": 0.2622019178234041,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.029631933197379112,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 853
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.1250152587891,
      "epoch": 0.626099706744868,
      "grad_norm": 45.62070307646606,
      "kl": 1.939453125,
      "learning_rate": 4.3214088608916434e-07,
      "loss": 0.3685,
      "reward": 2.087291955947876,
      "reward_std": 0.2783538084477186,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.029027479700744152,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 854
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.3541717529297,
      "epoch": 0.6268328445747801,
      "grad_norm": 2.7971623845184217,
      "kl": 0.3408203125,
      "learning_rate": 4.310293197265925e-07,
      "loss": 0.028,
      "reward": 2.187386155128479,
      "reward_std": 0.08395049534738064,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.04178059101104736,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 855
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 597.6875305175781,
      "epoch": 0.6275659824046921,
      "grad_norm": 27.38210025221624,
      "kl": 1.9375,
      "learning_rate": 4.2991853328450614e-07,
      "loss": 0.4026,
      "reward": 2.115206718444824,
      "reward_std": 0.2261986956000328,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03409888409078121,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 856
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.4791717529297,
      "epoch": 0.6282991202346041,
      "grad_norm": 2.6566176387216998,
      "kl": 0.322265625,
      "learning_rate": 4.288085340447416e-07,
      "loss": 0.0651,
      "reward": 2.2131537199020386,
      "reward_std": 0.01848464645445347,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0368463434278965,
      "rewards/tag_count_reward": 1.0,
      "step": 857
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 565.0833435058594,
      "epoch": 0.6290322580645161,
      "grad_norm": 79.93200932269248,
      "kl": 4.1328125,
      "learning_rate": 4.276993292839761e-07,
      "loss": 0.468,
      "reward": 2.1203547716140747,
      "reward_std": 0.47893695533275604,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/reasoning_steps_reward": 0.9305555522441864,
      "rewards/repetition_penalty_reward": -0.02374246809631586,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 858
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.58335876464844,
      "epoch": 0.6297653958944281,
      "grad_norm": 26.589906300736143,
      "kl": 1.98046875,
      "learning_rate": 4.265909262736771e-07,
      "loss": 0.1595,
      "reward": 2.593329668045044,
      "reward_std": 0.3750048503279686,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03514259681105614,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 859
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 503.62501525878906,
      "epoch": 0.6304985337243402,
      "grad_norm": 37.42836620968271,
      "kl": 3.140625,
      "learning_rate": 4.254833322800574e-07,
      "loss": 0.308,
      "reward": 2.2453845143318176,
      "reward_std": 0.41341114044189453,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.030657252296805382,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 860
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 572.6666870117188,
      "epoch": 0.6312316715542522,
      "grad_norm": 28.722487794274045,
      "kl": 2.09375,
      "learning_rate": 4.243765545640251e-07,
      "loss": 0.383,
      "reward": 2.0623372197151184,
      "reward_std": 0.3823268860578537,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.031412893906235695,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 861
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.7708740234375,
      "epoch": 0.6319648093841642,
      "grad_norm": 111.3986361153325,
      "kl": 2.76953125,
      "learning_rate": 4.2327060038113837e-07,
      "loss": 0.5271,
      "reward": 2.1418474912643433,
      "reward_std": 0.25660426169633865,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.033499814569950104,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 862
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.25,
      "epoch": 0.6326979472140762,
      "grad_norm": 10.055558041580015,
      "kl": 1.318359375,
      "learning_rate": 4.221654769815557e-07,
      "loss": 0.1609,
      "reward": 2.0751833319664,
      "reward_std": 0.3235623463988304,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.030719462782144547,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 863
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 676.1666870117188,
      "epoch": 0.6334310850439883,
      "grad_norm": 19.25924102043533,
      "kl": 2.25,
      "learning_rate": 4.210611916099893e-07,
      "loss": 0.5061,
      "reward": 2.6473987102508545,
      "reward_std": 0.6665554046630859,
      "rewards/accuracy_reward": 0.8125000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024476418271660805,
      "rewards/tag_count_reward": 0.8593750298023224,
      "step": 864
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 508.43751525878906,
      "epoch": 0.6341642228739003,
      "grad_norm": 28.250092775048678,
      "kl": 1.51953125,
      "learning_rate": 4.199577515056585e-07,
      "loss": 0.3389,
      "reward": 2.5335538387298584,
      "reward_std": 0.5366398096084595,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028946143575012684,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 865
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.7708435058594,
      "epoch": 0.6348973607038123,
      "grad_norm": 26.750223462361088,
      "kl": 3.7421875,
      "learning_rate": 4.188551639022403e-07,
      "loss": 0.6715,
      "reward": 2.3956226110458374,
      "reward_std": 0.6546805948019028,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/reasoning_steps_reward": 0.9652778506278992,
      "rewards/repetition_penalty_reward": -0.02278023213148117,
      "rewards/tag_count_reward": 0.8281250298023224,
      "step": 866
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.95835876464844,
      "epoch": 0.6356304985337243,
      "grad_norm": 29.408610351733603,
      "kl": 2.384765625,
      "learning_rate": 4.177534360278243e-07,
      "loss": 0.1665,
      "reward": 2.386035919189453,
      "reward_std": 0.1823833561502397,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.965277761220932,
      "rewards/repetition_penalty_reward": -0.021950202994048595,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 867
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.2083435058594,
      "epoch": 0.6363636363636364,
      "grad_norm": 110.36280472120994,
      "kl": 3.8681640625,
      "learning_rate": 4.166525751048627e-07,
      "loss": 0.2498,
      "reward": 2.2553958892822266,
      "reward_std": 0.3366401940584183,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.025854194536805153,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 868
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 476.18751525878906,
      "epoch": 0.6370967741935484,
      "grad_norm": 13.18550031145197,
      "kl": 1.59375,
      "learning_rate": 4.1555258835012584e-07,
      "loss": 0.1452,
      "reward": 2.1661083102226257,
      "reward_std": 0.2015923522412777,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02486394625157118,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 869
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.2500305175781,
      "epoch": 0.6378299120234604,
      "grad_norm": 40.70040525572899,
      "kl": 2.9375,
      "learning_rate": 4.14453482974652e-07,
      "loss": 0.6383,
      "reward": 2.278277277946472,
      "reward_std": 0.4681243896484375,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.032486576586961746,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 870
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 467.29168701171875,
      "epoch": 0.6385630498533724,
      "grad_norm": 17.795600069868737,
      "kl": 3.828125,
      "learning_rate": 4.133552661837025e-07,
      "loss": 0.2062,
      "reward": 2.1841301918029785,
      "reward_std": 0.5829594433307648,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9444444179534912,
      "rewards/repetition_penalty_reward": -0.020731104537844658,
      "rewards/tag_count_reward": 0.8645833432674408,
      "step": 871
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.3125152587891,
      "epoch": 0.6392961876832844,
      "grad_norm": 43.26945725564012,
      "kl": 4.08984375,
      "learning_rate": 4.1225794517671285e-07,
      "loss": 0.197,
      "reward": 2.4382702112197876,
      "reward_std": 0.2991560027003288,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.027007670141756535,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 872
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.6875,
      "epoch": 0.6400293255131965,
      "grad_norm": 17.639295704811964,
      "kl": 2.29296875,
      "learning_rate": 4.1116152714724674e-07,
      "loss": 0.1169,
      "reward": 2.432923674583435,
      "reward_std": 0.628165602684021,
      "rewards/accuracy_reward": 0.625,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.028881912119686604,
      "rewards/tag_count_reward": 0.8645833432674408,
      "step": 873
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.2083435058594,
      "epoch": 0.6407624633431085,
      "grad_norm": 29.68998907263042,
      "kl": 1.32421875,
      "learning_rate": 4.1006601928294784e-07,
      "loss": 0.2301,
      "reward": 2.397642493247986,
      "reward_std": 0.24895144253969193,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02944089937955141,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 874
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.6250305175781,
      "epoch": 0.6414956011730205,
      "grad_norm": 27.368778550673742,
      "kl": 1.6611328125,
      "learning_rate": 4.089714287654935e-07,
      "loss": 0.4332,
      "reward": 1.908960998058319,
      "reward_std": 0.1527821570634842,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028539063408970833,
      "rewards/tag_count_reward": 0.9375,
      "step": 875
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.54168701171875,
      "epoch": 0.6422287390029325,
      "grad_norm": 39.697759908513824,
      "kl": 4.875,
      "learning_rate": 4.078777627705471e-07,
      "loss": 0.238,
      "reward": 2.047454297542572,
      "reward_std": 0.3919724375009537,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.023726369254291058,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 876
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 688.1875,
      "epoch": 0.6429618768328446,
      "grad_norm": 169.83376657930464,
      "kl": 7.9609375,
      "learning_rate": 4.0678502846771144e-07,
      "loss": 0.8107,
      "reward": 2.132183790206909,
      "reward_std": 0.7917422652244568,
      "rewards/accuracy_reward": 0.479166679084301,
      "rewards/reasoning_steps_reward": 0.9444445073604584,
      "rewards/repetition_penalty_reward": -0.02059413492679596,
      "rewards/tag_count_reward": 0.7291666865348816,
      "step": 877
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.31251525878906,
      "epoch": 0.6436950146627566,
      "grad_norm": 12.794387813445342,
      "kl": 2.21875,
      "learning_rate": 4.056932330204814e-07,
      "loss": -0.0479,
      "reward": 2.2172069549560547,
      "reward_std": 0.5325516164302826,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9305555820465088,
      "rewards/repetition_penalty_reward": -0.031056921929121017,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 878
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.5208435058594,
      "epoch": 0.6444281524926686,
      "grad_norm": 14.235078049102897,
      "kl": 2.2890625,
      "learning_rate": 4.046023835861974e-07,
      "loss": -0.0001,
      "reward": 2.0200721621513367,
      "reward_std": 0.48293229937553406,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9444445371627808,
      "rewards/repetition_penalty_reward": -0.023330658674240112,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 879
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.5208435058594,
      "epoch": 0.6451612903225806,
      "grad_norm": 11.144196187589753,
      "kl": 2.453125,
      "learning_rate": 4.0351248731599783e-07,
      "loss": 0.0756,
      "reward": 2.54099702835083,
      "reward_std": 0.31450748443603516,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 0.9652778506278992,
      "rewards/repetition_penalty_reward": -0.02844744734466076,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 880
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.7083435058594,
      "epoch": 0.6458944281524927,
      "grad_norm": 131.37077538412728,
      "kl": 6.78125,
      "learning_rate": 4.024235513547727e-07,
      "loss": 0.2691,
      "reward": 2.0147141218185425,
      "reward_std": 0.3997432589530945,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9583333134651184,
      "rewards/repetition_penalty_reward": -0.026952626183629036,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 881
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.33335876464844,
      "epoch": 0.6466275659824047,
      "grad_norm": 18.476069092789036,
      "kl": 1.51953125,
      "learning_rate": 4.0133558284111667e-07,
      "loss": 0.3195,
      "reward": 2.448356866836548,
      "reward_std": 0.07861550897359848,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030809794552624226,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 882
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.1875,
      "epoch": 0.6473607038123167,
      "grad_norm": 69.41799580183432,
      "kl": 5.953125,
      "learning_rate": 4.002485889072824e-07,
      "loss": 0.4949,
      "reward": 2.1838159561157227,
      "reward_std": 0.4903464764356613,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02972586080431938,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 883
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.5833435058594,
      "epoch": 0.6480938416422287,
      "grad_norm": 29.130292646666057,
      "kl": 4.484375,
      "learning_rate": 3.9916257667913334e-07,
      "loss": 0.3188,
      "reward": 2.184706151485443,
      "reward_std": 0.5841209590435028,
      "rewards/accuracy_reward": 0.41666667722165585,
      "rewards/reasoning_steps_reward": 0.9236111342906952,
      "rewards/repetition_penalty_reward": -0.03057180345058441,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 884
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.8958435058594,
      "epoch": 0.6488269794721407,
      "grad_norm": 17.0524891536949,
      "kl": 2.40234375,
      "learning_rate": 3.9807755327609726e-07,
      "loss": 0.045,
      "reward": 2.5808953046798706,
      "reward_std": 0.4498814642429352,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.02153550460934639,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 885
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.62501525878906,
      "epoch": 0.6495601173020528,
      "grad_norm": 8.964102948355622,
      "kl": 0.87890625,
      "learning_rate": 3.969935258111202e-07,
      "loss": 0.0768,
      "reward": 2.437723398208618,
      "reward_std": 0.12438751524314284,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.029290529899299145,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 886
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.10418701171875,
      "epoch": 0.6502932551319648,
      "grad_norm": 10.937132516667535,
      "kl": 2.02734375,
      "learning_rate": 3.959105013906184e-07,
      "loss": -0.0086,
      "reward": 2.470559239387512,
      "reward_std": 0.5151764750480652,
      "rewards/accuracy_reward": 0.625,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.02944083884358406,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 887
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.37501525878906,
      "epoch": 0.6510263929618768,
      "grad_norm": 367.04646478880846,
      "kl": 13.46875,
      "learning_rate": 3.9482848711443337e-07,
      "loss": 0.5179,
      "reward": 2.417901396751404,
      "reward_std": 0.6228555738925934,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.03175152279436588,
      "rewards/tag_count_reward": 0.8802083730697632,
      "step": 888
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.8125,
      "epoch": 0.6517595307917888,
      "grad_norm": 10.951809989922257,
      "kl": 2.0263671875,
      "learning_rate": 3.9374749007578387e-07,
      "loss": 0.1927,
      "reward": 2.1799603700637817,
      "reward_std": 0.10181637620553374,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02837303653359413,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 889
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.97918701171875,
      "epoch": 0.6524926686217009,
      "grad_norm": 20.50596982482667,
      "kl": 1.58203125,
      "learning_rate": 3.926675173612207e-07,
      "loss": 0.3129,
      "reward": 2.075802803039551,
      "reward_std": 0.3111816346645355,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.028363876976072788,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 890
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.0,
      "epoch": 0.6532258064516129,
      "grad_norm": 15.292377341650585,
      "kl": 1.27734375,
      "learning_rate": 3.9158857605057925e-07,
      "loss": 0.2264,
      "reward": 2.1522390842437744,
      "reward_std": 0.22247625887393951,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.03526082541793585,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 891
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.9583435058594,
      "epoch": 0.6539589442815249,
      "grad_norm": 9.261789926032487,
      "kl": 1.4775390625,
      "learning_rate": 3.905106732169333e-07,
      "loss": 0.1089,
      "reward": 1.9519801139831543,
      "reward_std": 0.06554302759468555,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.032394807785749435,
      "rewards/tag_count_reward": 0.984375,
      "step": 892
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.1041717529297,
      "epoch": 0.6546920821114369,
      "grad_norm": 30.881304534061154,
      "kl": 3.4609375,
      "learning_rate": 3.894338159265496e-07,
      "loss": -0.0058,
      "reward": 2.3012085556983948,
      "reward_std": 0.3849090188741684,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.033860914409160614,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 893
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 494.2083435058594,
      "epoch": 0.655425219941349,
      "grad_norm": 42.785081016691045,
      "kl": 3.8515625,
      "learning_rate": 3.883580112388396e-07,
      "loss": 0.2296,
      "reward": 2.1021071076393127,
      "reward_std": 0.2982870936393738,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.02810133434832096,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 894
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.1458435058594,
      "epoch": 0.656158357771261,
      "grad_norm": 21.129811313268846,
      "kl": 2.3798828125,
      "learning_rate": 3.872832662063156e-07,
      "loss": 0.1403,
      "reward": 2.5664910078048706,
      "reward_std": 0.23936194740235806,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02725913841277361,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 895
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.7083435058594,
      "epoch": 0.656891495601173,
      "grad_norm": 12.376034144224413,
      "kl": 1.5751953125,
      "learning_rate": 3.8620958787454214e-07,
      "loss": 0.0745,
      "reward": 2.406980276107788,
      "reward_std": 0.23445120081305504,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025311593897640705,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 896
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.3541870117188,
      "epoch": 0.657624633431085,
      "grad_norm": 480.63424417984,
      "kl": 2.890625,
      "learning_rate": 3.8513698328209197e-07,
      "loss": 0.1273,
      "reward": 1.9812852144241333,
      "reward_std": 0.01012721424922347,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018714841455221176,
      "rewards/tag_count_reward": 1.0,
      "step": 897
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.2291717529297,
      "epoch": 0.658357771260997,
      "grad_norm": 11.679079028241473,
      "kl": 1.40625,
      "learning_rate": 3.8406545946049795e-07,
      "loss": 0.059,
      "reward": 2.402749180793762,
      "reward_std": 0.22888202592730522,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03301479481160641,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 898
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.6875,
      "epoch": 0.6590909090909091,
      "grad_norm": 8.277870464945842,
      "kl": 0.8046875,
      "learning_rate": 3.8299502343420844e-07,
      "loss": -0.0369,
      "reward": 2.406039595603943,
      "reward_std": 0.24393422901630402,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.024516088888049126,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 899
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.6875,
      "epoch": 0.6598240469208211,
      "grad_norm": 9.435685885433191,
      "kl": 0.4560546875,
      "learning_rate": 3.819256822205403e-07,
      "loss": 0.0238,
      "reward": 2.6473140716552734,
      "reward_std": 0.1842022268101573,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.033241670578718185,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 900
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.7708435058594,
      "epoch": 0.6605571847507331,
      "grad_norm": 19.098315989449652,
      "kl": 0.65625,
      "learning_rate": 3.8085744282963385e-07,
      "loss": 0.234,
      "reward": 2.652103304862976,
      "reward_std": 0.23995533771812916,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03018837235867977,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 901
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 440.0833435058594,
      "epoch": 0.6612903225806451,
      "grad_norm": 6.5723034415157455,
      "kl": 0.8974609375,
      "learning_rate": 3.7979031226440563e-07,
      "loss": -0.0024,
      "reward": 2.4431477785110474,
      "reward_std": 0.09110517054796219,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.032546691596508026,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 902
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.875,
      "epoch": 0.6620234604105572,
      "grad_norm": 23.22294687828924,
      "kl": 1.6357421875,
      "learning_rate": 3.787242975205037e-07,
      "loss": 0.3049,
      "reward": 2.138901650905609,
      "reward_std": 0.24177566915750504,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022556803189218044,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 903
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 506.8958435058594,
      "epoch": 0.6627565982404692,
      "grad_norm": 11.32486166375894,
      "kl": 0.791015625,
      "learning_rate": 3.7765940558626096e-07,
      "loss": 0.1872,
      "reward": 2.700243353843689,
      "reward_std": 0.08089052699506283,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0237151263281703,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 904
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.8541717529297,
      "epoch": 0.6634897360703812,
      "grad_norm": 27.191439861059074,
      "kl": 2.7958984375,
      "learning_rate": 3.7659564344264994e-07,
      "loss": 0.1591,
      "reward": 2.1992244124412537,
      "reward_std": 0.08250689785927534,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029942267574369907,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 905
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.35418701171875,
      "epoch": 0.6642228739002932,
      "grad_norm": 15.490785850217982,
      "kl": 1.1484375,
      "learning_rate": 3.755330180632367e-07,
      "loss": 0.2352,
      "reward": 2.706392288208008,
      "reward_std": 0.18476082384586334,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.021038434468209743,
      "rewards/tag_count_reward": 0.984375,
      "step": 906
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.6458435058594,
      "epoch": 0.6649560117302052,
      "grad_norm": 3.090235873839556,
      "kl": 0.423828125,
      "learning_rate": 3.7447153641413463e-07,
      "loss": 0.0419,
      "reward": 2.4653698205947876,
      "reward_std": 0.0442873565480113,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024213584139943123,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 907
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.75001525878906,
      "epoch": 0.6656891495601173,
      "grad_norm": 3.7331624609730536,
      "kl": 0.46875,
      "learning_rate": 3.734112054539602e-07,
      "loss": 0.0311,
      "reward": 2.458762228488922,
      "reward_std": 0.049120476469397545,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03082120604813099,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 908
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.3958435058594,
      "epoch": 0.6664222873900293,
      "grad_norm": 63.54354843221626,
      "kl": 5.3203125,
      "learning_rate": 3.7235203213378577e-07,
      "loss": 0.7462,
      "reward": 2.206181049346924,
      "reward_std": 0.49717573821544647,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03861072286963463,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 909
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.4583435058594,
      "epoch": 0.6671554252199413,
      "grad_norm": 5.683418641201284,
      "kl": 1.1435546875,
      "learning_rate": 3.7129402339709526e-07,
      "loss": 0.1774,
      "reward": 2.4271193742752075,
      "reward_std": 0.11568078305572271,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02600565180182457,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 910
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.6458435058594,
      "epoch": 0.6678885630498533,
      "grad_norm": 7.617088538664095,
      "kl": 0.6669921875,
      "learning_rate": 3.7023718617973745e-07,
      "loss": 0.2202,
      "reward": 2.146929442882538,
      "reward_std": 0.25023030769079924,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.019737189635634422,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 911
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.1458435058594,
      "epoch": 0.6686217008797654,
      "grad_norm": 14.494392463460322,
      "kl": 1.21484375,
      "learning_rate": 3.6918152740988163e-07,
      "loss": 0.2576,
      "reward": 2.3849753737449646,
      "reward_std": 0.29698850959539413,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02821914665400982,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 912
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.06251525878906,
      "epoch": 0.6693548387096774,
      "grad_norm": 7.684407419722121,
      "kl": 1.83984375,
      "learning_rate": 3.681270540079715e-07,
      "loss": 0.0467,
      "reward": 2.5368086099624634,
      "reward_std": 0.45409172028303146,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02742769941687584,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 913
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 417.5416717529297,
      "epoch": 0.6700879765395894,
      "grad_norm": 5.5507149790575365,
      "kl": 1.115234375,
      "learning_rate": 3.6707377288668017e-07,
      "loss": 0.0354,
      "reward": 2.65383780002594,
      "reward_std": 0.1826682216487825,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.026717686094343662,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 914
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.04168701171875,
      "epoch": 0.6708211143695014,
      "grad_norm": 4.575828310673458,
      "kl": 0.4970703125,
      "learning_rate": 3.6602169095086434e-07,
      "loss": -0.0017,
      "reward": 2.404066324234009,
      "reward_std": 0.25298498570919037,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023017059080302715,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 915
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.0625,
      "epoch": 0.6715542521994134,
      "grad_norm": 35.23107554083441,
      "kl": 1.98046875,
      "learning_rate": 3.649708150975197e-07,
      "loss": 0.4676,
      "reward": 1.9426430463790894,
      "reward_std": 0.26459813117980957,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02610696479678154,
      "rewards/tag_count_reward": 0.9270833730697632,
      "step": 916
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.37501525878906,
      "epoch": 0.6722873900293255,
      "grad_norm": 34.980059238686245,
      "kl": 1.9990234375,
      "learning_rate": 3.6392115221573515e-07,
      "loss": 0.1372,
      "reward": 2.4030675888061523,
      "reward_std": 0.1829522354528308,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024015815928578377,
      "rewards/tag_count_reward": 0.96875,
      "step": 917
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.87501525878906,
      "epoch": 0.6730205278592375,
      "grad_norm": 3.538742597821187,
      "kl": 0.796875,
      "learning_rate": 3.6287270918664837e-07,
      "loss": 0.0092,
      "reward": 2.6298184394836426,
      "reward_std": 0.27230154722929,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021223259158432484,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 918
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.8958435058594,
      "epoch": 0.6737536656891495,
      "grad_norm": 12.629477020085433,
      "kl": 0.779296875,
      "learning_rate": 3.6182549288339905e-07,
      "loss": 0.1492,
      "reward": 2.2270041704177856,
      "reward_std": 0.23701730370521545,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02820419240742922,
      "rewards/tag_count_reward": 0.984375,
      "step": 919
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.18751525878906,
      "epoch": 0.6744868035190615,
      "grad_norm": 3.4352358495668835,
      "kl": 0.392578125,
      "learning_rate": 3.607795101710865e-07,
      "loss": 0.0245,
      "reward": 2.4957412481307983,
      "reward_std": 0.07916717370972037,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025092164054512978,
      "rewards/tag_count_reward": 1.0,
      "step": 920
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.2916717529297,
      "epoch": 0.6752199413489736,
      "grad_norm": 3.1335327742824615,
      "kl": 0.37109375,
      "learning_rate": 3.597347679067222e-07,
      "loss": 0.0056,
      "reward": 2.2258177399635315,
      "reward_std": 0.011170658748596907,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024182401597499847,
      "rewards/tag_count_reward": 1.0,
      "step": 921
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 541.1458435058594,
      "epoch": 0.6759530791788856,
      "grad_norm": 26.459636599607972,
      "kl": 3.4921875,
      "learning_rate": 3.586912729391857e-07,
      "loss": 0.3193,
      "reward": 2.3519192934036255,
      "reward_std": 0.32803425192832947,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02308077458292246,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 922
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.9583435058594,
      "epoch": 0.6766862170087976,
      "grad_norm": 3.626780250846866,
      "kl": 0.3642578125,
      "learning_rate": 3.576490321091805e-07,
      "loss": 0.0544,
      "reward": 2.2058114409446716,
      "reward_std": 0.08280891180038452,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023355277255177498,
      "rewards/tag_count_reward": 1.0,
      "step": 923
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.0833435058594,
      "epoch": 0.6774193548387096,
      "grad_norm": 6.7576974288115785,
      "kl": 0.7353515625,
      "learning_rate": 3.5660805224918766e-07,
      "loss": 0.0833,
      "reward": 2.2170188426971436,
      "reward_std": 0.060911763459444046,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01735620480030775,
      "rewards/tag_count_reward": 0.984375,
      "step": 924
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.7291717529297,
      "epoch": 0.6781524926686217,
      "grad_norm": 54.06107893396688,
      "kl": 0.638671875,
      "learning_rate": 3.555683401834229e-07,
      "loss": 0.1777,
      "reward": 2.3949154019355774,
      "reward_std": 0.20315419882535934,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.030431894585490227,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 925
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.0,
      "epoch": 0.6788856304985337,
      "grad_norm": 3.7304310474391342,
      "kl": 0.3349609375,
      "learning_rate": 3.545299027277897e-07,
      "loss": 0.0282,
      "reward": 2.420232832431793,
      "reward_std": 0.18446220457553864,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027683909982442856,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 926
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.0625305175781,
      "epoch": 0.6796187683284457,
      "grad_norm": 2.8505337887237907,
      "kl": 0.3388671875,
      "learning_rate": 3.5349274668983674e-07,
      "loss": 0.0159,
      "reward": 2.2121185064315796,
      "reward_std": 0.07882623188197613,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01704825460910797,
      "rewards/tag_count_reward": 1.0,
      "step": 927
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.81251525878906,
      "epoch": 0.6803519061583577,
      "grad_norm": 5.799691271582148,
      "kl": 0.447265625,
      "learning_rate": 3.5245687886871146e-07,
      "loss": -0.0252,
      "reward": 2.419118046760559,
      "reward_std": 0.1844143122434616,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02879861183464527,
      "rewards/tag_count_reward": 0.96875,
      "step": 928
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.0,
      "epoch": 0.6810850439882697,
      "grad_norm": 3.071210500109716,
      "kl": 0.3623046875,
      "learning_rate": 3.514223060551169e-07,
      "loss": 0.0314,
      "reward": 2.18208384513855,
      "reward_std": 0.1516893282532692,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026249597780406475,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 929
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.81251525878906,
      "epoch": 0.6818181818181818,
      "grad_norm": 20.45901417722426,
      "kl": 1.2587890625,
      "learning_rate": 3.5038903503126615e-07,
      "loss": 0.2261,
      "reward": 2.42332124710083,
      "reward_std": 0.12113591935485601,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.028067844919860363,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 930
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.31251525878906,
      "epoch": 0.6825513196480938,
      "grad_norm": 3204.5978551725684,
      "kl": 18.5478515625,
      "learning_rate": 3.493570725708389e-07,
      "loss": 2.0223,
      "reward": 2.3534035682678223,
      "reward_std": 0.24623488262295723,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026804929599165916,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 931
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 534.5833435058594,
      "epoch": 0.6832844574780058,
      "grad_norm": 86.07803816104924,
      "kl": 4.0537109375,
      "learning_rate": 3.483264254389358e-07,
      "loss": 0.4928,
      "reward": 2.188483476638794,
      "reward_std": 0.2733900472521782,
      "rewards/accuracy_reward": 0.25000000558793545,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025058263912796974,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 932
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.0208435058594,
      "epoch": 0.6840175953079178,
      "grad_norm": 22.812614433514874,
      "kl": 1.59375,
      "learning_rate": 3.472971003920353e-07,
      "loss": 0.1919,
      "reward": 2.3389848470687866,
      "reward_std": 0.393401101231575,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.030806850641965866,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 933
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.6250152587891,
      "epoch": 0.6847507331378299,
      "grad_norm": 2.672732005418521,
      "kl": 0.3359375,
      "learning_rate": 3.462691041779483e-07,
      "loss": 0.0192,
      "reward": 2.4783459901809692,
      "reward_std": 0.011177142150700092,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02165412623435259,
      "rewards/tag_count_reward": 1.0,
      "step": 934
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.8958435058594,
      "epoch": 0.6854838709677419,
      "grad_norm": 5.349593962272704,
      "kl": 0.416015625,
      "learning_rate": 3.4524244353577513e-07,
      "loss": 0.0268,
      "reward": 2.214493155479431,
      "reward_std": 0.051492489874362946,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02335413731634617,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 935
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.7708435058594,
      "epoch": 0.6862170087976539,
      "grad_norm": 14.297145277012756,
      "kl": 1.078125,
      "learning_rate": 3.4421712519586016e-07,
      "loss": 0.2576,
      "reward": 2.4406609535217285,
      "reward_std": 0.1489308439195156,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017672521993517876,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 936
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 493.5208435058594,
      "epoch": 0.6869501466275659,
      "grad_norm": 32.92184403209849,
      "kl": 1.6328125,
      "learning_rate": 3.4319315587974806e-07,
      "loss": 0.3352,
      "reward": 2.660341739654541,
      "reward_std": 0.22230494022369385,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027158407494425774,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 937
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.8541717529297,
      "epoch": 0.6876832844574781,
      "grad_norm": 8.17285504048901,
      "kl": 0.4970703125,
      "learning_rate": 3.4217054230014073e-07,
      "loss": 0.0179,
      "reward": 2.4424521923065186,
      "reward_std": 0.1104821190237999,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02629770338535309,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 938
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.3125,
      "epoch": 0.6884164222873901,
      "grad_norm": 8.937956638965543,
      "kl": 0.55859375,
      "learning_rate": 3.411492911608513e-07,
      "loss": 0.0235,
      "reward": 1.9536827206611633,
      "reward_std": 0.07988723739981651,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02548403199762106,
      "rewards/tag_count_reward": 1.0,
      "step": 939
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.7708435058594,
      "epoch": 0.6891495601173021,
      "grad_norm": 83.16419128491232,
      "kl": 5.015625,
      "learning_rate": 3.401294091567626e-07,
      "loss": 0.7022,
      "reward": 1.9109691977500916,
      "reward_std": 0.28589335083961487,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.04041970055550337,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 940
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.4375,
      "epoch": 0.6898826979472141,
      "grad_norm": 57.040934440046975,
      "kl": 3.2890625,
      "learning_rate": 3.3911090297378054e-07,
      "loss": 0.3252,
      "reward": 2.1530415415763855,
      "reward_std": 0.22559036314487457,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.027514135465025902,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 941
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.00001525878906,
      "epoch": 0.6906158357771262,
      "grad_norm": 2.8055744806214746,
      "kl": 0.349609375,
      "learning_rate": 3.3809377928879327e-07,
      "loss": 0.0145,
      "reward": 2.45681369304657,
      "reward_std": 0.08130190032534301,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02235298790037632,
      "rewards/tag_count_reward": 1.0,
      "step": 942
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.31251525878906,
      "epoch": 0.6913489736070382,
      "grad_norm": 4.906686721090249,
      "kl": 0.345703125,
      "learning_rate": 3.370780447696246e-07,
      "loss": 0.0158,
      "reward": 2.449528932571411,
      "reward_std": 0.09997610654681921,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02442941814661026,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 943
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.50001525878906,
      "epoch": 0.6920821114369502,
      "grad_norm": 7.045604029987775,
      "kl": 1.572265625,
      "learning_rate": 3.360637060749924e-07,
      "loss": 0.0785,
      "reward": 1.9422118663787842,
      "reward_std": 0.07563984906300902,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02306581661105156,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 944
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.3333435058594,
      "epoch": 0.6928152492668622,
      "grad_norm": 4.579383798845335,
      "kl": 0.3828125,
      "learning_rate": 3.350507698544636e-07,
      "loss": 0.0729,
      "reward": 2.200911045074463,
      "reward_std": 0.07387769222259521,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02304728701710701,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 945
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.29168701171875,
      "epoch": 0.6935483870967742,
      "grad_norm": 11.882042524248234,
      "kl": 1.51171875,
      "learning_rate": 3.340392427484117e-07,
      "loss": 0.1229,
      "reward": 2.3835513591766357,
      "reward_std": 0.24781902134418488,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022698688320815563,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 946
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.2708435058594,
      "epoch": 0.6942815249266863,
      "grad_norm": 16.42715424721198,
      "kl": 1.53515625,
      "learning_rate": 3.330291313879716e-07,
      "loss": 0.2588,
      "reward": 2.4029751420021057,
      "reward_std": 0.23220430314540863,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.0310527877882123,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 947
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.75001525878906,
      "epoch": 0.6950146627565983,
      "grad_norm": 22.424491823020983,
      "kl": 2.09765625,
      "learning_rate": 3.3202044239499867e-07,
      "loss": 0.3906,
      "reward": 2.326223611831665,
      "reward_std": 0.40988829731941223,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.024470987729728222,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 948
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.9166870117188,
      "epoch": 0.6957478005865103,
      "grad_norm": 84.3739723227209,
      "kl": 7.5234375,
      "learning_rate": 3.3101318238202245e-07,
      "loss": 0.415,
      "reward": 2.309966802597046,
      "reward_std": 0.2813423126935959,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.019894277676939964,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 949
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.7708435058594,
      "epoch": 0.6964809384164223,
      "grad_norm": 34.148485717679705,
      "kl": 3.671875,
      "learning_rate": 3.3000735795220566e-07,
      "loss": 0.4339,
      "reward": 2.2733023166656494,
      "reward_std": 0.4924462139606476,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.023572625126689672,
      "rewards/tag_count_reward": 0.8802083432674408,
      "step": 950
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 540.9166717529297,
      "epoch": 0.6972140762463344,
      "grad_norm": 41.73333734505236,
      "kl": 4.234375,
      "learning_rate": 3.290029756992995e-07,
      "loss": 0.4413,
      "reward": 2.3373730182647705,
      "reward_std": 0.3256710283458233,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027210503350943327,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 951
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 519.5625,
      "epoch": 0.6979472140762464,
      "grad_norm": 76.8637407662865,
      "kl": 6.9921875,
      "learning_rate": 3.280000422076007e-07,
      "loss": 0.6329,
      "reward": 2.4091644287109375,
      "reward_std": 0.26125724613666534,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.024863524362444878,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 952
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.1041717529297,
      "epoch": 0.6986803519061584,
      "grad_norm": 5.933236012161051,
      "kl": 0.72265625,
      "learning_rate": 3.269985640519093e-07,
      "loss": 0.043,
      "reward": 2.4667599201202393,
      "reward_std": 0.04559937119483948,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022823692299425602,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 953
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.2291717529297,
      "epoch": 0.6994134897360704,
      "grad_norm": 11.219462628947934,
      "kl": 0.67578125,
      "learning_rate": 3.259985477974838e-07,
      "loss": 0.0423,
      "reward": 2.6256914138793945,
      "reward_std": 0.2616752292960882,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030558819882571697,
      "rewards/tag_count_reward": 0.96875,
      "step": 954
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 508.47918701171875,
      "epoch": 0.7001466275659824,
      "grad_norm": 43.155555290044155,
      "kl": 1.7216796875,
      "learning_rate": 3.250000000000001e-07,
      "loss": 0.3124,
      "reward": 2.1255834102630615,
      "reward_std": 0.252389095723629,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.021986079402267933,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 955
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.18751525878906,
      "epoch": 0.7008797653958945,
      "grad_norm": 25.849133555001085,
      "kl": 3.09375,
      "learning_rate": 3.240029272055065e-07,
      "loss": 0.3879,
      "reward": 2.3594762086868286,
      "reward_std": 0.5459988713264465,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.025940511375665665,
      "rewards/tag_count_reward": 0.8645833730697632,
      "step": 956
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.4375,
      "epoch": 0.7016129032258065,
      "grad_norm": 8.258539904474,
      "kl": 0.76171875,
      "learning_rate": 3.230073359503829e-07,
      "loss": 0.0552,
      "reward": 2.192040979862213,
      "reward_std": 0.13235630840063095,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021500680595636368,
      "rewards/tag_count_reward": 0.984375,
      "step": 957
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.3333435058594,
      "epoch": 0.7023460410557185,
      "grad_norm": 8.679112971623974,
      "kl": 1.78125,
      "learning_rate": 3.220132327612959e-07,
      "loss": 0.0354,
      "reward": 2.4318766593933105,
      "reward_std": 0.42502492666244507,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02124821860343218,
      "rewards/tag_count_reward": 0.890625,
      "step": 958
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 515.6458435058594,
      "epoch": 0.7030791788856305,
      "grad_norm": 27.796035153234367,
      "kl": 1.87890625,
      "learning_rate": 3.210206241551576e-07,
      "loss": 0.1472,
      "reward": 2.4991250038146973,
      "reward_std": 0.5063153505325317,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028652765788137913,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 959
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.5208435058594,
      "epoch": 0.7038123167155426,
      "grad_norm": 16.67018322666244,
      "kl": 3.1796875,
      "learning_rate": 3.2002951663908184e-07,
      "loss": 0.3967,
      "reward": 2.2723554372787476,
      "reward_std": 0.4776581823825836,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02451958041638136,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 960
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.6250305175781,
      "epoch": 0.7045454545454546,
      "grad_norm": 18.351794895624867,
      "kl": 2.2109375,
      "learning_rate": 3.1903991671034257e-07,
      "loss": 0.3861,
      "reward": 2.369241237640381,
      "reward_std": 0.22771289199590683,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026591990143060684,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 961
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.47918701171875,
      "epoch": 0.7052785923753666,
      "grad_norm": 13.326292369321743,
      "kl": 2.2421875,
      "learning_rate": 3.180518308563298e-07,
      "loss": 0.2725,
      "reward": 2.3383569717407227,
      "reward_std": 0.3190757483243942,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02101796120405197,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 962
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 503.2291717529297,
      "epoch": 0.7060117302052786,
      "grad_norm": 38.51770861382194,
      "kl": 4.75,
      "learning_rate": 3.1706526555450874e-07,
      "loss": 0.5938,
      "reward": 2.50447940826416,
      "reward_std": 0.4233640283346176,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03197902161628008,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 963
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.4583435058594,
      "epoch": 0.7067448680351907,
      "grad_norm": 23.230178570798735,
      "kl": 4.46875,
      "learning_rate": 3.160802272723758e-07,
      "loss": 0.2725,
      "reward": 2.4244531393051147,
      "reward_std": 0.4745712876319885,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.030408103950321674,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 964
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.6041717529297,
      "epoch": 0.7074780058651027,
      "grad_norm": 88.08557499027471,
      "kl": 7.671875,
      "learning_rate": 3.150967224674177e-07,
      "loss": 0.5289,
      "reward": 1.9547891020774841,
      "reward_std": 0.3700524717569351,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.02437763847410679,
      "rewards/tag_count_reward": 0.8541666865348816,
      "step": 965
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 504.31251525878906,
      "epoch": 0.7082111436950147,
      "grad_norm": 15.371719850558602,
      "kl": 2.17578125,
      "learning_rate": 3.141147575870676e-07,
      "loss": 0.3489,
      "reward": 2.378512144088745,
      "reward_std": 0.308450847864151,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.019057356752455235,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 966
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.60418701171875,
      "epoch": 0.7089442815249267,
      "grad_norm": 11.79394222832606,
      "kl": 2.16015625,
      "learning_rate": 3.1313433906866374e-07,
      "loss": 0.2853,
      "reward": 2.5798145532608032,
      "reward_std": 0.33551979064941406,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024352273903787136,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 967
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.29168701171875,
      "epoch": 0.7096774193548387,
      "grad_norm": 14.817819935865485,
      "kl": 3.67578125,
      "learning_rate": 3.1215547333940764e-07,
      "loss": 0.1242,
      "reward": 2.103150486946106,
      "reward_std": 0.185621440410614,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.020113405771553516,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 968
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.12501525878906,
      "epoch": 0.7104105571847508,
      "grad_norm": 9.799356075669513,
      "kl": 2.66015625,
      "learning_rate": 3.1117816681632046e-07,
      "loss": 0.1152,
      "reward": 2.278549313545227,
      "reward_std": 0.29779060930013657,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.023534007370471954,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 969
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 490.7291717529297,
      "epoch": 0.7111436950146628,
      "grad_norm": 23.529385447949288,
      "kl": 2.2421875,
      "learning_rate": 3.1020242590620293e-07,
      "loss": 0.2476,
      "reward": 1.8638713955879211,
      "reward_std": 0.26981137692928314,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652778506278992,
      "rewards/repetition_penalty_reward": -0.023281488567590714,
      "rewards/tag_count_reward": 0.921875,
      "step": 970
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 577.4166870117188,
      "epoch": 0.7118768328445748,
      "grad_norm": 17.290844738388767,
      "kl": 0.8828125,
      "learning_rate": 3.092282570055913e-07,
      "loss": 0.0675,
      "reward": 2.3447808027267456,
      "reward_std": 0.29597213864326477,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.012858240399509668,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 971
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.4583435058594,
      "epoch": 0.7126099706744868,
      "grad_norm": 25.22529983173914,
      "kl": 2.34375,
      "learning_rate": 3.0825566650071726e-07,
      "loss": 0.2648,
      "reward": 2.5462182760238647,
      "reward_std": 0.37398337107151747,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.026698616333305836,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 972
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 556.3125,
      "epoch": 0.7133431085043989,
      "grad_norm": 57.26538846475611,
      "kl": 2.48828125,
      "learning_rate": 3.072846607674645e-07,
      "loss": 0.6625,
      "reward": 2.342366099357605,
      "reward_std": 0.38562868535518646,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0222172187641263,
      "rewards/tag_count_reward": 0.9270833730697632,
      "step": 973
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 504.4791717529297,
      "epoch": 0.7140762463343109,
      "grad_norm": 28.943299265226212,
      "kl": 4.5546875,
      "learning_rate": 3.063152461713282e-07,
      "loss": 0.3193,
      "reward": 2.0221683979034424,
      "reward_std": 0.4104950726032257,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.02123451605439186,
      "rewards/tag_count_reward": 0.8906250298023224,
      "step": 974
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 545.0000152587891,
      "epoch": 0.7148093841642229,
      "grad_norm": 117.23597424908264,
      "kl": 11.8203125,
      "learning_rate": 3.053474290673722e-07,
      "loss": 0.9305,
      "reward": 2.131690263748169,
      "reward_std": 0.6166838854551315,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9513889253139496,
      "rewards/repetition_penalty_reward": -0.017615425400435925,
      "rewards/tag_count_reward": 0.71875,
      "step": 975
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 508.16668701171875,
      "epoch": 0.7155425219941349,
      "grad_norm": 26.99768837152522,
      "kl": 4.7421875,
      "learning_rate": 3.0438121580018863e-07,
      "loss": 0.5739,
      "reward": 2.092137038707733,
      "reward_std": 0.2849106341600418,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.020710238255560398,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 976
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 576.7083435058594,
      "epoch": 0.716275659824047,
      "grad_norm": 30.385974891375128,
      "kl": 3.8359375,
      "learning_rate": 3.0341661270385446e-07,
      "loss": 0.4812,
      "reward": 2.785071015357971,
      "reward_std": 0.561683714389801,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/reasoning_steps_reward": 0.965277761220932,
      "rewards/repetition_penalty_reward": -0.023956785909831524,
      "rewards/tag_count_reward": 0.9270833730697632,
      "step": 977
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 405.2291717529297,
      "epoch": 0.717008797653959,
      "grad_norm": 10.81014359610337,
      "kl": 1.70703125,
      "learning_rate": 3.024536261018923e-07,
      "loss": 0.0371,
      "reward": 2.183934807777405,
      "reward_std": 0.1534016877412796,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02266244124621153,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 978
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.4166717529297,
      "epoch": 0.717741935483871,
      "grad_norm": 20.583436231099498,
      "kl": 4.859375,
      "learning_rate": 3.0149226230722656e-07,
      "loss": 0.5499,
      "reward": 2.495741605758667,
      "reward_std": 0.45375633239746094,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.021619529463350773,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 979
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.1875305175781,
      "epoch": 0.718475073313783,
      "grad_norm": 21.523757743477038,
      "kl": 3.1484375,
      "learning_rate": 3.0053252762214434e-07,
      "loss": 0.5152,
      "reward": 2.2795934081077576,
      "reward_std": 0.5194336771965027,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02075397362932563,
      "rewards/tag_count_reward": 0.8697916865348816,
      "step": 980
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.6458435058594,
      "epoch": 0.719208211143695,
      "grad_norm": 9.328779600109762,
      "kl": 2.67578125,
      "learning_rate": 2.9957442833825207e-07,
      "loss": 0.023,
      "reward": 1.9250345826148987,
      "reward_std": 0.28224488347768784,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.02461833320558071,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 981
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.7083435058594,
      "epoch": 0.7199413489736071,
      "grad_norm": 68.08501111143843,
      "kl": 7.2265625,
      "learning_rate": 2.986179707364355e-07,
      "loss": 0.6412,
      "reward": 2.2177438735961914,
      "reward_std": 0.499715194106102,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.025311839766800404,
      "rewards/tag_count_reward": 0.875,
      "step": 982
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.9166870117188,
      "epoch": 0.7206744868035191,
      "grad_norm": 53.114941492476,
      "kl": 6.5390625,
      "learning_rate": 2.9766316108681867e-07,
      "loss": 0.3512,
      "reward": 2.465793192386627,
      "reward_std": 0.4085993431508541,
      "rewards/accuracy_reward": 0.6666666716337204,
      "rewards/reasoning_steps_reward": 0.944444477558136,
      "rewards/repetition_penalty_reward": -0.020318015478551388,
      "rewards/tag_count_reward": 0.875,
      "step": 983
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.87501525878906,
      "epoch": 0.7214076246334311,
      "grad_norm": 21.15094205176047,
      "kl": 5.328125,
      "learning_rate": 2.9671000564872155e-07,
      "loss": 0.2666,
      "reward": 2.513883590698242,
      "reward_std": 0.42151640355587006,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.017366615124046803,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 984
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 524.2916717529297,
      "epoch": 0.7221407624633431,
      "grad_norm": 29.752132464122592,
      "kl": 4.78125,
      "learning_rate": 2.9575851067062065e-07,
      "loss": 0.5037,
      "reward": 2.2734715938568115,
      "reward_std": 0.5585350394248962,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9513888955116272,
      "rewards/repetition_penalty_reward": -0.02166739758104086,
      "rewards/tag_count_reward": 0.8854166865348816,
      "step": 985
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.8333435058594,
      "epoch": 0.7228739002932552,
      "grad_norm": 14.723027004397416,
      "kl": 4.6484375,
      "learning_rate": 2.948086823901064e-07,
      "loss": 0.4912,
      "reward": 2.0892439484596252,
      "reward_std": 0.30918999761343,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.025339476764202118,
      "rewards/tag_count_reward": 0.9062500298023224,
      "step": 986
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.375,
      "epoch": 0.7236070381231672,
      "grad_norm": 21.42719494284422,
      "kl": 3.1953125,
      "learning_rate": 2.938605270338438e-07,
      "loss": 0.305,
      "reward": 2.3562979698181152,
      "reward_std": 0.33968590199947357,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.022174209356307983,
      "rewards/tag_count_reward": 0.9270833730697632,
      "step": 987
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.4166870117188,
      "epoch": 0.7243401759530792,
      "grad_norm": 57.98934250609035,
      "kl": 2.4609375,
      "learning_rate": 2.929140508175303e-07,
      "loss": 0.4714,
      "reward": 2.6463661193847656,
      "reward_std": 0.5489610433578491,
      "rewards/accuracy_reward": 0.8333333730697632,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.01856454461812973,
      "rewards/tag_count_reward": 0.8385416865348816,
      "step": 988
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 504.12501525878906,
      "epoch": 0.7250733137829912,
      "grad_norm": 5.472385083004388,
      "kl": 0.865234375,
      "learning_rate": 2.919692599458562e-07,
      "loss": -0.0366,
      "reward": 2.373246669769287,
      "reward_std": 0.2569347317330539,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.019114472903311253,
      "rewards/tag_count_reward": 0.96875,
      "step": 989
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 519.3541717529297,
      "epoch": 0.7258064516129032,
      "grad_norm": 39.08643489144547,
      "kl": 1.72265625,
      "learning_rate": 2.910261606124628e-07,
      "loss": 0.3925,
      "reward": 2.668207883834839,
      "reward_std": 0.20043479651212692,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019292150624096394,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 990
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.75,
      "epoch": 0.7265395894428153,
      "grad_norm": 10.397393837487297,
      "kl": 3.3984375,
      "learning_rate": 2.9008475899990303e-07,
      "loss": 0.3512,
      "reward": 1.907959520816803,
      "reward_std": 0.17317739874124527,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.0225960835814476,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 991
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 423.0,
      "epoch": 0.7272727272727273,
      "grad_norm": 6.425647931776092,
      "kl": 1.0693359375,
      "learning_rate": 2.891450612795996e-07,
      "loss": 0.0657,
      "reward": 2.434900164604187,
      "reward_std": 0.11677450966089964,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.033849772065877914,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 992
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.8958435058594,
      "epoch": 0.7280058651026393,
      "grad_norm": 7.681856829230564,
      "kl": 0.69140625,
      "learning_rate": 2.88207073611806e-07,
      "loss": 0.0605,
      "reward": 2.4544625282287598,
      "reward_std": 0.09726346097886562,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019495833665132523,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 993
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.3750152587891,
      "epoch": 0.7287390029325513,
      "grad_norm": 32.06588173332881,
      "kl": 3.70703125,
      "learning_rate": 2.8727080214556457e-07,
      "loss": 0.5747,
      "reward": 2.737803339958191,
      "reward_std": 0.5189033299684525,
      "rewards/accuracy_reward": 0.8750000298023224,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.024349420331418514,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 994
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.4166717529297,
      "epoch": 0.7294721407624634,
      "grad_norm": 34.63378364115736,
      "kl": 3.9453125,
      "learning_rate": 2.863362530186678e-07,
      "loss": 0.2747,
      "reward": 2.359430193901062,
      "reward_std": 0.3197652115486562,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02772271167486906,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 995
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 442.2916717529297,
      "epoch": 0.7302052785923754,
      "grad_norm": 11.427440648824225,
      "kl": 1.951171875,
      "learning_rate": 2.8540343235761647e-07,
      "loss": 0.1325,
      "reward": 2.1879454851150513,
      "reward_std": 0.10632134415209293,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02038785256445408,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 996
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.9375152587891,
      "epoch": 0.7309384164222874,
      "grad_norm": 40.24736372449541,
      "kl": 5.890625,
      "learning_rate": 2.844723462775808e-07,
      "loss": 0.6704,
      "reward": 2.442981481552124,
      "reward_std": 0.531048059463501,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/reasoning_steps_reward": 0.9374999701976776,
      "rewards/repetition_penalty_reward": -0.025768570601940155,
      "rewards/tag_count_reward": 0.90625,
      "step": 997
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.7708435058594,
      "epoch": 0.7316715542521994,
      "grad_norm": 5.792758545167139,
      "kl": 0.421875,
      "learning_rate": 2.835430008823595e-07,
      "loss": 0.0022,
      "reward": 2.200049042701721,
      "reward_std": 0.11532247066497803,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018701023422181606,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 998
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.22918701171875,
      "epoch": 0.7324046920821115,
      "grad_norm": 4.830574121704087,
      "kl": 0.392578125,
      "learning_rate": 2.8261540226434053e-07,
      "loss": 0.0439,
      "reward": 2.2262839674949646,
      "reward_std": 0.012909410055726767,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023716239258646965,
      "rewards/tag_count_reward": 1.0,
      "step": 999
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.06251525878906,
      "epoch": 0.7331378299120235,
      "grad_norm": 15.554349111823829,
      "kl": 1.70703125,
      "learning_rate": 2.816895565044605e-07,
      "loss": 0.175,
      "reward": 2.610460877418518,
      "reward_std": 0.27700604498386383,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03537251055240631,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1000
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.31251525878906,
      "epoch": 0.7338709677419355,
      "grad_norm": 2.7793634910585094,
      "kl": 0.390625,
      "learning_rate": 2.8076546967216487e-07,
      "loss": 0.0144,
      "reward": 2.483184516429901,
      "reward_std": 0.011150819715112448,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016815499402582645,
      "rewards/tag_count_reward": 1.0,
      "step": 1001
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.10418701171875,
      "epoch": 0.7346041055718475,
      "grad_norm": 2.713549340063795,
      "kl": 0.34375,
      "learning_rate": 2.798431478253686e-07,
      "loss": 0.0461,
      "reward": 2.456187903881073,
      "reward_std": 0.07819372694939375,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02297879382967949,
      "rewards/tag_count_reward": 1.0,
      "step": 1002
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.2083435058594,
      "epoch": 0.7353372434017595,
      "grad_norm": 50.419548757796655,
      "kl": 1.0673828125,
      "learning_rate": 2.78922597010416e-07,
      "loss": -0.0155,
      "reward": 2.23778760433197,
      "reward_std": 0.04544468317180872,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022629093378782272,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1003
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.79168701171875,
      "epoch": 0.7360703812316716,
      "grad_norm": 19.19048360727899,
      "kl": 0.7900390625,
      "learning_rate": 2.7800382326204126e-07,
      "loss": 0.1705,
      "reward": 2.125224530696869,
      "reward_std": 0.3402523510158062,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.020608842372894287,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 1004
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.25001525878906,
      "epoch": 0.7368035190615836,
      "grad_norm": 6.278542797034713,
      "kl": 0.5361328125,
      "learning_rate": 2.770868326033291e-07,
      "loss": 0.0111,
      "reward": 2.221871554851532,
      "reward_std": 0.028360038995742798,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02292016614228487,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1005
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.1875,
      "epoch": 0.7375366568914956,
      "grad_norm": 29.55654512712693,
      "kl": 0.8466796875,
      "learning_rate": 2.761716310456748e-07,
      "loss": 0.2498,
      "reward": 2.4252238273620605,
      "reward_std": 0.16729998588562012,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02790138777345419,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1006
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.3958435058594,
      "epoch": 0.7382697947214076,
      "grad_norm": 8.38447348775669,
      "kl": 0.83203125,
      "learning_rate": 2.7525822458874524e-07,
      "loss": 0.0214,
      "reward": 2.186690092086792,
      "reward_std": 0.12868688255548477,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.021643266081809998,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1007
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.41668701171875,
      "epoch": 0.7390029325513197,
      "grad_norm": 3.1114573861463257,
      "kl": 0.349609375,
      "learning_rate": 2.7434661922043914e-07,
      "loss": 0.011,
      "reward": 2.4778274297714233,
      "reward_std": 0.0110463029704988,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0221726531162858,
      "rewards/tag_count_reward": 1.0,
      "step": 1008
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.3125152587891,
      "epoch": 0.7397360703812317,
      "grad_norm": 5.211723665878622,
      "kl": 1.21875,
      "learning_rate": 2.7343682091684863e-07,
      "loss": 0.0202,
      "reward": 2.127828001976013,
      "reward_std": 0.2590429000556469,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.019741501659154892,
      "rewards/tag_count_reward": 0.953125,
      "step": 1009
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.3958435058594,
      "epoch": 0.7404692082111437,
      "grad_norm": 51.62344516592479,
      "kl": 3.9140625,
      "learning_rate": 2.725288356422187e-07,
      "loss": 0.3732,
      "reward": 2.1338714361190796,
      "reward_std": 0.23930185288190842,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01717032492160797,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 1010
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.6458435058594,
      "epoch": 0.7412023460410557,
      "grad_norm": 8.872840652024472,
      "kl": 0.521484375,
      "learning_rate": 2.7162266934890975e-07,
      "loss": 0.0284,
      "reward": 2.226145088672638,
      "reward_std": 0.008340620435774326,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023855021223425865,
      "rewards/tag_count_reward": 1.0,
      "step": 1011
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.5833435058594,
      "epoch": 0.7419354838709677,
      "grad_norm": 12.230811361407058,
      "kl": 0.763671875,
      "learning_rate": 2.707183279773569e-07,
      "loss": 0.0509,
      "reward": 1.968254268169403,
      "reward_std": 0.043425518088042736,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021329134702682495,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1012
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 555.4583435058594,
      "epoch": 0.7426686217008798,
      "grad_norm": 29.90738464709304,
      "kl": 3.765625,
      "learning_rate": 2.698158174560326e-07,
      "loss": 0.838,
      "reward": 2.151626408100128,
      "reward_std": 0.2698955833911896,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02024863287806511,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 1013
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.8333435058594,
      "epoch": 0.7434017595307918,
      "grad_norm": 13.228223995097775,
      "kl": 1.28125,
      "learning_rate": 2.6891514370140645e-07,
      "loss": 0.1214,
      "reward": 1.9460716843605042,
      "reward_std": 0.11848503537476063,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.024414503015577793,
      "rewards/tag_count_reward": 0.984375,
      "step": 1014
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 488.75001525878906,
      "epoch": 0.7441348973607038,
      "grad_norm": 10.713414373967986,
      "kl": 1.26953125,
      "learning_rate": 2.6801631261790747e-07,
      "loss": 0.2509,
      "reward": 2.429144859313965,
      "reward_std": 0.17435809317976236,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.022244098596274853,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1015
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.56251525878906,
      "epoch": 0.7448680351906158,
      "grad_norm": 35.03331056974067,
      "kl": 3.734375,
      "learning_rate": 2.6711933009788443e-07,
      "loss": 0.2651,
      "reward": 2.333442807197571,
      "reward_std": 0.3207738474011421,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.024196190759539604,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1016
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.41668701171875,
      "epoch": 0.7456011730205279,
      "grad_norm": 11.324692674530787,
      "kl": 3.4765625,
      "learning_rate": 2.6622420202156843e-07,
      "loss": 0.4659,
      "reward": 2.356720805168152,
      "reward_std": 0.36550724506378174,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02522371429949999,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1017
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.25001525878906,
      "epoch": 0.7463343108504399,
      "grad_norm": 15.163042787217018,
      "kl": 1.9248046875,
      "learning_rate": 2.653309342570327e-07,
      "loss": 0.2913,
      "reward": 2.355245351791382,
      "reward_std": 0.31433626264333725,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02843527588993311,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1018
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.9166717529297,
      "epoch": 0.7470674486803519,
      "grad_norm": 11.573884174204364,
      "kl": 1.68359375,
      "learning_rate": 2.64439532660156e-07,
      "loss": 0.1937,
      "reward": 2.401885986328125,
      "reward_std": 0.2557380646467209,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02519738022238016,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1019
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.10418701171875,
      "epoch": 0.7478005865102639,
      "grad_norm": 3.365385207956817,
      "kl": 0.3740234375,
      "learning_rate": 2.6355000307458253e-07,
      "loss": 0.0359,
      "reward": 2.2115240693092346,
      "reward_std": 0.07929915469139814,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017642635852098465,
      "rewards/tag_count_reward": 1.0,
      "step": 1020
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.5416717529297,
      "epoch": 0.748533724340176,
      "grad_norm": 5.113590914631466,
      "kl": 1.4794921875,
      "learning_rate": 2.6266235133168503e-07,
      "loss": 0.0197,
      "reward": 2.3895903825759888,
      "reward_std": 0.21832578629255295,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.021868057548999786,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1021
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 520.0625152587891,
      "epoch": 0.749266862170088,
      "grad_norm": 11.69931205695156,
      "kl": 2.16796875,
      "learning_rate": 2.617765832505253e-07,
      "loss": 0.3627,
      "reward": 2.5873245000839233,
      "reward_std": 0.2989402636885643,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02378668077290058,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 1022
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.3541717529297,
      "epoch": 0.75,
      "grad_norm": 4.454764934413698,
      "kl": 0.4326171875,
      "learning_rate": 2.608927046378173e-07,
      "loss": 0.061,
      "reward": 2.2236390113830566,
      "reward_std": 0.01102450443431735,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02636106964200735,
      "rewards/tag_count_reward": 1.0,
      "step": 1023
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.41668701171875,
      "epoch": 0.750733137829912,
      "grad_norm": 6.766283640737552,
      "kl": 1.3330078125,
      "learning_rate": 2.6001072128788795e-07,
      "loss": 0.0486,
      "reward": 2.1870197653770447,
      "reward_std": 0.11883579567074776,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.017841434106230736,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1024
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.75001525878906,
      "epoch": 0.751466275659824,
      "grad_norm": 11.468805888423775,
      "kl": 2.26953125,
      "learning_rate": 2.5913063898263975e-07,
      "loss": 0.4147,
      "reward": 2.1911988258361816,
      "reward_std": 0.11320665059611201,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.015398475807160139,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1025
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.2291870117188,
      "epoch": 0.7521994134897361,
      "grad_norm": 62.06601803645074,
      "kl": 4.2333984375,
      "learning_rate": 2.5825246349151296e-07,
      "loss": 0.3466,
      "reward": 2.1409623622894287,
      "reward_std": 0.19636456668376923,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.020496048033237457,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1026
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.8958435058594,
      "epoch": 0.7529325513196481,
      "grad_norm": 6.915256602758481,
      "kl": 1.46484375,
      "learning_rate": 2.573762005714474e-07,
      "loss": 0.084,
      "reward": 1.950873076915741,
      "reward_std": 0.1016916565131396,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.0213491627946496,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1027
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 526.2500152587891,
      "epoch": 0.7536656891495601,
      "grad_norm": 15.895006895352855,
      "kl": 1.791015625,
      "learning_rate": 2.5650185596684513e-07,
      "loss": 0.1532,
      "reward": 1.9461398124694824,
      "reward_std": 0.21893376857042313,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.020874238573014736,
      "rewards/tag_count_reward": 0.953125,
      "step": 1028
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.3541717529297,
      "epoch": 0.7543988269794721,
      "grad_norm": 10.156286209074864,
      "kl": 1.3154296875,
      "learning_rate": 2.556294354095321e-07,
      "loss": 0.154,
      "reward": 2.8607027530670166,
      "reward_std": 0.29952816385775805,
      "rewards/accuracy_reward": 0.9583333432674408,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.02992249419912696,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1029
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.7083435058594,
      "epoch": 0.7551319648093842,
      "grad_norm": 11.155712646658968,
      "kl": 0.6943359375,
      "learning_rate": 2.547589446187217e-07,
      "loss": 0.0538,
      "reward": 2.7281389236450195,
      "reward_std": 0.01100248470902443,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021861168555915356,
      "rewards/tag_count_reward": 1.0,
      "step": 1030
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.25001525878906,
      "epoch": 0.7558651026392962,
      "grad_norm": 20.534972400969437,
      "kl": 3.484375,
      "learning_rate": 2.5389038930097594e-07,
      "loss": 0.44,
      "reward": 2.0344144701957703,
      "reward_std": 0.44953444600105286,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.028085462749004364,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 1031
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.0208435058594,
      "epoch": 0.7565982404692082,
      "grad_norm": 6.69655925623942,
      "kl": 0.875,
      "learning_rate": 2.5302377515016916e-07,
      "loss": 0.0028,
      "reward": 2.4262704849243164,
      "reward_std": 0.16276609152555466,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.028590744361281395,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1032
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.62501525878906,
      "epoch": 0.7573313782991202,
      "grad_norm": 23.560206724875798,
      "kl": 1.322265625,
      "learning_rate": 2.5215910784745e-07,
      "loss": 0.327,
      "reward": 2.4021449089050293,
      "reward_std": 0.27173662185668945,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019729983061552048,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1033
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 493.91668701171875,
      "epoch": 0.7580645161290323,
      "grad_norm": 8.901515825557974,
      "kl": 0.66796875,
      "learning_rate": 2.5129639306120467e-07,
      "loss": 0.0747,
      "reward": 2.471045136451721,
      "reward_std": 0.03157370677217841,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018538357689976692,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1034
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.93751525878906,
      "epoch": 0.7587976539589443,
      "grad_norm": 12.897795206877362,
      "kl": 2.890625,
      "learning_rate": 2.5043563644701905e-07,
      "loss": 0.4459,
      "reward": 2.2605895400047302,
      "reward_std": 0.49446502327919006,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9583334028720856,
      "rewards/repetition_penalty_reward": -0.02586888149380684,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 1035
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.75001525878906,
      "epoch": 0.7595307917888563,
      "grad_norm": 17.104268270251925,
      "kl": 1.79296875,
      "learning_rate": 2.495768436476427e-07,
      "loss": 0.3061,
      "reward": 2.1887518167495728,
      "reward_std": 0.13222945481538773,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02478979155421257,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1036
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.81251525878906,
      "epoch": 0.7602639296187683,
      "grad_norm": 13.687511958831577,
      "kl": 1.87890625,
      "learning_rate": 2.4872002029295057e-07,
      "loss": 0.2406,
      "reward": 2.3408429622650146,
      "reward_std": 0.30387626588344574,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.020268219523131847,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 1037
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 424.16668701171875,
      "epoch": 0.7609970674486803,
      "grad_norm": 11.657813766508225,
      "kl": 2.53125,
      "learning_rate": 2.4786517199990764e-07,
      "loss": 0.1052,
      "reward": 2.448213815689087,
      "reward_std": 0.0886231642216444,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.018800227902829647,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1038
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.43751525878906,
      "epoch": 0.7617302052785924,
      "grad_norm": 27.142165668107076,
      "kl": 2.048828125,
      "learning_rate": 2.470123043725304e-07,
      "loss": 0.1753,
      "reward": 2.197335362434387,
      "reward_std": 0.10227534547448158,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02662304975092411,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1039
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.7291717529297,
      "epoch": 0.7624633431085044,
      "grad_norm": 13.619344186767858,
      "kl": 0.86328125,
      "learning_rate": 2.4616142300185125e-07,
      "loss": 0.0615,
      "reward": 2.9825761318206787,
      "reward_std": 0.01011534919962287,
      "rewards/accuracy_reward": 1.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017423998564481735,
      "rewards/tag_count_reward": 1.0,
      "step": 1040
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.9583740234375,
      "epoch": 0.7631964809384164,
      "grad_norm": 11.118122539502124,
      "kl": 2.19921875,
      "learning_rate": 2.453125334658819e-07,
      "loss": 0.4298,
      "reward": 2.101525664329529,
      "reward_std": 0.36887478455901146,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.018265982158482075,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1041
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 519.5625305175781,
      "epoch": 0.7639296187683284,
      "grad_norm": 40.200766946980536,
      "kl": 6.421875,
      "learning_rate": 2.444656413295758e-07,
      "loss": 0.6816,
      "reward": 2.028169095516205,
      "reward_std": 0.4279635548591614,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9375,
      "rewards/repetition_penalty_reward": -0.01870589703321457,
      "rewards/tag_count_reward": 0.8802083730697632,
      "step": 1042
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 440.1666717529297,
      "epoch": 0.7646627565982405,
      "grad_norm": 8.382550351469364,
      "kl": 0.5185546875,
      "learning_rate": 2.4362075214479296e-07,
      "loss": 0.0405,
      "reward": 2.469712793827057,
      "reward_std": 0.014355432707816362,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030287256464362144,
      "rewards/tag_count_reward": 1.0,
      "step": 1043
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.8333435058594,
      "epoch": 0.7653958944281525,
      "grad_norm": 23.33023618104358,
      "kl": 1.25,
      "learning_rate": 2.4277787145026235e-07,
      "loss": 0.2837,
      "reward": 2.182273507118225,
      "reward_std": 0.1675884760916233,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020851566456258297,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 1044
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 423.25001525878906,
      "epoch": 0.7661290322580645,
      "grad_norm": 8.571737590563789,
      "kl": 0.4443359375,
      "learning_rate": 2.4193700477154653e-07,
      "loss": 0.0521,
      "reward": 2.2212164402008057,
      "reward_std": 0.027374879457056522,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02357533946633339,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1045
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 467.0416717529297,
      "epoch": 0.7668621700879765,
      "grad_norm": 14.989284883435417,
      "kl": 1.318359375,
      "learning_rate": 2.4109815762100485e-07,
      "loss": 0.2389,
      "reward": 2.384683132171631,
      "reward_std": 0.3186868131160736,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.023303166031837463,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1046
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.7083435058594,
      "epoch": 0.7675953079178885,
      "grad_norm": 13.662504493852214,
      "kl": 1.90625,
      "learning_rate": 2.402613354977577e-07,
      "loss": 0.2727,
      "reward": 2.3878710865974426,
      "reward_std": 0.22365204244852066,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.032267773523926735,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1047
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.8541717529297,
      "epoch": 0.7683284457478006,
      "grad_norm": 13.403401572039542,
      "kl": 1.337890625,
      "learning_rate": 2.3942654388764985e-07,
      "loss": 0.0999,
      "reward": 2.4051430225372314,
      "reward_std": 0.1881369361653924,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.028884700499475002,
      "rewards/tag_count_reward": 0.96875,
      "step": 1048
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.2291717529297,
      "epoch": 0.7690615835777126,
      "grad_norm": 7.891190935869175,
      "kl": 0.5068359375,
      "learning_rate": 2.385937882632155e-07,
      "loss": 0.0426,
      "reward": 2.22906756401062,
      "reward_std": 0.009660831652581692,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020932521671056747,
      "rewards/tag_count_reward": 1.0,
      "step": 1049
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 490.97918701171875,
      "epoch": 0.7697947214076246,
      "grad_norm": 13.667764691578203,
      "kl": 2.5078125,
      "learning_rate": 2.377630740836411e-07,
      "loss": 0.5406,
      "reward": 2.324502468109131,
      "reward_std": 0.36973246932029724,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02792811580002308,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 1050
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 527.2500152587891,
      "epoch": 0.7705278592375366,
      "grad_norm": 17.845348751851517,
      "kl": 2.1953125,
      "learning_rate": 2.3693440679473106e-07,
      "loss": 0.3505,
      "reward": 2.4364585876464844,
      "reward_std": 0.15930373966693878,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.020138615276664495,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1051
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 447.3333435058594,
      "epoch": 0.7712609970674487,
      "grad_norm": 15.068120067737828,
      "kl": 1.03125,
      "learning_rate": 2.3610779182887044e-07,
      "loss": 0.0492,
      "reward": 2.2252615690231323,
      "reward_std": 0.012322348076850176,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024738566018640995,
      "rewards/tag_count_reward": 1.0,
      "step": 1052
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 423.87501525878906,
      "epoch": 0.7719941348973607,
      "grad_norm": 23.95294488179518,
      "kl": 4.4453125,
      "learning_rate": 2.352832346049909e-07,
      "loss": 0.2367,
      "reward": 2.359814405441284,
      "reward_std": 0.38373930752277374,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02907445840537548,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 1053
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 530.6041717529297,
      "epoch": 0.7727272727272727,
      "grad_norm": 21.090369592035625,
      "kl": 2.4375,
      "learning_rate": 2.3446074052853398e-07,
      "loss": 0.2974,
      "reward": 2.8810449838638306,
      "reward_std": 0.25332972407341003,
      "rewards/accuracy_reward": 0.9375000298023224,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02520513255149126,
      "rewards/tag_count_reward": 0.96875,
      "step": 1054
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 545.1041870117188,
      "epoch": 0.7734604105571847,
      "grad_norm": 18.541416537922142,
      "kl": 1.6875,
      "learning_rate": 2.33640314991416e-07,
      "loss": 0.3785,
      "reward": 2.4116270542144775,
      "reward_std": 0.18292175233364105,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.022400776855647564,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1055
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.9791717529297,
      "epoch": 0.7741935483870968,
      "grad_norm": 7.841288579770671,
      "kl": 1.44140625,
      "learning_rate": 2.3282196337199336e-07,
      "loss": 0.0469,
      "reward": 2.1994876861572266,
      "reward_std": 0.0929469121620059,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02620673179626465,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1056
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.5208435058594,
      "epoch": 0.7749266862170088,
      "grad_norm": 6.869915300476055,
      "kl": 0.5234375,
      "learning_rate": 2.3200569103502623e-07,
      "loss": 0.0616,
      "reward": 2.4464250206947327,
      "reward_std": 0.1164440019056201,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022325048223137856,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1057
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 511.8958435058594,
      "epoch": 0.7756598240469208,
      "grad_norm": 27.238285089186576,
      "kl": 3.625,
      "learning_rate": 2.311915033316443e-07,
      "loss": 0.5597,
      "reward": 2.585835337638855,
      "reward_std": 0.3875824511051178,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.027012161910533905,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1058
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.5833435058594,
      "epoch": 0.7763929618768328,
      "grad_norm": 15.130806571886888,
      "kl": 2.33203125,
      "learning_rate": 2.3037940559931084e-07,
      "loss": 0.2147,
      "reward": 2.1360930800437927,
      "reward_std": 0.21016471646726131,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.028837502002716064,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1059
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.8333435058594,
      "epoch": 0.7771260997067448,
      "grad_norm": 13.573733175581262,
      "kl": 1.35546875,
      "learning_rate": 2.2956940316178884e-07,
      "loss": 0.2755,
      "reward": 2.1681582927703857,
      "reward_std": 0.1469826102256775,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.033230654895305634,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1060
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 429.9583435058594,
      "epoch": 0.7778592375366569,
      "grad_norm": 8.50090498665031,
      "kl": 1.953125,
      "learning_rate": 2.2876150132910466e-07,
      "loss": 0.0629,
      "reward": 2.407193899154663,
      "reward_std": 0.23686270415782928,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02509789913892746,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1061
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.7708435058594,
      "epoch": 0.7785923753665689,
      "grad_norm": 15.772638637934058,
      "kl": 1.3466796875,
      "learning_rate": 2.2795570539751462e-07,
      "loss": 0.275,
      "reward": 2.4364675879478455,
      "reward_std": 0.1519809989258647,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02186590526252985,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1062
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.54168701171875,
      "epoch": 0.7793255131964809,
      "grad_norm": 14.481423143656839,
      "kl": 1.7978515625,
      "learning_rate": 2.2715202064946925e-07,
      "loss": 0.3213,
      "reward": 1.9716586470603943,
      "reward_std": 0.13082672283053398,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02313299011439085,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1063
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 509.83335876464844,
      "epoch": 0.7800586510263929,
      "grad_norm": 27.515519930915364,
      "kl": 2.30859375,
      "learning_rate": 2.263504523535795e-07,
      "loss": 0.6025,
      "reward": 2.1453371047973633,
      "reward_std": 0.28774622082710266,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02827406395226717,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1064
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.87501525878906,
      "epoch": 0.780791788856305,
      "grad_norm": 14.499965581307233,
      "kl": 3.7109375,
      "learning_rate": 2.255510057645812e-07,
      "loss": 0.6072,
      "reward": 2.1432166695594788,
      "reward_std": 0.28085365891456604,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.026922253891825676,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1065
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.7291717529297,
      "epoch": 0.781524926686217,
      "grad_norm": 52.53300723069954,
      "kl": 3.0625,
      "learning_rate": 2.2475368612330182e-07,
      "loss": 0.2262,
      "reward": 2.1494187712669373,
      "reward_std": 0.20825094729661942,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02592852246016264,
      "rewards/tag_count_reward": 0.953125,
      "step": 1066
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 405.9166717529297,
      "epoch": 0.782258064516129,
      "grad_norm": 30.234824161584932,
      "kl": 3.40625,
      "learning_rate": 2.2395849865662487e-07,
      "loss": 0.2387,
      "reward": 2.6589914560317993,
      "reward_std": 0.22190771251916885,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.0354531928896904,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1067
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.91668701171875,
      "epoch": 0.782991202346041,
      "grad_norm": 22.759908198553244,
      "kl": 2.1484375,
      "learning_rate": 2.2316544857745678e-07,
      "loss": 0.2113,
      "reward": 2.4049072265625,
      "reward_std": 0.19384130463004112,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02217612974345684,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1068
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.75001525878906,
      "epoch": 0.783724340175953,
      "grad_norm": 36.380039815706255,
      "kl": 3.642578125,
      "learning_rate": 2.223745410846919e-07,
      "loss": 0.3783,
      "reward": 2.373390316963196,
      "reward_std": 0.24706235527992249,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.025915381498634815,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1069
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.91668701171875,
      "epoch": 0.7844574780058651,
      "grad_norm": 6.394595193309836,
      "kl": 0.50390625,
      "learning_rate": 2.2158578136317851e-07,
      "loss": 0.042,
      "reward": 2.244118392467499,
      "reward_std": 0.0806655939668417,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026714895851910114,
      "rewards/tag_count_reward": 1.0,
      "step": 1070
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.9583435058594,
      "epoch": 0.7851906158357771,
      "grad_norm": 14.072098484553294,
      "kl": 1.5390625,
      "learning_rate": 2.2079917458368563e-07,
      "loss": 0.2618,
      "reward": 2.6522449254989624,
      "reward_std": 0.17534173047170043,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024838595651090145,
      "rewards/tag_count_reward": 0.96875,
      "step": 1071
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.7083435058594,
      "epoch": 0.7859237536656891,
      "grad_norm": 15.845583496718644,
      "kl": 1.81640625,
      "learning_rate": 2.2001472590286778e-07,
      "loss": 0.338,
      "reward": 2.3699461221694946,
      "reward_std": 0.28435058146715164,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03283172659575939,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1072
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.9166717529297,
      "epoch": 0.7866568914956011,
      "grad_norm": 28.450144567340768,
      "kl": 0.958984375,
      "learning_rate": 2.1923244046323263e-07,
      "loss": 0.2799,
      "reward": 2.455487847328186,
      "reward_std": 0.07996404357254505,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023678927682340145,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1073
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.3333435058594,
      "epoch": 0.7873900293255132,
      "grad_norm": 9.489962973191355,
      "kl": 0.45703125,
      "learning_rate": 2.1845232339310594e-07,
      "loss": 0.0416,
      "reward": 2.480448365211487,
      "reward_std": 0.1484880894422531,
      "rewards/accuracy_reward": 0.5000000204890966,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019551726058125496,
      "rewards/tag_count_reward": 1.0,
      "step": 1074
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.12501525878906,
      "epoch": 0.7881231671554252,
      "grad_norm": 10.244882208914222,
      "kl": 0.84765625,
      "learning_rate": 2.1767437980659913e-07,
      "loss": 0.1509,
      "reward": 1.9186533689498901,
      "reward_std": 0.13470640173181891,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.030999451875686646,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1075
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.3333435058594,
      "epoch": 0.7888563049853372,
      "grad_norm": 40.24012373692978,
      "kl": 2.4765625,
      "learning_rate": 2.168986148035748e-07,
      "loss": 0.8641,
      "reward": 2.33972430229187,
      "reward_std": 0.34671784937381744,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.033539606258273125,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 1076
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.50001525878906,
      "epoch": 0.7895894428152492,
      "grad_norm": 8.330876049338293,
      "kl": 0.884765625,
      "learning_rate": 2.161250334696139e-07,
      "loss": 0.1215,
      "reward": 2.4110584259033203,
      "reward_std": 0.1561183100566268,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026441698893904686,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1077
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.0,
      "epoch": 0.7903225806451613,
      "grad_norm": 14.720403395941624,
      "kl": 1.7216796875,
      "learning_rate": 2.15353640875982e-07,
      "loss": 0.3272,
      "reward": 2.7998095750808716,
      "reward_std": 0.3225977895781398,
      "rewards/accuracy_reward": 0.9375,
      "rewards/reasoning_steps_reward": 0.9513888955116272,
      "rewards/repetition_penalty_reward": -0.03699600324034691,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1078
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.6875305175781,
      "epoch": 0.7910557184750733,
      "grad_norm": 13.10411383821781,
      "kl": 1.7822265625,
      "learning_rate": 2.1458444207959653e-07,
      "loss": 0.4046,
      "reward": 2.6844232082366943,
      "reward_std": 0.10148819629102945,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02911848109215498,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1079
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.66668701171875,
      "epoch": 0.7917888563049853,
      "grad_norm": 12.822024813188964,
      "kl": 1.4140625,
      "learning_rate": 2.1381744212299303e-07,
      "loss": 0.0617,
      "reward": 2.677112340927124,
      "reward_std": 0.17961880564689636,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.022540478967130184,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 1080
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.2708435058594,
      "epoch": 0.7925219941348973,
      "grad_norm": 8.946363278262771,
      "kl": 1.1591796875,
      "learning_rate": 2.1305264603429261e-07,
      "loss": 0.2552,
      "reward": 2.203592896461487,
      "reward_std": 0.09071096312254667,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025573882274329662,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1081
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.5208435058594,
      "epoch": 0.7932551319648093,
      "grad_norm": 20.42295106802756,
      "kl": 1.91796875,
      "learning_rate": 2.1229005882716854e-07,
      "loss": 0.2016,
      "reward": 2.4216538667678833,
      "reward_std": 0.1843453124165535,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02626277320086956,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1082
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.66668701171875,
      "epoch": 0.7939882697947214,
      "grad_norm": 12.095799408086036,
      "kl": 2.515625,
      "learning_rate": 2.11529685500814e-07,
      "loss": 0.6492,
      "reward": 2.6630301475524902,
      "reward_std": 0.2383480668067932,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.022733934223651886,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1083
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.3125,
      "epoch": 0.7947214076246334,
      "grad_norm": 14.367290877648022,
      "kl": 1.642578125,
      "learning_rate": 2.1077153103990854e-07,
      "loss": 0.3468,
      "reward": 2.667872428894043,
      "reward_std": 0.2050323337316513,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.024836037307977676,
      "rewards/tag_count_reward": 0.984375,
      "step": 1084
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.2708435058594,
      "epoch": 0.7954545454545454,
      "grad_norm": 5.5197384607329845,
      "kl": 0.5810546875,
      "learning_rate": 2.1001560041458573e-07,
      "loss": 0.106,
      "reward": 2.179283857345581,
      "reward_std": 0.16980974515900016,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.027313435450196266,
      "rewards/tag_count_reward": 0.984375,
      "step": 1085
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.5833435058594,
      "epoch": 0.7961876832844574,
      "grad_norm": 7.0820397306841825,
      "kl": 0.5576171875,
      "learning_rate": 2.0926189858040118e-07,
      "loss": 0.0277,
      "reward": 2.4565619230270386,
      "reward_std": 0.1886884942650795,
      "rewards/accuracy_reward": 0.5000000204890966,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03302140720188618,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1086
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.9791717529297,
      "epoch": 0.7969208211143695,
      "grad_norm": 5.213802139763893,
      "kl": 0.80859375,
      "learning_rate": 2.0851043047829886e-07,
      "loss": 0.0479,
      "reward": 1.9766491651535034,
      "reward_std": 0.012979320250451565,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0233508488163352,
      "rewards/tag_count_reward": 1.0,
      "step": 1087
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 427.2083435058594,
      "epoch": 0.7976539589442815,
      "grad_norm": 6.021152479365784,
      "kl": 1.365234375,
      "learning_rate": 2.0776120103457987e-07,
      "loss": 0.0423,
      "reward": 2.4225898385047913,
      "reward_std": 0.19223318248987198,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02359061688184738,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1088
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 467.4166717529297,
      "epoch": 0.7983870967741935,
      "grad_norm": 13.154645588183993,
      "kl": 0.888671875,
      "learning_rate": 2.070142151608692e-07,
      "loss": 0.1902,
      "reward": 2.6917331218719482,
      "reward_std": 0.12653527967631817,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02354466635733843,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1089
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.7291717529297,
      "epoch": 0.7991202346041055,
      "grad_norm": 44.5268065319015,
      "kl": 2.80859375,
      "learning_rate": 2.0626947775408444e-07,
      "loss": 0.666,
      "reward": 2.565494179725647,
      "reward_std": 0.44115468859672546,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.04214485548436642,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1090
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 456.91668701171875,
      "epoch": 0.7998533724340176,
      "grad_norm": 10.596915261641815,
      "kl": 0.97265625,
      "learning_rate": 2.0552699369640263e-07,
      "loss": 0.0155,
      "reward": 2.1983089447021484,
      "reward_std": 0.07216011872515082,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025649478659033775,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1091
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.5208435058594,
      "epoch": 0.8005865102639296,
      "grad_norm": 22.398728890888155,
      "kl": 2.08203125,
      "learning_rate": 2.0478676785522936e-07,
      "loss": 0.4324,
      "reward": 2.3511595726013184,
      "reward_std": 0.3135446608066559,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03425721637904644,
      "rewards/tag_count_reward": 0.96875,
      "step": 1092
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.56251525878906,
      "epoch": 0.8013196480938416,
      "grad_norm": 11.634427759894564,
      "kl": 1.40234375,
      "learning_rate": 2.0404880508316597e-07,
      "loss": 0.185,
      "reward": 2.701943874359131,
      "reward_std": 0.08190051838755608,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027222798205912113,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1093
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.47918701171875,
      "epoch": 0.8020527859237536,
      "grad_norm": 31.318190759662002,
      "kl": 1.11328125,
      "learning_rate": 2.0331311021797836e-07,
      "loss": 0.2413,
      "reward": 2.1923688650131226,
      "reward_std": 0.12720130756497383,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02290901355445385,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1094
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 483.16668701171875,
      "epoch": 0.8027859237536656,
      "grad_norm": 16.85003870587138,
      "kl": 1.560546875,
      "learning_rate": 2.0257968808256465e-07,
      "loss": 0.2716,
      "reward": 2.6920918226242065,
      "reward_std": 0.1356341354548931,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021449715830385685,
      "rewards/tag_count_reward": 0.984375,
      "step": 1095
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.8541717529297,
      "epoch": 0.8035190615835777,
      "grad_norm": 4.965107999898547,
      "kl": 0.4130859375,
      "learning_rate": 2.018485434849243e-07,
      "loss": 0.0301,
      "reward": 2.9743878841400146,
      "reward_std": 0.010763033293187618,
      "rewards/accuracy_reward": 1.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025612126104533672,
      "rewards/tag_count_reward": 1.0,
      "step": 1096
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.25,
      "epoch": 0.8042521994134897,
      "grad_norm": 11.890604702844437,
      "kl": 0.79296875,
      "learning_rate": 2.01119681218126e-07,
      "loss": 0.1023,
      "reward": 2.1787749528884888,
      "reward_std": 0.1856333538889885,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019141847267746925,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1097
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.7916870117188,
      "epoch": 0.8049853372434017,
      "grad_norm": 31.623012706962754,
      "kl": 5.75390625,
      "learning_rate": 2.0039310606027664e-07,
      "loss": 0.7709,
      "reward": 2.1479861736297607,
      "reward_std": 0.5531877502799034,
      "rewards/accuracy_reward": 0.3541666865348816,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.037777796387672424,
      "rewards/tag_count_reward": 0.859375,
      "step": 1098
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.5,
      "epoch": 0.8057184750733137,
      "grad_norm": 8.212504455950251,
      "kl": 1.162109375,
      "learning_rate": 1.996688227744894e-07,
      "loss": 0.0791,
      "reward": 2.2392346262931824,
      "reward_std": 0.1137156393378973,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02118207886815071,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1099
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.85418701171875,
      "epoch": 0.8064516129032258,
      "grad_norm": 5.727879818508118,
      "kl": 0.728515625,
      "learning_rate": 1.989468361088536e-07,
      "loss": 0.0209,
      "reward": 2.187276005744934,
      "reward_std": 0.14227101765573025,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.024529581889510155,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.1041717529297,
      "epoch": 0.8071847507331378,
      "grad_norm": 17.32722660816832,
      "kl": 0.80078125,
      "learning_rate": 1.9822715079640217e-07,
      "loss": 0.2153,
      "reward": 2.3942633867263794,
      "reward_std": 0.2861350402235985,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03108394891023636,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 1101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.75001525878906,
      "epoch": 0.8079178885630498,
      "grad_norm": 8.204192297581018,
      "kl": 1.5859375,
      "learning_rate": 1.9750977155508201e-07,
      "loss": 0.1769,
      "reward": 2.646689295768738,
      "reward_std": 0.29864780604839325,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019977413583546877,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.83335876464844,
      "epoch": 0.8086510263929618,
      "grad_norm": 29.183446868684296,
      "kl": 2.73046875,
      "learning_rate": 1.9679470308772193e-07,
      "loss": 0.5248,
      "reward": 2.162355661392212,
      "reward_std": 0.15475745499134064,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.03208877891302109,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.1041717529297,
      "epoch": 0.8093841642228738,
      "grad_norm": 9.188573023239696,
      "kl": 1.494140625,
      "learning_rate": 1.960819500820027e-07,
      "loss": 0.3051,
      "reward": 2.201483130455017,
      "reward_std": 0.06417120806872845,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03289197292178869,
      "rewards/tag_count_reward": 0.984375,
      "step": 1104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.66668701171875,
      "epoch": 0.8101173020527859,
      "grad_norm": 7.686165194216877,
      "kl": 1.32421875,
      "learning_rate": 1.9537151721042544e-07,
      "loss": 0.1647,
      "reward": 2.193081557750702,
      "reward_std": 0.11296498030424118,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02046018559485674,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.06251525878906,
      "epoch": 0.8108504398826979,
      "grad_norm": 16.66437068456755,
      "kl": 1.755859375,
      "learning_rate": 1.94663409130282e-07,
      "loss": 0.1331,
      "reward": 2.607347011566162,
      "reward_std": 0.26773516833782196,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.029805734753608704,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.1458435058594,
      "epoch": 0.8115835777126099,
      "grad_norm": 17.084109852146433,
      "kl": 0.8701171875,
      "learning_rate": 1.939576304836235e-07,
      "loss": 0.25,
      "reward": 2.6833220720291138,
      "reward_std": 0.1571330651640892,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.023275235667824745,
      "rewards/tag_count_reward": 0.984375,
      "step": 1107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 438.1458435058594,
      "epoch": 0.8123167155425219,
      "grad_norm": 8.723073183829872,
      "kl": 0.986328125,
      "learning_rate": 1.9325418589723063e-07,
      "loss": 0.056,
      "reward": 2.417007803916931,
      "reward_std": 0.19728430174291134,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02743679191917181,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 406.6666717529297,
      "epoch": 0.8130498533724341,
      "grad_norm": 6.426501532620271,
      "kl": 0.560546875,
      "learning_rate": 1.9255307998258253e-07,
      "loss": 0.063,
      "reward": 2.729717493057251,
      "reward_std": 0.010303615126758814,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020282641053199768,
      "rewards/tag_count_reward": 1.0,
      "step": 1109
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.3541717529297,
      "epoch": 0.8137829912023461,
      "grad_norm": 14.856144237306745,
      "kl": 1.06640625,
      "learning_rate": 1.9185431733582755e-07,
      "loss": 0.3038,
      "reward": 1.9218279719352722,
      "reward_std": 0.19134631752967834,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.02782483585178852,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.41668701171875,
      "epoch": 0.8145161290322581,
      "grad_norm": 10.786777205070308,
      "kl": 0.71484375,
      "learning_rate": 1.9115790253775211e-07,
      "loss": 0.0898,
      "reward": 2.22803795337677,
      "reward_std": 0.012332984246313572,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02196214161813259,
      "rewards/tag_count_reward": 1.0,
      "step": 1111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.81251525878906,
      "epoch": 0.8152492668621701,
      "grad_norm": 28.863582269415154,
      "kl": 1.203125,
      "learning_rate": 1.9046384015375157e-07,
      "loss": 0.1168,
      "reward": 2.685865640640259,
      "reward_std": 0.11857039388269186,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.032884408719837666,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.58335876464844,
      "epoch": 0.8159824046920822,
      "grad_norm": 17.369555980254702,
      "kl": 2.251953125,
      "learning_rate": 1.897721347337995e-07,
      "loss": 0.35,
      "reward": 2.158285677433014,
      "reward_std": 0.2446889877319336,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.022269919514656067,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.1041717529297,
      "epoch": 0.8167155425219942,
      "grad_norm": 24.713866753619417,
      "kl": 2.609375,
      "learning_rate": 1.8908279081241863e-07,
      "loss": 0.2155,
      "reward": 2.4129501581192017,
      "reward_std": 0.19241027534008026,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024549901485443115,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.8333435058594,
      "epoch": 0.8174486803519062,
      "grad_norm": 5.506746123637378,
      "kl": 0.396484375,
      "learning_rate": 1.8839581290865014e-07,
      "loss": 0.0246,
      "reward": 2.4741445779800415,
      "reward_std": 0.012463107705116272,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025855595245957375,
      "rewards/tag_count_reward": 1.0,
      "step": 1115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.9791717529297,
      "epoch": 0.8181818181818182,
      "grad_norm": 15.558503462858535,
      "kl": 1.7021484375,
      "learning_rate": 1.877112055260253e-07,
      "loss": 0.4739,
      "reward": 2.3901326656341553,
      "reward_std": 0.29310342809185386,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.036950779147446156,
      "rewards/tag_count_reward": 0.96875,
      "step": 1116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.4791717529297,
      "epoch": 0.8189149560117303,
      "grad_norm": 6.5218599318564765,
      "kl": 1.484375,
      "learning_rate": 1.8702897315253473e-07,
      "loss": 0.2184,
      "reward": 2.606796145439148,
      "reward_std": 0.29400739073753357,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03209282737225294,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.0625,
      "epoch": 0.8196480938416423,
      "grad_norm": 6.440030855286785,
      "kl": 0.716796875,
      "learning_rate": 1.8634912026059996e-07,
      "loss": 0.0511,
      "reward": 2.47199022769928,
      "reward_std": 0.012247168458998203,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028009764850139618,
      "rewards/tag_count_reward": 1.0,
      "step": 1118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.3958435058594,
      "epoch": 0.8203812316715543,
      "grad_norm": 14.602053842200213,
      "kl": 2.78515625,
      "learning_rate": 1.8567165130704314e-07,
      "loss": 0.4461,
      "reward": 2.591174006462097,
      "reward_std": 0.3254464864730835,
      "rewards/accuracy_reward": 0.6666666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023409449495375156,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1119
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.1250305175781,
      "epoch": 0.8211143695014663,
      "grad_norm": 13.113340234764465,
      "kl": 0.970703125,
      "learning_rate": 1.849965707330589e-07,
      "loss": 0.2927,
      "reward": 2.440806031227112,
      "reward_std": 0.12088531628251076,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03141636308282614,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.1875,
      "epoch": 0.8218475073313783,
      "grad_norm": 9.162423347156384,
      "kl": 0.515625,
      "learning_rate": 1.8432388296418411e-07,
      "loss": 0.0294,
      "reward": 2.6752790212631226,
      "reward_std": 0.13515725173056126,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0226375968195498,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.1041717529297,
      "epoch": 0.8225806451612904,
      "grad_norm": 17.42462161111345,
      "kl": 3.28125,
      "learning_rate": 1.836535924102701e-07,
      "loss": 0.5659,
      "reward": 2.626253128051758,
      "reward_std": 0.2911444902420044,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03173297643661499,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.6041717529297,
      "epoch": 0.8233137829912024,
      "grad_norm": 7.8820590601670055,
      "kl": 0.8828125,
      "learning_rate": 1.8298570346545247e-07,
      "loss": 0.2549,
      "reward": 1.948028564453125,
      "reward_std": 0.10797865828499198,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.031137985177338123,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 422.91668701171875,
      "epoch": 0.8240469208211144,
      "grad_norm": 4.156410874608448,
      "kl": 0.3779296875,
      "learning_rate": 1.823202205081234e-07,
      "loss": 0.0052,
      "reward": 2.8767616748809814,
      "reward_std": 0.20274555077776313,
      "rewards/accuracy_reward": 0.9375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.020807928405702114,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.62501525878906,
      "epoch": 0.8247800586510264,
      "grad_norm": 6.798128573391826,
      "kl": 1.0078125,
      "learning_rate": 1.81657147900902e-07,
      "loss": 0.2609,
      "reward": 2.441956400871277,
      "reward_std": 0.24651040136814117,
      "rewards/accuracy_reward": 0.5000000204890966,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0372103713452816,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 521.0625305175781,
      "epoch": 0.8255131964809385,
      "grad_norm": 18.921212456734796,
      "kl": 2.3857421875,
      "learning_rate": 1.8099648999060658e-07,
      "loss": 0.3091,
      "reward": 2.5876940488815308,
      "reward_std": 0.265332761220634,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.0320977782830596,
      "rewards/tag_count_reward": 0.953125,
      "step": 1126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 435.4791717529297,
      "epoch": 0.8262463343108505,
      "grad_norm": 11.468478482896765,
      "kl": 0.8310546875,
      "learning_rate": 1.8033825110822542e-07,
      "loss": 0.1217,
      "reward": 2.2099719047546387,
      "reward_std": 0.07140774186700583,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024402983486652374,
      "rewards/tag_count_reward": 0.984375,
      "step": 1127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.7708587646484,
      "epoch": 0.8269794721407625,
      "grad_norm": 20.46432385173581,
      "kl": 2.1875,
      "learning_rate": 1.7968243556888903e-07,
      "loss": 0.4326,
      "reward": 1.8412283658981323,
      "reward_std": 0.23730798065662384,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.056341132149100304,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 422.4791717529297,
      "epoch": 0.8277126099706745,
      "grad_norm": 7.042971822737819,
      "kl": 0.49609375,
      "learning_rate": 1.7902904767184125e-07,
      "loss": 0.0169,
      "reward": 2.967703938484192,
      "reward_std": 0.013247686438262463,
      "rewards/accuracy_reward": 1.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03229622729122639,
      "rewards/tag_count_reward": 1.0,
      "step": 1129
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.95835876464844,
      "epoch": 0.8284457478005866,
      "grad_norm": 12.848811794663536,
      "kl": 1.41015625,
      "learning_rate": 1.7837809170041112e-07,
      "loss": 0.1916,
      "reward": 2.4559115171432495,
      "reward_std": 0.0645798435434699,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02325524017214775,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.8958435058594,
      "epoch": 0.8291788856304986,
      "grad_norm": 10.31962203088763,
      "kl": 1.35546875,
      "learning_rate": 1.7772957192198578e-07,
      "loss": 0.1319,
      "reward": 2.4423160552978516,
      "reward_std": 0.12352583277970552,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.022961710579693317,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 645.1250305175781,
      "epoch": 0.8299120234604106,
      "grad_norm": 25.376081021002964,
      "kl": 2.890625,
      "learning_rate": 1.77083492587981e-07,
      "loss": 0.704,
      "reward": 2.2698137760162354,
      "reward_std": 0.4809025526046753,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.049630703404545784,
      "rewards/tag_count_reward": 0.8958333730697632,
      "step": 1132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.9166717529297,
      "epoch": 0.8306451612903226,
      "grad_norm": 19.581286588231446,
      "kl": 2.84375,
      "learning_rate": 1.7643985793381443e-07,
      "loss": 0.5377,
      "reward": 2.567038655281067,
      "reward_std": 0.5014015734195709,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.03886430896818638,
      "rewards/tag_count_reward": 0.953125,
      "step": 1133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.8333435058594,
      "epoch": 0.8313782991202346,
      "grad_norm": 6.4055923974991735,
      "kl": 0.9765625,
      "learning_rate": 1.7579867217887734e-07,
      "loss": 0.0771,
      "reward": 2.2104244232177734,
      "reward_std": 0.044318219646811485,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029159046709537506,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.25001525878906,
      "epoch": 0.8321114369501467,
      "grad_norm": 16.04432271166462,
      "kl": 2.5546875,
      "learning_rate": 1.7515993952650716e-07,
      "loss": 0.3801,
      "reward": 2.606268286705017,
      "reward_std": 0.38931509852409363,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.032620541751384735,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.2916870117188,
      "epoch": 0.8328445747800587,
      "grad_norm": 18.81150662725805,
      "kl": 3.421875,
      "learning_rate": 1.745236641639596e-07,
      "loss": 0.4975,
      "reward": 2.0818097591400146,
      "reward_std": 0.31087224930524826,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.024093182757496834,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.5625,
      "epoch": 0.8335777126099707,
      "grad_norm": 72.73956524353684,
      "kl": 4.28515625,
      "learning_rate": 1.7388985026238179e-07,
      "loss": 0.6823,
      "reward": 2.3693403005599976,
      "reward_std": 0.247810211032629,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.0369098074734211,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.375,
      "epoch": 0.8343108504398827,
      "grad_norm": 4.609364870013891,
      "kl": 0.486328125,
      "learning_rate": 1.7325850197678425e-07,
      "loss": 0.0561,
      "reward": 2.4805774688720703,
      "reward_std": 0.009202238637953997,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01942244078963995,
      "rewards/tag_count_reward": 1.0,
      "step": 1138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.91668701171875,
      "epoch": 0.8350439882697948,
      "grad_norm": 7.809025581477368,
      "kl": 0.7265625,
      "learning_rate": 1.726296234460143e-07,
      "loss": 0.0077,
      "reward": 2.4543532133102417,
      "reward_std": 0.10273497458547354,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.017868993803858757,
      "rewards/tag_count_reward": 1.0,
      "step": 1139
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 426.6666717529297,
      "epoch": 0.8357771260997068,
      "grad_norm": 6.403930601129145,
      "kl": 0.5244140625,
      "learning_rate": 1.7200321879272821e-07,
      "loss": 0.0159,
      "reward": 2.459131121635437,
      "reward_std": 0.08256103657186031,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020035718102008104,
      "rewards/tag_count_reward": 1.0,
      "step": 1140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.10418701171875,
      "epoch": 0.8365102639296188,
      "grad_norm": 3.918762150296133,
      "kl": 0.5322265625,
      "learning_rate": 1.7137929212336504e-07,
      "loss": 0.038,
      "reward": 2.2210280895233154,
      "reward_std": 0.010795718058943748,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028971992433071136,
      "rewards/tag_count_reward": 1.0,
      "step": 1141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 413.56251525878906,
      "epoch": 0.8372434017595308,
      "grad_norm": 8.59347643879693,
      "kl": 0.3896484375,
      "learning_rate": 1.7075784752811885e-07,
      "loss": 0.0366,
      "reward": 2.4820199012756348,
      "reward_std": 0.0108394306153059,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.017980179749429226,
      "rewards/tag_count_reward": 1.0,
      "step": 1142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.97918701171875,
      "epoch": 0.8379765395894428,
      "grad_norm": 14.774468827305876,
      "kl": 1.431640625,
      "learning_rate": 1.7013888908091262e-07,
      "loss": 0.1838,
      "reward": 1.9469353556632996,
      "reward_std": 0.08503856789320707,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02355077490210533,
      "rewards/tag_count_reward": 0.984375,
      "step": 1143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.43751525878906,
      "epoch": 0.8387096774193549,
      "grad_norm": 58.13871324922508,
      "kl": 2.9189453125,
      "learning_rate": 1.6952242083937097e-07,
      "loss": 0.1956,
      "reward": 2.162394165992737,
      "reward_std": 0.1664935452863574,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.023369694128632545,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 459.2708435058594,
      "epoch": 0.8394428152492669,
      "grad_norm": 8.424296203656573,
      "kl": 1.720703125,
      "learning_rate": 1.6890844684479386e-07,
      "loss": 0.1905,
      "reward": 2.372523546218872,
      "reward_std": 0.37988629192113876,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9722222089767456,
      "rewards/repetition_penalty_reward": -0.037198787555098534,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 493.2708435058594,
      "epoch": 0.8401759530791789,
      "grad_norm": 22.816794127705354,
      "kl": 3.078125,
      "learning_rate": 1.6829697112213025e-07,
      "loss": 0.3806,
      "reward": 2.0439147353172302,
      "reward_std": 0.3693936914205551,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.025529890321195126,
      "rewards/tag_count_reward": 0.8958333432674408,
      "step": 1146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 508.8958435058594,
      "epoch": 0.8409090909090909,
      "grad_norm": 12.890399440726029,
      "kl": 3.3203125,
      "learning_rate": 1.676879976799511e-07,
      "loss": 0.462,
      "reward": 2.3762617111206055,
      "reward_std": 0.2129766345024109,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02478000707924366,
      "rewards/tag_count_reward": 0.921875,
      "step": 1147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.85418701171875,
      "epoch": 0.841642228739003,
      "grad_norm": 19.300394028055656,
      "kl": 1.95703125,
      "learning_rate": 1.6708153051042396e-07,
      "loss": 0.3214,
      "reward": 2.646037220954895,
      "reward_std": 0.2798616886138916,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.024101640097796917,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 464.0208435058594,
      "epoch": 0.842375366568915,
      "grad_norm": 37.132576967657364,
      "kl": 1.580078125,
      "learning_rate": 1.6647757358928588e-07,
      "loss": 0.3186,
      "reward": 2.4220274090766907,
      "reward_std": 0.19371453439816833,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.027625439688563347,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1149
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.12501525878906,
      "epoch": 0.843108504398827,
      "grad_norm": 15.356178665631093,
      "kl": 1.7890625,
      "learning_rate": 1.6587613087581832e-07,
      "loss": 0.2237,
      "reward": 2.3487614393234253,
      "reward_std": 0.4307193011045456,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.036655270494520664,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 461.18751525878906,
      "epoch": 0.843841642228739,
      "grad_norm": 15.508356091158527,
      "kl": 2.2734375,
      "learning_rate": 1.652772063128201e-07,
      "loss": 0.5044,
      "reward": 2.67854905128479,
      "reward_std": 0.16638881852850318,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0245761526748538,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.3125305175781,
      "epoch": 0.844574780058651,
      "grad_norm": 11.973782162720196,
      "kl": 2.30078125,
      "learning_rate": 1.6468080382658273e-07,
      "loss": 0.5168,
      "reward": 2.1508249044418335,
      "reward_std": 0.2192765325307846,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0210501654073596,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.2083435058594,
      "epoch": 0.8453079178885631,
      "grad_norm": 8.18992294263394,
      "kl": 0.724609375,
      "learning_rate": 1.6408692732686346e-07,
      "loss": 0.0572,
      "reward": 2.428075909614563,
      "reward_std": 0.14463306940160692,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.014632577076554298,
      "rewards/tag_count_reward": 0.984375,
      "step": 1153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.7083435058594,
      "epoch": 0.8460410557184751,
      "grad_norm": 8.203490331986044,
      "kl": 1.4375,
      "learning_rate": 1.634955807068609e-07,
      "loss": 0.2517,
      "reward": 2.4469761848449707,
      "reward_std": 0.1210167994722724,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.0304544810205698,
      "rewards/tag_count_reward": 0.984375,
      "step": 1154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.9583435058594,
      "epoch": 0.8467741935483871,
      "grad_norm": 14.864662992722334,
      "kl": 0.638671875,
      "learning_rate": 1.6290676784318818e-07,
      "loss": 0.0969,
      "reward": 2.7268673181533813,
      "reward_std": 0.011194499209523201,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02313273958861828,
      "rewards/tag_count_reward": 1.0,
      "step": 1155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.60418701171875,
      "epoch": 0.8475073313782991,
      "grad_norm": 86.480628341073,
      "kl": 5.9453125,
      "learning_rate": 1.6232049259584885e-07,
      "loss": 0.4999,
      "reward": 2.3408678770065308,
      "reward_std": 0.2514855843037367,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.027187674306333065,
      "rewards/tag_count_reward": 0.9375,
      "step": 1156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.50001525878906,
      "epoch": 0.8482404692082112,
      "grad_norm": 10.416530700300191,
      "kl": 1.046875,
      "learning_rate": 1.6173675880821045e-07,
      "loss": 0.0737,
      "reward": 2.2128702998161316,
      "reward_std": 0.05877932719886303,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02150482777506113,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 1157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.81251525878906,
      "epoch": 0.8489736070381232,
      "grad_norm": 31.385957646206187,
      "kl": 3.5703125,
      "learning_rate": 1.6115557030698022e-07,
      "loss": 0.6985,
      "reward": 1.8645765781402588,
      "reward_std": 0.3231193572282791,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.057298444211483,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 1158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.45835876464844,
      "epoch": 0.8497067448680352,
      "grad_norm": 34.994146803580094,
      "kl": 3.578125,
      "learning_rate": 1.6057693090217925e-07,
      "loss": 0.3718,
      "reward": 2.401385545730591,
      "reward_std": 0.24192781373858452,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.03437837865203619,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1159
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.75,
      "epoch": 0.8504398826979472,
      "grad_norm": 6.489234968620317,
      "kl": 0.603515625,
      "learning_rate": 1.6000084438711793e-07,
      "loss": 0.0343,
      "reward": 1.9903408288955688,
      "reward_std": 0.09549414180219173,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025284183211624622,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.4791717529297,
      "epoch": 0.8511730205278593,
      "grad_norm": 10.677103082846811,
      "kl": 1.9345703125,
      "learning_rate": 1.5942731453837122e-07,
      "loss": 0.3723,
      "reward": 2.1833943724632263,
      "reward_std": 0.17482627276331186,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.017994558438658714,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 465.37501525878906,
      "epoch": 0.8519061583577713,
      "grad_norm": 6.559132148219684,
      "kl": 0.4189453125,
      "learning_rate": 1.5885634511575347e-07,
      "loss": 0.0566,
      "reward": 2.4819835424423218,
      "reward_std": 0.01208042073994875,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01801648736000061,
      "rewards/tag_count_reward": 1.0,
      "step": 1162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 513.2083435058594,
      "epoch": 0.8526392961876833,
      "grad_norm": 16.350981255664664,
      "kl": 2.6640625,
      "learning_rate": 1.5828793986229406e-07,
      "loss": 0.8073,
      "reward": 2.545455813407898,
      "reward_std": 0.5733033120632172,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/reasoning_steps_reward": 0.9652778506278992,
      "rewards/repetition_penalty_reward": -0.034405382350087166,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.0000305175781,
      "epoch": 0.8533724340175953,
      "grad_norm": 16.641164201933258,
      "kl": 2.689453125,
      "learning_rate": 1.5772210250421265e-07,
      "loss": 0.3053,
      "reward": 2.5371824502944946,
      "reward_std": 0.40333325043320656,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.025317718740552664,
      "rewards/tag_count_reward": 0.9375,
      "step": 1164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.3541717529297,
      "epoch": 0.8541055718475073,
      "grad_norm": 8.346505801510467,
      "kl": 0.53515625,
      "learning_rate": 1.5715883675089524e-07,
      "loss": 0.0462,
      "reward": 2.4680683612823486,
      "reward_std": 0.017134539783000946,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.031931765377521515,
      "rewards/tag_count_reward": 1.0,
      "step": 1165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.125,
      "epoch": 0.8548387096774194,
      "grad_norm": 17.46249875334204,
      "kl": 1.2744140625,
      "learning_rate": 1.5659814629486896e-07,
      "loss": 0.2772,
      "reward": 1.9583578705787659,
      "reward_std": 0.07822929974645376,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02080879732966423,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 453.79168701171875,
      "epoch": 0.8555718475073314,
      "grad_norm": 15.376964004491224,
      "kl": 1.38671875,
      "learning_rate": 1.56040034811779e-07,
      "loss": 0.2414,
      "reward": 2.2069084644317627,
      "reward_std": 0.08541684225201607,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.0205221064388752,
      "rewards/tag_count_reward": 0.984375,
      "step": 1167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.31251525878906,
      "epoch": 0.8563049853372434,
      "grad_norm": 9.078560179362256,
      "kl": 1.28125,
      "learning_rate": 1.5548450596036328e-07,
      "loss": 0.0469,
      "reward": 2.198473036289215,
      "reward_std": 0.08828200493007898,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.022013090550899506,
      "rewards/tag_count_reward": 0.984375,
      "step": 1168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.87501525878906,
      "epoch": 0.8570381231671554,
      "grad_norm": 13.56245035458174,
      "kl": 0.8818359375,
      "learning_rate": 1.5493156338242971e-07,
      "loss": 0.1281,
      "reward": 2.4598007202148438,
      "reward_std": 0.07951221195980906,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019365964457392693,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1169
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.9791870117188,
      "epoch": 0.8577712609970675,
      "grad_norm": 26.531238059381693,
      "kl": 3.109375,
      "learning_rate": 1.5438121070283128e-07,
      "loss": 0.5462,
      "reward": 2.1935884952545166,
      "reward_std": 0.5035333782434464,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.05814778432250023,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 1170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.0833435058594,
      "epoch": 0.8585043988269795,
      "grad_norm": 14.122971665456385,
      "kl": 1.74609375,
      "learning_rate": 1.5383345152944294e-07,
      "loss": 0.2753,
      "reward": 2.3982787132263184,
      "reward_std": 0.27669892460107803,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.023596427403390408,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.4583435058594,
      "epoch": 0.8592375366568915,
      "grad_norm": 13.759082348025947,
      "kl": 1.82421875,
      "learning_rate": 1.5328828945313764e-07,
      "loss": 0.3198,
      "reward": 2.3727020025253296,
      "reward_std": 0.26478735730051994,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03354795090854168,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 471.3125,
      "epoch": 0.8599706744868035,
      "grad_norm": 12.864618269615681,
      "kl": 1.615234375,
      "learning_rate": 1.5274572804776284e-07,
      "loss": 0.3322,
      "reward": 2.208186984062195,
      "reward_std": 0.10108592826873064,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.014035395812243223,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.7291717529297,
      "epoch": 0.8607038123167156,
      "grad_norm": 8.624897435289583,
      "kl": 1.2255859375,
      "learning_rate": 1.5220577087011731e-07,
      "loss": 0.2663,
      "reward": 2.4378814697265625,
      "reward_std": 0.14415617939084768,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.027396278455853462,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.8125,
      "epoch": 0.8614369501466276,
      "grad_norm": 11.736172117731995,
      "kl": 1.0546875,
      "learning_rate": 1.5166842145992737e-07,
      "loss": 0.2542,
      "reward": 1.9319466352462769,
      "reward_std": 0.1647976189851761,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.028122933581471443,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 427.2708435058594,
      "epoch": 0.8621700879765396,
      "grad_norm": 14.550521023717632,
      "kl": 2.2421875,
      "learning_rate": 1.5113368333982424e-07,
      "loss": 0.172,
      "reward": 2.188947319984436,
      "reward_std": 0.09993797168135643,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02112211100757122,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 451.50001525878906,
      "epoch": 0.8629032258064516,
      "grad_norm": 17.998782549691533,
      "kl": 1.345703125,
      "learning_rate": 1.5060156001532024e-07,
      "loss": 0.2064,
      "reward": 2.1768603920936584,
      "reward_std": 0.16409555356949568,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028000716120004654,
      "rewards/tag_count_reward": 0.96875,
      "step": 1177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 377.7916717529297,
      "epoch": 0.8636363636363636,
      "grad_norm": 7.291251293870026,
      "kl": 0.85546875,
      "learning_rate": 1.5007205497478672e-07,
      "loss": 0.0573,
      "reward": 2.477933406829834,
      "reward_std": 0.014990990981459618,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022066613659262657,
      "rewards/tag_count_reward": 1.0,
      "step": 1178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.8541717529297,
      "epoch": 0.8643695014662757,
      "grad_norm": 12.249922267015474,
      "kl": 1.8388671875,
      "learning_rate": 1.4954517168943015e-07,
      "loss": 0.3705,
      "reward": 2.452030062675476,
      "reward_std": 0.0967979496344924,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021928315982222557,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1179
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.8958435058594,
      "epoch": 0.8651026392961877,
      "grad_norm": 16.52706856842083,
      "kl": 1.943359375,
      "learning_rate": 1.4902091361327049e-07,
      "loss": 0.113,
      "reward": 2.450742721557617,
      "reward_std": 0.10176345612853765,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.02147953025996685,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 458.8541717529297,
      "epoch": 0.8658357771260997,
      "grad_norm": 16.404992846234286,
      "kl": 0.71875,
      "learning_rate": 1.4849928418311742e-07,
      "loss": 0.0433,
      "reward": 2.4826748371124268,
      "reward_std": 0.009747894946485758,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01732515450567007,
      "rewards/tag_count_reward": 1.0,
      "step": 1181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 545.0208435058594,
      "epoch": 0.8665689149560117,
      "grad_norm": 101.74778357413155,
      "kl": 5.078125,
      "learning_rate": 1.4798028681854875e-07,
      "loss": 0.9233,
      "reward": 2.569236397743225,
      "reward_std": 0.4390984922647476,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.04187488742172718,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.25001525878906,
      "epoch": 0.8673020527859238,
      "grad_norm": 26.246204917626002,
      "kl": 3.287109375,
      "learning_rate": 1.4746392492188717e-07,
      "loss": 0.552,
      "reward": 2.1077802181243896,
      "reward_std": 0.3405429106205702,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.03805319964885712,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.62501525878906,
      "epoch": 0.8680351906158358,
      "grad_norm": 35.521939075442454,
      "kl": 3.9921875,
      "learning_rate": 1.46950201878179e-07,
      "loss": 0.4332,
      "reward": 1.9154297709465027,
      "reward_std": 0.1296032927930355,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.023806375451385975,
      "rewards/tag_count_reward": 0.953125,
      "step": 1184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.7083435058594,
      "epoch": 0.8687683284457478,
      "grad_norm": 34.922739418576704,
      "kl": 2.0234375,
      "learning_rate": 1.464391210551707e-07,
      "loss": 0.0956,
      "reward": 2.4347234964370728,
      "reward_std": 0.23893173784017563,
      "rewards/accuracy_reward": 0.47916667722165585,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02881821058690548,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 1185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 535.5833435058594,
      "epoch": 0.8695014662756598,
      "grad_norm": 14.431104694894044,
      "kl": 2.265625,
      "learning_rate": 1.4593068580328804e-07,
      "loss": 0.4029,
      "reward": 2.140149235725403,
      "reward_std": 0.2738456204533577,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.026517387479543686,
      "rewards/tag_count_reward": 0.9375,
      "step": 1186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.0,
      "epoch": 0.8702346041055719,
      "grad_norm": 13.622638724234001,
      "kl": 0.95703125,
      "learning_rate": 1.4542489945561314e-07,
      "loss": 0.0834,
      "reward": 2.226495683193207,
      "reward_std": 0.012074500788003206,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023504262790083885,
      "rewards/tag_count_reward": 1.0,
      "step": 1187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 567.4375305175781,
      "epoch": 0.8709677419354839,
      "grad_norm": 45.186053187429835,
      "kl": 3.1171875,
      "learning_rate": 1.4492176532786332e-07,
      "loss": 0.9847,
      "reward": 2.02320396900177,
      "reward_std": 0.5472326725721359,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.05144892632961273,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 1188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.75,
      "epoch": 0.8717008797653959,
      "grad_norm": 25.416128836027184,
      "kl": 2.2890625,
      "learning_rate": 1.4442128671836896e-07,
      "loss": 0.5288,
      "reward": 2.13466614484787,
      "reward_std": 0.25415295362472534,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021583949215710163,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1189
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.0833435058594,
      "epoch": 0.8724340175953079,
      "grad_norm": 9.144807724609006,
      "kl": 0.6318359375,
      "learning_rate": 1.4392346690805202e-07,
      "loss": 0.0231,
      "reward": 1.9753663539886475,
      "reward_std": 0.011926409788429737,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024633726105093956,
      "rewards/tag_count_reward": 1.0,
      "step": 1190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.8958435058594,
      "epoch": 0.8731671554252199,
      "grad_norm": 14.712869736478394,
      "kl": 0.4169921875,
      "learning_rate": 1.4342830916040455e-07,
      "loss": 0.0499,
      "reward": 2.230422258377075,
      "reward_std": 0.010051010176539421,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01957788784056902,
      "rewards/tag_count_reward": 1.0,
      "step": 1191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 413.66668701171875,
      "epoch": 0.873900293255132,
      "grad_norm": 11.265022293824497,
      "kl": 1.419921875,
      "learning_rate": 1.4293581672146727e-07,
      "loss": 0.1369,
      "reward": 2.434700131416321,
      "reward_std": 0.15641514584422112,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023633372969925404,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 520.7500305175781,
      "epoch": 0.874633431085044,
      "grad_norm": 11.514329955466966,
      "kl": 3.640625,
      "learning_rate": 1.424459928198083e-07,
      "loss": 0.5466,
      "reward": 2.527653455734253,
      "reward_std": 0.499290406703949,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02095778752118349,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 485.75001525878906,
      "epoch": 0.875366568914956,
      "grad_norm": 13.6591202283712,
      "kl": 1.0458984375,
      "learning_rate": 1.419588406665019e-07,
      "loss": 0.2251,
      "reward": 2.1814990043640137,
      "reward_std": 0.16585272178053856,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.032042741775512695,
      "rewards/tag_count_reward": 0.984375,
      "step": 1194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.8333435058594,
      "epoch": 0.876099706744868,
      "grad_norm": 22.93844108305487,
      "kl": 2.21875,
      "learning_rate": 1.4147436345510758e-07,
      "loss": 0.5344,
      "reward": 2.395401358604431,
      "reward_std": 0.26352133601903915,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028209981508553028,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 475.875,
      "epoch": 0.8768328445747801,
      "grad_norm": 22.306040255922916,
      "kl": 1.7109375,
      "learning_rate": 1.4099256436164898e-07,
      "loss": 0.5019,
      "reward": 2.3607842922210693,
      "reward_std": 0.33058515191078186,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02636854164302349,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.6458435058594,
      "epoch": 0.8775659824046921,
      "grad_norm": 18.68583800339866,
      "kl": 3.7109375,
      "learning_rate": 1.405134465445934e-07,
      "loss": 0.5144,
      "reward": 1.8736881017684937,
      "reward_std": 0.26206301152706146,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.029089704155921936,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.0,
      "epoch": 0.8782991202346041,
      "grad_norm": 18.250109922553403,
      "kl": 4.234375,
      "learning_rate": 1.4003701314483042e-07,
      "loss": 0.6348,
      "reward": 1.910728394985199,
      "reward_std": 0.18229395896196365,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02156328223645687,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 522.1041870117188,
      "epoch": 0.8790322580645161,
      "grad_norm": 35.35953038811825,
      "kl": 3.84375,
      "learning_rate": 1.395632672856523e-07,
      "loss": 0.948,
      "reward": 2.56496000289917,
      "reward_std": 0.4408094882965088,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.04094269871711731,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1199
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.25001525878906,
      "epoch": 0.8797653958944281,
      "grad_norm": 18.7935164342564,
      "kl": 3.859375,
      "learning_rate": 1.3909221207273232e-07,
      "loss": 0.5714,
      "reward": 2.5062928199768066,
      "reward_std": 0.5336205363273621,
      "rewards/accuracy_reward": 0.625,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03537383023649454,
      "rewards/tag_count_reward": 0.9375,
      "step": 1200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 454.87501525878906,
      "epoch": 0.8804985337243402,
      "grad_norm": 22.88119881713903,
      "kl": 2.09765625,
      "learning_rate": 1.3862385059410565e-07,
      "loss": 0.0926,
      "reward": 1.9407550692558289,
      "reward_std": 0.2067294642329216,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.026258857920765877,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.4166717529297,
      "epoch": 0.8812316715542522,
      "grad_norm": 14.47777815558714,
      "kl": 0.8076171875,
      "learning_rate": 1.381581859201479e-07,
      "loss": 0.2542,
      "reward": 2.196794271469116,
      "reward_std": 0.1006504325196147,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.03063626028597355,
      "rewards/tag_count_reward": 0.984375,
      "step": 1202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 469.43751525878906,
      "epoch": 0.8819648093841642,
      "grad_norm": 9.167261630009445,
      "kl": 1.208984375,
      "learning_rate": 1.376952211035562e-07,
      "loss": 0.0365,
      "reward": 2.668929934501648,
      "reward_std": 0.22134077921509743,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.018570033833384514,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.9375,
      "epoch": 0.8826979472140762,
      "grad_norm": 8.414115405334524,
      "kl": 0.986328125,
      "learning_rate": 1.3723495917932803e-07,
      "loss": 0.0615,
      "reward": 2.1917551159858704,
      "reward_std": 0.11872765189036727,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02699489053338766,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.2083435058594,
      "epoch": 0.8834310850439883,
      "grad_norm": 11.814801184529381,
      "kl": 0.869140625,
      "learning_rate": 1.3677740316474236e-07,
      "loss": 0.0662,
      "reward": 2.4721962213516235,
      "reward_std": 0.015518466010689735,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027803857810795307,
      "rewards/tag_count_reward": 1.0,
      "step": 1205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.41668701171875,
      "epoch": 0.8841642228739003,
      "grad_norm": 26.396037778778368,
      "kl": 3.11328125,
      "learning_rate": 1.3632255605933892e-07,
      "loss": 0.4828,
      "reward": 2.3294543027877808,
      "reward_std": 0.3807095689699054,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03339302074164152,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 524.1458435058594,
      "epoch": 0.8848973607038123,
      "grad_norm": 22.881106867606714,
      "kl": 2.7265625,
      "learning_rate": 1.358704208448994e-07,
      "loss": 0.3669,
      "reward": 2.072553813457489,
      "reward_std": 0.34631527960300446,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.029876701533794403,
      "rewards/tag_count_reward": 0.921875,
      "step": 1207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.7500152587891,
      "epoch": 0.8856304985337243,
      "grad_norm": 24.40594031253714,
      "kl": 4.421875,
      "learning_rate": 1.3542100048542723e-07,
      "loss": 0.7167,
      "reward": 2.2936359643936157,
      "reward_std": 0.47601407766342163,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.03796131908893585,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 1208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.62501525878906,
      "epoch": 0.8863636363636364,
      "grad_norm": 9.913065932344221,
      "kl": 2.974609375,
      "learning_rate": 1.349742979271286e-07,
      "loss": 0.4171,
      "reward": 2.3427236080169678,
      "reward_std": 0.2851731404662132,
      "rewards/accuracy_reward": 0.4375,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028804211877286434,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1209
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.72918701171875,
      "epoch": 0.8870967741935484,
      "grad_norm": 9.604198032999998,
      "kl": 1.984375,
      "learning_rate": 1.3453031609839265e-07,
      "loss": 0.2398,
      "reward": 2.3267154693603516,
      "reward_std": 0.3730589300394058,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.0291875172406435,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.6666870117188,
      "epoch": 0.8878299120234604,
      "grad_norm": 18.106414337727866,
      "kl": 2.814453125,
      "learning_rate": 1.3408905790977318e-07,
      "loss": 0.4803,
      "reward": 2.5070048570632935,
      "reward_std": 0.44919482129625976,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.02598138339817524,
      "rewards/tag_count_reward": 0.921875,
      "step": 1211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.16668701171875,
      "epoch": 0.8885630498533724,
      "grad_norm": 36.20233541493654,
      "kl": 2.24609375,
      "learning_rate": 1.3365052625396833e-07,
      "loss": 0.6054,
      "reward": 2.33927983045578,
      "reward_std": 0.382673054933548,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03224811889231205,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 1212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 434.8958435058594,
      "epoch": 0.8892961876832844,
      "grad_norm": 16.41131988450452,
      "kl": 0.74609375,
      "learning_rate": 1.3321472400580273e-07,
      "loss": 0.2423,
      "reward": 1.95037442445755,
      "reward_std": 0.11447333311662078,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02011175360530615,
      "rewards/tag_count_reward": 0.984375,
      "step": 1213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 422.31251525878906,
      "epoch": 0.8900293255131965,
      "grad_norm": 3.9170854028531417,
      "kl": 0.3603515625,
      "learning_rate": 1.3278165402220787e-07,
      "loss": 0.0441,
      "reward": 2.4774237275123596,
      "reward_std": 0.009436836931854486,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022576178424060345,
      "rewards/tag_count_reward": 1.0,
      "step": 1214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.9583435058594,
      "epoch": 0.8907624633431085,
      "grad_norm": 9.61162686291127,
      "kl": 0.6162109375,
      "learning_rate": 1.3235131914220406e-07,
      "loss": 0.0524,
      "reward": 2.1963998675346375,
      "reward_std": 0.11624268954619765,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022350233048200607,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.0208435058594,
      "epoch": 0.8914956011730205,
      "grad_norm": 12.978659682793714,
      "kl": 0.75390625,
      "learning_rate": 1.3192372218688105e-07,
      "loss": 0.1972,
      "reward": 2.4325318336486816,
      "reward_std": 0.31300088763237,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02753778174519539,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 1216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 512.9791870117188,
      "epoch": 0.8922287390029325,
      "grad_norm": 19.904083399665815,
      "kl": 3.35546875,
      "learning_rate": 1.3149886595938024e-07,
      "loss": 0.6293,
      "reward": 1.8745170831680298,
      "reward_std": 0.2614711821079254,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.028260784223675728,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.3125305175781,
      "epoch": 0.8929618768328446,
      "grad_norm": 16.529405747089786,
      "kl": 2.06640625,
      "learning_rate": 1.3107675324487567e-07,
      "loss": 0.3418,
      "reward": 2.143596053123474,
      "reward_std": 0.2585507184267044,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.026542955078184605,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 425.3958435058594,
      "epoch": 0.8936950146627566,
      "grad_norm": 7.720965596393824,
      "kl": 0.650390625,
      "learning_rate": 1.3065738681055659e-07,
      "loss": 0.0344,
      "reward": 2.6714645624160767,
      "reward_std": 0.19277621805667877,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.024716145358979702,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1219
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 436.91668701171875,
      "epoch": 0.8944281524926686,
      "grad_norm": 15.006457009295644,
      "kl": 1.58984375,
      "learning_rate": 1.302407694056083e-07,
      "loss": 0.3509,
      "reward": 2.410833716392517,
      "reward_std": 0.24607142433524132,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028402483090758324,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 476.5833435058594,
      "epoch": 0.8951612903225806,
      "grad_norm": 12.304779027075734,
      "kl": 3.09375,
      "learning_rate": 1.2982690376119503e-07,
      "loss": 0.4719,
      "reward": 2.622697591781616,
      "reward_std": 0.33321088552474976,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.026607911102473736,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.41668701171875,
      "epoch": 0.8958944281524927,
      "grad_norm": 9.34249431097831,
      "kl": 1.8505859375,
      "learning_rate": 1.2941579259044145e-07,
      "loss": 0.3572,
      "reward": 2.2139004468917847,
      "reward_std": 0.05917600984685123,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.020474628545343876,
      "rewards/tag_count_reward": 0.984375,
      "step": 1222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.0,
      "epoch": 0.8966275659824047,
      "grad_norm": 32.507561910320035,
      "kl": 3.80859375,
      "learning_rate": 1.290074385884151e-07,
      "loss": 0.8871,
      "reward": 2.7785022258758545,
      "reward_std": 0.6063933372497559,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.03573389910161495,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 419.3958435058594,
      "epoch": 0.8973607038123167,
      "grad_norm": 13.8733638371739,
      "kl": 1.4609375,
      "learning_rate": 1.2860184443210882e-07,
      "loss": 0.0547,
      "reward": 2.6921792030334473,
      "reward_std": 0.13939360855147243,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.019626601599156857,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.00001525878906,
      "epoch": 0.8980938416422287,
      "grad_norm": 43.64985284284774,
      "kl": 1.40234375,
      "learning_rate": 1.28199012780423e-07,
      "loss": 0.3605,
      "reward": 2.430221438407898,
      "reward_std": 0.18982463865540922,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02116764523088932,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.0208435058594,
      "epoch": 0.8988269794721407,
      "grad_norm": 96.47944289282677,
      "kl": 5.515625,
      "learning_rate": 1.277989462741482e-07,
      "loss": 0.7847,
      "reward": 2.0465909242630005,
      "reward_std": 0.5166294425725937,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.069728534668684,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 1226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 395.0,
      "epoch": 0.8995601173020528,
      "grad_norm": 11.508237038705388,
      "kl": 2.203125,
      "learning_rate": 1.2740164753594811e-07,
      "loss": 0.1107,
      "reward": 2.3587182760238647,
      "reward_std": 0.3529049903154373,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.021490052342414856,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.9791717529297,
      "epoch": 0.9002932551319648,
      "grad_norm": 9.91761080011214,
      "kl": 1.1171875,
      "learning_rate": 1.2700711917034177e-07,
      "loss": 0.0532,
      "reward": 2.222747564315796,
      "reward_std": 0.025613236241042614,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022044179029762745,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.7708435058594,
      "epoch": 0.9010263929618768,
      "grad_norm": 20.729917098151063,
      "kl": 3.1640625,
      "learning_rate": 1.2661536376368723e-07,
      "loss": 0.39,
      "reward": 2.633534550666809,
      "reward_std": 0.3318822309374809,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02445169072598219,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1229
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.04168701171875,
      "epoch": 0.9017595307917888,
      "grad_norm": 18.64841756924077,
      "kl": 1.595703125,
      "learning_rate": 1.2622638388416385e-07,
      "loss": 0.3109,
      "reward": 2.4270366430282593,
      "reward_std": 0.1843274012207985,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02088008914142847,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.68751525878906,
      "epoch": 0.9024926686217009,
      "grad_norm": 14.523184732588259,
      "kl": 0.984375,
      "learning_rate": 1.2584018208175614e-07,
      "loss": 0.0594,
      "reward": 2.475397825241089,
      "reward_std": 0.025617304258048534,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01939393486827612,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 443.2291717529297,
      "epoch": 0.9032258064516129,
      "grad_norm": 16.281236006778695,
      "kl": 1.4375,
      "learning_rate": 1.2545676088823656e-07,
      "loss": 0.0787,
      "reward": 2.6920576095581055,
      "reward_std": 0.1349460631608963,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.019748042337596416,
      "rewards/tag_count_reward": 0.9895833730697632,
      "step": 1232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.0625305175781,
      "epoch": 0.9039589442815249,
      "grad_norm": 24.419234328744878,
      "kl": 2.33203125,
      "learning_rate": 1.2507612281714912e-07,
      "loss": 0.5811,
      "reward": 1.8098527789115906,
      "reward_std": 0.42128223180770874,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9513888657093048,
      "rewards/repetition_penalty_reward": -0.05820286273956299,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.0833435058594,
      "epoch": 0.9046920821114369,
      "grad_norm": 9.210214401503478,
      "kl": 1.6591796875,
      "learning_rate": 1.2469827036379294e-07,
      "loss": 0.3667,
      "reward": 2.687574028968811,
      "reward_std": 0.1076923101209104,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02596777305006981,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 479.89585876464844,
      "epoch": 0.905425219941349,
      "grad_norm": 21.720247309897992,
      "kl": 2.3671875,
      "learning_rate": 1.2432320600520568e-07,
      "loss": 0.3584,
      "reward": 2.1699541807174683,
      "reward_std": 0.18353354185819626,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02275434322655201,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.7291717529297,
      "epoch": 0.906158357771261,
      "grad_norm": 29.757104937366716,
      "kl": 2.986328125,
      "learning_rate": 1.2395093220014776e-07,
      "loss": 0.3691,
      "reward": 2.2928508520126343,
      "reward_std": 0.2880670018494129,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03701025526970625,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 1236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.75,
      "epoch": 0.906891495601173,
      "grad_norm": 12.415793376854689,
      "kl": 2.44140625,
      "learning_rate": 1.235814513890855e-07,
      "loss": 0.34,
      "reward": 2.7981667518615723,
      "reward_std": 0.5196200609207153,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.03690283186733723,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 442.625,
      "epoch": 0.907624633431085,
      "grad_norm": 9.400049645745804,
      "kl": 1.259765625,
      "learning_rate": 1.232147659941761e-07,
      "loss": 0.3226,
      "reward": 2.4332507848739624,
      "reward_std": 0.15348897967487574,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.030291039496660233,
      "rewards/tag_count_reward": 0.984375,
      "step": 1238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 495.3125,
      "epoch": 0.908357771260997,
      "grad_norm": 7.834262887636369,
      "kl": 0.9462890625,
      "learning_rate": 1.228508784192506e-07,
      "loss": 0.2261,
      "reward": 2.2043164372444153,
      "reward_std": 0.08925489895045757,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024850289337337017,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1239
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 391.125,
      "epoch": 0.9090909090909091,
      "grad_norm": 6.238896486111178,
      "kl": 0.40625,
      "learning_rate": 1.2248979104979925e-07,
      "loss": 0.0608,
      "reward": 2.9420199394226074,
      "reward_std": 0.12390666967257857,
      "rewards/accuracy_reward": 0.9791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02672996185719967,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 460.43751525878906,
      "epoch": 0.9098240469208211,
      "grad_norm": 18.532777826662272,
      "kl": 1.0888671875,
      "learning_rate": 1.2213150625295507e-07,
      "loss": 0.2335,
      "reward": 2.4339605569839478,
      "reward_std": 0.16963256802409887,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.026108983904123306,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 476.4791717529297,
      "epoch": 0.9105571847507331,
      "grad_norm": 11.675756206099358,
      "kl": 2.9296875,
      "learning_rate": 1.2177602637747878e-07,
      "loss": 0.3675,
      "reward": 2.145154595375061,
      "reward_std": 0.18334370106458664,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.033664777874946594,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 1242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 466.8333435058594,
      "epoch": 0.9112903225806451,
      "grad_norm": 16.09050924699834,
      "kl": 0.79296875,
      "learning_rate": 1.2142335375374307e-07,
      "loss": 0.2617,
      "reward": 2.4195971488952637,
      "reward_std": 0.22157121449708939,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.026583565399050713,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 569.1458587646484,
      "epoch": 0.9120234604105572,
      "grad_norm": 78.30173265234124,
      "kl": 1.275390625,
      "learning_rate": 1.2107349069371778e-07,
      "loss": 0.4808,
      "reward": 2.301529884338379,
      "reward_std": 0.3600015640258789,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.021386777982115746,
      "rewards/tag_count_reward": 0.9270833432674408,
      "step": 1244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 424.91668701171875,
      "epoch": 0.9127565982404692,
      "grad_norm": 8.469807341370322,
      "kl": 1.4306640625,
      "learning_rate": 1.2072643949095406e-07,
      "loss": 0.1403,
      "reward": 2.1825441122055054,
      "reward_std": 0.16613122075796127,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02058098092675209,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 1245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 437.4791717529297,
      "epoch": 0.9134897360703812,
      "grad_norm": 5.404996461007736,
      "kl": 0.5380859375,
      "learning_rate": 1.2038220242057014e-07,
      "loss": 0.029,
      "reward": 2.972726821899414,
      "reward_std": 0.010692416690289974,
      "rewards/accuracy_reward": 1.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02727325912564993,
      "rewards/tag_count_reward": 1.0,
      "step": 1246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.2708435058594,
      "epoch": 0.9142228739002932,
      "grad_norm": 23.52216583858044,
      "kl": 1.69140625,
      "learning_rate": 1.2004078173923584e-07,
      "loss": 0.2544,
      "reward": 2.575079560279846,
      "reward_std": 0.2885263650678098,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.04471219517290592,
      "rewards/tag_count_reward": 0.953125,
      "step": 1247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.4583435058594,
      "epoch": 0.9149560117302052,
      "grad_norm": 26.89486686665491,
      "kl": 1.7890625,
      "learning_rate": 1.1970217968515773e-07,
      "loss": 0.2036,
      "reward": 1.9872766733169556,
      "reward_std": 0.16751797497272491,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.028348451480269432,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.5,
      "epoch": 0.9156891495601173,
      "grad_norm": 10.715869001628393,
      "kl": 1.19140625,
      "learning_rate": 1.1936639847806516e-07,
      "loss": 0.27,
      "reward": 2.4046987295150757,
      "reward_std": 0.2617655247449875,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.02932926919311285,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1249
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 452.8333435058594,
      "epoch": 0.9164222873900293,
      "grad_norm": 33.601663618254626,
      "kl": 5.296875,
      "learning_rate": 1.1903344031919474e-07,
      "loss": 0.3832,
      "reward": 2.310217022895813,
      "reward_std": 0.30332429707050323,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.031796906143426895,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.125,
      "epoch": 0.9171554252199413,
      "grad_norm": 40.609113917444844,
      "kl": 5.0,
      "learning_rate": 1.1870330739127676e-07,
      "loss": 0.6408,
      "reward": 2.7230184078216553,
      "reward_std": 0.4918576031923294,
      "rewards/accuracy_reward": 0.8958333432674408,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.0356622040271759,
      "rewards/tag_count_reward": 0.890625,
      "step": 1251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 472.33335876464844,
      "epoch": 0.9178885630498533,
      "grad_norm": 8.756571405355077,
      "kl": 1.392578125,
      "learning_rate": 1.1837600185852021e-07,
      "loss": 0.254,
      "reward": 2.383722424507141,
      "reward_std": 0.35482998192310333,
      "rewards/accuracy_reward": 0.47916667722165585,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.027735993266105652,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.125,
      "epoch": 0.9186217008797654,
      "grad_norm": 12.083545586661096,
      "kl": 1.7421875,
      "learning_rate": 1.1805152586659917e-07,
      "loss": 0.544,
      "reward": 2.0876930952072144,
      "reward_std": 0.39283469319343567,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9583334028720856,
      "rewards/repetition_penalty_reward": -0.05293210782110691,
      "rewards/tag_count_reward": 0.953125,
      "step": 1253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 404.81251525878906,
      "epoch": 0.9193548387096774,
      "grad_norm": 19.594726969083506,
      "kl": 1.513671875,
      "learning_rate": 1.1772988154263827e-07,
      "loss": 0.0739,
      "reward": 2.4594032764434814,
      "reward_std": 0.08329129219055176,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019763246178627014,
      "rewards/tag_count_reward": 1.0,
      "step": 1254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.89585876464844,
      "epoch": 0.9200879765395894,
      "grad_norm": 13.53668123908568,
      "kl": 1.2998046875,
      "learning_rate": 1.1741107099519908e-07,
      "loss": 0.4167,
      "reward": 2.84389591217041,
      "reward_std": 0.40458007249981165,
      "rewards/accuracy_reward": 0.9375,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03457646816968918,
      "rewards/tag_count_reward": 0.96875,
      "step": 1255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.8333435058594,
      "epoch": 0.9208211143695014,
      "grad_norm": 13.28386012669474,
      "kl": 1.55859375,
      "learning_rate": 1.1709509631426599e-07,
      "loss": 0.1879,
      "reward": 2.147110402584076,
      "reward_std": 0.2086901506409049,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02129247970879078,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 520.2291870117188,
      "epoch": 0.9215542521994134,
      "grad_norm": 18.597312059452115,
      "kl": 1.416015625,
      "learning_rate": 1.167819595712329e-07,
      "loss": 0.2873,
      "reward": 2.6505656242370605,
      "reward_std": 0.19670572225004435,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.024781646206974983,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.16668701171875,
      "epoch": 0.9222873900293255,
      "grad_norm": 27.28829956069516,
      "kl": 1.01171875,
      "learning_rate": 1.1647166281888922e-07,
      "loss": 0.2236,
      "reward": 2.4381165504455566,
      "reward_std": 0.13398257829248905,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025425168685615063,
      "rewards/tag_count_reward": 0.984375,
      "step": 1258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.4166870117188,
      "epoch": 0.9230205278592375,
      "grad_norm": 25.886415618898045,
      "kl": 1.421875,
      "learning_rate": 1.1616420809140668e-07,
      "loss": 0.4292,
      "reward": 2.6378209590911865,
      "reward_std": 0.33803558349609375,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.021901373751461506,
      "rewards/tag_count_reward": 0.9583333730697632,
      "step": 1259
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.6666717529297,
      "epoch": 0.9237536656891495,
      "grad_norm": 7.422823393613719,
      "kl": 1.1396484375,
      "learning_rate": 1.1585959740432584e-07,
      "loss": 0.0856,
      "reward": 2.69480299949646,
      "reward_std": 0.14079985255375504,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.015266527887433767,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 484.2916717529297,
      "epoch": 0.9244868035190615,
      "grad_norm": 14.2945025870546,
      "kl": 0.798828125,
      "learning_rate": 1.1555783275454323e-07,
      "loss": 0.1845,
      "reward": 2.6793763637542725,
      "reward_std": 0.18702445551753044,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023748809471726418,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 480.00001525878906,
      "epoch": 0.9252199413489736,
      "grad_norm": 35.82067585260527,
      "kl": 1.615234375,
      "learning_rate": 1.1525891612029762e-07,
      "loss": 0.5305,
      "reward": 2.1269590258598328,
      "reward_std": 0.3459872379899025,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.04144384525716305,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 416.8125,
      "epoch": 0.9259530791788856,
      "grad_norm": 18.34196969705659,
      "kl": 0.880859375,
      "learning_rate": 1.1496284946115756e-07,
      "loss": 0.3035,
      "reward": 2.1744728088378906,
      "reward_std": 0.18630531942471862,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03212452307343483,
      "rewards/tag_count_reward": 0.984375,
      "step": 1263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.7083435058594,
      "epoch": 0.9266862170087976,
      "grad_norm": 13.058537172952395,
      "kl": 1.1953125,
      "learning_rate": 1.1466963471800852e-07,
      "loss": 0.2567,
      "reward": 1.9618767499923706,
      "reward_std": 0.06609710678458214,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022498343139886856,
      "rewards/tag_count_reward": 0.984375,
      "step": 1264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.4375,
      "epoch": 0.9274193548387096,
      "grad_norm": 93.37185157819849,
      "kl": 4.87890625,
      "learning_rate": 1.1437927381303987e-07,
      "loss": 0.5945,
      "reward": 2.346126675605774,
      "reward_std": 0.3644867241382599,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.03755396045744419,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.6458587646484,
      "epoch": 0.9281524926686217,
      "grad_norm": 33.76460029432066,
      "kl": 4.23046875,
      "learning_rate": 1.140917686497326e-07,
      "loss": 0.2746,
      "reward": 2.094321370124817,
      "reward_std": 0.17763768695294857,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.965277761220932,
      "rewards/repetition_penalty_reward": -0.042831544764339924,
      "rewards/tag_count_reward": 0.9218750298023224,
      "step": 1266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 385.0208435058594,
      "epoch": 0.9288856304985337,
      "grad_norm": 8.536556995623087,
      "kl": 1.265625,
      "learning_rate": 1.1380712111284648e-07,
      "loss": 0.0854,
      "reward": 2.4350061416625977,
      "reward_std": 0.1251449566334486,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.03200777154415846,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 535.875,
      "epoch": 0.9296187683284457,
      "grad_norm": 40.76353309315977,
      "kl": 4.78125,
      "learning_rate": 1.1352533306840818e-07,
      "loss": 0.5238,
      "reward": 2.105325937271118,
      "reward_std": 0.17815731838345528,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.03877122886478901,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 1268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 473.75,
      "epoch": 0.9303519061583577,
      "grad_norm": 18.746529200671343,
      "kl": 2.71875,
      "learning_rate": 1.1324640636369844e-07,
      "loss": 0.3549,
      "reward": 2.0650742650032043,
      "reward_std": 0.34250083193182945,
      "rewards/accuracy_reward": 0.1875,
      "rewards/reasoning_steps_reward": 0.9652778506278992,
      "rewards/repetition_penalty_reward": -0.030411873012781143,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 1269
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 519.1666870117188,
      "epoch": 0.9310850439882697,
      "grad_norm": 19.92539027857833,
      "kl": 1.70703125,
      "learning_rate": 1.129703428272407e-07,
      "loss": 0.5492,
      "reward": 2.290251612663269,
      "reward_std": 0.4478663057088852,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03960954770445824,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.1666717529297,
      "epoch": 0.9318181818181818,
      "grad_norm": 9.895164235157509,
      "kl": 0.76171875,
      "learning_rate": 1.1269714426878821e-07,
      "loss": 0.0382,
      "reward": 1.9925453066825867,
      "reward_std": 0.09840421006083488,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023079711012542248,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.0416870117188,
      "epoch": 0.9325513196480938,
      "grad_norm": 15.315615201974119,
      "kl": 1.39453125,
      "learning_rate": 1.1242681247931319e-07,
      "loss": 0.4336,
      "reward": 2.3977036476135254,
      "reward_std": 0.25321169197559357,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.04326878301799297,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.9583587646484,
      "epoch": 0.9332844574780058,
      "grad_norm": 10.106874745508811,
      "kl": 1.427734375,
      "learning_rate": 1.1215934923099414e-07,
      "loss": 0.2627,
      "reward": 2.1677005290985107,
      "reward_std": 0.1815025839023292,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.03021625615656376,
      "rewards/tag_count_reward": 0.96875,
      "step": 1273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 411.87501525878906,
      "epoch": 0.9340175953079178,
      "grad_norm": 9.054120736545237,
      "kl": 0.982421875,
      "learning_rate": 1.1189475627720488e-07,
      "loss": 0.0483,
      "reward": 2.7023842334747314,
      "reward_std": 0.32853075861930847,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.02331024780869484,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.1875,
      "epoch": 0.9347507331378299,
      "grad_norm": 14.23126659602911,
      "kl": 0.462890625,
      "learning_rate": 1.1163303535250265e-07,
      "loss": 0.0494,
      "reward": 2.2366175055503845,
      "reward_std": 0.009620955679565668,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013382541947066784,
      "rewards/tag_count_reward": 1.0,
      "step": 1275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.8541870117188,
      "epoch": 0.9354838709677419,
      "grad_norm": 16.41714592228837,
      "kl": 2.0625,
      "learning_rate": 1.1137418817261706e-07,
      "loss": 0.6162,
      "reward": 1.894201636314392,
      "reward_std": 0.26965878158807755,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.03982617612928152,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.7083435058594,
      "epoch": 0.9362170087976539,
      "grad_norm": 26.283905458815948,
      "kl": 3.166015625,
      "learning_rate": 1.1111821643443861e-07,
      "loss": 0.6573,
      "reward": 2.7341933250427246,
      "reward_std": 0.5056948512792587,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.04358469694852829,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 573.1666870117188,
      "epoch": 0.9369501466275659,
      "grad_norm": 37.98541597450915,
      "kl": 3.1796875,
      "learning_rate": 1.1086512181600757e-07,
      "loss": 0.4427,
      "reward": 2.0666526556015015,
      "reward_std": 0.3224688321352005,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9375000298023224,
      "rewards/repetition_penalty_reward": -0.042722418904304504,
      "rewards/tag_count_reward": 0.921875,
      "step": 1278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 489.93751525878906,
      "epoch": 0.9376832844574781,
      "grad_norm": 13.211520187016381,
      "kl": 1.947265625,
      "learning_rate": 1.1061490597650326e-07,
      "loss": 0.509,
      "reward": 2.851483106613159,
      "reward_std": 0.40315455198287964,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023517010267823935,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1279
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 462.3958435058594,
      "epoch": 0.9384164222873901,
      "grad_norm": 13.920681467096035,
      "kl": 1.82421875,
      "learning_rate": 1.1036757055623277e-07,
      "loss": 0.2295,
      "reward": 2.3927890062332153,
      "reward_std": 0.21528612356632948,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.029086150228977203,
      "rewards/tag_count_reward": 0.984375,
      "step": 1280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.0208435058594,
      "epoch": 0.9391495601173021,
      "grad_norm": 19.243232638505983,
      "kl": 0.9921875,
      "learning_rate": 1.1012311717662053e-07,
      "loss": 0.248,
      "reward": 2.65679132938385,
      "reward_std": 0.18610515631735325,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.032444894313812256,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 445.7291717529297,
      "epoch": 0.9398826979472141,
      "grad_norm": 12.50332420462573,
      "kl": 1.984375,
      "learning_rate": 1.0988154744019741e-07,
      "loss": 0.3032,
      "reward": 2.6296029090881348,
      "reward_std": 0.33814698457717896,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.028383249416947365,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 450.91668701171875,
      "epoch": 0.9406158357771262,
      "grad_norm": 25.595049083415667,
      "kl": 2.2109375,
      "learning_rate": 1.096428629305905e-07,
      "loss": 0.2472,
      "reward": 2.625510334968567,
      "reward_std": 0.2489984016865492,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03594798780977726,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 532.2500305175781,
      "epoch": 0.9413489736070382,
      "grad_norm": 25.12369374073104,
      "kl": 3.4921875,
      "learning_rate": 1.0940706521251251e-07,
      "loss": 0.3859,
      "reward": 2.824937343597412,
      "reward_std": 0.3094763532280922,
      "rewards/accuracy_reward": 0.8958333432674408,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.022284891456365585,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.6458435058594,
      "epoch": 0.9420821114369502,
      "grad_norm": 9.331338158859646,
      "kl": 1.044921875,
      "learning_rate": 1.091741558317517e-07,
      "loss": 0.4031,
      "reward": 2.372399091720581,
      "reward_std": 0.3811139464378357,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03385098837316036,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.3125305175781,
      "epoch": 0.9428152492668622,
      "grad_norm": 27.446421938812083,
      "kl": 3.1953125,
      "learning_rate": 1.0894413631516144e-07,
      "loss": 0.5668,
      "reward": 1.978183925151825,
      "reward_std": 0.4256092458963394,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/reasoning_steps_reward": 0.951388955116272,
      "rewards/repetition_penalty_reward": -0.05133005045354366,
      "rewards/tag_count_reward": 0.9114583730697632,
      "step": 1286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.79168701171875,
      "epoch": 0.9435483870967742,
      "grad_norm": 19.534270584207096,
      "kl": 1.30859375,
      "learning_rate": 1.087170081706506e-07,
      "loss": 0.1945,
      "reward": 2.385071635246277,
      "reward_std": 0.34212101995944977,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.024650713428854942,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.29168701171875,
      "epoch": 0.9442815249266863,
      "grad_norm": 10.502662630078762,
      "kl": 1.193359375,
      "learning_rate": 1.084927728871733e-07,
      "loss": 0.2169,
      "reward": 2.1598105430603027,
      "reward_std": 0.26580096036195755,
      "rewards/accuracy_reward": 0.22916667722165585,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.029425671324133873,
      "rewards/tag_count_reward": 0.9739583730697632,
      "step": 1288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 533.1250152587891,
      "epoch": 0.9450146627565983,
      "grad_norm": 13.347926029552143,
      "kl": 2.462890625,
      "learning_rate": 1.0827143193471942e-07,
      "loss": 0.5006,
      "reward": 2.7681411504745483,
      "reward_std": 0.380189748480916,
      "rewards/accuracy_reward": 0.8958333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03915059007704258,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1289
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 476.1875,
      "epoch": 0.9457478005865103,
      "grad_norm": 9.069726802816593,
      "kl": 0.8916015625,
      "learning_rate": 1.0805298676430476e-07,
      "loss": 0.2142,
      "reward": 2.1827036142349243,
      "reward_std": 0.17475424334406853,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.02562977932393551,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 453.04168701171875,
      "epoch": 0.9464809384164223,
      "grad_norm": 19.11237742206637,
      "kl": 1.53515625,
      "learning_rate": 1.0783743880796175e-07,
      "loss": 0.4172,
      "reward": 2.1592122316360474,
      "reward_std": 0.33645743131637573,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.03523235023021698,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 408.7083435058594,
      "epoch": 0.9472140762463344,
      "grad_norm": 8.358380076378197,
      "kl": 1.1708984375,
      "learning_rate": 1.0762478947872983e-07,
      "loss": 0.0129,
      "reward": 2.4570391178131104,
      "reward_std": 0.08680337062105536,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9930555522441864,
      "rewards/repetition_penalty_reward": -0.02039137203246355,
      "rewards/tag_count_reward": 0.984375,
      "step": 1292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.0000305175781,
      "epoch": 0.9479472140762464,
      "grad_norm": 19.714536710646975,
      "kl": 2.4140625,
      "learning_rate": 1.0741504017064627e-07,
      "loss": 0.4306,
      "reward": 2.0773446559906006,
      "reward_std": 0.4128805547952652,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9583333432674408,
      "rewards/repetition_penalty_reward": -0.02161379996687174,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 1293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.2083435058594,
      "epoch": 0.9486803519061584,
      "grad_norm": 16.131634788364266,
      "kl": 1.17578125,
      "learning_rate": 1.0720819225873714e-07,
      "loss": 0.5132,
      "reward": 2.111280918121338,
      "reward_std": 0.29894164204597473,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9652778804302216,
      "rewards/repetition_penalty_reward": -0.04149695113301277,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 1294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 630.2916870117188,
      "epoch": 0.9494134897360704,
      "grad_norm": 18.93383557304818,
      "kl": 1.9453125,
      "learning_rate": 1.0700424709900813e-07,
      "loss": 0.4087,
      "reward": 2.7276880741119385,
      "reward_std": 0.521675705909729,
      "rewards/accuracy_reward": 0.8750000298023224,
      "rewards/reasoning_steps_reward": 0.958333432674408,
      "rewards/repetition_penalty_reward": -0.04314529709517956,
      "rewards/tag_count_reward": 0.9375,
      "step": 1295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 421.2083435058594,
      "epoch": 0.9501466275659824,
      "grad_norm": 11.487695498130753,
      "kl": 0.4814453125,
      "learning_rate": 1.0680320602843588e-07,
      "loss": 0.0643,
      "reward": 1.978863000869751,
      "reward_std": 0.008737085154280066,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.0211369963362813,
      "rewards/tag_count_reward": 1.0,
      "step": 1296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 410.9583435058594,
      "epoch": 0.9508797653958945,
      "grad_norm": 9.690609279712593,
      "kl": 0.546875,
      "learning_rate": 1.0660507036495882e-07,
      "loss": 0.1067,
      "reward": 2.6800166368484497,
      "reward_std": 0.18910772260278463,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.01963624032214284,
      "rewards/tag_count_reward": 0.984375,
      "step": 1297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 407.93751525878906,
      "epoch": 0.9516129032258065,
      "grad_norm": 7.924204047826416,
      "kl": 0.59375,
      "learning_rate": 1.0640984140746907e-07,
      "loss": 0.0238,
      "reward": 2.7067856788635254,
      "reward_std": 0.0974614720325917,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01717284694314003,
      "rewards/tag_count_reward": 0.9947916865348816,
      "step": 1298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.54168701171875,
      "epoch": 0.9523460410557185,
      "grad_norm": 17.894742340360352,
      "kl": 0.787109375,
      "learning_rate": 1.0621752043580337e-07,
      "loss": 0.151,
      "reward": 2.209893822669983,
      "reward_std": 0.06893100775778294,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02448125835508108,
      "rewards/tag_count_reward": 0.984375,
      "step": 1299
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 468.31251525878906,
      "epoch": 0.9530791788856305,
      "grad_norm": 33.42783345561901,
      "kl": 1.515625,
      "learning_rate": 1.0602810871073524e-07,
      "loss": 0.4529,
      "reward": 2.6334890127182007,
      "reward_std": 0.3280341923236847,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.031441716477274895,
      "rewards/tag_count_reward": 0.984375,
      "step": 1300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 500.6458435058594,
      "epoch": 0.9538123167155426,
      "grad_norm": 13.936654154401653,
      "kl": 2.8125,
      "learning_rate": 1.0584160747396613e-07,
      "loss": 0.6693,
      "reward": 2.0740148425102234,
      "reward_std": 0.44181716442108154,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.04230464622378349,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 1301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 367.6041717529297,
      "epoch": 0.9545454545454546,
      "grad_norm": 9.041598291124687,
      "kl": 0.658203125,
      "learning_rate": 1.0565801794811783e-07,
      "loss": 0.0691,
      "reward": 2.9332125186920166,
      "reward_std": 0.1549149751663208,
      "rewards/accuracy_reward": 0.9583333730697632,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02512078545987606,
      "rewards/tag_count_reward": 1.0,
      "step": 1302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 453.00001525878906,
      "epoch": 0.9552785923753666,
      "grad_norm": 20.85958631389929,
      "kl": 0.888671875,
      "learning_rate": 1.0547734133672415e-07,
      "loss": 0.2331,
      "reward": 2.6373571157455444,
      "reward_std": 0.314850315451622,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.03104559425264597,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 422.4375,
      "epoch": 0.9560117302052786,
      "grad_norm": 5.871158172325361,
      "kl": 0.728515625,
      "learning_rate": 1.0529957882422293e-07,
      "loss": 0.0489,
      "reward": 2.234027624130249,
      "reward_std": 0.007591208443045616,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.015972347930073738,
      "rewards/tag_count_reward": 1.0,
      "step": 1304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 431.7916717529297,
      "epoch": 0.9567448680351907,
      "grad_norm": 9.173786941390691,
      "kl": 1.23046875,
      "learning_rate": 1.0512473157594867e-07,
      "loss": 0.2378,
      "reward": 1.9633594751358032,
      "reward_std": 0.07479000370949507,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02101556584239006,
      "rewards/tag_count_reward": 0.984375,
      "step": 1305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 501.87501525878906,
      "epoch": 0.9574780058651027,
      "grad_norm": 24.293729166843942,
      "kl": 1.845703125,
      "learning_rate": 1.0495280073812452e-07,
      "loss": 0.2547,
      "reward": 2.377333641052246,
      "reward_std": 0.2659803181886673,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.020235841162502766,
      "rewards/tag_count_reward": 0.9322916865348816,
      "step": 1306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.75,
      "epoch": 0.9582111436950147,
      "grad_norm": 8.978838251394835,
      "kl": 1.2578125,
      "learning_rate": 1.0478378743785488e-07,
      "loss": 0.0763,
      "reward": 2.881321907043457,
      "reward_std": 0.2719968855381012,
      "rewards/accuracy_reward": 0.9166666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02492798399180174,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 438.4583435058594,
      "epoch": 0.9589442815249267,
      "grad_norm": 11.981739176953312,
      "kl": 0.87109375,
      "learning_rate": 1.0461769278311814e-07,
      "loss": 0.0627,
      "reward": 2.2008538246154785,
      "reward_std": 0.11611452978104353,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01789623498916626,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.3958435058594,
      "epoch": 0.9596774193548387,
      "grad_norm": 17.04000369636799,
      "kl": 2.03515625,
      "learning_rate": 1.0445451786275917e-07,
      "loss": 0.0789,
      "reward": 2.6977003812789917,
      "reward_std": 0.24708323180675507,
      "rewards/accuracy_reward": 0.7500000298023224,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.022785856388509274,
      "rewards/tag_count_reward": 0.984375,
      "step": 1309
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 401.9583435058594,
      "epoch": 0.9604105571847508,
      "grad_norm": 15.440879775642438,
      "kl": 1.908203125,
      "learning_rate": 1.0429426374648246e-07,
      "loss": 0.0467,
      "reward": 2.4519360065460205,
      "reward_std": 0.11012615030631423,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.01855024415999651,
      "rewards/tag_count_reward": 0.984375,
      "step": 1310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 474.8333435058594,
      "epoch": 0.9611436950146628,
      "grad_norm": 63.444012755191835,
      "kl": 5.65625,
      "learning_rate": 1.0413693148484486e-07,
      "loss": 0.4911,
      "reward": 2.6069284677505493,
      "reward_std": 0.26500143855810165,
      "rewards/accuracy_reward": 0.6875,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.01980782952159643,
      "rewards/tag_count_reward": 0.9531250298023224,
      "step": 1311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 477.2083435058594,
      "epoch": 0.9618768328445748,
      "grad_norm": 16.284465114202774,
      "kl": 1.77734375,
      "learning_rate": 1.0398252210924889e-07,
      "loss": 0.4078,
      "reward": 2.1387650966644287,
      "reward_std": 0.26892125606536865,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111640930176,
      "rewards/repetition_penalty_reward": -0.03484594263136387,
      "rewards/tag_count_reward": 0.9583333432674408,
      "step": 1312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.6666870117188,
      "epoch": 0.9626099706744868,
      "grad_norm": 57.44133112793273,
      "kl": 5.65625,
      "learning_rate": 1.0383103663193576e-07,
      "loss": 1.1269,
      "reward": 2.1499454975128174,
      "reward_std": 0.6474978625774384,
      "rewards/accuracy_reward": 0.375,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.05838798172771931,
      "rewards/tag_count_reward": 0.8750000298023224,
      "step": 1313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.6041717529297,
      "epoch": 0.9633431085043989,
      "grad_norm": 11.55554991626459,
      "kl": 1.234375,
      "learning_rate": 1.0368247604597903e-07,
      "loss": 0.2578,
      "reward": 2.634058356285095,
      "reward_std": 0.2719671204686165,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022191734984517097,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 564.7291717529297,
      "epoch": 0.9640762463343109,
      "grad_norm": 35.946046250598904,
      "kl": 2.578125,
      "learning_rate": 1.0353684132527778e-07,
      "loss": 0.5811,
      "reward": 2.1190367937088013,
      "reward_std": 0.24303436279296875,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.05283825471997261,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 1315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.5833435058594,
      "epoch": 0.9648093841642229,
      "grad_norm": 13.375233254984911,
      "kl": 1.296875,
      "learning_rate": 1.0339413342455055e-07,
      "loss": 0.4354,
      "reward": 2.1532533764839172,
      "reward_std": 0.19535775389522314,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03251057770103216,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 1316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 481.8541717529297,
      "epoch": 0.9655425219941349,
      "grad_norm": 82.3335585692892,
      "kl": 1.66796875,
      "learning_rate": 1.0325435327932868e-07,
      "loss": 0.3158,
      "reward": 2.188454806804657,
      "reward_std": 0.14728715340606868,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.019878730177879333,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 515.0208435058594,
      "epoch": 0.966275659824047,
      "grad_norm": 8.842073408230645,
      "kl": 1.07421875,
      "learning_rate": 1.0311750180595063e-07,
      "loss": 0.3922,
      "reward": 2.0934900045394897,
      "reward_std": 0.36611997336149216,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.972222238779068,
      "rewards/repetition_penalty_reward": -0.034982199780642986,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 467.0416717529297,
      "epoch": 0.967008797653959,
      "grad_norm": 14.852296919095123,
      "kl": 1.8115234375,
      "learning_rate": 1.0298357990155564e-07,
      "loss": 0.1998,
      "reward": 2.190988779067993,
      "reward_std": 0.24773601721972227,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.022552933543920517,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1319
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 404.7708435058594,
      "epoch": 0.967741935483871,
      "grad_norm": 6.1793249158960855,
      "kl": 0.384765625,
      "learning_rate": 1.0285258844407792e-07,
      "loss": 0.033,
      "reward": 2.462868571281433,
      "reward_std": 0.08148548658937216,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01629808358848095,
      "rewards/tag_count_reward": 1.0,
      "step": 1320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 461.1458435058594,
      "epoch": 0.968475073313783,
      "grad_norm": 9.003767777901873,
      "kl": 0.8037109375,
      "learning_rate": 1.0272452829224101e-07,
      "loss": 0.2078,
      "reward": 2.176120936870575,
      "reward_std": 0.1836662571877241,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.030476349405944347,
      "rewards/tag_count_reward": 0.984375,
      "step": 1321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.4583435058594,
      "epoch": 0.969208211143695,
      "grad_norm": 13.03765997652474,
      "kl": 1.515625,
      "learning_rate": 1.025994002855521e-07,
      "loss": 0.2286,
      "reward": 2.6289268732070923,
      "reward_std": 0.23047233279794455,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.03253147657960653,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 482.7708435058594,
      "epoch": 0.9699413489736071,
      "grad_norm": 20.321561708883095,
      "kl": 2.59375,
      "learning_rate": 1.024772052442964e-07,
      "loss": 0.3407,
      "reward": 2.7547218799591064,
      "reward_std": 0.471389040350914,
      "rewards/accuracy_reward": 0.8958333730697632,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.0438892375677824,
      "rewards/tag_count_reward": 0.9375000298023224,
      "step": 1323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 455.4375,
      "epoch": 0.9706744868035191,
      "grad_norm": 4.241229172746372,
      "kl": 0.3759765625,
      "learning_rate": 1.02357943969532e-07,
      "loss": 0.0252,
      "reward": 2.7372305393218994,
      "reward_std": 0.00828889012336731,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.012769339140504599,
      "rewards/tag_count_reward": 1.0,
      "step": 1324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.79168701171875,
      "epoch": 0.9714076246334311,
      "grad_norm": 8.59881732463318,
      "kl": 1.044921875,
      "learning_rate": 1.0224161724308424e-07,
      "loss": 0.1959,
      "reward": 2.18610417842865,
      "reward_std": 0.1191612258553505,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.023965245112776756,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 444.5208435058594,
      "epoch": 0.9721407624633431,
      "grad_norm": 15.822434043127465,
      "kl": 0.62109375,
      "learning_rate": 1.0212822582754111e-07,
      "loss": 0.2747,
      "reward": 2.4358739852905273,
      "reward_std": 0.147409213706851,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.034612227231264114,
      "rewards/tag_count_reward": 0.984375,
      "step": 1326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 397.375,
      "epoch": 0.9728739002932552,
      "grad_norm": 10.88147486521058,
      "kl": 0.9609375,
      "learning_rate": 1.0201777046624782e-07,
      "loss": 0.0638,
      "reward": 2.4328325986862183,
      "reward_std": 0.12669185176491737,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.025500833988189697,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 390.2083435058594,
      "epoch": 0.9736070381231672,
      "grad_norm": 16.115241449324763,
      "kl": 0.4658203125,
      "learning_rate": 1.0191025188330209e-07,
      "loss": 0.0356,
      "reward": 2.231991171836853,
      "reward_std": 0.011185419745743275,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018008952029049397,
      "rewards/tag_count_reward": 1.0,
      "step": 1328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 478.31251525878906,
      "epoch": 0.9743401759530792,
      "grad_norm": 18.949099202801406,
      "kl": 1.4453125,
      "learning_rate": 1.0180567078354935e-07,
      "loss": 0.5752,
      "reward": 2.1427964568138123,
      "reward_std": 0.2880570739507675,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.04123134259134531,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1329
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 428.3958435058594,
      "epoch": 0.9750733137829912,
      "grad_norm": 7.7299459378810385,
      "kl": 0.556640625,
      "learning_rate": 1.0170402785257827e-07,
      "loss": 0.0326,
      "reward": 2.7296062707901,
      "reward_std": 0.010482048150151968,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02039369009435177,
      "rewards/tag_count_reward": 1.0,
      "step": 1330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 373.47918701171875,
      "epoch": 0.9758064516129032,
      "grad_norm": 7.036182974367325,
      "kl": 0.798828125,
      "learning_rate": 1.0160532375671602e-07,
      "loss": 0.0637,
      "reward": 2.454910397529602,
      "reward_std": 0.08339553605765104,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.024256338365375996,
      "rewards/tag_count_reward": 1.0,
      "step": 1331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.3125305175781,
      "epoch": 0.9765395894428153,
      "grad_norm": 23.087064957780417,
      "kl": 1.5859375,
      "learning_rate": 1.0150955914302412e-07,
      "loss": 0.2972,
      "reward": 2.4457297325134277,
      "reward_std": 0.4613430858589709,
      "rewards/accuracy_reward": 0.625,
      "rewards/reasoning_steps_reward": 0.9583333730697632,
      "rewards/repetition_penalty_reward": -0.04906199872493744,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 1332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.3541717529297,
      "epoch": 0.9772727272727273,
      "grad_norm": 27.7813185862066,
      "kl": 1.37109375,
      "learning_rate": 1.0141673463929408e-07,
      "loss": 0.2585,
      "reward": 2.4148507118225098,
      "reward_std": 0.22696854081004858,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.027857608161866665,
      "rewards/tag_count_reward": 0.984375,
      "step": 1333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.9791717529297,
      "epoch": 0.9780058651026393,
      "grad_norm": 14.123296378129437,
      "kl": 1.74609375,
      "learning_rate": 1.0132685085404337e-07,
      "loss": 0.5404,
      "reward": 2.511002779006958,
      "reward_std": 0.4390052007511258,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/reasoning_steps_reward": 0.9652777910232544,
      "rewards/repetition_penalty_reward": -0.04281671531498432,
      "rewards/tag_count_reward": 0.9427083432674408,
      "step": 1334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 448.1458435058594,
      "epoch": 0.9787390029325513,
      "grad_norm": 15.585193483352148,
      "kl": 1.09375,
      "learning_rate": 1.0123990837651128e-07,
      "loss": 0.2101,
      "reward": 2.183935582637787,
      "reward_std": 0.13025381043553352,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.979166716337204,
      "rewards/repetition_penalty_reward": -0.029606159776449203,
      "rewards/tag_count_reward": 0.984375,
      "step": 1335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 446.81251525878906,
      "epoch": 0.9794721407624634,
      "grad_norm": 18.778431032287738,
      "kl": 1.517578125,
      "learning_rate": 1.0115590777665522e-07,
      "loss": 0.3054,
      "reward": 2.205144762992859,
      "reward_std": 0.09740199614316225,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01881374605000019,
      "rewards/tag_count_reward": 0.9739583432674408,
      "step": 1336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.60418701171875,
      "epoch": 0.9802052785923754,
      "grad_norm": 11.377846780811359,
      "kl": 2.37109375,
      "learning_rate": 1.0107484960514692e-07,
      "loss": 0.5538,
      "reward": 2.415365695953369,
      "reward_std": 0.2122260332107544,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.03428706340491772,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 441.125,
      "epoch": 0.9809384164222874,
      "grad_norm": 6.413201892131247,
      "kl": 0.517578125,
      "learning_rate": 1.009967343933688e-07,
      "loss": 0.0587,
      "reward": 2.2234453558921814,
      "reward_std": 0.04166480875574052,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.016138038132339716,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 432.1666717529297,
      "epoch": 0.9816715542521994,
      "grad_norm": 13.366893199956893,
      "kl": 0.5498046875,
      "learning_rate": 1.0092156265341051e-07,
      "loss": 0.0339,
      "reward": 2.7342896461486816,
      "reward_std": 0.010294946376234293,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.01571043487638235,
      "rewards/tag_count_reward": 1.0,
      "step": 1339
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.2083435058594,
      "epoch": 0.9824046920821115,
      "grad_norm": 26.73321311740256,
      "kl": 2.1796875,
      "learning_rate": 1.0084933487806555e-07,
      "loss": 0.132,
      "reward": 2.178415536880493,
      "reward_std": 0.24035960249602795,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.036862210370600224,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 491.04168701171875,
      "epoch": 0.9831378299120235,
      "grad_norm": 17.211256661631793,
      "kl": 1.6953125,
      "learning_rate": 1.0078005154082807e-07,
      "loss": 0.5392,
      "reward": 2.8317149877548218,
      "reward_std": 0.3898848742246628,
      "rewards/accuracy_reward": 0.9375000298023224,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.04849330708384514,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.3125,
      "epoch": 0.9838709677419355,
      "grad_norm": 17.9294618469925,
      "kl": 0.806640625,
      "learning_rate": 1.0071371309588976e-07,
      "loss": 0.2448,
      "reward": 2.6838122606277466,
      "reward_std": 0.1747398329898715,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02278487477451563,
      "rewards/tag_count_reward": 0.984375,
      "step": 1342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 542.2291870117188,
      "epoch": 0.9846041055718475,
      "grad_norm": 14.081741076763183,
      "kl": 2.796875,
      "learning_rate": 1.006503199781369e-07,
      "loss": 0.4648,
      "reward": 2.298216700553894,
      "reward_std": 0.4470781087875366,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/reasoning_steps_reward": 0.9722222685813904,
      "rewards/repetition_penalty_reward": -0.03338063694536686,
      "rewards/tag_count_reward": 0.9427083730697632,
      "step": 1343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.0416870117188,
      "epoch": 0.9853372434017595,
      "grad_norm": 10.81673080758501,
      "kl": 2.078125,
      "learning_rate": 1.0058987260314736e-07,
      "loss": 0.2835,
      "reward": 2.3138773441314697,
      "reward_std": 0.31794362515211105,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.042025452479720116,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 1344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.1458435058594,
      "epoch": 0.9860703812316716,
      "grad_norm": 20.449252275235782,
      "kl": 2.265625,
      "learning_rate": 1.0053237136718819e-07,
      "loss": 0.4601,
      "reward": 1.795183539390564,
      "reward_std": 0.45035097002983093,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9305556416511536,
      "rewards/repetition_penalty_reward": -0.05724710505455732,
      "rewards/tag_count_reward": 0.9010416865348816,
      "step": 1345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 463.3125,
      "epoch": 0.9868035190615836,
      "grad_norm": 12.875001769568685,
      "kl": 1.662109375,
      "learning_rate": 1.0047781664721258e-07,
      "loss": 0.252,
      "reward": 2.38944935798645,
      "reward_std": 0.32722827047109604,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.023745193146169186,
      "rewards/tag_count_reward": 0.9687500298023224,
      "step": 1346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 442.1875,
      "epoch": 0.9875366568914956,
      "grad_norm": 9.587097766988357,
      "kl": 0.685546875,
      "learning_rate": 1.004262088008578e-07,
      "loss": 0.0343,
      "reward": 1.9816942811012268,
      "reward_std": 0.010914890561252832,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.018305765464901924,
      "rewards/tag_count_reward": 1.0,
      "step": 1347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 439.47918701171875,
      "epoch": 0.9882697947214076,
      "grad_norm": 7.081412711269489,
      "kl": 0.919921875,
      "learning_rate": 1.0037754816644265e-07,
      "loss": 0.189,
      "reward": 2.4098252058029175,
      "reward_std": 0.17200952302664518,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.027674859389662743,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 449.3750305175781,
      "epoch": 0.9890029325513197,
      "grad_norm": 8.416775160633,
      "kl": 0.701171875,
      "learning_rate": 1.003318350629653e-07,
      "loss": 0.1907,
      "reward": 2.4872329235076904,
      "reward_std": 0.1283271312713623,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.023183775134384632,
      "rewards/tag_count_reward": 0.9895833432674408,
      "step": 1349
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 486.7916717529297,
      "epoch": 0.9897360703812317,
      "grad_norm": 9.157980739902086,
      "kl": 0.70703125,
      "learning_rate": 1.002890697901011e-07,
      "loss": 0.3773,
      "reward": 1.9337705969810486,
      "reward_std": 0.18084391951560974,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02282659476622939,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.33335876464844,
      "epoch": 0.9904692082111437,
      "grad_norm": 63.26862900641875,
      "kl": 0.46484375,
      "learning_rate": 1.0024925262820074e-07,
      "loss": 0.1247,
      "reward": 2.6610316038131714,
      "reward_std": 0.16902299923822284,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02646848652511835,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 430.7916717529297,
      "epoch": 0.9912023460410557,
      "grad_norm": 7.50035566920925,
      "kl": 0.78515625,
      "learning_rate": 1.0021238383828834e-07,
      "loss": 0.2537,
      "reward": 2.181891918182373,
      "reward_std": 0.17814004700630903,
      "rewards/accuracy_reward": 0.25,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.026441490277647972,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 487.2500305175781,
      "epoch": 0.9919354838709677,
      "grad_norm": 16.736728648194653,
      "kl": 2.486328125,
      "learning_rate": 1.0017846366205987e-07,
      "loss": 0.4959,
      "reward": 2.3572378158569336,
      "reward_std": 0.33005889039486647,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9791666865348816,
      "rewards/repetition_penalty_reward": -0.028178916312754154,
      "rewards/tag_count_reward": 0.9479166865348816,
      "step": 1353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.375,
      "epoch": 0.9926686217008798,
      "grad_norm": 11.655766844116405,
      "kl": 1.046875,
      "learning_rate": 1.0014749232188132e-07,
      "loss": 0.2876,
      "reward": 1.95725417137146,
      "reward_std": 0.0797755979001522,
      "rewards/accuracy_reward": 0.0,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02712089940905571,
      "rewards/tag_count_reward": 0.984375,
      "step": 1354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.35418701171875,
      "epoch": 0.9934017595307918,
      "grad_norm": 8.054933338089828,
      "kl": 1.009765625,
      "learning_rate": 1.0011947002078743e-07,
      "loss": 0.432,
      "reward": 2.3805216550827026,
      "reward_std": 0.3503710813820362,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/reasoning_steps_reward": 0.9861111342906952,
      "rewards/repetition_penalty_reward": -0.03267285693436861,
      "rewards/tag_count_reward": 0.96875,
      "step": 1355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 457.0833435058594,
      "epoch": 0.9941348973607038,
      "grad_norm": 14.538818455565952,
      "kl": 1.00390625,
      "learning_rate": 1.000943969424804e-07,
      "loss": 0.2383,
      "reward": 2.6256481409072876,
      "reward_std": 0.301572248339653,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.03233811724931002,
      "rewards/tag_count_reward": 0.984375,
      "step": 1356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 565.1666870117188,
      "epoch": 0.9948680351906158,
      "grad_norm": 22.732330191271593,
      "kl": 2.26171875,
      "learning_rate": 1.0007227325132845e-07,
      "loss": 0.3831,
      "reward": 2.1746811270713806,
      "reward_std": 0.5294123976491392,
      "rewards/accuracy_reward": 0.375,
      "rewards/reasoning_steps_reward": 0.9375,
      "rewards/repetition_penalty_reward": -0.049277255311608315,
      "rewards/tag_count_reward": 0.9114583432674408,
      "step": 1357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.5416717529297,
      "epoch": 0.9956011730205279,
      "grad_norm": 16.24419619781198,
      "kl": 0.76953125,
      "learning_rate": 1.00053099092365e-07,
      "loss": 0.199,
      "reward": 1.9626244902610779,
      "reward_std": 0.10940095037221909,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/reasoning_steps_reward": 0.9861111044883728,
      "rewards/repetition_penalty_reward": -0.023486592806875706,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.3125305175781,
      "epoch": 0.9963343108504399,
      "grad_norm": 17.350196853804658,
      "kl": 0.9150390625,
      "learning_rate": 1.0003687459128753e-07,
      "loss": 0.2186,
      "reward": 2.4492987990379333,
      "reward_std": 0.07192742079496384,
      "rewards/accuracy_reward": 0.5,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.029867922887206078,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1359
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.7083435058594,
      "epoch": 0.9970674486803519,
      "grad_norm": 19.53300669702914,
      "kl": 2.453125,
      "learning_rate": 1.0002359985445691e-07,
      "loss": 0.6501,
      "reward": 2.0493897199630737,
      "reward_std": 0.4308444410562515,
      "rewards/accuracy_reward": 0.2083333432674408,
      "rewards/reasoning_steps_reward": 0.9652778208255768,
      "rewards/repetition_penalty_reward": -0.04088811669498682,
      "rewards/tag_count_reward": 0.9166666865348816,
      "step": 1360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 470.02085876464844,
      "epoch": 0.9978005865102639,
      "grad_norm": 13.39377168275178,
      "kl": 0.537109375,
      "learning_rate": 1.0001327496889658e-07,
      "loss": 0.2151,
      "reward": 2.9133403301239014,
      "reward_std": 0.23964431881904602,
      "rewards/accuracy_reward": 0.9583333730697632,
      "rewards/reasoning_steps_reward": 0.9930555820465088,
      "rewards/repetition_penalty_reward": -0.02242350485175848,
      "rewards/tag_count_reward": 0.9843750298023224,
      "step": 1361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 433.8958435058594,
      "epoch": 0.998533724340176,
      "grad_norm": 136.78654651795395,
      "kl": 0.955078125,
      "learning_rate": 1.0000590000229203e-07,
      "loss": 0.2355,
      "reward": 2.4190428256988525,
      "reward_std": 0.2147923707962036,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.02366560883820057,
      "rewards/tag_count_reward": 0.9635416865348816,
      "step": 1362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 563.8571624755859,
      "epoch": 0.999266862170088,
      "grad_norm": 19.87535727669407,
      "kl": 1.158203125,
      "learning_rate": 1.000014750029904e-07,
      "loss": 0.2502,
      "reward": 2.7152678966522217,
      "reward_std": 0.07797089219093323,
      "rewards/accuracy_reward": 0.75,
      "rewards/reasoning_steps_reward": 1.0,
      "rewards/repetition_penalty_reward": -0.013898835051804781,
      "rewards/tag_count_reward": 0.9791666865348816,
      "step": 1363
    },
    {
      "epoch": 0.999266862170088,
      "step": 1363,
      "total_flos": 0.0,
      "train_loss": 2.0727225511886656,
      "train_runtime": 64632.8349,
      "train_samples_per_second": 0.084,
      "train_steps_per_second": 0.021
    }
  ],
  "logging_steps": 1,
  "max_steps": 1364,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}