{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "provenance": [],
      "machine_shape": "hm",
      "gpuType": "G4"
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    },
    "language_info": {
      "name": "python"
    },
    "accelerator": "GPU"
  },
  "cells": [
    {
      "cell_type": "code",
      "execution_count": 1,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "T_fdRH_OG-9T",
        "outputId": "5376c6ca-810b-4b86-d1f7-891ed21de776"
      },
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Cloning into 'Meta_RL_Phase2'...\n",
            "remote: Enumerating objects: 337, done.\u001b[K\n",
            "remote: Counting objects: 100% (64/64), done.\u001b[K\n",
            "remote: Compressing objects: 100% (36/36), done.\u001b[K\n",
            "remote: Total 337 (delta 39), reused 44 (delta 28), pack-reused 273 (from 2)\u001b[K\n",
            "Receiving objects: 100% (337/337), 159.53 MiB | 1.09 MiB/s, done.\n",
            "Resolving deltas: 100% (168/168), done.\n",
            "/content/Meta_RL_Phase2\n"
          ]
        }
      ],
      "source": [
        "!git clone https://github.com/Ronit-Raj9/Meta_RL_Phase2.git\n",
        "%cd Meta_RL_Phase2\n"
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!FORCE_SFT=1 bash scripts/run_colab_pipeline.sh\n"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "3-mUfjmUHLiw",
        "outputId": "2c74a6af-903d-4481-c499-4d2451f63c4d"
      },
      "execution_count": 2,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Requirement already satisfied: pip in /usr/local/lib/python3.12/dist-packages (24.1.2)\n",
            "Collecting pip\n",
            "  Downloading pip-26.0.1-py3-none-any.whl.metadata (4.7 kB)\n",
            "Downloading pip-26.0.1-py3-none-any.whl (1.8 MB)\n",
            "\u001b[?25l   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m0.0/1.8 MB\u001b[0m \u001b[31m?\u001b[0m eta \u001b[36m-:--:--\u001b[0m\r\u001b[2K   \u001b[91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[91m╸\u001b[0m \u001b[32m1.8/1.8 MB\u001b[0m \u001b[31m69.9 MB/s\u001b[0m eta \u001b[36m0:00:01\u001b[0m\r\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m1.8/1.8 MB\u001b[0m \u001b[31m51.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
            "\u001b[?25hInstalling collected packages: pip\n",
            "  Attempting uninstall: pip\n",
            "    Found existing installation: pip 24.1.2\n",
            "    Uninstalling pip-24.1.2:\n",
            "      Successfully uninstalled pip-24.1.2\n",
            "Successfully installed pip-26.0.1\n",
            "Collecting stim<2.0,>=1.13 (from -r requirements.txt (line 6))\n",
            "  Downloading stim-1.15.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)\n",
            "Collecting pymatching<3.0,>=2.2 (from -r requirements.txt (line 7))\n",
            "  Downloading pymatching-2.3.1-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (18 kB)\n",
            "Requirement already satisfied: fastapi>=0.110 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 10)) (0.135.3)\n",
            "Requirement already satisfied: uvicorn>=0.27 in /usr/local/lib/python3.12/dist-packages (from uvicorn[standard]>=0.27->-r requirements.txt (line 11)) (0.44.0)\n",
            "Requirement already satisfied: pydantic<3.0,>=2.5 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 12)) (2.12.3)\n",
            "Requirement already satisfied: httpx>=0.27 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 13)) (0.28.1)\n",
            "Requirement already satisfied: numpy<2.1,>=1.26 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 14)) (2.0.2)\n",
            "Requirement already satisfied: matplotlib>=3.8 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 17)) (3.10.0)\n",
            "Requirement already satisfied: pillow>=10 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 18)) (11.3.0)\n",
            "Requirement already satisfied: pytest>=8 in /usr/local/lib/python3.12/dist-packages (from -r requirements.txt (line 21)) (8.4.2)\n",
            "Collecting openenv-core>=0.2.1 (from -r requirements.txt (line 30))\n",
            "  Downloading openenv_core-0.2.3-py3-none-any.whl.metadata (19 kB)\n",
            "Requirement already satisfied: scipy in /usr/local/lib/python3.12/dist-packages (from pymatching<3.0,>=2.2->-r requirements.txt (line 7)) (1.16.3)\n",
            "Requirement already satisfied: networkx in /usr/local/lib/python3.12/dist-packages (from pymatching<3.0,>=2.2->-r requirements.txt (line 7)) (3.6.1)\n",
            "Requirement already satisfied: annotated-types>=0.6.0 in /usr/local/lib/python3.12/dist-packages (from pydantic<3.0,>=2.5->-r requirements.txt (line 12)) (0.7.0)\n",
            "Requirement already satisfied: pydantic-core==2.41.4 in /usr/local/lib/python3.12/dist-packages (from pydantic<3.0,>=2.5->-r requirements.txt (line 12)) (2.41.4)\n",
            "Requirement already satisfied: typing-extensions>=4.14.1 in /usr/local/lib/python3.12/dist-packages (from pydantic<3.0,>=2.5->-r requirements.txt (line 12)) (4.15.0)\n",
            "Requirement already satisfied: typing-inspection>=0.4.2 in /usr/local/lib/python3.12/dist-packages (from pydantic<3.0,>=2.5->-r requirements.txt (line 12)) (0.4.2)\n",
            "Requirement already satisfied: starlette>=0.46.0 in /usr/local/lib/python3.12/dist-packages (from fastapi>=0.110->-r requirements.txt (line 10)) (0.52.1)\n",
            "Requirement already satisfied: annotated-doc>=0.0.2 in /usr/local/lib/python3.12/dist-packages (from fastapi>=0.110->-r requirements.txt (line 10)) (0.0.4)\n",
            "Requirement already satisfied: click>=7.0 in /usr/local/lib/python3.12/dist-packages (from uvicorn>=0.27->uvicorn[standard]>=0.27->-r requirements.txt (line 11)) (8.3.2)\n",
            "Requirement already satisfied: h11>=0.8 in /usr/local/lib/python3.12/dist-packages (from uvicorn>=0.27->uvicorn[standard]>=0.27->-r requirements.txt (line 11)) (0.16.0)\n",
            "Requirement already satisfied: anyio in /usr/local/lib/python3.12/dist-packages (from httpx>=0.27->-r requirements.txt (line 13)) (4.13.0)\n",
            "Requirement already satisfied: certifi in /usr/local/lib/python3.12/dist-packages (from httpx>=0.27->-r requirements.txt (line 13)) (2026.2.25)\n",
            "Requirement already satisfied: httpcore==1.* in /usr/local/lib/python3.12/dist-packages (from httpx>=0.27->-r requirements.txt (line 13)) (1.0.9)\n",
            "Requirement already satisfied: idna in /usr/local/lib/python3.12/dist-packages (from httpx>=0.27->-r requirements.txt (line 13)) (3.11)\n",
            "Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (1.3.3)\n",
            "Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (0.12.1)\n",
            "Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (4.62.1)\n",
            "Requirement already satisfied: kiwisolver>=1.3.1 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (1.5.0)\n",
            "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (26.0)\n",
            "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (3.3.2)\n",
            "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.12/dist-packages (from matplotlib>=3.8->-r requirements.txt (line 17)) (2.9.0.post0)\n",
            "Requirement already satisfied: iniconfig>=1 in /usr/local/lib/python3.12/dist-packages (from pytest>=8->-r requirements.txt (line 21)) (2.3.0)\n",
            "Requirement already satisfied: pluggy<2,>=1.5 in /usr/local/lib/python3.12/dist-packages (from pytest>=8->-r requirements.txt (line 21)) (1.6.0)\n",
            "Requirement already satisfied: pygments>=2.7.2 in /usr/local/lib/python3.12/dist-packages (from pytest>=8->-r requirements.txt (line 21)) (2.20.0)\n",
            "Requirement already satisfied: requests>=2.25.0 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.32.4)\n",
            "Requirement already satisfied: typer>=0.9.0 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.24.1)\n",
            "Requirement already satisfied: rich>=13.0.0 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (13.9.4)\n",
            "Requirement already satisfied: pyyaml>=6.0 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (6.0.3)\n",
            "Requirement already satisfied: huggingface_hub>=0.20.0 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.10.1)\n",
            "Requirement already satisfied: openai>=2.7.2 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.31.0)\n",
            "Collecting tomli>=2.3.0 (from openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading tomli-2.4.1-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (10 kB)\n",
            "Collecting tomli-w>=1.2.0 (from openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading tomli_w-1.2.0-py3-none-any.whl.metadata (5.7 kB)\n",
            "Requirement already satisfied: websockets>=15.0.1 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (15.0.1)\n",
            "Collecting fastmcp>=3.0.0 (from openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading fastmcp-3.2.4-py3-none-any.whl.metadata (8.1 kB)\n",
            "Requirement already satisfied: gradio>=4.0.0 in /usr/local/lib/python3.12/dist-packages (from openenv-core>=0.2.1->-r requirements.txt (line 30)) (5.50.0)\n",
            "Requirement already satisfied: authlib>=1.6.5 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.6.9)\n",
            "Collecting cyclopts>=4.0.0 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading cyclopts-4.11.0-py3-none-any.whl.metadata (12 kB)\n",
            "Collecting exceptiongroup>=1.2.2 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading exceptiongroup-1.3.1-py3-none-any.whl.metadata (6.7 kB)\n",
            "Collecting griffelib>=2.0.0 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading griffelib-2.0.2-py3-none-any.whl.metadata (1.3 kB)\n",
            "Collecting jsonref>=1.1.0 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading jsonref-1.1.0-py3-none-any.whl.metadata (2.7 kB)\n",
            "Collecting jsonschema-path>=0.3.4 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading jsonschema_path-0.4.5-py3-none-any.whl.metadata (5.9 kB)\n",
            "Requirement already satisfied: mcp<2.0,>=1.24.0 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.27.0)\n",
            "Collecting openapi-pydantic>=0.5.1 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading openapi_pydantic-0.5.1-py3-none-any.whl.metadata (10 kB)\n",
            "Requirement already satisfied: opentelemetry-api>=1.20.0 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.38.0)\n",
            "Requirement already satisfied: platformdirs>=4.0.0 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (4.9.6)\n",
            "Collecting py-key-value-aio<0.5.0,>=0.4.4 (from py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading py_key_value_aio-0.4.4-py3-none-any.whl.metadata (15 kB)\n",
            "Requirement already satisfied: pyperclip>=1.9.0 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.11.0)\n",
            "Requirement already satisfied: python-dotenv>=1.1.0 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.2.2)\n",
            "Collecting uncalled-for>=0.2.0 (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading uncalled_for-0.3.1-py3-none-any.whl.metadata (2.9 kB)\n",
            "Requirement already satisfied: watchfiles>=1.0.0 in /usr/local/lib/python3.12/dist-packages (from fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.1.1)\n",
            "Requirement already satisfied: httpx-sse>=0.4 in /usr/local/lib/python3.12/dist-packages (from mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.4.3)\n",
            "Requirement already satisfied: jsonschema>=4.20.0 in /usr/local/lib/python3.12/dist-packages (from mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (4.26.0)\n",
            "Requirement already satisfied: pydantic-settings>=2.5.2 in /usr/local/lib/python3.12/dist-packages (from mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.13.1)\n",
            "Requirement already satisfied: pyjwt>=2.10.1 in /usr/local/lib/python3.12/dist-packages (from pyjwt[crypto]>=2.10.1->mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.12.1)\n",
            "Requirement already satisfied: python-multipart>=0.0.9 in /usr/local/lib/python3.12/dist-packages (from mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.0.26)\n",
            "Requirement already satisfied: sse-starlette>=1.6.1 in /usr/local/lib/python3.12/dist-packages (from mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.3.4)\n",
            "Requirement already satisfied: beartype>=0.20.0 in /usr/local/lib/python3.12/dist-packages (from py-key-value-aio<0.5.0,>=0.4.4->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.22.9)\n",
            "Collecting aiofile>=3.5.0 (from py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading aiofile-3.9.0-py3-none-any.whl.metadata (14 kB)\n",
            "Requirement already satisfied: keyring>=25.6.0 in /usr/local/lib/python3.12/dist-packages (from py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (25.7.0)\n",
            "Requirement already satisfied: cachetools>=5.0.0 in /usr/local/lib/python3.12/dist-packages (from py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (6.2.6)\n",
            "Collecting caio<0.10.0,>=0.9.0 (from aiofile>=3.5.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading caio-0.9.25-cp312-cp312-manylinux_2_34_x86_64.whl.metadata (3.3 kB)\n",
            "Requirement already satisfied: cryptography in /usr/local/lib/python3.12/dist-packages (from authlib>=1.6.5->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (43.0.3)\n",
            "Requirement already satisfied: attrs>=23.1.0 in /usr/local/lib/python3.12/dist-packages (from cyclopts>=4.0.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (26.1.0)\n",
            "Requirement already satisfied: docstring-parser<4.0,>=0.15 in /usr/local/lib/python3.12/dist-packages (from cyclopts>=4.0.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.17.0)\n",
            "Collecting rich-rst<2.0.0,>=1.3.1 (from cyclopts>=4.0.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading rich_rst-1.3.2-py3-none-any.whl.metadata (6.1 kB)\n",
            "Requirement already satisfied: docutils in /usr/local/lib/python3.12/dist-packages (from rich-rst<2.0.0,>=1.3.1->cyclopts>=4.0.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.21.2)\n",
            "Requirement already satisfied: aiofiles<25.0,>=22.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (24.1.0)\n",
            "Requirement already satisfied: brotli>=1.1.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.2.0)\n",
            "Requirement already satisfied: ffmpy in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.0.0)\n",
            "Requirement already satisfied: gradio-client==1.14.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.14.0)\n",
            "Requirement already satisfied: groovy~=0.1 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.1.2)\n",
            "Requirement already satisfied: jinja2<4.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.1.6)\n",
            "Requirement already satisfied: markupsafe<4.0,>=2.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.0.3)\n",
            "Requirement already satisfied: orjson~=3.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.11.8)\n",
            "Requirement already satisfied: pandas<3.0,>=1.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.2.2)\n",
            "Requirement already satisfied: pydub in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.25.1)\n",
            "Requirement already satisfied: ruff>=0.9.3 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.15.10)\n",
            "Requirement already satisfied: safehttpx<0.2.0,>=0.1.6 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.1.7)\n",
            "Requirement already satisfied: semantic-version~=2.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.10.0)\n",
            "Requirement already satisfied: tomlkit<0.14.0,>=0.12.0 in /usr/local/lib/python3.12/dist-packages (from gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.13.3)\n",
            "Requirement already satisfied: fsspec in /usr/local/lib/python3.12/dist-packages (from gradio-client==1.14.0->gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2025.3.0)\n",
            "Requirement already satisfied: filelock>=3.10.0 in /usr/local/lib/python3.12/dist-packages (from huggingface_hub>=0.20.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.25.2)\n",
            "Requirement already satisfied: hf-xet<2.0.0,>=1.4.3 in /usr/local/lib/python3.12/dist-packages (from huggingface_hub>=0.20.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.4.3)\n",
            "Requirement already satisfied: tqdm>=4.42.1 in /usr/local/lib/python3.12/dist-packages (from huggingface_hub>=0.20.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (4.67.3)\n",
            "Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.12/dist-packages (from pandas<3.0,>=1.0->gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2025.2)\n",
            "Requirement already satisfied: tzdata>=2022.7 in /usr/local/lib/python3.12/dist-packages (from pandas<3.0,>=1.0->gradio>=4.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2026.1)\n",
            "Requirement already satisfied: shellingham>=1.3.0 in /usr/local/lib/python3.12/dist-packages (from typer>=0.9.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.5.4)\n",
            "Requirement already satisfied: jsonschema-specifications>=2023.03.6 in /usr/local/lib/python3.12/dist-packages (from jsonschema>=4.20.0->mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2025.9.1)\n",
            "Requirement already satisfied: referencing>=0.28.4 in /usr/local/lib/python3.12/dist-packages (from jsonschema>=4.20.0->mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.37.0)\n",
            "Requirement already satisfied: rpds-py>=0.25.0 in /usr/local/lib/python3.12/dist-packages (from jsonschema>=4.20.0->mcp<2.0,>=1.24.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.30.0)\n",
            "Collecting pathable<0.6.0,>=0.5.0 (from jsonschema-path>=0.3.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading pathable-0.5.0-py3-none-any.whl.metadata (5.9 kB)\n",
            "Requirement already satisfied: SecretStorage>=3.2 in /usr/local/lib/python3.12/dist-packages (from keyring>=25.6.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.5.0)\n",
            "Requirement already satisfied: jeepney>=0.4.2 in /usr/local/lib/python3.12/dist-packages (from keyring>=25.6.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.9.0)\n",
            "Requirement already satisfied: jaraco.classes in /usr/local/lib/python3.12/dist-packages (from keyring>=25.6.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.4.0)\n",
            "Requirement already satisfied: jaraco.functools in /usr/local/lib/python3.12/dist-packages (from keyring>=25.6.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (4.4.0)\n",
            "Requirement already satisfied: jaraco.context in /usr/local/lib/python3.12/dist-packages (from keyring>=25.6.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (6.1.2)\n",
            "Requirement already satisfied: distro<2,>=1.7.0 in /usr/local/lib/python3.12/dist-packages (from openai>=2.7.2->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.9.0)\n",
            "Requirement already satisfied: jiter<1,>=0.10.0 in /usr/local/lib/python3.12/dist-packages (from openai>=2.7.2->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.14.0)\n",
            "Requirement already satisfied: sniffio in /usr/local/lib/python3.12/dist-packages (from openai>=2.7.2->openenv-core>=0.2.1->-r requirements.txt (line 30)) (1.3.1)\n",
            "Requirement already satisfied: importlib-metadata<8.8.0,>=6.0 in /usr/local/lib/python3.12/dist-packages (from opentelemetry-api>=1.20.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (8.7.1)\n",
            "Requirement already satisfied: zipp>=3.20 in /usr/local/lib/python3.12/dist-packages (from importlib-metadata<8.8.0,>=6.0->opentelemetry-api>=1.20.0->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.23.0)\n",
            "Collecting email-validator>=2.0.0 (from pydantic[email]>=2.11.7->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading email_validator-2.3.0-py3-none-any.whl.metadata (26 kB)\n",
            "Collecting dnspython>=2.0.0 (from email-validator>=2.0.0->pydantic[email]>=2.11.7->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30))\n",
            "  Downloading dnspython-2.8.0-py3-none-any.whl.metadata (5.7 kB)\n",
            "Requirement already satisfied: cffi>=1.12 in /usr/local/lib/python3.12/dist-packages (from cryptography->authlib>=1.6.5->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.0.0)\n",
            "Requirement already satisfied: pycparser in /usr/local/lib/python3.12/dist-packages (from cffi>=1.12->cryptography->authlib>=1.6.5->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.0)\n",
            "Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.12/dist-packages (from python-dateutil>=2.7->matplotlib>=3.8->-r requirements.txt (line 17)) (1.17.0)\n",
            "Requirement already satisfied: charset_normalizer<4,>=2 in /usr/local/lib/python3.12/dist-packages (from requests>=2.25.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (3.4.7)\n",
            "Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.12/dist-packages (from requests>=2.25.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (2.5.0)\n",
            "Requirement already satisfied: markdown-it-py>=2.2.0 in /usr/local/lib/python3.12/dist-packages (from rich>=13.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (4.0.0)\n",
            "Requirement already satisfied: mdurl~=0.1 in /usr/local/lib/python3.12/dist-packages (from markdown-it-py>=2.2.0->rich>=13.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (0.1.2)\n",
            "Requirement already satisfied: httptools>=0.6.3 in /usr/local/lib/python3.12/dist-packages (from uvicorn[standard]>=0.27->-r requirements.txt (line 11)) (0.7.1)\n",
            "Requirement already satisfied: uvloop>=0.15.1 in /usr/local/lib/python3.12/dist-packages (from uvicorn[standard]>=0.27->-r requirements.txt (line 11)) (0.22.1)\n",
            "Requirement already satisfied: more-itertools in /usr/local/lib/python3.12/dist-packages (from jaraco.classes->keyring>=25.6.0->py-key-value-aio[filetree,keyring,memory]<0.5.0,>=0.4.4->fastmcp>=3.0.0->openenv-core>=0.2.1->-r requirements.txt (line 30)) (10.8.0)\n",
            "Downloading stim-1.15.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.0 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m5.0/5.0 MB\u001b[0m \u001b[31m46.0 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading pymatching-2.3.1-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (626 kB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m626.1/626.1 kB\u001b[0m \u001b[31m53.1 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading openenv_core-0.2.3-py3-none-any.whl (174 kB)\n",
            "Downloading fastmcp-3.2.4-py3-none-any.whl (728 kB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m728.6/728.6 kB\u001b[0m \u001b[31m66.6 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading py_key_value_aio-0.4.4-py3-none-any.whl (152 kB)\n",
            "Downloading aiofile-3.9.0-py3-none-any.whl (19 kB)\n",
            "Downloading caio-0.9.25-cp312-cp312-manylinux_2_34_x86_64.whl (80 kB)\n",
            "Downloading cyclopts-4.11.0-py3-none-any.whl (208 kB)\n",
            "Downloading rich_rst-1.3.2-py3-none-any.whl (12 kB)\n",
            "Downloading exceptiongroup-1.3.1-py3-none-any.whl (16 kB)\n",
            "Downloading griffelib-2.0.2-py3-none-any.whl (142 kB)\n",
            "Downloading jsonref-1.1.0-py3-none-any.whl (9.4 kB)\n",
            "Downloading jsonschema_path-0.4.5-py3-none-any.whl (19 kB)\n",
            "Downloading pathable-0.5.0-py3-none-any.whl (16 kB)\n",
            "Downloading openapi_pydantic-0.5.1-py3-none-any.whl (96 kB)\n",
            "Downloading email_validator-2.3.0-py3-none-any.whl (35 kB)\n",
            "Downloading dnspython-2.8.0-py3-none-any.whl (331 kB)\n",
            "Downloading tomli-2.4.1-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (253 kB)\n",
            "Downloading tomli_w-1.2.0-py3-none-any.whl (6.7 kB)\n",
            "Downloading uncalled_for-0.3.1-py3-none-any.whl (11 kB)\n",
            "Installing collected packages: uncalled-for, tomli-w, tomli, stim, py-key-value-aio, pathable, jsonref, griffelib, exceptiongroup, dnspython, caio, jsonschema-path, email-validator, aiofile, rich-rst, pymatching, openapi-pydantic, cyclopts, fastmcp, openenv-core\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m20/20\u001b[0m [openenv-core]\n",
            "\u001b[1A\u001b[2KSuccessfully installed aiofile-3.9.0 caio-0.9.25 cyclopts-4.11.0 dnspython-2.8.0 email-validator-2.3.0 exceptiongroup-1.3.1 fastmcp-3.2.4 griffelib-2.0.2 jsonref-1.1.0 jsonschema-path-0.4.5 openapi-pydantic-0.5.1 openenv-core-0.2.3 pathable-0.5.0 py-key-value-aio-0.4.4 pymatching-2.3.1 rich-rst-1.3.2 stim-1.15.0 tomli-2.4.1 tomli-w-1.2.0 uncalled-for-0.3.1\n",
            "Requirement already satisfied: torch>=2.3 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 12)) (2.10.0+cu128)\n",
            "Requirement already satisfied: transformers>=4.44 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 13)) (5.0.0)\n",
            "Collecting trl>=0.13 (from -r requirements-train.txt (line 14))\n",
            "  Downloading trl-1.2.0-py3-none-any.whl.metadata (11 kB)\n",
            "Collecting unsloth (from -r requirements-train.txt (line 15))\n",
            "  Downloading unsloth-2026.4.8-py3-none-any.whl.metadata (56 kB)\n",
            "Requirement already satisfied: datasets>=2.20 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 16)) (4.0.0)\n",
            "Requirement already satisfied: accelerate>=0.30 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 17)) (1.13.0)\n",
            "Requirement already satisfied: peft>=0.11 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 18)) (0.18.1)\n",
            "Requirement already satisfied: wandb>=0.17 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 19)) (0.25.1)\n",
            "Collecting bitsandbytes>=0.43 (from -r requirements-train.txt (line 20))\n",
            "  Downloading bitsandbytes-0.49.2-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)\n",
            "Requirement already satisfied: sentencepiece>=0.2 in /usr/local/lib/python3.12/dist-packages (from -r requirements-train.txt (line 21)) (0.2.1)\n",
            "Requirement already satisfied: filelock in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (3.25.2)\n",
            "Requirement already satisfied: typing-extensions>=4.10.0 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (4.15.0)\n",
            "Requirement already satisfied: setuptools in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (75.2.0)\n",
            "Requirement already satisfied: sympy>=1.13.3 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (1.14.0)\n",
            "Requirement already satisfied: networkx>=2.5.1 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (3.6.1)\n",
            "Requirement already satisfied: jinja2 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (3.1.6)\n",
            "Requirement already satisfied: fsspec>=0.8.5 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (2025.3.0)\n",
            "Requirement already satisfied: cuda-bindings==12.9.4 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.9.4)\n",
            "Requirement already satisfied: nvidia-cuda-nvrtc-cu12==12.8.93 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.8.93)\n",
            "Requirement already satisfied: nvidia-cuda-runtime-cu12==12.8.90 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.8.90)\n",
            "Requirement already satisfied: nvidia-cuda-cupti-cu12==12.8.90 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.8.90)\n",
            "Requirement already satisfied: nvidia-cudnn-cu12==9.10.2.21 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (9.10.2.21)\n",
            "Requirement already satisfied: nvidia-cublas-cu12==12.8.4.1 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.8.4.1)\n",
            "Requirement already satisfied: nvidia-cufft-cu12==11.3.3.83 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (11.3.3.83)\n",
            "Requirement already satisfied: nvidia-curand-cu12==10.3.9.90 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (10.3.9.90)\n",
            "Requirement already satisfied: nvidia-cusolver-cu12==11.7.3.90 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (11.7.3.90)\n",
            "Requirement already satisfied: nvidia-cusparse-cu12==12.5.8.93 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.5.8.93)\n",
            "Requirement already satisfied: nvidia-cusparselt-cu12==0.7.1 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (0.7.1)\n",
            "Requirement already satisfied: nvidia-nccl-cu12==2.27.5 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (2.27.5)\n",
            "Requirement already satisfied: nvidia-nvshmem-cu12==3.4.5 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (3.4.5)\n",
            "Requirement already satisfied: nvidia-nvtx-cu12==12.8.90 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.8.90)\n",
            "Requirement already satisfied: nvidia-nvjitlink-cu12==12.8.93 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (12.8.93)\n",
            "Requirement already satisfied: nvidia-cufile-cu12==1.13.1.3 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (1.13.1.3)\n",
            "Requirement already satisfied: triton==3.6.0 in /usr/local/lib/python3.12/dist-packages (from torch>=2.3->-r requirements-train.txt (line 12)) (3.6.0)\n",
            "Requirement already satisfied: cuda-pathfinder~=1.1 in /usr/local/lib/python3.12/dist-packages (from cuda-bindings==12.9.4->torch>=2.3->-r requirements-train.txt (line 12)) (1.5.2)\n",
            "Requirement already satisfied: huggingface-hub<2.0,>=1.3.0 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (1.10.1)\n",
            "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (2.0.2)\n",
            "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (26.0)\n",
            "Requirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (6.0.3)\n",
            "Requirement already satisfied: regex!=2019.12.17 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (2025.11.3)\n",
            "Requirement already satisfied: tokenizers<=0.23.0,>=0.22.0 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (0.22.2)\n",
            "Requirement already satisfied: typer-slim in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (0.24.0)\n",
            "Requirement already satisfied: safetensors>=0.4.3 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (0.7.0)\n",
            "Requirement already satisfied: tqdm>=4.27 in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (4.67.3)\n",
            "Requirement already satisfied: hf-xet<2.0.0,>=1.4.3 in /usr/local/lib/python3.12/dist-packages (from huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (1.4.3)\n",
            "Requirement already satisfied: httpx<1,>=0.23.0 in /usr/local/lib/python3.12/dist-packages (from huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (0.28.1)\n",
            "Requirement already satisfied: typer in /usr/local/lib/python3.12/dist-packages (from huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (0.24.1)\n",
            "Requirement already satisfied: anyio in /usr/local/lib/python3.12/dist-packages (from httpx<1,>=0.23.0->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (4.13.0)\n",
            "Requirement already satisfied: certifi in /usr/local/lib/python3.12/dist-packages (from httpx<1,>=0.23.0->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (2026.2.25)\n",
            "Requirement already satisfied: httpcore==1.* in /usr/local/lib/python3.12/dist-packages (from httpx<1,>=0.23.0->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (1.0.9)\n",
            "Requirement already satisfied: idna in /usr/local/lib/python3.12/dist-packages (from httpx<1,>=0.23.0->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (3.11)\n",
            "Requirement already satisfied: h11>=0.16 in /usr/local/lib/python3.12/dist-packages (from httpcore==1.*->httpx<1,>=0.23.0->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (0.16.0)\n",
            "Collecting datasets>=2.20 (from -r requirements-train.txt (line 16))\n",
            "  Downloading datasets-4.8.4-py3-none-any.whl.metadata (19 kB)\n",
            "Collecting unsloth_zoo>=2026.4.8 (from unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading unsloth_zoo-2026.4.9-py3-none-any.whl.metadata (32 kB)\n",
            "Requirement already satisfied: wheel>=0.42.0 in /usr/local/lib/python3.12/dist-packages (from unsloth->-r requirements-train.txt (line 15)) (0.46.3)\n",
            "Requirement already satisfied: torchvision in /usr/local/lib/python3.12/dist-packages (from unsloth->-r requirements-train.txt (line 15)) (0.25.0+cu128)\n",
            "Requirement already satisfied: psutil in /usr/local/lib/python3.12/dist-packages (from unsloth->-r requirements-train.txt (line 15)) (5.9.5)\n",
            "Collecting tyro (from unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading tyro-1.0.13-py3-none-any.whl.metadata (12 kB)\n",
            "Requirement already satisfied: protobuf in /usr/local/lib/python3.12/dist-packages (from unsloth->-r requirements-train.txt (line 15)) (5.29.6)\n",
            "Collecting xformers>=0.0.27.post2 (from unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading xformers-0.0.35-py39-none-manylinux_2_28_x86_64.whl.metadata (1.2 kB)\n",
            "INFO: pip is looking at multiple versions of unsloth to determine which version is compatible with other requirements. This could take a while.\n",
            "Collecting unsloth (from -r requirements-train.txt (line 15))\n",
            "  Downloading unsloth-2026.4.7-py3-none-any.whl.metadata (56 kB)\n",
            "  Downloading unsloth-2026.4.6-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.4.5-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.4.4-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.4.3-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.4.2-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.4.1-py3-none-any.whl.metadata (55 kB)\n",
            "INFO: pip is still looking at multiple versions of unsloth to determine which version is compatible with other requirements. This could take a while.\n",
            "  Downloading unsloth-2026.3.18-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.3.17-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.3.16-py3-none-any.whl.metadata (55 kB)\n",
            "  Downloading unsloth-2026.3.15-py3-none-any.whl.metadata (54 kB)\n",
            "  Downloading unsloth-2026.3.14-py3-none-any.whl.metadata (54 kB)\n",
            "INFO: This is taking longer than usual. You might need to provide the dependency resolver with stricter constraints to reduce runtime. See https://pip.pypa.io/warnings/backtracking for guidance. If you want to abort this run, press Ctrl + C.\n",
            "  Downloading unsloth-2026.3.13-py3-none-any.whl.metadata (54 kB)\n",
            "  Downloading unsloth-2026.3.12-py3-none-any.whl.metadata (54 kB)\n",
            "  Downloading unsloth-2026.3.11-py3-none-any.whl.metadata (54 kB)\n",
            "  Downloading unsloth-2026.3.10-py3-none-any.whl.metadata (54 kB)\n",
            "  Downloading unsloth-2026.3.9-py3-none-any.whl.metadata (54 kB)\n",
            "  Downloading unsloth-2026.3.8-py3-none-any.whl.metadata (53 kB)\n",
            "  Downloading unsloth-2026.3.7-py3-none-any.whl.metadata (53 kB)\n",
            "  Downloading unsloth-2026.3.6-py3-none-any.whl.metadata (52 kB)\n",
            "  Downloading unsloth-2026.3.5-py3-none-any.whl.metadata (50 kB)\n",
            "  Downloading unsloth-2026.3.4-py3-none-any.whl.metadata (70 kB)\n",
            "  Downloading unsloth-2026.3.3-py3-none-any.whl.metadata (70 kB)\n",
            "  Downloading unsloth-2026.3.2-py3-none-any.whl.metadata (70 kB)\n",
            "  Downloading unsloth-2026.3.1-py3-none-any.whl.metadata (70 kB)\n",
            "  Downloading unsloth-2026.2.1-py3-none-any.whl.metadata (69 kB)\n",
            "  Downloading unsloth-2026.1.4-py3-none-any.whl.metadata (66 kB)\n",
            "  Downloading unsloth-2026.1.3-py3-none-any.whl.metadata (66 kB)\n",
            "  Downloading unsloth-2026.1.2-py3-none-any.whl.metadata (66 kB)\n",
            "  Downloading unsloth-2026.1.1-py3-none-any.whl.metadata (66 kB)\n",
            "  Downloading unsloth-2025.12.10-py3-none-any.whl.metadata (66 kB)\n",
            "  Downloading unsloth-2025.12.9-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.12.8-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.12.7-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.12.6-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.12.5-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.12.4-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.12.1-py3-none-any.whl.metadata (65 kB)\n",
            "  Downloading unsloth-2025.11.6-py3-none-any.whl.metadata (64 kB)\n",
            "  Downloading unsloth-2025.11.4-py3-none-any.whl.metadata (64 kB)\n",
            "  Downloading unsloth-2025.11.3-py3-none-any.whl.metadata (61 kB)\n",
            "  Downloading unsloth-2025.11.2-py3-none-any.whl.metadata (61 kB)\n",
            "  Downloading unsloth-2025.11.1-py3-none-any.whl.metadata (61 kB)\n",
            "Collecting hf_transfer (from unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading hf_transfer-0.1.9-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.7 kB)\n",
            "Requirement already satisfied: diffusers in /usr/local/lib/python3.12/dist-packages (from unsloth->-r requirements-train.txt (line 15)) (0.37.1)\n",
            "Collecting transformers>=4.44 (from -r requirements-train.txt (line 13))\n",
            "  Downloading transformers-4.57.2-py3-none-any.whl.metadata (43 kB)\n",
            "Collecting trl>=0.13 (from -r requirements-train.txt (line 14))\n",
            "  Downloading trl-0.23.0-py3-none-any.whl.metadata (11 kB)\n",
            "Collecting huggingface-hub<2.0,>=0.16.4 (from tokenizers<=0.23.0,>=0.22.0->transformers>=4.44->-r requirements-train.txt (line 13))\n",
            "  Downloading huggingface_hub-0.36.2-py3-none-any.whl.metadata (15 kB)\n",
            "Requirement already satisfied: requests in /usr/local/lib/python3.12/dist-packages (from transformers>=4.44->-r requirements-train.txt (line 13)) (2.32.4)\n",
            "Collecting pyarrow>=21.0.0 (from datasets>=2.20->-r requirements-train.txt (line 16))\n",
            "  Downloading pyarrow-24.0.0-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (3.0 kB)\n",
            "Requirement already satisfied: dill<0.4.2,>=0.3.0 in /usr/local/lib/python3.12/dist-packages (from datasets>=2.20->-r requirements-train.txt (line 16)) (0.3.8)\n",
            "Requirement already satisfied: pandas in /usr/local/lib/python3.12/dist-packages (from datasets>=2.20->-r requirements-train.txt (line 16)) (2.2.2)\n",
            "Requirement already satisfied: xxhash in /usr/local/lib/python3.12/dist-packages (from datasets>=2.20->-r requirements-train.txt (line 16)) (3.6.0)\n",
            "Requirement already satisfied: multiprocess<0.70.20 in /usr/local/lib/python3.12/dist-packages (from datasets>=2.20->-r requirements-train.txt (line 16)) (0.70.16)\n",
            "Requirement already satisfied: aiohttp!=4.0.0a0,!=4.0.0a1 in /usr/local/lib/python3.12/dist-packages (from fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (3.13.5)\n",
            "Requirement already satisfied: click>=8.0.1 in /usr/local/lib/python3.12/dist-packages (from wandb>=0.17->-r requirements-train.txt (line 19)) (8.3.2)\n",
            "Requirement already satisfied: gitpython!=3.1.29,>=1.0.0 in /usr/local/lib/python3.12/dist-packages (from wandb>=0.17->-r requirements-train.txt (line 19)) (3.1.46)\n",
            "Requirement already satisfied: platformdirs in /usr/local/lib/python3.12/dist-packages (from wandb>=0.17->-r requirements-train.txt (line 19)) (4.9.6)\n",
            "Requirement already satisfied: pydantic<3 in /usr/local/lib/python3.12/dist-packages (from wandb>=0.17->-r requirements-train.txt (line 19)) (2.12.3)\n",
            "Requirement already satisfied: sentry-sdk>=2.0.0 in /usr/local/lib/python3.12/dist-packages (from wandb>=0.17->-r requirements-train.txt (line 19)) (2.57.0)\n",
            "Requirement already satisfied: annotated-types>=0.6.0 in /usr/local/lib/python3.12/dist-packages (from pydantic<3->wandb>=0.17->-r requirements-train.txt (line 19)) (0.7.0)\n",
            "Requirement already satisfied: pydantic-core==2.41.4 in /usr/local/lib/python3.12/dist-packages (from pydantic<3->wandb>=0.17->-r requirements-train.txt (line 19)) (2.41.4)\n",
            "Requirement already satisfied: typing-inspection>=0.4.2 in /usr/local/lib/python3.12/dist-packages (from pydantic<3->wandb>=0.17->-r requirements-train.txt (line 19)) (0.4.2)\n",
            "Requirement already satisfied: charset_normalizer<4,>=2 in /usr/local/lib/python3.12/dist-packages (from requests->transformers>=4.44->-r requirements-train.txt (line 13)) (3.4.7)\n",
            "Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.12/dist-packages (from requests->transformers>=4.44->-r requirements-train.txt (line 13)) (2.5.0)\n",
            "Requirement already satisfied: aiohappyeyeballs>=2.5.0 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (2.6.1)\n",
            "Requirement already satisfied: aiosignal>=1.4.0 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (1.4.0)\n",
            "Requirement already satisfied: attrs>=17.3.0 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (26.1.0)\n",
            "Requirement already satisfied: frozenlist>=1.1.1 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (1.8.0)\n",
            "Requirement already satisfied: multidict<7.0,>=4.5 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (6.7.1)\n",
            "Requirement already satisfied: propcache>=0.2.0 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (0.4.1)\n",
            "Requirement already satisfied: yarl<2.0,>=1.17.0 in /usr/local/lib/python3.12/dist-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets>=2.20->-r requirements-train.txt (line 16)) (1.23.0)\n",
            "Requirement already satisfied: gitdb<5,>=4.0.1 in /usr/local/lib/python3.12/dist-packages (from gitpython!=3.1.29,>=1.0.0->wandb>=0.17->-r requirements-train.txt (line 19)) (4.0.12)\n",
            "Requirement already satisfied: smmap<6,>=3.0.1 in /usr/local/lib/python3.12/dist-packages (from gitdb<5,>=4.0.1->gitpython!=3.1.29,>=1.0.0->wandb>=0.17->-r requirements-train.txt (line 19)) (5.0.3)\n",
            "Requirement already satisfied: mpmath<1.4,>=1.1.0 in /usr/local/lib/python3.12/dist-packages (from sympy>=1.13.3->torch>=2.3->-r requirements-train.txt (line 12)) (1.3.0)\n",
            "Collecting torchao>=0.13.0 (from unsloth_zoo>=2026.4.8->unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading torchao-0.17.0-cp310-abi3-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (20 kB)\n",
            "Collecting datasets>=2.20 (from -r requirements-train.txt (line 16))\n",
            "  Downloading datasets-4.3.0-py3-none-any.whl.metadata (18 kB)\n",
            "Collecting cut_cross_entropy (from unsloth_zoo>=2026.4.8->unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading cut_cross_entropy-25.1.1-py3-none-any.whl.metadata (9.3 kB)\n",
            "Requirement already satisfied: pillow in /usr/local/lib/python3.12/dist-packages (from unsloth_zoo>=2026.4.8->unsloth->-r requirements-train.txt (line 15)) (11.3.0)\n",
            "Collecting msgspec (from unsloth_zoo>=2026.4.8->unsloth->-r requirements-train.txt (line 15))\n",
            "  Downloading msgspec-0.21.1-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (5.8 kB)\n",
            "Requirement already satisfied: importlib-metadata in /usr/local/lib/python3.12/dist-packages (from diffusers->unsloth->-r requirements-train.txt (line 15)) (8.7.1)\n",
            "Requirement already satisfied: zipp>=3.20 in /usr/local/lib/python3.12/dist-packages (from importlib-metadata->diffusers->unsloth->-r requirements-train.txt (line 15)) (3.23.0)\n",
            "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.12/dist-packages (from jinja2->torch>=2.3->-r requirements-train.txt (line 12)) (3.0.3)\n",
            "Requirement already satisfied: python-dateutil>=2.8.2 in /usr/local/lib/python3.12/dist-packages (from pandas->datasets>=2.20->-r requirements-train.txt (line 16)) (2.9.0.post0)\n",
            "Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.12/dist-packages (from pandas->datasets>=2.20->-r requirements-train.txt (line 16)) (2025.2)\n",
            "Requirement already satisfied: tzdata>=2022.7 in /usr/local/lib/python3.12/dist-packages (from pandas->datasets>=2.20->-r requirements-train.txt (line 16)) (2026.1)\n",
            "Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.12/dist-packages (from python-dateutil>=2.8.2->pandas->datasets>=2.20->-r requirements-train.txt (line 16)) (1.17.0)\n",
            "Requirement already satisfied: shellingham>=1.3.0 in /usr/local/lib/python3.12/dist-packages (from typer->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (1.5.4)\n",
            "Requirement already satisfied: rich>=12.3.0 in /usr/local/lib/python3.12/dist-packages (from typer->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (13.9.4)\n",
            "Requirement already satisfied: annotated-doc>=0.0.2 in /usr/local/lib/python3.12/dist-packages (from typer->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (0.0.4)\n",
            "Requirement already satisfied: markdown-it-py>=2.2.0 in /usr/local/lib/python3.12/dist-packages (from rich>=12.3.0->typer->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (4.0.0)\n",
            "Requirement already satisfied: pygments<3.0.0,>=2.13.0 in /usr/local/lib/python3.12/dist-packages (from rich>=12.3.0->typer->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (2.20.0)\n",
            "Requirement already satisfied: mdurl~=0.1 in /usr/local/lib/python3.12/dist-packages (from markdown-it-py>=2.2.0->rich>=12.3.0->typer->huggingface-hub<2.0,>=1.3.0->transformers>=4.44->-r requirements-train.txt (line 13)) (0.1.2)\n",
            "Requirement already satisfied: docstring-parser>=0.15 in /usr/local/lib/python3.12/dist-packages (from tyro->unsloth->-r requirements-train.txt (line 15)) (0.17.0)\n",
            "Requirement already satisfied: typeguard>=4.0.0 in /usr/local/lib/python3.12/dist-packages (from tyro->unsloth->-r requirements-train.txt (line 15)) (4.5.1)\n",
            "Downloading unsloth-2025.11.1-py3-none-any.whl (348 kB)\n",
            "Downloading transformers-4.57.2-py3-none-any.whl (12.0 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m12.0/12.0 MB\u001b[0m \u001b[31m56.6 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading trl-0.23.0-py3-none-any.whl (564 kB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m564.7/564.7 kB\u001b[0m \u001b[31m39.0 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading huggingface_hub-0.36.2-py3-none-any.whl (566 kB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m566.4/566.4 kB\u001b[0m \u001b[31m37.8 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading bitsandbytes-0.49.2-py3-none-manylinux_2_24_x86_64.whl (60.7 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m60.7/60.7 MB\u001b[0m \u001b[31m158.1 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading pyarrow-24.0.0-cp312-cp312-manylinux_2_28_x86_64.whl (48.9 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m48.9/48.9 MB\u001b[0m \u001b[31m245.3 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading unsloth_zoo-2026.4.9-py3-none-any.whl (421 kB)\n",
            "Downloading datasets-4.3.0-py3-none-any.whl (506 kB)\n",
            "Downloading torchao-0.17.0-cp310-abi3-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (3.2 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m3.2/3.2 MB\u001b[0m \u001b[31m174.2 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading xformers-0.0.35-py39-none-manylinux_2_28_x86_64.whl (3.3 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m3.3/3.3 MB\u001b[0m \u001b[31m202.2 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading cut_cross_entropy-25.1.1-py3-none-any.whl (22 kB)\n",
            "Downloading hf_transfer-0.1.9-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB)\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m3.6/3.6 MB\u001b[0m \u001b[31m189.3 MB/s\u001b[0m  \u001b[33m0:00:00\u001b[0m\n",
            "\u001b[?25hDownloading msgspec-0.21.1-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (225 kB)\n",
            "Downloading tyro-1.0.13-py3-none-any.whl (185 kB)\n",
            "Installing collected packages: torchao, pyarrow, msgspec, hf_transfer, tyro, huggingface-hub, xformers, transformers, datasets, cut_cross_entropy, bitsandbytes, trl, unsloth_zoo, unsloth\n",
            "\u001b[2K  Attempting uninstall: torchao\n",
            "\u001b[2K    Found existing installation: torchao 0.10.0\n",
            "\u001b[2K    Uninstalling torchao-0.10.0:\n",
            "\u001b[2K      Successfully uninstalled torchao-0.10.0\n",
            "\u001b[2K  Attempting uninstall: pyarrow\n",
            "\u001b[2K    Found existing installation: pyarrow 18.1.0\n",
            "\u001b[2K    Uninstalling pyarrow-18.1.0:\n",
            "\u001b[2K      Successfully uninstalled pyarrow-18.1.0\n",
            "\u001b[2K  Attempting uninstall: huggingface-hub\n",
            "\u001b[2K    Found existing installation: huggingface_hub 1.10.1\n",
            "\u001b[2K    Uninstalling huggingface_hub-1.10.1:\n",
            "\u001b[2K      Successfully uninstalled huggingface_hub-1.10.1\n",
            "\u001b[2K  Attempting uninstall: transformers\n",
            "\u001b[2K    Found existing installation: transformers 5.0.0\n",
            "\u001b[2K    Uninstalling transformers-5.0.0:\n",
            "\u001b[2K      Successfully uninstalled transformers-5.0.0\n",
            "\u001b[2K  Attempting uninstall: datasets\n",
            "\u001b[2K    Found existing installation: datasets 4.0.0\n",
            "\u001b[2K    Uninstalling datasets-4.0.0:\n",
            "\u001b[2K      Successfully uninstalled datasets-4.0.0\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m14/14\u001b[0m [unsloth]\n",
            "\u001b[1A\u001b[2KSuccessfully installed bitsandbytes-0.49.2 cut_cross_entropy-25.1.1 datasets-4.3.0 hf_transfer-0.1.9 huggingface-hub-0.36.2 msgspec-0.21.1 pyarrow-24.0.0 torchao-0.17.0 transformers-4.57.2 trl-0.23.0 tyro-1.0.13 unsloth-2025.11.1 unsloth_zoo-2026.4.9 xformers-0.0.35\n",
            "[colab-pipeline] pinning unsloth==2025.11.1 + unsloth_zoo==2025.11.1 for GRPO compatibility\n",
            "Collecting unsloth==2025.11.1\n",
            "  Using cached unsloth-2025.11.1-py3-none-any.whl.metadata (61 kB)\n",
            "Collecting unsloth_zoo==2025.11.1\n",
            "  Downloading unsloth_zoo-2025.11.1-py3-none-any.whl.metadata (32 kB)\n",
            "Using cached unsloth-2025.11.1-py3-none-any.whl (348 kB)\n",
            "Downloading unsloth_zoo-2025.11.1-py3-none-any.whl (276 kB)\n",
            "Installing collected packages: unsloth_zoo, unsloth\n",
            "\u001b[2K  Attempting uninstall: unsloth_zoo\n",
            "\u001b[2K    Found existing installation: unsloth_zoo 2026.4.9\n",
            "\u001b[2K    Uninstalling unsloth_zoo-2026.4.9:\n",
            "\u001b[2K      Successfully uninstalled unsloth_zoo-2026.4.9\n",
            "\u001b[2K  Attempting uninstall: unsloth\n",
            "\u001b[2K    Found existing installation: unsloth 2025.11.1\n",
            "\u001b[2K    Uninstalling unsloth-2025.11.1:\n",
            "\u001b[2K      Successfully uninstalled unsloth-2025.11.1\n",
            "\u001b[2K   \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m2/2\u001b[0m [unsloth]\n",
            "\u001b[1A\u001b[2KSuccessfully installed unsloth-2025.11.1 unsloth_zoo-2025.11.1\n",
            "🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.\n",
            "2026-04-26 04:49:48.089820: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.\n",
            "2026-04-26 04:49:48.098332: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
            "WARNING: All log messages before absl::InitializeLog() is called are written to STDERR\n",
            "E0000 00:00:1777178988.107985    3199 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
            "E0000 00:00:1777178988.111239    3199 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n",
            "W0000 00:00:1777178988.119520    3199 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777178988.119537    3199 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777178988.119539    3199 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777178988.119540    3199 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "2026-04-26 04:49:48.121960: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\n",
            "To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
            "🦥 Unsloth Zoo will now patch everything to make training faster!\n",
            "Unable to import `torchao` Tensor objects. This may affect loading checkpoints serialized with `torchao`\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "[colab-pipeline]   unsloth     = 2025.11.1\n",
            "[colab-pipeline]   unsloth_zoo = 2025.11.1\n",
            "[colab-pipeline]   grpo_accumulated_loss params = ['trainer', 'input_ids', 'attention_mask', 'logits_to_keep', 'completion_mask', 'advantages', 'old_hidden_states', 'ref_hidden_states', 'n_chunks', 'kwargs']\n",
            "[colab-pipeline] unsloth/unsloth_zoo signatures match -- safe to train.\n",
            "[colab-pipeline] removing stale unsloth_compiled_cache/ so it regenerates against the pinned unsloth_zoo\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Logging into https://api.wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Create a new API key at: https://wandb.ai/authorize?ref=models\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Store your API key securely and do not share it.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Paste your API key and hit enter: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: No netrc file found, creating one.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mronitraj\u001b[0m to \u001b[32mhttps://api.wandb.ai\u001b[0m. Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\n",
            "prepared caches for 3 levels\n",
            "writing TRAIN split: n=3000, seed=42, quotas={'L1_warmup': 1200, 'L2_target': 1500, 'L3_stretch': 300} -> data/sft_dataset.jsonl\n",
            "  [L1_warmup] 600 non-empty + 600 empty (drew 13706 shots, natural non-empty rate ~4.4%)\n",
            "  [L2_target] 1200 non-empty + 300 empty (drew 5279 shots, natural non-empty rate ~22.7%)\n",
            "  [L3_stretch] 270 non-empty + 30 empty (drew 388 shots, natural non-empty rate ~69.6%)\n",
            "  wrote 3000; syndrome-fraction=0.697; non-empty-correction-fraction=0.690\n",
            "writing VAL  split: n=100, seed=4284, quotas={'L1_warmup': 40, 'L2_target': 50, 'L3_stretch': 10} -> data/sft_validation.jsonl\n",
            "  [L1_warmup] 20 non-empty + 20 empty (drew 519 shots, natural non-empty rate ~3.9%)\n",
            "  [L2_target] 40 non-empty + 10 empty (drew 197 shots, natural non-empty rate ~20.3%)\n",
            "  [L3_stretch] 9 non-empty + 1 empty (drew 15 shots, natural non-empty rate ~60.0%)\n",
            "  wrote 100; syndrome-fraction=0.710; non-empty-correction-fraction=0.690\n",
            "wrote 50 sample records to data/sft_dataset_sample.jsonl\n",
            "\n",
            "\n",
            "DATASET AUDIT SUMMARY\n",
            "=====================\n",
            "Total rows:               3000 (expected 3000)                                                                     [✓]\n",
            "JSON parse rate:          100.0% (0 failures)                                                                      [✓]\n",
            "Non-empty correction:     69.0% (target 65-75%)                                                                    [✓]\n",
            "Format anchor:            100.0%                                                                                   [✓]\n",
            "Curriculum L1/L2/L3:      40.0/50.0/10.0% (unknown=0.0%)                                                           [✓]\n",
            "Prompt length:            min=1114 median=1213 max=1501                                                            [✓]\n",
            "Completion length:        min=23 median=24 max=37                                                                  [✓]\n",
            "Format-only completions:  100.0% (target 100%)                                                                     [✓]\n",
            "Validation parallel:      rows=100 parse=100% nonempty=69.0% anchor=100% format_only=100% L1/L2/L3=40.0/50.0/10.0% [✓]\n",
            "\n",
            "ALL CHECKS PASSED — DATASET READY FOR TRAINING\n",
            "\n",
            "\n",
            "DATASET AUDIT SUMMARY\n",
            "=====================\n",
            "Total rows:               3000 (expected 3000)                                                                     [✓]\n",
            "JSON parse rate:          100.0% (0 failures)                                                                      [✓]\n",
            "Non-empty correction:     69.0% (target 65-75%)                                                                    [✓]\n",
            "Format anchor:            100.0%                                                                                   [✓]\n",
            "Curriculum L1/L2/L3:      40.0/50.0/10.0% (unknown=0.0%)                                                           [✓]\n",
            "Prompt length:            min=1114 median=1213 max=1501                                                            [✓]\n",
            "Completion length:        min=23 median=24 max=37                                                                  [✓]\n",
            "Format-only completions:  100.0% (target 100%)                                                                     [✓]\n",
            "Validation parallel:      rows=100 parse=100% nonempty=69.0% anchor=100% format_only=100% L1/L2/L3=40.0/50.0/10.0% [✓]\n",
            "\n",
            "ALL CHECKS PASSED — DATASET READY FOR TRAINING\n",
            "\n",
            "🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.\n",
            "2026-04-26 04:50:49.161786: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.\n",
            "2026-04-26 04:50:49.170510: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
            "WARNING: All log messages before absl::InitializeLog() is called are written to STDERR\n",
            "E0000 00:00:1777179049.180329    3764 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
            "E0000 00:00:1777179049.183633    3764 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n",
            "W0000 00:00:1777179049.191895    3764 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179049.191909    3764 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179049.191911    3764 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179049.191912    3764 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "2026-04-26 04:50:49.194365: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\n",
            "To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
            "🦥 Unsloth Zoo will now patch everything to make training faster!\n",
            "Unable to import `torchao` Tensor objects. This may affect loading checkpoints serialized with `torchao`\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: [wandb.login()] Loaded credentials for https://api.wandb.ai from /root/.netrc.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mronitraj\u001b[0m to \u001b[32mhttps://api.wandb.ai\u001b[0m. Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\n",
            "\u001b]11;?\u0007\u001b[c\u001b]11;?\u0007\u001b[c\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[33mWARNING\u001b[0m Using a boolean value for 'reinit' is deprecated. Use 'return_previous' or 'finish_previous' instead.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m Waiting for wandb.init()...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m Waiting for wandb.init()...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m setting up run yli513jl (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m setting up run yli513jl (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m setting up run yli513jl (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m setting up run yli513jl (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m setting up run yli513jl (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Tracking run with wandb version 0.25.1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run data is saved locally in \u001b[35m\u001b[1m/content/Meta_RL_Phase2/wandb/run-20260426_045057-yli513jl\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run \u001b[1m`wandb offline`\u001b[0m to turn off syncing.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Syncing run \u001b[33msft-20260426-045056\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run at \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO/runs/yli513jl\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Detected [huggingface_hub.inference, openai] in use.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/\n",
            "[wandb] run live at https://wandb.ai/ronitraj/QuantumScribe-GRPO/runs/yli513jl\n",
            "loading Qwen/Qwen2.5-3B-Instruct via Unsloth (4-bit NF4)\n",
            "  unsloth=2025.11.1  transformers=4.57.2\n",
            "==((====))==  Unsloth 2025.11.1: Fast Qwen2 patching. Transformers: 4.57.2.\n",
            "   \\\\   /|    NVIDIA RTX PRO 6000 Blackwell Server Edition. Num GPUs = 1. Max memory: 94.971 GB. Platform: Linux.\n",
            "O^O/ \\_/ \\    Torch: 2.10.0+cu128. CUDA: 12.0. CUDA Toolkit: 12.8. Triton: 3.6.0\n",
            "\\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.35. FA2 = False]\n",
            " \"-____-\"     Free license: http://github.com/unslothai/unsloth\n",
            "Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!\n",
            "model.safetensors: 100% 2.36G/2.36G [00:02<00:00, 979MB/s] \n",
            "generation_config.json: 100% 271/271 [00:00<00:00, 2.93MB/s]\n",
            "tokenizer_config.json: 7.36kB [00:00, 31.5MB/s]\n",
            "vocab.json: 2.78MB [00:00, 99.0MB/s]\n",
            "merges.txt: 1.67MB [00:00, 227MB/s]\n",
            "added_tokens.json: 100% 605/605 [00:00<00:00, 7.86MB/s]\n",
            "special_tokens_map.json: 100% 614/614 [00:00<00:00, 7.97MB/s]\n",
            "tokenizer.json: 100% 11.4M/11.4M [00:00<00:00, 55.7MB/s]\n",
            "Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.1.\n",
            "Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.\n",
            "Unsloth 2025.11.1 patched 36 layers with 0 QKV layers, 0 O layers and 0 MLP layers.\n",
            "loading train dataset from data/sft_dataset.jsonl\n",
            "  3000 samples; first text len = 1396\n",
            "loaded 100 held-out validation records from data/sft_validation.jsonl\n",
            "Unsloth: Tokenizing [\"text\"] (num_proc=52): 100% 3000/3000 [00:04<00:00, 617.47 examples/s]\n",
            "training (max_steps=50, eval_every=25) ...\n",
            "The model is already on multiple devices. Skipping the move to device specified in `args`.\n",
            "==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1\n",
            "   \\\\   /|    Num examples = 3,000 | Num Epochs = 1 | Total steps = 50\n",
            "O^O/ \\_/ \\    Batch size per device = 4 | Gradient accumulation steps = 4\n",
            "\\        /    Data Parallel GPUs = 1 | Total batch size (4 x 4 x 1) = 16\n",
            " \"-____-\"     Trainable parameters = 7,372,800 of 3,093,311,488 (0.24% trained)\n",
            "  0% 0/50 [00:00<?, ?it/s]Unsloth: Will smartly offload gradients to save VRAM!\n",
            "  8% 4/50 [00:06<00:57,  1.26s/it]=== eval samples @ step 5 (mode=format_only, n=30) ===\n",
            "\n",
            "--- sample 0 (level=L2_target, true_x=[], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 1 (level=L2_target, true_x=[], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 2 (level=L1_warmup, true_x=[4], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=9) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[4]\n",
            ">>> PARSED: x=[] z=[4]\n",
            "\n",
            "--- sample 3 (level=L2_target, true_x=[0], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 4 (level=L2_target, true_x=[], true_z=[3, 7], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "[sft][eval@5] format_compliance=1.000, format_compliance_strict=1.000, parse_failure_rate=0.000, output_length_mean=7.200, episodes=30, mode_full=0\n",
            "{'loss': 14.2095, 'grad_norm': 7.769894123077393, 'learning_rate': 4.5e-05, 'epoch': 0.05}\n",
            " 28% 14/50 [00:20<00:35,  1.00it/s]=== eval samples @ step 15 (mode=full, n=50) ===\n",
            "\n",
            "--- sample 0 (level=L2_target, true_x=[], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 1 (level=L2_target, true_x=[], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 2 (level=L1_warmup, true_x=[4], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=11) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[7,8]\n",
            ">>> PARSED: x=[] z=[7, 8]\n",
            "\n",
            "--- sample 3 (level=L2_target, true_x=[0], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 4 (level=L2_target, true_x=[], true_z=[3, 7], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "[sft][eval@15] format_compliance=1.000, format_compliance_strict=1.000, parse_failure_rate=0.000, output_length_mean=7.320, episodes=50, mode_full=1, logical_correction_rate=0.860, exact_match_pymatching=0.360, hamming_overlap_mean=0.620, syndrome_consistency=0.685, output_diversity=1\n",
            "{'loss': 11.9683, 'grad_norm': 4.271855354309082, 'learning_rate': 9.5e-05, 'epoch': 0.11}\n",
            " 48% 24/50 [00:38<00:27,  1.04s/it]=== eval samples @ step 25 (mode=full, n=100) ===\n",
            "\n",
            "--- sample 0 (level=L2_target, true_x=[], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 1 (level=L2_target, true_x=[], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 2 (level=L1_warmup, true_x=[4], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=13) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[2] Z_ERRORS=[5,6]\n",
            ">>> PARSED: x=[2] z=[5, 6]\n",
            "\n",
            "--- sample 3 (level=L2_target, true_x=[0], true_z=[], fmt_ok=True, fmt_strict=True, n_tokens=7) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[] Z_ERRORS=[]\n",
            ">>> PARSED: x=[] z=[]\n",
            "\n",
            "--- sample 4 (level=L2_target, true_x=[], true_z=[3, 7], fmt_ok=True, fmt_strict=True, n_tokens=13) ---\n",
            ">>> RAW MODEL OUTPUT:\n",
            "X_ERRORS=[2] Z_ERRORS=[5,6]\n",
            ">>> PARSED: x=[2] z=[5, 6]\n",
            "[sft][eval@25] format_compliance=1.000, format_compliance_strict=1.000, parse_failure_rate=0.000, output_length_mean=13.440, episodes=100, mode_full=1, logical_correction_rate=0.860, exact_match_pymatching=0.290, hamming_overlap_mean=0.374, syndrome_consistency=0.841, output_diversity=3\n",
            "[sft] success criterion hit at step 25: format=1.000 >= 0.95, correction=0.860 >= 0.8, diversity=3 >= 3; stopping.\n",
            "{'train_runtime': 67.0403, 'train_samples_per_second': 11.933, 'train_steps_per_second': 0.746, 'train_loss': 12.445834197998046, 'epoch': 0.13}\n",
            " 50% 25/50 [01:07<01:07,  2.68s/it]\n",
            "training finished in 73.8s (max_wall_seconds=1800)\n",
            "saving adapters to checkpoints/sft_warmup\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Adding directory to artifact (checkpoints/sft_warmup)... Done. 0.1s\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact run-yli513jl-sftvalidation-PoZlCw (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m updating run metadata (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact run-yli513jl-sftvalidation-PoZlCw (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m updating run metadata (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact run-yli513jl-sftvalidation-PoZlCw (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m updating run metadata (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact run-yli513jl-sftvalidation-PoZlCw (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m updating run metadata (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m eval_samples_step100.txt 902B/902B (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-150/rng_state.pth 14.3KB/14.3KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-200/merges.txt 1.0MB/1.6MB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m eval_samples_step100.txt 902B/902B (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-150/rng_state.pth 14.3KB/14.3KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-200/merges.txt 1.0MB/1.6MB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m eval_samples_step100.txt 902B/902B (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/rng_state.pth 14.3KB/14.3KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-200/merges.txt 1.0MB/1.6MB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m eval_samples_step100.txt 902B/902B (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/rng_state.pth 14.3KB/14.3KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-200/merges.txt 1.0MB/1.6MB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m eval_samples_step100.txt 902B/902B (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/rng_state.pth 14.3KB/14.3KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-200/merges.txt 1.0MB/1.6MB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m eval_samples_step100.txt 902B/902B (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-200/merges.txt 1.1MB/1.6MB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m tokenizer_config.json 4.6KB/4.6KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m eval_samples_step100.txt 902B/902B (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-200/merges.txt 1.1MB/1.6MB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m tokenizer_config.json 4.6KB/4.6KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m eval_samples_step100.txt 902B/902B (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-200/merges.txt 1.1MB/1.6MB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m tokenizer_config.json 4.6KB/4.6KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m eval_samples_step100.txt 902B/902B (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-200/merges.txt 1.1MB/1.6MB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m tokenizer_config.json 4.6KB/4.6KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m eval_samples_step100.txt 902B/902B (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/scheduler.pt 1.4KB/1.4KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-200/merges.txt 1.1MB/1.6MB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/trainer_state.json 1.5KB/1.5KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m tokenizer_config.json 4.6KB/4.6KB (0.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-200/merges.txt 1.2MB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-50/vocab.json 432.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-200/vocab.json 336.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/merges.txt 272.0KB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m tokenizer.json 336.0KB/10.9MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-200/merges.txt 1.2MB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-50/vocab.json 432.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-200/vocab.json 336.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/merges.txt 272.0KB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m tokenizer.json 336.0KB/10.9MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-200/merges.txt 1.2MB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-50/vocab.json 432.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-200/vocab.json 336.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/merges.txt 272.0KB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m tokenizer.json 336.0KB/10.9MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-200/merges.txt 1.2MB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-50/vocab.json 432.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-200/vocab.json 336.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-150/merges.txt 272.0KB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m tokenizer.json 336.0KB/10.9MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-200/merges.txt 1.2MB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/vocab.json 432.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-200/vocab.json 336.0KB/2.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-150/merges.txt 272.0KB/1.6MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m tokenizer.json 336.0KB/10.9MB (1.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/vocab.json 1.7MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-200/vocab.json 1.8MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-150/merges.txt 1.6MB/1.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m tokenizer.json 1.8MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-150/tokenizer.json 1.6MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/vocab.json 1.7MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-200/vocab.json 1.8MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-150/merges.txt 1.6MB/1.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m tokenizer.json 1.8MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-150/tokenizer.json 1.6MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/vocab.json 1.7MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-200/vocab.json 1.8MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-150/merges.txt 1.6MB/1.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m tokenizer.json 1.8MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-150/tokenizer.json 1.6MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-50/vocab.json 1.7MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-200/vocab.json 1.8MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/merges.txt 1.6MB/1.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m tokenizer.json 1.8MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/tokenizer.json 1.6MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-50/vocab.json 1.7MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-200/vocab.json 1.8MB/2.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/merges.txt 1.6MB/1.6MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m tokenizer.json 1.8MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/tokenizer.json 1.6MB/10.9MB (1.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m tokenizer.json 5.8MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/tokenizer.json 5.1MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/optimizer.pt 5.7MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-25/adapter_model.safetensors 5.4MB/28.2MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-50/optimizer.pt 5.0MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m tokenizer.json 5.8MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-150/tokenizer.json 5.1MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-150/optimizer.pt 5.7MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-25/adapter_model.safetensors 5.4MB/28.2MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-50/optimizer.pt 5.0MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m tokenizer.json 5.8MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-150/tokenizer.json 5.1MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-150/optimizer.pt 5.7MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-25/adapter_model.safetensors 5.4MB/28.2MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/optimizer.pt 5.0MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m tokenizer.json 5.8MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-150/tokenizer.json 5.1MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-150/optimizer.pt 5.7MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-25/adapter_model.safetensors 5.4MB/28.2MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/optimizer.pt 5.0MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m tokenizer.json 5.8MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-150/tokenizer.json 5.1MB/10.9MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-150/optimizer.pt 5.7MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-25/adapter_model.safetensors 5.4MB/28.2MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/optimizer.pt 5.0MB/14.6MB (2.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m tokenizer.json 10.1MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-150/tokenizer.json 9.8MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-150/optimizer.pt 9.2MB/14.6MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-25/adapter_model.safetensors 9.2MB/28.2MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 4 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m tokenizer.json 10.1MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/tokenizer.json 9.8MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/optimizer.pt 9.2MB/14.6MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-25/adapter_model.safetensors 9.2MB/28.2MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 4 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m tokenizer.json 10.1MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/tokenizer.json 9.8MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/optimizer.pt 9.2MB/14.6MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-25/adapter_model.safetensors 9.2MB/28.2MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 4 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m tokenizer.json 10.1MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/tokenizer.json 9.8MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/optimizer.pt 9.2MB/14.6MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-25/adapter_model.safetensors 9.2MB/28.2MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 4 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m tokenizer.json 10.1MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-150/tokenizer.json 9.8MB/10.9MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-150/optimizer.pt 9.2MB/14.6MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-25/adapter_model.safetensors 9.2MB/28.2MB (2.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 4 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-150/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-25/adapter_model.safetensors 15.1MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/adapter_model.safetensors 15.5MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-200/adapter_model.safetensors 15.0MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-150/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-25/adapter_model.safetensors 15.1MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/adapter_model.safetensors 15.5MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-200/adapter_model.safetensors 15.0MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-150/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-25/adapter_model.safetensors 15.1MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-50/adapter_model.safetensors 15.5MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m checkpoint-200/adapter_model.safetensors 15.0MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-150/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-25/adapter_model.safetensors 15.1MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-50/adapter_model.safetensors 15.5MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m checkpoint-200/adapter_model.safetensors 15.0MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (4.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-150/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-25/adapter_model.safetensors 15.1MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-50/optimizer.pt 14.6MB/14.6MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-50/adapter_model.safetensors 15.5MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m checkpoint-200/adapter_model.safetensors 15.0MB/28.2MB (3.1s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-25/adapter_model.safetensors 26.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-50/adapter_model.safetensors 28.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-200/adapter_model.safetensors 24.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m adapter_model.safetensors 25.5MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m checkpoint-150/adapter_model.safetensors 27.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-25/adapter_model.safetensors 26.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-50/adapter_model.safetensors 28.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-200/adapter_model.safetensors 24.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m adapter_model.safetensors 25.5MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m checkpoint-150/adapter_model.safetensors 27.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-25/adapter_model.safetensors 26.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-50/adapter_model.safetensors 28.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-200/adapter_model.safetensors 24.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m adapter_model.safetensors 25.5MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m checkpoint-150/adapter_model.safetensors 27.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-25/adapter_model.safetensors 26.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-50/adapter_model.safetensors 28.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-200/adapter_model.safetensors 24.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m adapter_model.safetensors 25.5MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m checkpoint-150/adapter_model.safetensors 27.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-25/adapter_model.safetensors 26.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-50/adapter_model.safetensors 28.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-200/adapter_model.safetensors 24.2MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m adapter_model.safetensors 25.5MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m checkpoint-150/adapter_model.safetensors 27.7MB/28.2MB (3.6s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (5.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (6.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (6.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact sft-adapter-sft-20260426-045056 (6.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run history:\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                 eval/episodes ▁▃█\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   eval/exact_match_pymatching █▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:        eval/format_compliance ▁▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: eval/format_compliance_strict ▁▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:     eval/hamming_overlap_mean █▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:  eval/logical_correction_rate ▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                eval/mode_full ▁██\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:         eval/output_diversity ▁█\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:       eval/output_length_mean ▁▁█\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:       eval/parse_failure_rate ▁▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                            +9 ...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run summary:\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                 eval/episodes 100\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   eval/exact_match_pymatching 0.29\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:        eval/format_compliance 1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: eval/format_compliance_strict 1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:     eval/hamming_overlap_mean 0.37354\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:  eval/logical_correction_rate 0.86\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                eval/mode_full 1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:         eval/output_diversity 3\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:       eval/output_length_mean 13.44\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:       eval/parse_failure_rate 0\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                           +22 ...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run \u001b[33msft-20260426-045056\u001b[0m at: \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO/runs/yli513jl\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at: \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Synced 5 W&B file(s), 4 media file(s), 88 artifact file(s) and 0 other file(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Find logs at: \u001b[35m\u001b[1m./wandb/run-20260426_045057-yli513jl/logs\u001b[0m\n",
            "done\n",
            "[colab-pipeline] running diversity preflight against checkpoints/sft_warmup\n",
            "🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.\n",
            "2026-04-26 04:52:48.152003: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.\n",
            "2026-04-26 04:52:48.160756: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
            "WARNING: All log messages before absl::InitializeLog() is called are written to STDERR\n",
            "E0000 00:00:1777179168.170634    4946 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
            "E0000 00:00:1777179168.173991    4946 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n",
            "W0000 00:00:1777179168.182402    4946 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179168.182419    4946 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179168.182421    4946 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179168.182422    4946 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "2026-04-26 04:52:48.184868: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\n",
            "To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
            "🦥 Unsloth Zoo will now patch everything to make training faster!\n",
            "Unable to import `torchao` Tensor objects. This may affect loading checkpoints serialized with `torchao`\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "[preflight] loading model: checkpoints/sft_warmup\n",
            "==((====))==  Unsloth 2025.11.1: Fast Qwen2 patching. Transformers: 4.57.2.\n",
            "   \\\\   /|    NVIDIA RTX PRO 6000 Blackwell Server Edition. Num GPUs = 1. Max memory: 94.971 GB. Platform: Linux.\n",
            "O^O/ \\_/ \\    Torch: 2.10.0+cu128. CUDA: 12.0. CUDA Toolkit: 12.8. Triton: 3.6.0\n",
            "\\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.35. FA2 = False]\n",
            " \"-____-\"     Free license: http://github.com/unslothai/unsloth\n",
            "Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!\n",
            "Unsloth 2025.11.1 patched 36 layers with 0 QKV layers, 0 O layers and 0 MLP layers.\n",
            "[grpo-preflight] probing diversity at T=1.2 on 5 prompts x 8 samples each\n",
            "[grpo-preflight]   prompt 0: 7/8 unique  [PASS]  examples=['X_ERRORS=[5,7,8] Z_ERRORS=[1,2,5]', 'X_ERRORS=[2,4] Z_ERRORS=[5,6]']\n",
            "[grpo-preflight]   prompt 1: 8/8 unique  [PASS]  examples=['X_ERRORS=[7] Z_ERRORS=[3,8]', 'X_ERRORS=[7,20] Z_ERRORS=[]']\n",
            "[grpo-preflight]   prompt 2: 4/8 unique  [PASS]  examples=['X_ERRORS=[7] Z_ERRORS=[]', 'X_ERRORS=[] Z_ERRORS=[]']\n",
            "[grpo-preflight]   prompt 3: 5/8 unique  [PASS]  examples=['NO_ERRORS_X_ERRORS=INVALID_Z_ERRORS=INVALID', 'MISSING_DATA_ERROR_REPORT']\n",
            "[grpo-preflight]   prompt 4: 4/8 unique  [PASS]  examples=['X_ERRORS=[] Z_ERRORS=[]', 'X_ERRORS=[2] Z_ERRORS=[5,6]']\n",
            "[grpo-preflight] 5/5 prompts passed (threshold: >= 3). per_prompt_unique=[7, 8, 4, 5, 4]\n",
            "[colab-pipeline] diversity preflight PASSED; launching GRPO\n",
            "🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.\n",
            "2026-04-26 04:53:16.480706: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.\n",
            "2026-04-26 04:53:16.489406: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
            "WARNING: All log messages before absl::InitializeLog() is called are written to STDERR\n",
            "E0000 00:00:1777179196.499230    5349 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
            "E0000 00:00:1777179196.502565    5349 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n",
            "W0000 00:00:1777179196.510943    5349 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179196.510964    5349 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179196.510965    5349 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777179196.510966    5349 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "2026-04-26 04:53:16.513417: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\n",
            "To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
            "🦥 Unsloth Zoo will now patch everything to make training faster!\n",
            "Unable to import `torchao` Tensor objects. This may affect loading checkpoints serialized with `torchao`\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "[grpo-guard] removing stale unsloth_compiled_cache/UnslothGRPOTrainer.py so it regenerates against the current unsloth_zoo install\n",
            "using env client: LocalDecoderClient; health = {'ok': True, 'episodes_started': 0, 'active_episodes': 0, 'curriculum': {'L1_warmup': {'moving_mean': 0.0, 'samples': 0.0}, 'L2_target': {'moving_mean': 0.0, 'samples': 0.0}, 'L3_stretch': {'moving_mean': 0.0, 'samples': 0.0}}, 'cached_levels': []}\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: [wandb.login()] Loaded credentials for https://api.wandb.ai from /root/.netrc.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Currently logged in as: \u001b[33mronitraj\u001b[0m to \u001b[32mhttps://api.wandb.ai\u001b[0m. Use \u001b[1m`wandb login --relogin`\u001b[0m to force relogin\n",
            "\u001b]11;?\u0007\u001b[c\u001b]11;?\u0007\u001b[c\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[33mWARNING\u001b[0m Using a boolean value for 'reinit' is deprecated. Use 'return_previous' or 'finish_previous' instead.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m Waiting for wandb.init()...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m Waiting for wandb.init()...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m setting up run 4p7eurnc (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Tracking run with wandb version 0.25.1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run data is saved locally in \u001b[35m\u001b[1m/content/Meta_RL_Phase2/wandb/run-20260426_045324-4p7eurnc\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run \u001b[1m`wandb offline`\u001b[0m to turn off syncing.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Syncing run \u001b[33mgrpo-20260426-045324\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run at \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO/runs/4p7eurnc\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Detected [huggingface_hub.inference, openai] in use.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/\n",
            "[wandb] run live at https://wandb.ai/ronitraj/QuantumScribe-GRPO/runs/4p7eurnc\n",
            "pre-generating 512 prompts ...\n",
            "  built dataset with 512 prompts\n",
            "[grpo-eval] building frozen eval set seed=4284 n=200 -> data/grpo_validation.jsonl\n",
            "[grpo-eval] wrote 200 eval rows to data/grpo_validation.jsonl\n",
            "loading base=unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit, sft adapter=checkpoints/sft_warmup\n",
            "==((====))==  Unsloth 2025.11.1: Fast Qwen2 patching. Transformers: 4.57.2.\n",
            "   \\\\   /|    NVIDIA RTX PRO 6000 Blackwell Server Edition. Num GPUs = 1. Max memory: 94.971 GB. Platform: Linux.\n",
            "O^O/ \\_/ \\    Torch: 2.10.0+cu128. CUDA: 12.0. CUDA Toolkit: 12.8. Triton: 3.6.0\n",
            "\\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.35. FA2 = False]\n",
            " \"-____-\"     Free license: http://github.com/unslothai/unsloth\n",
            "Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!\n",
            "Unsloth 2025.11.1 patched 36 layers with 0 QKV layers, 0 O layers and 0 MLP layers.\n",
            "[grpo-preflight] probing diversity at T=1.2 on 5 prompts x 8 samples each\n",
            "[grpo-preflight]   prompt 0: 8/8 unique  [PASS]  examples=['X_ERRORS=[] Z_ERRORS=[7,8]', 'X_ERRORS=[1,2] Z_ERRORS=[3,7]']\n",
            "[grpo-preflight]   prompt 1: 8/8 unique  [PASS]  examples=['X_ERRORS=[4] Z_ERRORS=', 'X_ERRORS=[] Z_ERRORS=[2,5,6]']\n",
            "[grpo-preflight]   prompt 2: 7/8 unique  [PASS]  examples=['X_ERRORS=[] Z_ERRORS=[1,7]', 'X_ERRORS=[] Z_ERRORS=']\n",
            "[grpo-preflight]   prompt 3: 6/8 unique  [PASS]  examples=['X_ERRORS=[] Z_ERRORS=[]', 'X_ERRORS=[] Z_ERRORS=']\n",
            "[grpo-preflight]   prompt 4: 7/8 unique  [PASS]  examples=['X_ERRORS=[] Z_ERRORS=', 'X_ERRORS=[] Z_ERRORS=[]']\n",
            "[grpo-preflight] 5/5 prompts passed (threshold: >= 3). per_prompt_unique=[8, 8, 7, 6, 7]\n",
            "Unsloth: We now expect `per_device_train_batch_size` to be a multiple of `num_generations`.\n",
            "We will change the batch size of 1 to the `num_generations` of 4\n",
            "running GRPO for 1500 steps (temperature=1.2, top_p=0.95, top_k=50, repetition_penalty=1.1, beta=0.02, lr=2e-05) ...\n",
            "The model is already on multiple devices. Skipping the move to device specified in `args`.\n",
            "==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1\n",
            "   \\\\   /|    Num examples = 512 | Num Epochs = 24 | Total steps = 1,500\n",
            "O^O/ \\_/ \\    Batch size per device = 4 | Gradient accumulation steps = 8\n",
            "\\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32\n",
            " \"-____-\"     Trainable parameters = 7,372,800 of 3,093,311,488 (0.24% trained)\n",
            "  0% 0/1500 [00:00<?, ?it/s]Unsloth: Will smartly offload gradients to save VRAM!\n",
            "  0% 5/1500 [00:25<1:35:31,  3.83s/it][grpo][step 5] KL ALARM: 0.321 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.5215824246406555, 'learning_rate': 2e-05, 'num_tokens': 56160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7078646063804627, 'rewards/reward_total/std': 0.17114608287811278, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.24214506149291992, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.3621265172958374, 'rewards/reward_obs_syndrome_consistency/mean': 0.8572916746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.21807629764080047, 'rewards/reward_obs_format_compliance/mean': 0.23125, 'rewards/reward_obs_format_compliance/std': 0.4247998833656311, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.4745312213897703, 'reward_std': 0.7421959042549133, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.32104165218770503, 'epoch': 0.08}\n",
            "  1% 10/1500 [00:39<1:13:32,  2.96s/it][grpo][step 10] KL ALARM: 0.316 > 0.300 - inspect generations.\n",
            "{'loss': 0.0063, 'grad_norm': 0.562161386013031, 'learning_rate': 2e-05, 'num_tokens': 112320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.6905208349227905, 'rewards/reward_total/std': 0.17267954349517822, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.24214506149291992, 'rewards/reward_obs_hamming_overlap/mean': 0.6770833373069763, 'rewards/reward_obs_hamming_overlap/std': 0.37646437883377076, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.2245750069618225, 'rewards/reward_obs_format_compliance/mean': 0.28125, 'rewards/reward_obs_format_compliance/std': 0.4519257426261902, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.4113542079925536, 'reward_std': 0.7985891342163086, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.3158807951956987, 'epoch': 0.16}\n",
            "{'loss': 0.0052, 'grad_norm': 0.5783809423446655, 'learning_rate': 2e-05, 'num_tokens': 168480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.6728124856948853, 'rewards/reward_total/std': 0.19071643352508544, 'rewards/reward_obs_logical_correction/mean': 0.9, 'rewards/reward_obs_logical_correction/std': 0.29858534336090087, 'rewards/reward_obs_hamming_overlap/mean': 0.64375, 'rewards/reward_obs_hamming_overlap/std': 0.3977732121944427, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.2249455600976944, 'rewards/reward_obs_format_compliance/mean': 0.3375, 'rewards/reward_obs_format_compliance/std': 0.47165045142173767, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.3696875095367433, 'reward_std': 0.8533906936645508, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.26075588203966615, 'epoch': 0.23}\n",
            "{'loss': 0.0052, 'grad_norm': 0.5534485578536987, 'learning_rate': 2e-05, 'num_tokens': 224640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.6860286474227906, 'rewards/reward_total/std': 0.16677702963352203, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.21755159497261048, 'rewards/reward_obs_hamming_overlap/mean': 0.67578125, 'rewards/reward_obs_hamming_overlap/std': 0.3652097225189209, 'rewards/reward_obs_syndrome_consistency/mean': 0.7994791746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.2474672704935074, 'rewards/reward_obs_format_compliance/mean': 0.3125, 'rewards/reward_obs_format_compliance/std': 0.45994613170623777, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.405039072036743, 'reward_std': 0.7823395133018494, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.2601574070751667, 'epoch': 0.31}\n",
            "{'loss': 0.0047, 'grad_norm': 0.5652377009391785, 'learning_rate': 2e-05, 'num_tokens': 280800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.6854166746139526, 'rewards/reward_total/std': 0.18549399971961975, 'rewards/reward_obs_logical_correction/mean': 0.90625, 'rewards/reward_obs_logical_correction/std': 0.28231166005134584, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.3743834853172302, 'rewards/reward_obs_syndrome_consistency/mean': 0.8223958373069763, 'rewards/reward_obs_syndrome_consistency/std': 0.23593703806400299, 'rewards/reward_obs_format_compliance/mean': 0.25625, 'rewards/reward_obs_format_compliance/std': 0.438675856590271, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.3828125, 'reward_std': 0.8076297521591187, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.2339311506599188, 'epoch': 0.39}\n",
            "{'loss': 0.0043, 'grad_norm': 0.5743828415870667, 'learning_rate': 2e-05, 'num_tokens': 336960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.6870182394981384, 'rewards/reward_total/std': 0.17154245674610138, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23835544288158417, 'rewards/reward_obs_hamming_overlap/mean': 0.6872395753860474, 'rewards/reward_obs_hamming_overlap/std': 0.3585116505622864, 'rewards/reward_obs_syndrome_consistency/mean': 0.8010416746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.24597381353378295, 'rewards/reward_obs_format_compliance/mean': 0.26875, 'rewards/reward_obs_format_compliance/std': 0.44266646504402163, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.3815495014190673, 'reward_std': 0.8491335272789001, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.21731245405972005, 'epoch': 0.47}\n",
            "{'loss': 0.0042, 'grad_norm': 0.46281835436820984, 'learning_rate': 2e-05, 'num_tokens': 393120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7122656106948853, 'rewards/reward_total/std': 0.15993871688842773, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.18291614651679994, 'rewards/reward_obs_hamming_overlap/mean': 0.7328125, 'rewards/reward_obs_hamming_overlap/std': 0.3488321006298065, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.2332771450281143, 'rewards/reward_obs_format_compliance/mean': 0.3, 'rewards/reward_obs_format_compliance/std': 0.4647796034812927, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.5232030868530275, 'reward_std': 0.7866324543952942, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.20941682010889054, 'epoch': 0.55}\n",
            "{'loss': 0.0041, 'grad_norm': 0.5480566620826721, 'learning_rate': 2e-05, 'num_tokens': 449280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7003645896911621, 'rewards/reward_total/std': 0.18628809750080108, 'rewards/reward_obs_logical_correction/mean': 0.925, 'rewards/reward_obs_logical_correction/std': 0.2660186380147934, 'rewards/reward_obs_hamming_overlap/mean': 0.709375, 'rewards/reward_obs_hamming_overlap/std': 0.37138527631759644, 'rewards/reward_obs_syndrome_consistency/mean': 0.8307291746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.22768105268478395, 'rewards/reward_obs_format_compliance/mean': 0.33125, 'rewards/reward_obs_format_compliance/std': 0.47367486357688904, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.496718692779541, 'reward_std': 0.9060994148254394, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.20705074369907378, 'epoch': 0.62}\n",
            "{'loss': 0.0041, 'grad_norm': 0.548395037651062, 'learning_rate': 2e-05, 'num_tokens': 505440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.6970572948455811, 'rewards/reward_total/std': 0.17399242520332336, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.6578125, 'rewards/reward_obs_hamming_overlap/std': 0.397760009765625, 'rewards/reward_obs_syndrome_consistency/mean': 0.7895833492279053, 'rewards/reward_obs_syndrome_consistency/std': 0.24578810930252076, 'rewards/reward_obs_format_compliance/mean': 0.4, 'rewards/reward_obs_format_compliance/std': 0.489161890745163, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.500703144073486, 'reward_std': 0.8882243990898132, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.20399548895657063, 'epoch': 0.7}\n",
            "{'loss': 0.0044, 'grad_norm': 0.5845059752464294, 'learning_rate': 2e-05, 'num_tokens': 561600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7131770730018616, 'rewards/reward_total/std': 0.1834024280309677, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.16764476597309114, 'rewards/reward_obs_hamming_overlap/mean': 0.7072916746139526, 'rewards/reward_obs_hamming_overlap/std': 0.3501424968242645, 'rewards/reward_obs_syndrome_consistency/mean': 0.7973958253860474, 'rewards/reward_obs_syndrome_consistency/std': 0.24456514418125153, 'rewards/reward_obs_format_compliance/mean': 0.44375, 'rewards/reward_obs_format_compliance/std': 0.5017782151699066, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.6116145610809327, 'reward_std': 0.9502788782119751, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.2210206214338541, 'epoch': 0.78}\n",
            "{'loss': 0.0051, 'grad_norm': 0.5237681269645691, 'learning_rate': 2e-05, 'num_tokens': 617760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7237500190734864, 'rewards/reward_total/std': 0.1875770777463913, 'rewards/reward_obs_logical_correction/mean': 0.91875, 'rewards/reward_obs_logical_correction/std': 0.25843808352947234, 'rewards/reward_obs_hamming_overlap/mean': 0.7479166626930237, 'rewards/reward_obs_hamming_overlap/std': 0.3666701912879944, 'rewards/reward_obs_syndrome_consistency/mean': 0.8572916746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.22422764003276824, 'rewards/reward_obs_format_compliance/mean': 0.4375, 'rewards/reward_obs_format_compliance/std': 0.5036093115806579, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.68520827293396, 'reward_std': 0.8647961139678955, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.25436863526701925, 'epoch': 0.86}\n",
            "{'loss': 0.0047, 'grad_norm': 0.5312517285346985, 'learning_rate': 2e-05, 'num_tokens': 673920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7234895825386047, 'rewards/reward_total/std': 0.1815274327993393, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.696875, 'rewards/reward_obs_hamming_overlap/std': 0.3677662491798401, 'rewards/reward_obs_syndrome_consistency/mean': 0.7854166507720948, 'rewards/reward_obs_syndrome_consistency/std': 0.24634275436401368, 'rewards/reward_obs_format_compliance/mean': 0.53125, 'rewards/reward_obs_format_compliance/std': 0.5021850049495697, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.7057812213897705, 'reward_std': 1.0240203261375427, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.2336402039974928, 'epoch': 0.94}\n",
            "{'loss': 0.0052, 'grad_norm': 0.5773404836654663, 'learning_rate': 2e-05, 'num_tokens': 730080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7310416579246521, 'rewards/reward_total/std': 0.15909788608551026, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.6729166686534882, 'rewards/reward_obs_hamming_overlap/std': 0.3520434260368347, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24841778576374055, 'rewards/reward_obs_format_compliance/mean': 0.65, 'rewards/reward_obs_format_compliance/std': 0.47755955457687377, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.8164583683013915, 'reward_std': 0.8774455428123474, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.26074807830154895, 'epoch': 1.02}\n",
            "{'loss': 0.0057, 'grad_norm': 0.5957635045051575, 'learning_rate': 2e-05, 'num_tokens': 786240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7496874928474426, 'rewards/reward_total/std': 0.17597597241401672, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.24632867872714997, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.3380530118942261, 'rewards/reward_obs_syndrome_consistency/mean': 0.854687488079071, 'rewards/reward_obs_syndrome_consistency/std': 0.22483450770378113, 'rewards/reward_obs_format_compliance/mean': 0.60625, 'rewards/reward_obs_format_compliance/std': 0.4843794286251068, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.910624933242798, 'reward_std': 0.854336392879486, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.28655369505286216, 'epoch': 1.09}\n",
            "  5% 75/1500 [03:44<1:06:19,  2.79s/it][grpo][step 75] KL ALARM: 0.319 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.5620213747024536, 'learning_rate': 2e-05, 'num_tokens': 842400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7504166483879089, 'rewards/reward_total/std': 0.16751257479190826, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17326816618442537, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.3654503464698792, 'rewards/reward_obs_syndrome_consistency/mean': 0.8395833492279052, 'rewards/reward_obs_syndrome_consistency/std': 0.22985503375530242, 'rewards/reward_obs_format_compliance/mean': 0.61875, 'rewards/reward_obs_format_compliance/std': 0.491534960269928, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.9087500095367433, 'reward_std': 0.8840979814529419, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.31905779168009757, 'epoch': 1.17}\n",
            "  5% 80/1500 [03:58<1:06:00,  2.79s/it][grpo][step 80] KL ALARM: 0.304 > 0.300 - inspect generations.\n",
            "{'loss': 0.0061, 'grad_norm': 0.562465250492096, 'learning_rate': 2e-05, 'num_tokens': 898560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7382291793823242, 'rewards/reward_total/std': 0.17985133230686187, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18916850686073303, 'rewards/reward_obs_hamming_overlap/mean': 0.69375, 'rewards/reward_obs_hamming_overlap/std': 0.3729894280433655, 'rewards/reward_obs_syndrome_consistency/mean': 0.8114583253860473, 'rewards/reward_obs_syndrome_consistency/std': 0.24133929908275603, 'rewards/reward_obs_format_compliance/mean': 0.7, 'rewards/reward_obs_format_compliance/std': 0.46423232555389404, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.8934374809265138, 'reward_std': 0.9726163983345032, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.3040294453501701, 'epoch': 1.25}\n",
            "  6% 85/1500 [04:11<1:05:30,  2.78s/it][grpo][step 85] KL ALARM: 0.336 > 0.300 - inspect generations.\n",
            "{'loss': 0.0067, 'grad_norm': 0.643427312374115, 'learning_rate': 2e-05, 'num_tokens': 954720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7555729031562806, 'rewards/reward_total/std': 0.17776235640048982, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.23210308253765105, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.35963922142982485, 'rewards/reward_obs_syndrome_consistency/mean': 0.8333333492279053, 'rewards/reward_obs_syndrome_consistency/std': 0.23703972101211548, 'rewards/reward_obs_format_compliance/mean': 0.75, 'rewards/reward_obs_format_compliance/std': 0.4336437821388245, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.017031335830689, 'reward_std': 0.8577897429466248, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.3355426359921694, 'epoch': 1.33}\n",
            "  6% 90/1500 [04:25<1:05:14,  2.78s/it][grpo][step 90] KL ALARM: 0.326 > 0.300 - inspect generations.\n",
            "{'loss': 0.0065, 'grad_norm': 0.6483699083328247, 'learning_rate': 2e-05, 'num_tokens': 1010880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7676562666893005, 'rewards/reward_total/std': 0.15855345427989959, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.1414213538169861, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.35398752689361573, 'rewards/reward_obs_syndrome_consistency/mean': 0.8171875, 'rewards/reward_obs_syndrome_consistency/std': 0.2409801810979843, 'rewards/reward_obs_format_compliance/mean': 0.79375, 'rewards/reward_obs_format_compliance/std': 0.40908560156822205, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.087968635559082, 'reward_std': 0.818102240562439, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.3258486445993185, 'epoch': 1.41}\n",
            "  6% 95/1500 [04:39<1:05:05,  2.78s/it][grpo][step 95] KL ALARM: 0.333 > 0.300 - inspect generations.\n",
            "{'loss': 0.0067, 'grad_norm': 0.6668116450309753, 'learning_rate': 2e-05, 'num_tokens': 1067040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7380208492279052, 'rewards/reward_total/std': 0.17227437794208528, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.2144818663597107, 'rewards/reward_obs_hamming_overlap/mean': 0.7, 'rewards/reward_obs_hamming_overlap/std': 0.3616119146347046, 'rewards/reward_obs_syndrome_consistency/mean': 0.7901041746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.2470361441373825, 'rewards/reward_obs_format_compliance/mean': 0.725, 'rewards/reward_obs_format_compliance/std': 0.4528837203979492, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 3.903124952316284, 'reward_std': 0.9544728517532348, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.33349212631583214, 'epoch': 1.48}\n",
            "  7% 99/1500 [04:50<1:05:04,  2.79s/it][grpo][eval@100] logical_correction_rate=0.0000, pymatching_beat_rate=0.0000, format_compliance=0.0000, exact_match_pymatching=0.0000, hard_syndrome_lcr=0.0000, syndrome_consistency_rate=0.0000, avg_completion_length=7.0000, output_diversity_temp_1=1.5000, total_reward_mean=0.0000, episodes=200\n",
            "\n",
            "[grpo-decision] WARN @ step 100: eval/format_compliance=0.000 < 0.95. Consider increasing format_compliance weight (warning only).\n",
            "[grpo][eval@100] new best total_reward_mean=0.0000 (prev -inf); saving to checkpoints/grpo_final/best\n",
            "  7% 100/1500 [05:33<5:41:01, 14.62s/it][grpo][step 100] KL ALARM: 0.350 > 0.300 - inspect generations.\n",
            "{'loss': 0.007, 'grad_norm': 0.6397989988327026, 'learning_rate': 2e-05, 'num_tokens': 1123200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7584374904632568, 'rewards/reward_total/std': 0.1819552391767502, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2067897230386734, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.34909560680389407, 'rewards/reward_obs_syndrome_consistency/mean': 0.8296875, 'rewards/reward_obs_syndrome_consistency/std': 0.23483822941780091, 'rewards/reward_obs_format_compliance/mean': 0.7625, 'rewards/reward_obs_format_compliance/std': 0.42662672996520995, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.038124895095825, 'reward_std': 0.8683513522148132, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.35006871819496155, 'epoch': 1.56}\n",
            "  7% 105/1500 [05:47<1:52:02,  4.82s/it][grpo][step 105] KL ALARM: 0.349 > 0.300 - inspect generations.\n",
            "{'loss': 0.007, 'grad_norm': 0.7280814051628113, 'learning_rate': 2e-05, 'num_tokens': 1179360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.81015625, 'rewards/reward_total/std': 0.13052079528570176, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.834375, 'rewards/reward_obs_hamming_overlap/std': 0.2779341503977776, 'rewards/reward_obs_syndrome_consistency/mean': 0.8921875, 'rewards/reward_obs_syndrome_consistency/std': 0.16884772181510926, 'rewards/reward_obs_format_compliance/mean': 0.81875, 'rewards/reward_obs_format_compliance/std': 0.38438809514045713, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.330468845367432, 'reward_std': 0.6225708961486817, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.34867175444960596, 'epoch': 1.64}\n",
            "  7% 110/1500 [06:01<1:12:30,  3.13s/it][grpo][step 110] KL ALARM: 0.375 > 0.300 - inspect generations.\n",
            "{'loss': 0.0075, 'grad_norm': 0.6451846361160278, 'learning_rate': 2e-05, 'num_tokens': 1235520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7576562285423278, 'rewards/reward_total/std': 0.1868342638015747, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2067897230386734, 'rewards/reward_obs_hamming_overlap/mean': 0.721875, 'rewards/reward_obs_hamming_overlap/std': 0.3703696310520172, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24066632688045503, 'rewards/reward_obs_format_compliance/mean': 0.84375, 'rewards/reward_obs_format_compliance/std': 0.3526015609502792, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.0795313835144045, 'reward_std': 0.8340984940528869, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.374877554923296, 'epoch': 1.72}\n",
            "  8% 115/1500 [06:15<1:05:41,  2.85s/it][grpo][step 115] KL ALARM: 0.392 > 0.300 - inspect generations.\n",
            "{'loss': 0.0078, 'grad_norm': 0.7090129852294922, 'learning_rate': 2e-05, 'num_tokens': 1291680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7602344036102295, 'rewards/reward_total/std': 0.15565167516469955, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.7005208253860473, 'rewards/reward_obs_hamming_overlap/std': 0.3677143633365631, 'rewards/reward_obs_syndrome_consistency/mean': 0.8020833253860473, 'rewards/reward_obs_syndrome_consistency/std': 0.2400069773197174, 'rewards/reward_obs_format_compliance/mean': 0.85625, 'rewards/reward_obs_format_compliance/std': 0.348974221944809, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.087838506698608, 'reward_std': 0.7287179827690125, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3922484789043665, 'epoch': 1.8}\n",
            "  8% 120/1500 [06:29<1:04:28,  2.80s/it][grpo][step 120] KL ALARM: 0.418 > 0.300 - inspect generations.\n",
            "{'loss': 0.0084, 'grad_norm': 0.7027822136878967, 'learning_rate': 2e-05, 'num_tokens': 1347840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7717187404632568, 'rewards/reward_total/std': 0.17028556764125824, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.21827148497104645, 'rewards/reward_obs_hamming_overlap/mean': 0.759375, 'rewards/reward_obs_hamming_overlap/std': 0.35325064063072203, 'rewards/reward_obs_syndrome_consistency/mean': 0.83125, 'rewards/reward_obs_syndrome_consistency/std': 0.2290507286787033, 'rewards/reward_obs_format_compliance/mean': 0.83125, 'rewards/reward_obs_format_compliance/std': 0.37479509711265563, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.143593692779541, 'reward_std': 0.8010107517242432, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.4175985172390938, 'epoch': 1.88}\n",
            "  8% 125/1500 [06:43<1:04:02,  2.79s/it][grpo][step 125] KL ALARM: 0.421 > 0.300 - inspect generations.\n",
            "{'loss': 0.0084, 'grad_norm': 0.68221515417099, 'learning_rate': 2e-05, 'num_tokens': 1404000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7706770777702332, 'rewards/reward_total/std': 0.16101424098014833, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.14449108242988587, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.3379852116107941, 'rewards/reward_obs_syndrome_consistency/mean': 0.8088541746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.24525463283061982, 'rewards/reward_obs_format_compliance/mean': 0.86875, 'rewards/reward_obs_format_compliance/std': 0.34014692306518557, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.157656288146972, 'reward_std': 0.8144229412078857, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.42109249606728555, 'epoch': 1.95}\n",
            "  9% 130/1500 [06:57<1:04:03,  2.81s/it][grpo][step 130] KL ALARM: 0.382 > 0.300 - inspect generations.\n",
            "{'loss': 0.0076, 'grad_norm': 0.6346180438995361, 'learning_rate': 2e-05, 'num_tokens': 1460160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7834375023841857, 'rewards/reward_total/std': 0.16582452952861787, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3625990927219391, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.24220917224884034, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.2601602762937546, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.249062538146973, 'reward_std': 0.6587830305099487, 'frac_reward_zero_std': 0.275, 'completion_length': 50.0, 'kl': 0.38220206946134566, 'epoch': 2.03}\n",
            "  9% 135/1500 [07:11<1:03:59,  2.81s/it][grpo][step 135] KL ALARM: 0.373 > 0.300 - inspect generations.\n",
            "{'loss': 0.0075, 'grad_norm': 0.6754738688468933, 'learning_rate': 2e-05, 'num_tokens': 1516320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7715625166893005, 'rewards/reward_total/std': 0.18259523510932923, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2009313613176346, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3659980595111847, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23495048582553862, 'rewards/reward_obs_format_compliance/mean': 0.88125, 'rewards/reward_obs_format_compliance/std': 0.31866798400878904, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.174687385559082, 'reward_std': 0.774932599067688, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3725393325090408, 'epoch': 2.11}\n",
            "  9% 140/1500 [07:25<1:03:28,  2.80s/it][grpo][step 140] KL ALARM: 0.398 > 0.300 - inspect generations.\n",
            "{'loss': 0.008, 'grad_norm': 0.6919204592704773, 'learning_rate': 2e-05, 'num_tokens': 1572480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7751562356948852, 'rewards/reward_total/std': 0.16474962532520293, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.14449108242988587, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.3518896758556366, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.2372895061969757, 'rewards/reward_obs_format_compliance/mean': 0.8875, 'rewards/reward_obs_format_compliance/std': 0.30588349103927615, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.190781307220459, 'reward_std': 0.8635728836059571, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.39763046205043795, 'epoch': 2.19}\n",
            " 10% 145/1500 [07:39<1:03:09,  2.80s/it][grpo][step 145] KL ALARM: 0.384 > 0.300 - inspect generations.\n",
            "{'loss': 0.0077, 'grad_norm': 0.6202235221862793, 'learning_rate': 2e-05, 'num_tokens': 1628640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7777604341506958, 'rewards/reward_total/std': 0.18162764012813568, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.7635416746139526, 'rewards/reward_obs_hamming_overlap/std': 0.35253432393074036, 'rewards/reward_obs_syndrome_consistency/mean': 0.8328125, 'rewards/reward_obs_syndrome_consistency/std': 0.23291155695915222, 'rewards/reward_obs_format_compliance/mean': 0.9, 'rewards/reward_obs_format_compliance/std': 0.29858534336090087, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.217864513397217, 'reward_std': 0.784488570690155, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3844969354569912, 'epoch': 2.27}\n",
            " 10% 150/1500 [07:53<1:03:59,  2.84s/it][grpo][step 150] KL ALARM: 0.385 > 0.300 - inspect generations.\n",
            "{'loss': 0.0077, 'grad_norm': 0.5225130915641785, 'learning_rate': 2e-05, 'num_tokens': 1684800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7774479269981385, 'rewards/reward_total/std': 0.16387098878622056, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.16529493033885956, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3494029760360718, 'rewards/reward_obs_syndrome_consistency/mean': 0.8208333253860474, 'rewards/reward_obs_syndrome_consistency/std': 0.24004436433315277, 'rewards/reward_obs_format_compliance/mean': 0.88125, 'rewards/reward_obs_format_compliance/std': 0.3221317082643509, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.195156288146973, 'reward_std': 0.8560382008552552, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3854736667126417, 'epoch': 2.34}\n",
            " 10% 155/1500 [08:07<1:03:12,  2.82s/it][grpo][step 155] KL ALARM: 0.380 > 0.300 - inspect generations.\n",
            "{'loss': 0.0076, 'grad_norm': 0.6531031727790833, 'learning_rate': 2e-05, 'num_tokens': 1740960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7762500166893005, 'rewards/reward_total/std': 0.16163791120052337, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3657734453678131, 'rewards/reward_obs_syndrome_consistency/mean': 0.8078125, 'rewards/reward_obs_syndrome_consistency/std': 0.2376497596502304, 'rewards/reward_obs_format_compliance/mean': 0.90625, 'rewards/reward_obs_format_compliance/std': 0.28614872694015503, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1965625286102295, 'reward_std': 0.8410966515541076, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.37989668622612954, 'epoch': 2.42}\n",
            " 11% 160/1500 [08:21<1:03:11,  2.83s/it][grpo][step 160] KL ALARM: 0.399 > 0.300 - inspect generations.\n",
            "{'loss': 0.008, 'grad_norm': 0.6031701564788818, 'learning_rate': 2e-05, 'num_tokens': 1797120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7840624928474427, 'rewards/reward_total/std': 0.14974929094314576, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.08454227447509766, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.3423541605472565, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23623632192611693, 'rewards/reward_obs_format_compliance/mean': 0.84375, 'rewards/reward_obs_format_compliance/std': 0.36198014616966245, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.199687480926514, 'reward_std': 0.825353479385376, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3992082685232162, 'epoch': 2.5}\n",
            " 11% 165/1500 [08:35<1:03:01,  2.83s/it][grpo][step 165] KL ALARM: 0.411 > 0.300 - inspect generations.\n",
            "{'loss': 0.0082, 'grad_norm': 0.6703355312347412, 'learning_rate': 2e-05, 'num_tokens': 1853280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7809895753860474, 'rewards/reward_total/std': 0.159267458319664, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.34450252950191496, 'rewards/reward_obs_syndrome_consistency/mean': 0.8229166746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.23535309433937074, 'rewards/reward_obs_format_compliance/mean': 0.90625, 'rewards/reward_obs_format_compliance/std': 0.276453298330307, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.22578125, 'reward_std': 0.716391658782959, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.41134111359715464, 'epoch': 2.58}\n",
            " 11% 170/1500 [08:50<1:02:33,  2.82s/it][grpo][step 170] KL ALARM: 0.386 > 0.300 - inspect generations.\n",
            "{'loss': 0.0077, 'grad_norm': 0.6484358310699463, 'learning_rate': 2e-05, 'num_tokens': 1909440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.775989580154419, 'rewards/reward_total/std': 0.17375382483005525, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.21827148497104645, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.33171272873878477, 'rewards/reward_obs_syndrome_consistency/mean': 0.8213541746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.24109320044517518, 'rewards/reward_obs_format_compliance/mean': 0.8625, 'rewards/reward_obs_format_compliance/std': 0.34483805298805237, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.181718730926514, 'reward_std': 0.8250818490982056, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.38612892739474775, 'epoch': 2.66}\n",
            " 12% 175/1500 [09:04<1:02:20,  2.82s/it][grpo][step 175] KL ALARM: 0.430 > 0.300 - inspect generations.\n",
            "{'loss': 0.0086, 'grad_norm': 0.6393851041793823, 'learning_rate': 2e-05, 'num_tokens': 1965600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7849999904632569, 'rewards/reward_total/std': 0.16253613233566283, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.33847052454948423, 'rewards/reward_obs_syndrome_consistency/mean': 0.8265625, 'rewards/reward_obs_syndrome_consistency/std': 0.23966520130634308, 'rewards/reward_obs_format_compliance/mean': 0.9, 'rewards/reward_obs_format_compliance/std': 0.2913320004940033, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.242812633514404, 'reward_std': 0.8142786502838135, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.4297873578965664, 'epoch': 2.73}\n",
            " 12% 180/1500 [09:18<1:02:03,  2.82s/it][grpo][step 180] KL ALARM: 0.366 > 0.300 - inspect generations.\n",
            "{'loss': 0.0073, 'grad_norm': 0.48425430059432983, 'learning_rate': 2e-05, 'num_tokens': 2021760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7714583277702332, 'rewards/reward_total/std': 0.17667305171489717, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.16557602286338807, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3694507896900177, 'rewards/reward_obs_syndrome_consistency/mean': 0.8213541746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.24210537672042848, 'rewards/reward_obs_format_compliance/mean': 0.91875, 'rewards/reward_obs_format_compliance/std': 0.2369617909193039, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.192812538146972, 'reward_std': 0.8397196769714356, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.3663475655019283, 'epoch': 2.81}\n",
            " 12% 185/1500 [09:32<1:01:44,  2.82s/it][grpo][step 185] KL ALARM: 0.390 > 0.300 - inspect generations.\n",
            "{'loss': 0.0078, 'grad_norm': 0.6204742789268494, 'learning_rate': 2e-05, 'num_tokens': 2077920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.760937511920929, 'rewards/reward_total/std': 0.18899084031581878, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.19714174270629883, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.3854886949062347, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.2471400737762451, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2709221482276917, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1359374046325685, 'reward_std': 0.8707441806793212, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.38994765989482405, 'epoch': 2.89}\n",
            " 13% 190/1500 [09:46<1:01:39,  2.82s/it][grpo][step 190] KL ALARM: 0.403 > 0.300 - inspect generations.\n",
            "{'loss': 0.0081, 'grad_norm': 0.6661972403526306, 'learning_rate': 2e-05, 'num_tokens': 2134080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7844791531562805, 'rewards/reward_total/std': 0.16489060819149018, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.15760278701782227, 'rewards/reward_obs_hamming_overlap/mean': 0.775, 'rewards/reward_obs_hamming_overlap/std': 0.3372807204723358, 'rewards/reward_obs_syndrome_consistency/mean': 0.8364583253860474, 'rewards/reward_obs_syndrome_consistency/std': 0.2309356540441513, 'rewards/reward_obs_format_compliance/mean': 0.8875, 'rewards/reward_obs_format_compliance/std': 0.3106947481632233, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.239687442779541, 'reward_std': 0.7438668727874755, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.40313118100166323, 'epoch': 2.97}\n",
            " 13% 195/1500 [10:00<1:01:11,  2.81s/it][grpo][step 195] KL ALARM: 0.420 > 0.300 - inspect generations.\n",
            "{'loss': 0.0084, 'grad_norm': 0.7025099396705627, 'learning_rate': 2e-05, 'num_tokens': 2190240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7787500023841858, 'rewards/reward_total/std': 0.15939744114875792, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.34708762764930723, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24114744365215302, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2747117668390274, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2162501335144045, 'reward_std': 0.8608605027198791, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.41964416690170764, 'epoch': 3.05}\n",
            " 13% 199/1500 [10:11<1:00:59,  2.81s/it][grpo][eval@200] logical_correction_rate=0.9500, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.5550, hard_syndrome_lcr=0.9000, syndrome_consistency_rate=0.5550, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7630, episodes=200\n",
            "[grpo][eval@200] new best total_reward_mean=0.7630 (prev 0.0000); saving to checkpoints/grpo_final/best\n",
            " 13% 200/1500 [10:54<5:17:52, 14.67s/it][grpo][step 200] KL ALARM: 0.442 > 0.300 - inspect generations.\n",
            "{'loss': 0.0088, 'grad_norm': 0.6827707886695862, 'learning_rate': 2e-05, 'num_tokens': 2246400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7620833396911622, 'rewards/reward_total/std': 0.1764754205942154, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.24214506149291992, 'rewards/reward_obs_hamming_overlap/mean': 0.71875, 'rewards/reward_obs_hamming_overlap/std': 0.35238273739814757, 'rewards/reward_obs_syndrome_consistency/mean': 0.8088541746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.2418572038412094, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.22759357392787932, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.152187490463257, 'reward_std': 0.800260043144226, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.44234352484345435, 'epoch': 3.12}\n",
            " 14% 205/1500 [11:08<1:44:37,  4.85s/it][grpo][step 205] KL ALARM: 0.370 > 0.300 - inspect generations.\n",
            "{'loss': 0.0074, 'grad_norm': 0.6175456047058105, 'learning_rate': 2e-05, 'num_tokens': 2302560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7626562714576721, 'rewards/reward_total/std': 0.16595374643802643, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.709375, 'rewards/reward_obs_hamming_overlap/std': 0.35777270793914795, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.24506830871105195, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.25011829733848573, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.147031259536743, 'reward_std': 0.7250212788581848, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.37015595138072965, 'epoch': 3.2}\n",
            " 14% 210/1500 [11:22<1:07:58,  3.16s/it][grpo][step 210] KL ALARM: 0.385 > 0.300 - inspect generations.\n",
            "{'loss': 0.0077, 'grad_norm': 0.6302615404129028, 'learning_rate': 2e-05, 'num_tokens': 2358720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.778906238079071, 'rewards/reward_total/std': 0.16263431012630464, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.34628244638442995, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.2511421740055084, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2631292134523392, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.216406345367432, 'reward_std': 0.8266749858856202, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.38503420129418375, 'epoch': 3.28}\n",
            " 14% 215/1500 [11:37<1:01:39,  2.88s/it][grpo][step 215] KL ALARM: 0.377 > 0.300 - inspect generations.\n",
            "{'loss': 0.0075, 'grad_norm': 0.6490961313247681, 'learning_rate': 2e-05, 'num_tokens': 2414880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7472656607627869, 'rewards/reward_total/std': 0.2007497191429138, 'rewards/reward_obs_logical_correction/mean': 0.9125, 'rewards/reward_obs_logical_correction/std': 0.2781754910945892, 'rewards/reward_obs_hamming_overlap/mean': 0.7078125, 'rewards/reward_obs_hamming_overlap/std': 0.37577901482582093, 'rewards/reward_obs_syndrome_consistency/mean': 0.8015625, 'rewards/reward_obs_syndrome_consistency/std': 0.24385779798030854, 'rewards/reward_obs_format_compliance/mean': 0.90625, 'rewards/reward_obs_format_compliance/std': 0.2882174700498581, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.075390577316284, 'reward_std': 0.914845871925354, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.37723118513822557, 'epoch': 3.36}\n",
            " 15% 220/1500 [11:51<1:00:29,  2.84s/it][grpo][step 220] KL ALARM: 0.343 > 0.300 - inspect generations.\n",
            "{'loss': 0.0069, 'grad_norm': 0.7080764174461365, 'learning_rate': 2e-05, 'num_tokens': 2471040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7721354246139527, 'rewards/reward_total/std': 0.17084980905056, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18709976375102996, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.34609171748161316, 'rewards/reward_obs_syndrome_consistency/mean': 0.8177083253860473, 'rewards/reward_obs_syndrome_consistency/std': 0.23951173722743987, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.25637065768241885, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.199218702316284, 'reward_std': 0.8313859820365905, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.34314955659210683, 'epoch': 3.44}\n",
            " 15% 225/1500 [12:05<59:43,  2.81s/it][grpo][step 225] KL ALARM: 0.348 > 0.300 - inspect generations.\n",
            "{'loss': 0.007, 'grad_norm': 0.6332608461380005, 'learning_rate': 2e-05, 'num_tokens': 2527200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7956250071525574, 'rewards/reward_total/std': 0.1533853828907013, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.775, 'rewards/reward_obs_hamming_overlap/std': 0.3349451541900635, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23802111744880677, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.23835544288158417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.317500019073487, 'reward_std': 0.7334700703620911, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3476983692497015, 'epoch': 3.52}\n",
            " 15% 230/1500 [12:19<59:13,  2.80s/it][grpo][step 230] KL ALARM: 0.355 > 0.300 - inspect generations.\n",
            "{'loss': 0.0071, 'grad_norm': 0.6374015212059021, 'learning_rate': 2e-05, 'num_tokens': 2583360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7921875, 'rewards/reward_total/std': 0.1470066025853157, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.08454227447509766, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3623758375644684, 'rewards/reward_obs_syndrome_consistency/mean': 0.8375, 'rewards/reward_obs_syndrome_consistency/std': 0.23463637828826905, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.2362866997718811, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.298437404632568, 'reward_std': 0.621566891670227, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.3546887055039406, 'epoch': 3.59}\n",
            " 16% 235/1500 [12:33<59:00,  2.80s/it][grpo][step 235] KL ALARM: 0.322 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.6830475330352783, 'learning_rate': 2e-05, 'num_tokens': 2639520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7325000166893005, 'rewards/reward_total/std': 0.19653162956237794, 'rewards/reward_obs_logical_correction/mean': 0.91875, 'rewards/reward_obs_logical_correction/std': 0.2667385309934616, 'rewards/reward_obs_hamming_overlap/mean': 0.65625, 'rewards/reward_obs_hamming_overlap/std': 0.396333646774292, 'rewards/reward_obs_syndrome_consistency/mean': 0.76875, 'rewards/reward_obs_syndrome_consistency/std': 0.24934520125389098, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.2210153192281723, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.007500076293946, 'reward_std': 0.924762237071991, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.3223745014518499, 'epoch': 3.67}\n",
            " 16% 240/1500 [12:47<58:51,  2.80s/it][grpo][step 240] KL ALARM: 0.338 > 0.300 - inspect generations.\n",
            "{'loss': 0.0068, 'grad_norm': 0.6833907961845398, 'learning_rate': 2e-05, 'num_tokens': 2695680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7832291841506958, 'rewards/reward_total/std': 0.19101133346557617, 'rewards/reward_obs_logical_correction/mean': 0.91875, 'rewards/reward_obs_logical_correction/std': 0.24488889575004577, 'rewards/reward_obs_hamming_overlap/mean': 0.7916666746139527, 'rewards/reward_obs_hamming_overlap/std': 0.34172622561454774, 'rewards/reward_obs_syndrome_consistency/mean': 0.859375, 'rewards/reward_obs_syndrome_consistency/std': 0.2257960170507431, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2674584239721298, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.271771049499511, 'reward_std': 0.8622925758361817, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.338339701294899, 'epoch': 3.75}\n",
            " 16% 245/1500 [13:01<58:43,  2.81s/it][grpo][step 245] KL ALARM: 0.313 > 0.300 - inspect generations.\n",
            "{'loss': 0.0063, 'grad_norm': 0.7308911681175232, 'learning_rate': 2e-05, 'num_tokens': 2751840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7754166722297668, 'rewards/reward_total/std': 0.18841765224933624, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.2521870404481888, 'rewards/reward_obs_hamming_overlap/mean': 0.7666666626930236, 'rewards/reward_obs_hamming_overlap/std': 0.3552322447299957, 'rewards/reward_obs_syndrome_consistency/mean': 0.8359375, 'rewards/reward_obs_syndrome_consistency/std': 0.2352867305278778, 'rewards/reward_obs_format_compliance/mean': 0.9, 'rewards/reward_obs_format_compliance/std': 0.2923536390066147, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.21552095413208, 'reward_std': 0.8248744249343872, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.31255807131528857, 'epoch': 3.83}\n",
            " 17% 250/1500 [13:15<59:46,  2.87s/it][grpo][step 250] KL ALARM: 0.381 > 0.300 - inspect generations.\n",
            "{'loss': 0.0076, 'grad_norm': 0.6722204089164734, 'learning_rate': 2e-05, 'num_tokens': 2808000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7684374928474427, 'rewards/reward_total/std': 0.15846321284770964, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3451876401901245, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.243309822678566, 'rewards/reward_obs_format_compliance/mean': 0.88125, 'rewards/reward_obs_format_compliance/std': 0.3207367271184921, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.143437433242798, 'reward_std': 0.7867078185081482, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3814498294144869, 'epoch': 3.91}\n",
            " 17% 255/1500 [13:29<58:25,  2.82s/it][grpo][step 255] KL ALARM: 0.340 > 0.300 - inspect generations.\n",
            "{'loss': 0.0068, 'grad_norm': 0.8758650422096252, 'learning_rate': 2e-05, 'num_tokens': 2864160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7454687476158142, 'rewards/reward_total/std': 0.17437793612480162, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2009313613176346, 'rewards/reward_obs_hamming_overlap/mean': 0.678125, 'rewards/reward_obs_hamming_overlap/std': 0.3613819718360901, 'rewards/reward_obs_syndrome_consistency/mean': 0.759375, 'rewards/reward_obs_syndrome_consistency/std': 0.2533038675785065, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.23835544288158417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.064218616485595, 'reward_std': 0.8904341936111451, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.3404963072389364, 'epoch': 3.98}\n",
            " 17% 260/1500 [13:43<57:55,  2.80s/it][grpo][step 260] KL ALARM: 0.335 > 0.300 - inspect generations.\n",
            "{'loss': 0.0067, 'grad_norm': 0.6874654293060303, 'learning_rate': 2e-05, 'num_tokens': 2920320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7899999856948853, 'rewards/reward_total/std': 0.15518031567335128, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.09458425343036651, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.34113030433654784, 'rewards/reward_obs_syndrome_consistency/mean': 0.8328125, 'rewards/reward_obs_syndrome_consistency/std': 0.23831372261047362, 'rewards/reward_obs_format_compliance/mean': 0.9, 'rewards/reward_obs_format_compliance/std': 0.28700278997421264, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.266562366485596, 'reward_std': 0.7554551601409912, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.33487970679998397, 'epoch': 4.06}\n",
            " 18% 265/1500 [13:57<57:45,  2.81s/it][grpo][step 265] KL ALARM: 0.375 > 0.300 - inspect generations.\n",
            "{'loss': 0.0075, 'grad_norm': 0.5905384421348572, 'learning_rate': 2e-05, 'num_tokens': 2976480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7683333277702331, 'rewards/reward_total/std': 0.17538146376609803, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.22903335690498353, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.3235509514808655, 'rewards/reward_obs_syndrome_consistency/mean': 0.8197916746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.23742400109767914, 'rewards/reward_obs_format_compliance/mean': 0.85625, 'rewards/reward_obs_format_compliance/std': 0.3463505178689957, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.144375038146973, 'reward_std': 0.8338982939720154, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.3752901241183281, 'epoch': 4.14}\n",
            " 18% 270/1500 [14:11<57:40,  2.81s/it][grpo][step 270] KL ALARM: 0.358 > 0.300 - inspect generations.\n",
            "{'loss': 0.0072, 'grad_norm': 0.6854039430618286, 'learning_rate': 2e-05, 'num_tokens': 3032640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7782291650772095, 'rewards/reward_total/std': 0.1506372183561325, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.3556876599788666, 'rewards/reward_obs_syndrome_consistency/mean': 0.8145833253860474, 'rewards/reward_obs_syndrome_consistency/std': 0.24062697291374208, 'rewards/reward_obs_format_compliance/mean': 0.88125, 'rewards/reward_obs_format_compliance/std': 0.3070854306221008, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.192812538146972, 'reward_std': 0.7994266271591186, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.35845810174942017, 'epoch': 4.22}\n",
            " 18% 275/1500 [14:25<57:17,  2.81s/it][grpo][step 275] KL ALARM: 0.351 > 0.300 - inspect generations.\n",
            "{'loss': 0.007, 'grad_norm': 0.6241223812103271, 'learning_rate': 2e-05, 'num_tokens': 3088800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.76875, 'rewards/reward_total/std': 0.1869255781173706, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23249708116054535, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.36329180002212524, 'rewards/reward_obs_syndrome_consistency/mean': 0.8171875, 'rewards/reward_obs_syndrome_consistency/std': 0.2449355900287628, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.24939840734004975, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1796875, 'reward_std': 0.8835693717002868, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3509356141090393, 'epoch': 4.3}\n",
            "{'loss': 0.0058, 'grad_norm': 0.6313652396202087, 'learning_rate': 2e-05, 'num_tokens': 3144960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7591145873069763, 'rewards/reward_total/std': 0.1780875265598297, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.709375, 'rewards/reward_obs_hamming_overlap/std': 0.3776018261909485, 'rewards/reward_obs_syndrome_consistency/mean': 0.8010416746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.24295117557048798, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2781754910945892, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.125781297683716, 'reward_std': 0.8721313714981079, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.289401975274086, 'epoch': 4.38}\n",
            " 19% 285/1500 [14:53<56:28,  2.79s/it][grpo][step 285] KL ALARM: 0.303 > 0.300 - inspect generations.\n",
            "{'loss': 0.0061, 'grad_norm': 0.6491678953170776, 'learning_rate': 2e-05, 'num_tokens': 3201120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7728124976158142, 'rewards/reward_total/std': 0.16135587841272353, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.18291614651679994, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.32427390813827517, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24685273468494415, 'rewards/reward_obs_format_compliance/mean': 0.90625, 'rewards/reward_obs_format_compliance/std': 0.28475374579429624, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.185312557220459, 'reward_std': 0.7493537902832031, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3027925003319979, 'epoch': 4.45}\n",
            " 19% 290/1500 [15:07<56:17,  2.79s/it][grpo][step 290] KL ALARM: 0.321 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 1.1114851236343384, 'learning_rate': 2e-05, 'num_tokens': 3257280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7582812547683716, 'rewards/reward_total/std': 0.1721474915742874, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19295812547206878, 'rewards/reward_obs_hamming_overlap/mean': 0.715625, 'rewards/reward_obs_hamming_overlap/std': 0.34917272329330445, 'rewards/reward_obs_syndrome_consistency/mean': 0.78125, 'rewards/reward_obs_syndrome_consistency/std': 0.25057539343833923, 'rewards/reward_obs_format_compliance/mean': 0.90625, 'rewards/reward_obs_format_compliance/std': 0.27110244929790495, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.111406135559082, 'reward_std': 0.8091880559921265, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.321300358697772, 'epoch': 4.53}\n",
            "{'loss': 0.0058, 'grad_norm': 0.5363728404045105, 'learning_rate': 2e-05, 'num_tokens': 3313440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7704687595367432, 'rewards/reward_total/std': 0.1767783671617508, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.2144818663597107, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.36517800092697145, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.23956179320812226, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.25637065768241885, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.189218664169312, 'reward_std': 0.7584348559379578, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.28858816623687744, 'epoch': 4.61}\n",
            " 20% 299/1500 [15:32<56:29,  2.82s/it][grpo][eval@300] logical_correction_rate=0.9450, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6350, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6350, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7805, episodes=200\n",
            "[grpo][eval@300] new best total_reward_mean=0.7805 (prev 0.7630); saving to checkpoints/grpo_final/best\n",
            "{'loss': 0.006, 'grad_norm': 0.6860345602035522, 'learning_rate': 2e-05, 'num_tokens': 3369600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7825520873069763, 'rewards/reward_total/std': 0.1819717049598694, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.22452384531497954, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.34621226489543916, 'rewards/reward_obs_syndrome_consistency/mean': 0.8401041746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.23266226947307586, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.28403385281562804, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2507813453674315, 'reward_std': 0.8011420726776123, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.2988789649680257, 'epoch': 4.69}\n",
            "{'loss': 0.0057, 'grad_norm': 0.510922908782959, 'learning_rate': 2e-05, 'num_tokens': 3425760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7704166650772095, 'rewards/reward_total/std': 0.15954720377922058, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.71875, 'rewards/reward_obs_hamming_overlap/std': 0.36473044753074646, 'rewards/reward_obs_syndrome_consistency/mean': 0.8005208253860474, 'rewards/reward_obs_syndrome_consistency/std': 0.24267463386058807, 'rewards/reward_obs_format_compliance/mean': 0.89375, 'rewards/reward_obs_format_compliance/std': 0.30032687485218046, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1584373950958256, 'reward_std': 0.7756632566452026, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.28491882123053075, 'epoch': 4.77}\n",
            "{'loss': 0.0057, 'grad_norm': 0.6252564787864685, 'learning_rate': 2e-05, 'num_tokens': 3481920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.77578125, 'rewards/reward_total/std': 0.18112126290798186, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2009313613176346, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.3636346936225891, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.2403767853975296, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.2144818663597107, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.235156154632568, 'reward_std': 0.7184149086475372, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.2836214419454336, 'epoch': 4.84}\n",
            "{'loss': 0.0056, 'grad_norm': 0.628753125667572, 'learning_rate': 2e-05, 'num_tokens': 3538080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7565104126930237, 'rewards/reward_total/std': 0.1652995228767395, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20065026879310607, 'rewards/reward_obs_hamming_overlap/mean': 0.721875, 'rewards/reward_obs_hamming_overlap/std': 0.34361639618873596, 'rewards/reward_obs_syndrome_consistency/mean': 0.7880208253860473, 'rewards/reward_obs_syndrome_consistency/std': 0.24578551054000855, 'rewards/reward_obs_format_compliance/mean': 0.8375, 'rewards/reward_obs_format_compliance/std': 0.34925917685031893, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.06015625, 'reward_std': 0.8207048177719116, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.280328918620944, 'epoch': 4.92}\n",
            "{'loss': 0.0055, 'grad_norm': 0.582063615322113, 'learning_rate': 2e-05, 'num_tokens': 3594240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7553125143051147, 'rewards/reward_total/std': 0.1862243741750717, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.24214506149291992, 'rewards/reward_obs_hamming_overlap/mean': 0.71875, 'rewards/reward_obs_hamming_overlap/std': 0.3724448621273041, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24876246750354766, 'rewards/reward_obs_format_compliance/mean': 0.8875, 'rewards/reward_obs_format_compliance/std': 0.2989616096019745, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.092812538146973, 'reward_std': 0.8381651997566223, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.2738000344485044, 'epoch': 5.0}\n",
            "{'loss': 0.0055, 'grad_norm': 0.5425198674201965, 'learning_rate': 2e-05, 'num_tokens': 3650400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8002083420753479, 'rewards/reward_total/std': 0.15054528564214706, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.09837387204170227, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.32891886234283446, 'rewards/reward_obs_syndrome_consistency/mean': 0.8338541746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.2357776015996933, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1337292104959488, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3590624809265135, 'reward_std': 0.7169475555419922, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.27485116124153136, 'epoch': 5.08}\n",
            " 22% 330/1500 [17:39<54:22,  2.79s/it][grpo][step 330] KL ALARM: 0.308 > 0.300 - inspect generations.\n",
            "{'loss': 0.0062, 'grad_norm': 0.5567098259925842, 'learning_rate': 2e-05, 'num_tokens': 3706560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7731249928474426, 'rewards/reward_total/std': 0.17741718292236328, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19295812547206878, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.35445902347564695, 'rewards/reward_obs_syndrome_consistency/mean': 0.8109375, 'rewards/reward_obs_syndrome_consistency/std': 0.24235807061195375, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.25637065768241885, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2028124809265135, 'reward_std': 0.7751336216926574, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3084096122533083, 'epoch': 5.16}\n",
            " 22% 335/1500 [17:53<54:15,  2.79s/it][grpo][step 335] KL ALARM: 0.310 > 0.300 - inspect generations.\n",
            "{'loss': 0.0062, 'grad_norm': 0.6001009941101074, 'learning_rate': 2e-05, 'num_tokens': 3762720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7710416793823243, 'rewards/reward_total/std': 0.17204318046569825, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.18291614651679994, 'rewards/reward_obs_hamming_overlap/mean': 0.71875, 'rewards/reward_obs_hamming_overlap/std': 0.3788675844669342, 'rewards/reward_obs_syndrome_consistency/mean': 0.8020833253860473, 'rewards/reward_obs_syndrome_consistency/std': 0.2438636153936386, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.16529493033885956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2106249809265135, 'reward_std': 0.8300496459007263, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.31015974208712577, 'epoch': 5.23}\n",
            " 23% 340/1500 [18:07<53:57,  2.79s/it][grpo][step 340] KL ALARM: 0.310 > 0.300 - inspect generations.\n",
            "{'loss': 0.0062, 'grad_norm': 0.5758347511291504, 'learning_rate': 2e-05, 'num_tokens': 3818880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7676562428474426, 'rewards/reward_total/std': 0.17250216603279114, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.15174442529678345, 'rewards/reward_obs_hamming_overlap/mean': 0.721875, 'rewards/reward_obs_hamming_overlap/std': 0.38641679286956787, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24311013221740724, 'rewards/reward_obs_format_compliance/mean': 0.9, 'rewards/reward_obs_format_compliance/std': 0.29272698163986205, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.158281373977661, 'reward_std': 0.8723829746246338, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.30998009368777274, 'epoch': 5.31}\n",
            " 23% 345/1500 [18:21<53:43,  2.79s/it][grpo][step 345] KL ALARM: 0.306 > 0.300 - inspect generations.\n",
            "{'loss': 0.0061, 'grad_norm': 0.6170164346694946, 'learning_rate': 2e-05, 'num_tokens': 3875040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.790625, 'rewards/reward_total/std': 0.16658954322338104, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.36551677584648135, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23701637089252472, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.15760278701782227, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.306250190734863, 'reward_std': 0.8621902704238892, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.306108982488513, 'epoch': 5.39}\n",
            " 23% 350/1500 [18:35<54:14,  2.83s/it][grpo][step 350] KL ALARM: 0.302 > 0.300 - inspect generations.\n",
            "{'loss': 0.006, 'grad_norm': 0.5583856105804443, 'learning_rate': 2e-05, 'num_tokens': 3931200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7771875143051148, 'rewards/reward_total/std': 0.18383412361145018, 'rewards/reward_obs_logical_correction/mean': 0.925, 'rewards/reward_obs_logical_correction/std': 0.2660186380147934, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.33818529844284057, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.24220917224884034, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.261562538146973, 'reward_std': 0.7226041316986084, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.302192659676075, 'epoch': 5.47}\n",
            " 24% 355/1500 [18:49<53:24,  2.80s/it][grpo][step 355] KL ALARM: 0.321 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.7265498042106628, 'learning_rate': 2e-05, 'num_tokens': 3987360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7435937523841858, 'rewards/reward_total/std': 0.19935221672058107, 'rewards/reward_obs_logical_correction/mean': 0.9125, 'rewards/reward_obs_logical_correction/std': 0.2767805099487305, 'rewards/reward_obs_hamming_overlap/mean': 0.703125, 'rewards/reward_obs_hamming_overlap/std': 0.3714468240737915, 'rewards/reward_obs_syndrome_consistency/mean': 0.7859375, 'rewards/reward_obs_syndrome_consistency/std': 0.2490216851234436, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2781754910945892, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.057656288146973, 'reward_std': 0.9220348715782165, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.32095225900411606, 'epoch': 5.55}\n",
            " 24% 360/1500 [19:03<52:54,  2.78s/it][grpo][step 360] KL ALARM: 0.316 > 0.300 - inspect generations.\n",
            "{'loss': 0.0063, 'grad_norm': 0.739166796207428, 'learning_rate': 2e-05, 'num_tokens': 4043520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7756250023841857, 'rewards/reward_total/std': 0.17056029438972473, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3823040187358856, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24483641386032104, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.14449108242988587, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2318751335144045, 'reward_std': 0.8250038266181946, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.31550149619579315, 'epoch': 5.62}\n",
            " 24% 365/1500 [19:17<52:46,  2.79s/it][grpo][step 365] KL ALARM: 0.319 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.711036741733551, 'learning_rate': 2e-05, 'num_tokens': 4099680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7760937452316284, 'rewards/reward_total/std': 0.18138604760169982, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.1538131684064865, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3871359586715698, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24412426054477693, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.16529493033885956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.238593864440918, 'reward_std': 0.7527848720550537, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.3185441017150879, 'epoch': 5.7}\n",
            " 25% 370/1500 [19:31<52:37,  2.79s/it][grpo][step 370] KL ALARM: 0.327 > 0.300 - inspect generations.\n",
            "{'loss': 0.0065, 'grad_norm': 0.5309293270111084, 'learning_rate': 2e-05, 'num_tokens': 4155840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.757031261920929, 'rewards/reward_total/std': 0.16507776081562042, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.684375, 'rewards/reward_obs_hamming_overlap/std': 0.3742151379585266, 'rewards/reward_obs_syndrome_consistency/mean': 0.7734375, 'rewards/reward_obs_syndrome_consistency/std': 0.24776779413223265, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.12109375, 'reward_std': 0.7646075487136841, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.3270629905164242, 'epoch': 5.78}\n",
            " 25% 375/1500 [19:45<52:17,  2.79s/it][grpo][step 375] KL ALARM: 0.318 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.7504181265830994, 'learning_rate': 2e-05, 'num_tokens': 4212000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7770312547683715, 'rewards/reward_total/std': 0.17413205206394194, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18709976375102996, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.3716035604476929, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.24083339869976045, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.23249708116054535, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.233281469345092, 'reward_std': 0.8431320309638977, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3184414140880108, 'epoch': 5.86}\n",
            " 25% 380/1500 [19:59<51:57,  2.78s/it][grpo][step 380] KL ALARM: 0.312 > 0.300 - inspect generations.\n",
            "{'loss': 0.0062, 'grad_norm': 0.5485730767250061, 'learning_rate': 2e-05, 'num_tokens': 4268160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7939062714576721, 'rewards/reward_total/std': 0.15532621294260024, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.1414213538169861, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.35211429595947263, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.234662264585495, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.312656116485596, 'reward_std': 0.7111545264720917, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.31236414834856985, 'epoch': 5.94}\n",
            " 26% 385/1500 [20:13<51:36,  2.78s/it][grpo][step 385] KL ALARM: 0.338 > 0.300 - inspect generations.\n",
            "{'loss': 0.0068, 'grad_norm': 0.5485423803329468, 'learning_rate': 2e-05, 'num_tokens': 4324320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7918229222297668, 'rewards/reward_total/std': 0.14997305274009703, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.08454227447509766, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3479740619659424, 'rewards/reward_obs_syndrome_consistency/mean': 0.8192708253860473, 'rewards/reward_obs_syndrome_consistency/std': 0.241319739818573, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.14377118945121764, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.307968711853027, 'reward_std': 0.7641790986061097, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.3376632709056139, 'epoch': 6.02}\n",
            " 26% 390/1500 [20:27<51:36,  2.79s/it][grpo][step 390] KL ALARM: 0.322 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.5973190069198608, 'learning_rate': 2e-05, 'num_tokens': 4380480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7731249928474426, 'rewards/reward_total/std': 0.17014216482639313, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18916850686073303, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.3538209140300751, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24732888042926787, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.19060828983783723, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.223125076293945, 'reward_std': 0.7467324614524842, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3217738077044487, 'epoch': 6.09}\n",
            " 26% 395/1500 [20:41<51:24,  2.79s/it][grpo][step 395] KL ALARM: 0.322 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.5427658557891846, 'learning_rate': 2e-05, 'num_tokens': 4436640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7879687428474427, 'rewards/reward_total/std': 0.16264216601848602, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.759375, 'rewards/reward_obs_hamming_overlap/std': 0.3607775568962097, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23701637089252472, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.22245510220527648, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2879688262939455, 'reward_std': 0.7177328944206238, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.3223633073270321, 'epoch': 6.17}\n",
            " 27% 399/1500 [20:52<51:13,  2.79s/it]\n",
            "[grpo-inspection] WARN @ step 400: 9/10 of the most recent prompts had ALL 4 generations identical. Bumping rollout temperature 1.20 -> 1.40.\n",
            "[grpo][eval@400] logical_correction_rate=0.9700, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6200, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6200, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7878, episodes=200\n",
            "[grpo][eval@400] new best total_reward_mean=0.7878 (prev 0.7805); saving to checkpoints/grpo_final/best\n",
            " 27% 400/1500 [21:35<4:30:10, 14.74s/it][grpo][step 400] KL ALARM: 0.309 > 0.300 - inspect generations.\n",
            "{'loss': 0.0062, 'grad_norm': 0.5743354558944702, 'learning_rate': 2e-05, 'num_tokens': 4492800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7837500214576721, 'rewards/reward_total/std': 0.16613730192184448, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.15760278701782227, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.34889598488807677, 'rewards/reward_obs_syndrome_consistency/mean': 0.8203125, 'rewards/reward_obs_syndrome_consistency/std': 0.24141059815883636, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.23210308253765105, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.266562366485596, 'reward_std': 0.7214837908744812, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3090862579643726, 'epoch': 6.25}\n",
            "{'loss': 0.005, 'grad_norm': 0.5159702301025391, 'learning_rate': 2e-05, 'num_tokens': 4548960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7806250095367432, 'rewards/reward_total/std': 0.15193593502044678, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.32364470064640044, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24500612020492554, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1337292104959488, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2556249618530275, 'reward_std': 0.7573078870773315, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.2497161902487278, 'epoch': 6.33}\n",
            "{'loss': 0.0048, 'grad_norm': 0.5439512729644775, 'learning_rate': 2e-05, 'num_tokens': 4605120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7623437523841858, 'rewards/reward_total/std': 0.18086536824703217, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.22480493783950806, 'rewards/reward_obs_hamming_overlap/mean': 0.721875, 'rewards/reward_obs_hamming_overlap/std': 0.3532926917076111, 'rewards/reward_obs_syndrome_consistency/mean': 0.7921875, 'rewards/reward_obs_syndrome_consistency/std': 0.24107044637203218, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.182656288146973, 'reward_std': 0.7919126272201538, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.2389971110969782, 'epoch': 6.41}\n",
            "{'loss': 0.0048, 'grad_norm': 0.4595312178134918, 'learning_rate': 2e-05, 'num_tokens': 4661280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7815625071525574, 'rewards/reward_total/std': 0.16813910901546478, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19295812547206878, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.3325393259525299, 'rewards/reward_obs_syndrome_consistency/mean': 0.8109375, 'rewards/reward_obs_syndrome_consistency/std': 0.24328551888465882, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.267500114440918, 'reward_std': 0.7212723731994629, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.23989268951117992, 'epoch': 6.48}\n",
            "{'loss': 0.0053, 'grad_norm': 0.5109823942184448, 'learning_rate': 2e-05, 'num_tokens': 4717440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7793750166893005, 'rewards/reward_total/std': 0.16277973651885985, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.316355961561203, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.2395450234413147, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.19295812547206878, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2450000762939455, 'reward_std': 0.6825571060180664, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.2671163365244865, 'epoch': 6.56}\n",
            "{'loss': 0.006, 'grad_norm': 0.633175790309906, 'learning_rate': 2e-05, 'num_tokens': 4773600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7917187452316284, 'rewards/reward_total/std': 0.1614364802837372, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.31232638359069825, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.23494336307048796, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.1856599807739258, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3010937690734865, 'reward_std': 0.7297606587409973, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.2998446486890316, 'epoch': 6.64}\n",
            " 29% 430/1500 [23:10<50:18,  2.82s/it][grpo][step 430] KL ALARM: 0.305 > 0.300 - inspect generations.\n",
            "{'loss': 0.0061, 'grad_norm': 0.7013540267944336, 'learning_rate': 2e-05, 'num_tokens': 4829760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7498437523841858, 'rewards/reward_total/std': 0.1874881625175476, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.21097334027290343, 'rewards/reward_obs_hamming_overlap/mean': 0.690625, 'rewards/reward_obs_hamming_overlap/std': 0.3744682312011719, 'rewards/reward_obs_syndrome_consistency/mean': 0.7703125, 'rewards/reward_obs_syndrome_consistency/std': 0.25147483944892884, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.19295812547206878, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.098281049728394, 'reward_std': 0.8902112126350403, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.30531666092574594, 'epoch': 6.72}\n",
            "{'loss': 0.0059, 'grad_norm': 0.6110976338386536, 'learning_rate': 2e-05, 'num_tokens': 4885920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7890625119209289, 'rewards/reward_total/std': 0.1458298683166504, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.049186936020851134, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.358460396528244, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24474665522575378, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.18709976375102996, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.282812595367432, 'reward_std': 0.7627564549446106, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.29474345669150354, 'epoch': 6.8}\n",
            "{'loss': 0.006, 'grad_norm': 0.7208678722381592, 'learning_rate': 2e-05, 'num_tokens': 4942080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7630989670753479, 'rewards/reward_total/std': 0.17495205104351044, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.1856599807739258, 'rewards/reward_obs_hamming_overlap/mean': 0.7265625, 'rewards/reward_obs_hamming_overlap/std': 0.34126638770103457, 'rewards/reward_obs_syndrome_consistency/mean': 0.7916666746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.24458867609500884, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.2144818663597107, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1688282012939455, 'reward_std': 0.8206697344779968, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.2992421109229326, 'epoch': 6.88}\n",
            " 30% 445/1500 [23:52<49:20,  2.81s/it][grpo][step 445] KL ALARM: 0.332 > 0.300 - inspect generations.\n",
            "{'loss': 0.0066, 'grad_norm': 0.5446643233299255, 'learning_rate': 2e-05, 'num_tokens': 4998240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7967187523841858, 'rewards/reward_total/std': 0.1528304025530815, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.790625, 'rewards/reward_obs_hamming_overlap/std': 0.3132159858942032, 'rewards/reward_obs_syndrome_consistency/mean': 0.83125, 'rewards/reward_obs_syndrome_consistency/std': 0.2357338011264801, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.23835544288158417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.324843788146973, 'reward_std': 0.6691090404987335, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.33228697180747985, 'epoch': 6.95}\n",
            " 30% 450/1500 [24:06<50:00,  2.86s/it][grpo][step 450] KL ALARM: 0.330 > 0.300 - inspect generations.\n",
            "{'loss': 0.0066, 'grad_norm': 0.6026761531829834, 'learning_rate': 2e-05, 'num_tokens': 5054400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7815624833106994, 'rewards/reward_total/std': 0.1642669051885605, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.22245510220527648, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.3242759436368942, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.23694327771663665, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.15174442529678345, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.269062566757202, 'reward_std': 0.7206543922424317, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.32986891232430937, 'epoch': 7.03}\n",
            " 30% 455/1500 [24:20<49:11,  2.82s/it][grpo][step 455] KL ALARM: 0.329 > 0.300 - inspect generations.\n",
            "{'loss': 0.0066, 'grad_norm': 0.5985282063484192, 'learning_rate': 2e-05, 'num_tokens': 5110560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7568750143051147, 'rewards/reward_total/std': 0.16340277194976807, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.66875, 'rewards/reward_obs_hamming_overlap/std': 0.377808278799057, 'rewards/reward_obs_syndrome_consistency/mean': 0.759375, 'rewards/reward_obs_syndrome_consistency/std': 0.24818224012851714, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1412499904632565, 'reward_std': 0.7591638922691345, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.32948859222233295, 'epoch': 7.11}\n",
            " 31% 460/1500 [24:34<48:40,  2.81s/it][grpo][step 460] KL ALARM: 0.343 > 0.300 - inspect generations.\n",
            "{'loss': 0.0069, 'grad_norm': 0.663540780544281, 'learning_rate': 2e-05, 'num_tokens': 5166720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7720312476158142, 'rewards/reward_total/std': 0.17381647527217864, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18916850686073303, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3727302610874176, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.2393115222454071, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.20443988740444183, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.215781307220459, 'reward_std': 0.8432052731513977, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.3432084482163191, 'epoch': 7.19}\n",
            "{'loss': 0.0058, 'grad_norm': 0.4713573753833771, 'learning_rate': 2e-05, 'num_tokens': 5222880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7793750047683716, 'rewards/reward_total/std': 0.16618542224168778, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.3637364566326141, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.23994346261024474, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.251249980926514, 'reward_std': 0.7578990697860718, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.28763899616897104, 'epoch': 7.27}\n",
            "{'loss': 0.0058, 'grad_norm': 0.47655847668647766, 'learning_rate': 2e-05, 'num_tokens': 5279040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7868750095367432, 'rewards/reward_total/std': 0.15382767766714095, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.34621883034706114, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24382228553295135, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.14377118945121764, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.283750057220459, 'reward_std': 0.6436676263809205, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.2916282702237368, 'epoch': 7.34}\n",
            "{'loss': 0.0053, 'grad_norm': 0.4739641547203064, 'learning_rate': 2e-05, 'num_tokens': 5335200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7617187738418579, 'rewards/reward_total/std': 0.15778443813323975, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.10913574397563934, 'rewards/reward_obs_hamming_overlap/mean': 0.709375, 'rewards/reward_obs_hamming_overlap/std': 0.35689281225204467, 'rewards/reward_obs_syndrome_consistency/mean': 0.775, 'rewards/reward_obs_syndrome_consistency/std': 0.24889439344406128, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.26222901940345766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.13359375, 'reward_std': 0.7167680501937866, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.2643908441066742, 'epoch': 7.42}\n",
            "{'loss': 0.0054, 'grad_norm': 0.49368029832839966, 'learning_rate': 2e-05, 'num_tokens': 5391360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7812500238418579, 'rewards/reward_total/std': 0.17970775961875915, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.7625, 'rewards/reward_obs_hamming_overlap/std': 0.35378565192222594, 'rewards/reward_obs_syndrome_consistency/mean': 0.8296875, 'rewards/reward_obs_syndrome_consistency/std': 0.23632557392120362, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2609375, 'reward_std': 0.770671272277832, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.26843806989490987, 'epoch': 7.5}\n",
            "{'loss': 0.0054, 'grad_norm': 0.5604591369628906, 'learning_rate': 2e-05, 'num_tokens': 5447520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7831249952316284, 'rewards/reward_total/std': 0.17810052037239074, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.20300010442733765, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.3523901879787445, 'rewards/reward_obs_syndrome_consistency/mean': 0.8375, 'rewards/reward_obs_syndrome_consistency/std': 0.2348446398973465, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.22134121358394623, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.264375114440918, 'reward_std': 0.867348849773407, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.2692021232098341, 'epoch': 7.58}\n",
            "{'loss': 0.0057, 'grad_norm': 0.6084286570549011, 'learning_rate': 2e-05, 'num_tokens': 5503680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7842187643051147, 'rewards/reward_total/std': 0.17146789729595185, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.3740481287240982, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.24082729816436768, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.2144818663597107, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.268593788146973, 'reward_std': 0.8628713726997376, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.2861841686069965, 'epoch': 7.66}\n",
            "{'loss': 0.0059, 'grad_norm': 0.5708596706390381, 'learning_rate': 2e-05, 'num_tokens': 5559840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.771875011920929, 'rewards/reward_total/std': 0.18468593955039977, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23835544288158417, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3548663020133972, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.2439725786447525, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.23835544288158417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.209375095367432, 'reward_std': 0.8428980231285095, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.29547632224857806, 'epoch': 7.73}\n",
            " 33% 499/1500 [26:24<46:54,  2.81s/it]\n",
            "[grpo-inspection] WARN @ step 500: 10/10 of the most recent prompts had ALL 4 generations identical. Bumping rollout temperature 1.40 -> 1.60.\n",
            "[grpo][eval@500] logical_correction_rate=0.9600, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6200, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6200, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7843, episodes=200\n",
            "\n",
            "[grpo-decision] WARN @ step 500: eval/pymatching_beat_rate has been 0.0 across the last 5 evals. The model is never finding syndromes where PyMatching fails - consider increasing the pymatching_beat reward weight (warning only).\n",
            " 33% 500/1500 [27:06<4:01:38, 14.50s/it][grpo][step 500] KL ALARM: 0.324 > 0.300 - inspect generations.\n",
            "{'loss': 0.0065, 'grad_norm': 0.6114245653152466, 'learning_rate': 2e-05, 'num_tokens': 5616000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7706249952316284, 'rewards/reward_total/std': 0.180453422665596, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.20300010442733765, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.36495583653450014, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.2481451153755188, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.220625114440918, 'reward_std': 0.9002482175827027, 'frac_reward_zero_std': 0.0, 'completion_length': 50.0, 'kl': 0.3236443240195513, 'epoch': 7.81}\n",
            "{'loss': 0.0057, 'grad_norm': 0.5205033421516418, 'learning_rate': 2e-05, 'num_tokens': 5672160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7839062571525574, 'rewards/reward_total/std': 0.1606735795736313, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.36473562121391295, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24708047211170198, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.20443988740444183, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.265156364440918, 'reward_std': 0.8107209920883178, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.2833862114697695, 'epoch': 7.89}\n",
            "{'loss': 0.0051, 'grad_norm': 0.5723444819450378, 'learning_rate': 2e-05, 'num_tokens': 5728320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.792395830154419, 'rewards/reward_total/std': 0.14170598983764648, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3499744772911072, 'rewards/reward_obs_syndrome_consistency/mean': 0.8151041746139527, 'rewards/reward_obs_syndrome_consistency/std': 0.2431011378765106, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.19060828983783723, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.307499980926513, 'reward_std': 0.7751353263854981, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.2547662079334259, 'epoch': 7.97}\n",
            "{'loss': 0.0052, 'grad_norm': 0.5911777019500732, 'learning_rate': 2e-05, 'num_tokens': 5784480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7915625095367431, 'rewards/reward_total/std': 0.14852234423160554, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.33122810125350954, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24203676581382752, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.15002223253250122, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.300937557220459, 'reward_std': 0.7273946762084961, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.2592598518356681, 'epoch': 8.05}\n",
            "{'loss': 0.005, 'grad_norm': 0.5735874772071838, 'learning_rate': 2e-05, 'num_tokens': 5840640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7800000071525574, 'rewards/reward_total/std': 0.16945967674255372, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.36435473561286924, 'rewards/reward_obs_syndrome_consistency/mean': 0.8140625, 'rewards/reward_obs_syndrome_consistency/std': 0.24136736392974853, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.23210308253765105, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.244062519073486, 'reward_std': 0.8265190720558167, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.2519735760986805, 'epoch': 8.12}\n",
            "{'loss': 0.0049, 'grad_norm': 0.49690407514572144, 'learning_rate': 2e-05, 'num_tokens': 5896800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7818750143051147, 'rewards/reward_total/std': 0.16926000714302064, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.35859633684158326, 'rewards/reward_obs_syndrome_consistency/mean': 0.8203125, 'rewards/reward_obs_syndrome_consistency/std': 0.24235000908374787, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.20443988740444183, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.264687538146973, 'reward_std': 0.7424544811248779, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.24536894857883454, 'epoch': 8.2}\n",
            "{'loss': 0.005, 'grad_norm': 0.6328213810920715, 'learning_rate': 2e-05, 'num_tokens': 5952960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7707812547683716, 'rewards/reward_total/std': 0.17413133680820464, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.18291614651679994, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.36142979860305785, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24690033495426178, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.2601602762937546, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.186406230926513, 'reward_std': 0.7030096411705017, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.25076787136495116, 'epoch': 8.28}\n",
            "{'loss': 0.0047, 'grad_norm': 0.6138278245925903, 'learning_rate': 2e-05, 'num_tokens': 6009120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7806250095367432, 'rewards/reward_total/std': 0.16580743491649627, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.3373145878314972, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.2421877920627594, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.17984642088413239, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.25250015258789, 'reward_std': 0.7435349702835083, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.2332931874319911, 'epoch': 8.36}\n",
            "{'loss': 0.0052, 'grad_norm': 0.6220657825469971, 'learning_rate': 2e-05, 'num_tokens': 6065280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7863541722297669, 'rewards/reward_total/std': 0.16270382404327394, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.36016013026237487, 'rewards/reward_obs_syndrome_consistency/mean': 0.8208333253860474, 'rewards/reward_obs_syndrome_consistency/std': 0.24022853076457978, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.15174442529678345, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.282187557220459, 'reward_std': 0.8394131183624267, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.25861595533788206, 'epoch': 8.44}\n",
            "{'loss': 0.0052, 'grad_norm': 0.6298333406448364, 'learning_rate': 2e-05, 'num_tokens': 6121440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7855208277702331, 'rewards/reward_total/std': 0.15470131039619445, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.1414213538169861, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.34722065925598145, 'rewards/reward_obs_syndrome_consistency/mean': 0.8119791746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.23877582252025603, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.266250038146973, 'reward_std': 0.7961999654769898, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.26219593957066534, 'epoch': 8.52}\n",
            "{'loss': 0.0055, 'grad_norm': 0.6404945254325867, 'learning_rate': 2e-05, 'num_tokens': 6177600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7954687476158142, 'rewards/reward_total/std': 0.14300763458013535, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.35242208242416384, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.2417466253042221, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.24939840734004975, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.292343711853027, 'reward_std': 0.739789605140686, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.27383709866553546, 'epoch': 8.59}\n",
            "{'loss': 0.0055, 'grad_norm': 0.6091824173927307, 'learning_rate': 2e-05, 'num_tokens': 6233760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7400000214576721, 'rewards/reward_total/std': 0.20820613205432892, 'rewards/reward_obs_logical_correction/mean': 0.9, 'rewards/reward_obs_logical_correction/std': 0.3041178107261658, 'rewards/reward_obs_hamming_overlap/mean': 0.7, 'rewards/reward_obs_hamming_overlap/std': 0.36813210844993594, 'rewards/reward_obs_syndrome_consistency/mean': 0.784375, 'rewards/reward_obs_syndrome_consistency/std': 0.23973526060581207, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.25597665905952455, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.055625009536743, 'reward_std': 0.8957409620285034, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.27492414601147175, 'epoch': 8.67}\n",
            "{'loss': 0.0053, 'grad_norm': 0.6242179274559021, 'learning_rate': 2e-05, 'num_tokens': 6289920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7909375190734863, 'rewards/reward_total/std': 0.1671867400407791, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.3697260499000549, 'rewards/reward_obs_syndrome_consistency/mean': 0.8296875, 'rewards/reward_obs_syndrome_consistency/std': 0.23727206289768218, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1337292104959488, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.314375019073486, 'reward_std': 0.7913503408432007, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.26630715318024156, 'epoch': 8.75}\n",
            "{'loss': 0.006, 'grad_norm': 0.5392495393753052, 'learning_rate': 2e-05, 'num_tokens': 6346080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7904687643051147, 'rewards/reward_total/std': 0.17545835971832274, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2067897230386734, 'rewards/reward_obs_hamming_overlap/mean': 0.790625, 'rewards/reward_obs_hamming_overlap/std': 0.3261046946048737, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.22281368374824523, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.24214506149291992, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.306093788146972, 'reward_std': 0.767704451084137, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.29990693777799604, 'epoch': 8.83}\n",
            "{'loss': 0.0058, 'grad_norm': 0.6282005906105042, 'learning_rate': 2e-05, 'num_tokens': 6402240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7668750047683716, 'rewards/reward_total/std': 0.16515105366706848, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.19060828983783723, 'rewards/reward_obs_hamming_overlap/mean': 0.70625, 'rewards/reward_obs_hamming_overlap/std': 0.35472410917282104, 'rewards/reward_obs_syndrome_consistency/mean': 0.7765625, 'rewards/reward_obs_syndrome_consistency/std': 0.24971669018268586, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.193437385559082, 'reward_std': 0.7169355630874634, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.2885875400155783, 'epoch': 8.91}\n",
            "{'loss': 0.0057, 'grad_norm': 0.49812576174736023, 'learning_rate': 2e-05, 'num_tokens': 6458400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7778125166893005, 'rewards/reward_total/std': 0.17836170196533202, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.2144818663597107, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3496699333190918, 'rewards/reward_obs_syndrome_consistency/mean': 0.8109375, 'rewards/reward_obs_syndrome_consistency/std': 0.24320336878299714, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.245000171661377, 'reward_std': 0.8228036284446716, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.28349822424352167, 'epoch': 8.98}\n",
            "{'loss': 0.0058, 'grad_norm': 0.5754448771476746, 'learning_rate': 2e-05, 'num_tokens': 6514560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8131249904632568, 'rewards/reward_total/std': 0.13778698742389678, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.79375, 'rewards/reward_obs_hamming_overlap/std': 0.3452586650848389, 'rewards/reward_obs_syndrome_consistency/mean': 0.85, 'rewards/reward_obs_syndrome_consistency/std': 0.23080483078956604, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.419374942779541, 'reward_std': 0.6440201520919799, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.2922429535537958, 'epoch': 9.06}\n",
            "{'loss': 0.0055, 'grad_norm': 0.7968952059745789, 'learning_rate': 2e-05, 'num_tokens': 6570720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7439062714576721, 'rewards/reward_total/std': 0.20450662672519684, 'rewards/reward_obs_logical_correction/mean': 0.9125, 'rewards/reward_obs_logical_correction/std': 0.2767805099487305, 'rewards/reward_obs_hamming_overlap/mean': 0.696875, 'rewards/reward_obs_hamming_overlap/std': 0.3763172268867493, 'rewards/reward_obs_syndrome_consistency/mean': 0.7765625, 'rewards/reward_obs_syndrome_consistency/std': 0.2545072853565216, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.18916850686073303, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.0798438549041744, 'reward_std': 0.9750912904739379, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.2741591531783342, 'epoch': 9.14}\n",
            "{'loss': 0.0054, 'grad_norm': 0.7366714477539062, 'learning_rate': 2e-05, 'num_tokens': 6626880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7822395920753479, 'rewards/reward_total/std': 0.16171584129333497, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.16529493033885956, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.34867875576019286, 'rewards/reward_obs_syndrome_consistency/mean': 0.8119791746139526, 'rewards/reward_obs_syndrome_consistency/std': 0.24368974864482879, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.266093730926514, 'reward_std': 0.7647977352142334, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.2691133368760347, 'epoch': 9.22}\n",
            "{'loss': 0.0056, 'grad_norm': 0.6135391592979431, 'learning_rate': 2e-05, 'num_tokens': 6683040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7676562428474426, 'rewards/reward_total/std': 0.16442091166973113, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.696875, 'rewards/reward_obs_hamming_overlap/std': 0.3792880177497864, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.2474846750497818, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.189531326293945, 'reward_std': 0.7549859285354614, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.28143000788986683, 'epoch': 9.3}\n",
            " 40% 599/1500 [31:53<42:07,  2.80s/it]\n",
            "[grpo-inspection] WARN @ step 600: 10/10 of the most recent prompts had ALL 4 generations identical. Bumping rollout temperature 1.60 -> 1.80.\n",
            "[grpo][eval@600] logical_correction_rate=0.9400, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.5950, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.5950, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7723, episodes=200\n",
            "{'loss': 0.0057, 'grad_norm': 0.6369144916534424, 'learning_rate': 2e-05, 'num_tokens': 6739200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7728125333786011, 'rewards/reward_total/std': 0.16748180985450745, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20065026879310607, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.3333830416202545, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.2481451153755188, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1475608080625534, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2165624618530275, 'reward_std': 0.8283380985260009, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.2856967311352491, 'epoch': 9.38}\n",
            "{'loss': 0.0057, 'grad_norm': 0.8662446141242981, 'learning_rate': 2e-05, 'num_tokens': 6795360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7956250071525574, 'rewards/reward_total/std': 0.15296968668699265, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.10606601536273956, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.345145583152771, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.23867247104644776, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.2144818663597107, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.320624923706054, 'reward_std': 0.6882757067680358, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.2849704839289188, 'epoch': 9.45}\n",
            "{'loss': 0.0057, 'grad_norm': 0.567520260810852, 'learning_rate': 2e-05, 'num_tokens': 6851520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7784375071525573, 'rewards/reward_total/std': 0.1713821053504944, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.16529493033885956, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.3565318167209625, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24260274171829224, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.21683170199394225, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.231562614440918, 'reward_std': 0.8112234115600586, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.28402689695358274, 'epoch': 9.53}\n",
            "{'loss': 0.0058, 'grad_norm': 0.6985202431678772, 'learning_rate': 2e-05, 'num_tokens': 6907680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7871875166893005, 'rewards/reward_total/std': 0.15865744054317474, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.3500479876995087, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.24203023314476013, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.252906933426857, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.265312385559082, 'reward_std': 0.7330726742744446, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.29122367277741434, 'epoch': 9.61}\n",
            "{'loss': 0.0058, 'grad_norm': 0.8191226124763489, 'learning_rate': 2e-05, 'num_tokens': 6963840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7723437547683716, 'rewards/reward_total/std': 0.17885393798351287, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2009313613176346, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.3574172854423523, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.24764259457588195, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.222343826293946, 'reward_std': 0.7999644756317139, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.29111002683639525, 'epoch': 9.69}\n",
            "{'loss': 0.0058, 'grad_norm': 0.802545428276062, 'learning_rate': 2e-05, 'num_tokens': 7020000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.754687511920929, 'rewards/reward_total/std': 0.18443578183650972, 'rewards/reward_obs_logical_correction/mean': 0.925, 'rewards/reward_obs_logical_correction/std': 0.2601602762937546, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.33182902336120607, 'rewards/reward_obs_syndrome_consistency/mean': 0.7734375, 'rewards/reward_obs_syndrome_consistency/std': 0.2513075411319733, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.2144818663597107, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.128125095367432, 'reward_std': 0.8206013083457947, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.28949025012552737, 'epoch': 9.77}\n",
            " 42% 630/1500 [34:10<40:39,  2.80s/it][grpo][step 630] KL ALARM: 0.309 > 0.300 - inspect generations.\n",
            "{'loss': 0.0062, 'grad_norm': 0.7359880805015564, 'learning_rate': 2e-05, 'num_tokens': 7076160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7760937690734864, 'rewards/reward_total/std': 0.18127084970474244, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.37589858174324037, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.24061766564846038, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.241718864440918, 'reward_std': 0.7906875610351562, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.3091970905661583, 'epoch': 9.84}\n",
            " 42% 635/1500 [34:24<40:13,  2.79s/it][grpo][step 635] KL ALARM: 0.305 > 0.300 - inspect generations.\n",
            "{'loss': 0.0061, 'grad_norm': 0.6660212278366089, 'learning_rate': 2e-05, 'num_tokens': 7132320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7659375071525574, 'rewards/reward_total/std': 0.18526525795459747, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23835544288158417, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3533478736877441, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.24290958642959595, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.187812614440918, 'reward_std': 0.829276728630066, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.30527749098837376, 'epoch': 9.92}\n",
            " 43% 640/1500 [34:38<39:53,  2.78s/it][grpo][step 640] KL ALARM: 0.316 > 0.300 - inspect generations.\n",
            "{'loss': 0.0063, 'grad_norm': 0.8906799554824829, 'learning_rate': 2e-05, 'num_tokens': 7188480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.785937488079071, 'rewards/reward_total/std': 0.1570362314581871, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1475608080625534, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.35138546824455263, 'rewards/reward_obs_syndrome_consistency/mean': 0.8203125, 'rewards/reward_obs_syndrome_consistency/std': 0.23502618670463563, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.1414213538169861, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.293749904632568, 'reward_std': 0.7194303512573242, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3157159682363272, 'epoch': 10.0}\n",
            " 43% 645/1500 [34:52<39:48,  2.79s/it][grpo][step 645] KL ALARM: 0.328 > 0.300 - inspect generations.\n",
            "{'loss': 0.0066, 'grad_norm': 0.6692360639572144, 'learning_rate': 2e-05, 'num_tokens': 7244640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7956250190734864, 'rewards/reward_total/std': 0.15420271158218385, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.19060828983783723, 'rewards/reward_obs_hamming_overlap/mean': 0.7875, 'rewards/reward_obs_hamming_overlap/std': 0.2986012607812881, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.2439053475856781, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3487499237060545, 'reward_std': 0.6307464838027954, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.32774081230163576, 'epoch': 10.08}\n",
            " 43% 650/1500 [35:06<40:11,  2.84s/it][grpo][step 650] KL ALARM: 0.318 > 0.300 - inspect generations.\n",
            "{'loss': 0.0064, 'grad_norm': 0.6066391468048096, 'learning_rate': 2e-05, 'num_tokens': 7300800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8096875071525573, 'rewards/reward_total/std': 0.15077100247144698, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.8125, 'rewards/reward_obs_hamming_overlap/std': 0.30516684651374815, 'rewards/reward_obs_syndrome_consistency/mean': 0.85, 'rewards/reward_obs_syndrome_consistency/std': 0.23008038401603698, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.09458425343036651, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.415937519073486, 'reward_std': 0.6073779582977294, 'frac_reward_zero_std': 0.275, 'completion_length': 50.0, 'kl': 0.31800657175481317, 'epoch': 10.16}\n",
            " 44% 655/1500 [35:20<39:43,  2.82s/it][grpo][step 655] KL ALARM: 0.324 > 0.300 - inspect generations.\n",
            "{'loss': 0.0065, 'grad_norm': 0.7091258764266968, 'learning_rate': 2e-05, 'num_tokens': 7356960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7796875, 'rewards/reward_total/std': 0.18080144226551056, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.24214506149291992, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.34058303833007814, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.2376508206129074, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.282812595367432, 'reward_std': 0.7959226727485657, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3238790757954121, 'epoch': 10.23}\n",
            " 44% 660/1500 [35:34<39:25,  2.82s/it][grpo][step 660] KL ALARM: 0.323 > 0.300 - inspect generations.\n",
            "{'loss': 0.0065, 'grad_norm': 0.6208276152610779, 'learning_rate': 2e-05, 'num_tokens': 7413120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7982812762260437, 'rewards/reward_total/std': 0.1488858252763748, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.33289815187454225, 'rewards/reward_obs_syndrome_consistency/mean': 0.8265625, 'rewards/reward_obs_syndrome_consistency/std': 0.23366110324859618, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.359218692779541, 'reward_std': 0.7175782322883606, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.32263981029391287, 'epoch': 10.31}\n",
            " 44% 665/1500 [35:48<39:04,  2.81s/it][grpo][step 665] KL ALARM: 0.336 > 0.300 - inspect generations.\n",
            "{'loss': 0.0067, 'grad_norm': 0.8898345232009888, 'learning_rate': 2e-05, 'num_tokens': 7469280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7865624904632569, 'rewards/reward_total/std': 0.16442495286464692, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3585269272327423, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24101610481739044, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.286562538146972, 'reward_std': 0.7552703857421875, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.33618943840265275, 'epoch': 10.39}\n",
            " 45% 670/1500 [36:02<38:50,  2.81s/it][grpo][step 670] KL ALARM: 0.323 > 0.300 - inspect generations.\n",
            "{'loss': 0.0065, 'grad_norm': 0.5316293239593506, 'learning_rate': 2e-05, 'num_tokens': 7525440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7896875143051147, 'rewards/reward_total/std': 0.1540306717157364, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.3540263414382935, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.23769840896129607, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.16557602286338807, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.292812538146973, 'reward_std': 0.7269962430000305, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.32302822470664977, 'epoch': 10.47}\n",
            " 45% 675/1500 [36:16<38:34,  2.81s/it][grpo][step 675] KL ALARM: 0.315 > 0.300 - inspect generations.\n",
            "{'loss': 0.0063, 'grad_norm': 0.903791606426239, 'learning_rate': 2e-05, 'num_tokens': 7581600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7637500047683716, 'rewards/reward_total/std': 0.16801320314407348, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.15760278701782227, 'rewards/reward_obs_hamming_overlap/mean': 0.70625, 'rewards/reward_obs_hamming_overlap/std': 0.3684916138648987, 'rewards/reward_obs_syndrome_consistency/mean': 0.78125, 'rewards/reward_obs_syndrome_consistency/std': 0.24584769308567048, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.14377118945121764, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.17000002861023, 'reward_std': 0.7729796290397644, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.3152119886130095, 'epoch': 10.55}\n",
            " 45% 680/1500 [36:30<38:14,  2.80s/it][grpo][step 680] KL ALARM: 0.345 > 0.300 - inspect generations.\n",
            "{'loss': 0.0069, 'grad_norm': 0.8577643036842346, 'learning_rate': 2e-05, 'num_tokens': 7637760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7962500095367432, 'rewards/reward_total/std': 0.15977200418710708, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.775, 'rewards/reward_obs_hamming_overlap/std': 0.3475979804992676, 'rewards/reward_obs_syndrome_consistency/mean': 0.8375, 'rewards/reward_obs_syndrome_consistency/std': 0.22965043783187866, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.352500057220459, 'reward_std': 0.672014570236206, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.3446039564907551, 'epoch': 10.62}\n",
            " 46% 685/1500 [36:44<38:01,  2.80s/it][grpo][step 685] KL ALARM: 0.333 > 0.300 - inspect generations.\n",
            "{'loss': 0.0067, 'grad_norm': 0.8452743887901306, 'learning_rate': 2e-05, 'num_tokens': 7693920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7810937523841858, 'rewards/reward_total/std': 0.16241763532161713, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.3611440122127533, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24435491263866424, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.246718788146973, 'reward_std': 0.7192122578620911, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3327422749251127, 'epoch': 10.7}\n",
            " 46% 690/1500 [36:58<37:50,  2.80s/it][grpo][step 690] KL ALARM: 0.314 > 0.300 - inspect generations.\n",
            "{'loss': 0.0063, 'grad_norm': 0.7467711567878723, 'learning_rate': 2e-05, 'num_tokens': 7750080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7892187595367431, 'rewards/reward_total/std': 0.164021098613739, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3516553819179535, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24132461249828338, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.311093807220459, 'reward_std': 0.7932896018028259, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.31380514055490494, 'epoch': 10.78}\n",
            " 46% 695/1500 [37:13<37:48,  2.82s/it][grpo][step 695] KL ALARM: 0.337 > 0.300 - inspect generations.\n",
            "{'loss': 0.0067, 'grad_norm': 0.7476838231086731, 'learning_rate': 2e-05, 'num_tokens': 7806240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8035937547683716, 'rewards/reward_total/std': 0.14426806569099426, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.3315858006477356, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23347966074943544, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.049186936020851134, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.391093921661377, 'reward_std': 0.7275224983692169, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.3366701129823923, 'epoch': 10.86}\n",
            " 47% 699/1500 [37:24<37:36,  2.82s/it]\n",
            "[grpo-inspection] WARN @ step 700: 9/10 of the most recent prompts had ALL 4 generations identical. Bumping rollout temperature 1.80 -> 2.00.\n",
            "[grpo][eval@700] logical_correction_rate=0.9400, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6250, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6250, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7778, episodes=200\n",
            " 47% 700/1500 [38:06<3:13:19, 14.50s/it][grpo][step 700] KL ALARM: 0.344 > 0.300 - inspect generations.\n",
            "{'loss': 0.0069, 'grad_norm': 0.8786250352859497, 'learning_rate': 2e-05, 'num_tokens': 7862400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7571875214576721, 'rewards/reward_total/std': 0.18681391179561616, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23835544288158417, 'rewards/reward_obs_hamming_overlap/mean': 0.7, 'rewards/reward_obs_hamming_overlap/std': 0.38204343914985656, 'rewards/reward_obs_syndrome_consistency/mean': 0.7828125, 'rewards/reward_obs_syndrome_consistency/std': 0.2492651104927063, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.09458425343036651, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.152500009536743, 'reward_std': 0.8011366367340088, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.34380849450826645, 'epoch': 10.94}\n",
            " 47% 705/1500 [38:30<1:13:12,  5.53s/it][grpo][step 705] KL ALARM: 0.392 > 0.300 - inspect generations.\n",
            "{'loss': 0.0078, 'grad_norm': 1.2086410522460938, 'learning_rate': 2e-05, 'num_tokens': 7918560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7821875095367432, 'rewards/reward_total/std': 0.16068530678749085, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.36179054975509645, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.24743296205997467, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.272812461853027, 'reward_std': 0.7864011049270629, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.39221375063061714, 'epoch': 11.02}\n",
            " 47% 710/1500 [38:44<42:49,  3.25s/it][grpo][step 710] KL ALARM: 0.391 > 0.300 - inspect generations.\n",
            "{'loss': 0.0078, 'grad_norm': 1.188834547996521, 'learning_rate': 2e-05, 'num_tokens': 7974720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.78046875, 'rewards/reward_total/std': 0.16108636558055878, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.3601382911205292, 'rewards/reward_obs_syndrome_consistency/mean': 0.7984375, 'rewards/reward_obs_syndrome_consistency/std': 0.2509264886379242, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.26328125, 'reward_std': 0.7213250041007996, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.3905575018376112, 'epoch': 11.09}\n",
            " 48% 715/1500 [38:58<37:31,  2.87s/it][grpo][step 715] KL ALARM: 0.437 > 0.300 - inspect generations.\n",
            "{'loss': 0.0087, 'grad_norm': 0.9095253348350525, 'learning_rate': 2e-05, 'num_tokens': 8030880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7623437404632568, 'rewards/reward_total/std': 0.1815871089696884, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.709375, 'rewards/reward_obs_hamming_overlap/std': 0.37514621019363403, 'rewards/reward_obs_syndrome_consistency/mean': 0.7953125, 'rewards/reward_obs_syndrome_consistency/std': 0.24109579622745514, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17326816618442537, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.167031192779541, 'reward_std': 0.7951188087463379, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.436777763441205, 'epoch': 11.17}\n",
            " 48% 720/1500 [39:12<36:31,  2.81s/it][grpo][step 720] KL ALARM: 0.426 > 0.300 - inspect generations.\n",
            "{'loss': 0.0085, 'grad_norm': 1.255505919456482, 'learning_rate': 2e-05, 'num_tokens': 8087040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7917187333106994, 'rewards/reward_total/std': 0.1427484154701233, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.3542239010334015, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.2412676304578781, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.16529493033885956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.304218673706055, 'reward_std': 0.7215561151504517, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.42610725983977316, 'epoch': 11.25}\n",
            " 48% 725/1500 [39:26<36:10,  2.80s/it][grpo][step 725] KL ALARM: 0.442 > 0.300 - inspect generations.\n",
            "{'loss': 0.0088, 'grad_norm': 0.9466291069984436, 'learning_rate': 2e-05, 'num_tokens': 8143200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.789843761920929, 'rewards/reward_total/std': 0.17089548856019973, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19295812547206878, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.3396559089422226, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.2305632621049881, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.25637065768241885, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.292968654632569, 'reward_std': 0.7407944917678833, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.4417641948908567, 'epoch': 11.33}\n",
            " 49% 730/1500 [39:40<35:54,  2.80s/it][grpo][step 730] KL ALARM: 0.439 > 0.300 - inspect generations.\n",
            "{'loss': 0.0088, 'grad_norm': 0.8554375171661377, 'learning_rate': 2e-05, 'num_tokens': 8199360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7964062452316284, 'rewards/reward_total/std': 0.14616094827651976, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.778125, 'rewards/reward_obs_hamming_overlap/std': 0.3235450148582458, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24317093193531036, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.12993959188461304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.337031269073487, 'reward_std': 0.6539073944091797, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.4385684713721275, 'epoch': 11.41}\n",
            " 49% 735/1500 [39:55<38:00,  2.98s/it][grpo][step 735] KL ALARM: 0.444 > 0.300 - inspect generations.\n",
            "{'loss': 0.0089, 'grad_norm': 0.9163318872451782, 'learning_rate': 2e-05, 'num_tokens': 8255520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7610937595367432, 'rewards/reward_total/std': 0.18376156985759734, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.22687368094921112, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3484496295452118, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.25017695426940917, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.1538131684064865, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.164218711853027, 'reward_std': 0.8546370029449463, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.44440920650959015, 'epoch': 11.48}\n",
            " 49% 740/1500 [40:09<35:48,  2.83s/it][grpo][step 740] KL ALARM: 0.359 > 0.300 - inspect generations.\n",
            "{'loss': 0.0072, 'grad_norm': 0.9202349781990051, 'learning_rate': 2e-05, 'num_tokens': 8311680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7756249904632568, 'rewards/reward_total/std': 0.16679078638553618, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.38897021412849425, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24467564523220062, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.16529493033885956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.225624942779541, 'reward_std': 0.7737214803695679, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.35945761799812315, 'epoch': 11.56}\n",
            " 50% 745/1500 [40:23<35:17,  2.80s/it][grpo][step 745] KL ALARM: 0.429 > 0.300 - inspect generations.\n",
            "{'loss': 0.0086, 'grad_norm': 1.1936365365982056, 'learning_rate': 2e-05, 'num_tokens': 8367840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7717187523841857, 'rewards/reward_total/std': 0.19166516065597533, 'rewards/reward_obs_logical_correction/mean': 0.91875, 'rewards/reward_obs_logical_correction/std': 0.2643438935279846, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.35079860091209414, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24394188523292543, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.249843788146973, 'reward_std': 0.8071802616119385, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.4293439336121082, 'epoch': 11.64}\n",
            " 50% 750/1500 [40:37<35:37,  2.85s/it][grpo][step 750] KL ALARM: 0.470 > 0.300 - inspect generations.\n",
            "{'loss': 0.0094, 'grad_norm': 1.085410237312317, 'learning_rate': 2e-05, 'num_tokens': 8424000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7801562547683716, 'rewards/reward_total/std': 0.16052306294441224, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.36478976011276243, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24263859987258912, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.248906421661377, 'reward_std': 0.7583563327789307, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.4697447631508112, 'epoch': 11.72}\n",
            " 50% 755/1500 [40:51<35:05,  2.83s/it][grpo][step 755] KL ALARM: 0.497 > 0.300 - inspect generations.\n",
            "{'loss': 0.0099, 'grad_norm': 0.847015380859375, 'learning_rate': 2e-05, 'num_tokens': 8480160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7787500143051147, 'rewards/reward_total/std': 0.16306895315647124, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.35950430035591124, 'rewards/reward_obs_syndrome_consistency/mean': 0.8046875, 'rewards/reward_obs_syndrome_consistency/std': 0.24512608349323273, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.258437633514404, 'reward_std': 0.7243315041065216, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.49710107445716856, 'epoch': 11.8}\n",
            " 51% 760/1500 [41:05<34:44,  2.82s/it][grpo][step 760] KL ALARM: 0.614 > 0.300 - inspect generations.\n",
            "{'loss': 0.0123, 'grad_norm': 1.0913581848144531, 'learning_rate': 2e-05, 'num_tokens': 8536320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7939062595367432, 'rewards/reward_total/std': 0.1596267431974411, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.19060828983783723, 'rewards/reward_obs_hamming_overlap/mean': 0.778125, 'rewards/reward_obs_hamming_overlap/std': 0.34669198393821715, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.2372659772634506, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.19295812547206878, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.325156307220459, 'reward_std': 0.6523545324802399, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.6144717026501894, 'epoch': 11.88}\n",
            " 51% 765/1500 [41:19<34:32,  2.82s/it][grpo][step 765] KL ALARM: 0.606 > 0.300 - inspect generations.\n",
            "{'loss': 0.0121, 'grad_norm': 1.2927507162094116, 'learning_rate': 2e-05, 'num_tokens': 8592480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7967187523841858, 'rewards/reward_total/std': 0.1591991126537323, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.13791282773017882, 'rewards/reward_obs_hamming_overlap/mean': 0.790625, 'rewards/reward_obs_hamming_overlap/std': 0.3335565388202667, 'rewards/reward_obs_syndrome_consistency/mean': 0.8421875, 'rewards/reward_obs_syndrome_consistency/std': 0.2346246659755707, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.24214506149291992, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.329531288146972, 'reward_std': 0.6912846446037293, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.6056142285466194, 'epoch': 11.95}\n",
            " 51% 770/1500 [41:33<34:19,  2.82s/it][grpo][step 770] KL ALARM: 0.561 > 0.300 - inspect generations.\n",
            "{'loss': 0.0112, 'grad_norm': 1.0992789268493652, 'learning_rate': 2e-05, 'num_tokens': 8648640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7754687547683716, 'rewards/reward_total/std': 0.16924225986003877, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.19060828983783723, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.3651436328887939, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.2463502138853073, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.22903335690498353, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.219218826293945, 'reward_std': 0.7266518950462342, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.5607017070055008, 'epoch': 12.03}\n",
            " 52% 775/1500 [41:47<33:58,  2.81s/it][grpo][step 775] KL ALARM: 0.643 > 0.300 - inspect generations.\n",
            "{'loss': 0.0129, 'grad_norm': 0.6932511925697327, 'learning_rate': 2e-05, 'num_tokens': 8704800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7609375238418579, 'rewards/reward_total/std': 0.1711506575345993, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.7, 'rewards/reward_obs_hamming_overlap/std': 0.36325374245643616, 'rewards/reward_obs_syndrome_consistency/mean': 0.7796875, 'rewards/reward_obs_syndrome_consistency/std': 0.24804391264915465, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.23907533586025237, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.134375, 'reward_std': 0.7121303975582123, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.6433785259723663, 'epoch': 12.11}\n",
            " 52% 780/1500 [42:01<33:41,  2.81s/it][grpo][step 780] KL ALARM: 0.572 > 0.300 - inspect generations.\n",
            "{'loss': 0.0114, 'grad_norm': 0.9856968522071838, 'learning_rate': 2e-05, 'num_tokens': 8760960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7939062595367432, 'rewards/reward_total/std': 0.15785250961780548, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1767766922712326, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.3351704776287079, 'rewards/reward_obs_syndrome_consistency/mean': 0.8265625, 'rewards/reward_obs_syndrome_consistency/std': 0.23521383702754975, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.336093711853027, 'reward_std': 0.7097942590713501, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.572155448794365, 'epoch': 12.19}\n",
            " 52% 785/1500 [42:15<33:27,  2.81s/it][grpo][step 785] KL ALARM: 0.625 > 0.300 - inspect generations.\n",
            "{'loss': 0.0125, 'grad_norm': 0.8045245409011841, 'learning_rate': 2e-05, 'num_tokens': 8817120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7834375023841857, 'rewards/reward_total/std': 0.17486797273159027, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18916850686073303, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.3511101245880127, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.2374684453010559, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1337292104959488, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2834375381469725, 'reward_std': 0.7226714670658112, 'frac_reward_zero_std': 0.25, 'completion_length': 50.0, 'kl': 0.6252939879894257, 'epoch': 12.27}\n",
            " 53% 790/1500 [42:30<33:18,  2.81s/it][grpo][step 790] KL ALARM: 0.617 > 0.300 - inspect generations.\n",
            "{'loss': 0.0123, 'grad_norm': 0.829872727394104, 'learning_rate': 2e-05, 'num_tokens': 8873280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7768750071525574, 'rewards/reward_total/std': 0.1592269569635391, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1475608080625534, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.32803845703601836, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.2484442412853241, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.2210153192281723, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.217499923706055, 'reward_std': 0.7488468289375305, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.617071146517992, 'epoch': 12.34}\n",
            " 53% 795/1500 [42:44<33:06,  2.82s/it][grpo][step 795] KL ALARM: 0.536 > 0.300 - inspect generations.\n",
            "{'loss': 0.0107, 'grad_norm': 1.0355051755905151, 'learning_rate': 2e-05, 'num_tokens': 8929440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7760937571525574, 'rewards/reward_total/std': 0.1751134306192398, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.21827148497104645, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.3532764494419098, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24693044126033784, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17326816618442537, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2354686737060545, 'reward_std': 0.7849553346633911, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.5356477633118629, 'epoch': 12.42}\n",
            " 53% 799/1500 [42:55<32:56,  2.82s/it]\n",
            "[grpo-inspection] WARN @ step 800: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@800] logical_correction_rate=0.9400, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.5900, hard_syndrome_lcr=0.9000, syndrome_consistency_rate=0.5900, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7680, episodes=200\n",
            " 53% 800/1500 [43:37<2:50:22, 14.60s/it][grpo][step 800] KL ALARM: 0.574 > 0.300 - inspect generations.\n",
            "{'loss': 0.0115, 'grad_norm': 0.663828432559967, 'learning_rate': 2e-05, 'num_tokens': 8985600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.80859375, 'rewards/reward_total/std': 0.1415884703397751, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.3393860816955566, 'rewards/reward_obs_syndrome_consistency/mean': 0.8375, 'rewards/reward_obs_syndrome_consistency/std': 0.23630421757698059, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.411718654632568, 'reward_std': 0.6815586447715759, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.5736124590039253, 'epoch': 12.5}\n",
            " 54% 805/1500 [43:52<55:52,  4.82s/it]  [grpo][step 805] KL ALARM: 0.509 > 0.300 - inspect generations.\n",
            "{'loss': 0.0102, 'grad_norm': 0.8579884767532349, 'learning_rate': 2e-05, 'num_tokens': 9041760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7840625047683716, 'rewards/reward_total/std': 0.16769427806138992, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17326816618442537, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.37045247554779054, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.22996415197849274, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.280937433242798, 'reward_std': 0.7430779695510864, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.5089879289269448, 'epoch': 12.58}\n",
            " 54% 810/1500 [44:06<35:56,  3.13s/it][grpo][step 810] KL ALARM: 0.461 > 0.300 - inspect generations.\n",
            "{'loss': 0.0092, 'grad_norm': 0.9140747785568237, 'learning_rate': 2e-05, 'num_tokens': 9097920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7712500214576721, 'rewards/reward_total/std': 0.173833492398262, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18709976375102996, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.36790929436683656, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24617765843868256, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.221249961853028, 'reward_std': 0.8492558240890503, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.4607701741158962, 'epoch': 12.66}\n",
            " 54% 815/1500 [44:19<32:23,  2.84s/it][grpo][step 815] KL ALARM: 0.425 > 0.300 - inspect generations.\n",
            "{'loss': 0.0085, 'grad_norm': 0.8521543145179749, 'learning_rate': 2e-05, 'num_tokens': 9154080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7865625143051147, 'rewards/reward_total/std': 0.16521266847848892, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.16557602286338807, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.33762437105178833, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24087380468845368, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.305312633514404, 'reward_std': 0.8067386031150818, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.4250720739364624, 'epoch': 12.73}\n",
            " 55% 820/1500 [44:33<31:36,  2.79s/it][grpo][step 820] KL ALARM: 0.452 > 0.300 - inspect generations.\n",
            "{'loss': 0.009, 'grad_norm': 1.1327824592590332, 'learning_rate': 2e-05, 'num_tokens': 9210240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7935937404632568, 'rewards/reward_total/std': 0.16531635224819183, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.778125, 'rewards/reward_obs_hamming_overlap/std': 0.3349816083908081, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23781801760196686, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.343593788146973, 'reward_std': 0.746138870716095, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.4516629382967949, 'epoch': 12.81}\n",
            " 55% 825/1500 [44:47<31:32,  2.80s/it][grpo][step 825] KL ALARM: 0.414 > 0.300 - inspect generations.\n",
            "{'loss': 0.0083, 'grad_norm': 0.9812124371528625, 'learning_rate': 2e-05, 'num_tokens': 9266400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7659374952316285, 'rewards/reward_total/std': 0.18805122077465058, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.24632867872714997, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3743322789669037, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.2485736608505249, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.209687519073486, 'reward_std': 0.7859640300273896, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.41393147483468057, 'epoch': 12.89}\n",
            " 55% 830/1500 [45:01<31:22,  2.81s/it][grpo][step 830] KL ALARM: 0.426 > 0.300 - inspect generations.\n",
            "{'loss': 0.0085, 'grad_norm': 0.9357296228408813, 'learning_rate': 2e-05, 'num_tokens': 9322560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7460937619209289, 'rewards/reward_total/std': 0.18951660096645356, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.2130420833826065, 'rewards/reward_obs_hamming_overlap/mean': 0.671875, 'rewards/reward_obs_hamming_overlap/std': 0.3865728139877319, 'rewards/reward_obs_syndrome_consistency/mean': 0.7625, 'rewards/reward_obs_syndrome_consistency/std': 0.2509884208440781, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.1414213538169861, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.0929687976837155, 'reward_std': 0.8291953682899476, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.4264020074158907, 'epoch': 12.97}\n",
            " 56% 835/1500 [45:16<31:11,  2.81s/it][grpo][step 835] KL ALARM: 0.462 > 0.300 - inspect generations.\n",
            "{'loss': 0.0092, 'grad_norm': 0.8976121544837952, 'learning_rate': 2e-05, 'num_tokens': 9378720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.796093738079071, 'rewards/reward_total/std': 0.15662778317928314, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.33082141280174254, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23701637089252472, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1475608080625534, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3398435592651365, 'reward_std': 0.703278923034668, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.46158648654818535, 'epoch': 13.05}\n",
            " 56% 840/1500 [45:30<30:57,  2.81s/it][grpo][step 840] KL ALARM: 0.406 > 0.300 - inspect generations.\n",
            "{'loss': 0.0081, 'grad_norm': 0.6789171099662781, 'learning_rate': 2e-05, 'num_tokens': 9434880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7890625, 'rewards/reward_total/std': 0.15963487923145295, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.10841585099697112, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.362196284532547, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24226088523864747, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.049186936020851134, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.314062595367432, 'reward_std': 0.6895974040031433, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.40585712939500806, 'epoch': 13.12}\n",
            " 56% 845/1500 [45:44<30:26,  2.79s/it][grpo][step 845] KL ALARM: 0.426 > 0.300 - inspect generations.\n",
            "{'loss': 0.0085, 'grad_norm': 1.1300511360168457, 'learning_rate': 2e-05, 'num_tokens': 9491040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7553125023841858, 'rewards/reward_total/std': 0.1906956911087036, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.24632867872714997, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.3758280575275421, 'rewards/reward_obs_syndrome_consistency/mean': 0.790625, 'rewards/reward_obs_syndrome_consistency/std': 0.2469675660133362, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.24286495447158812, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.120937299728394, 'reward_std': 0.9027267694473267, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.4260403987020254, 'epoch': 13.2}\n",
            " 57% 850/1500 [45:58<31:50,  2.94s/it][grpo][step 850] KL ALARM: 0.447 > 0.300 - inspect generations.\n",
            "{'loss': 0.0089, 'grad_norm': 1.1285587549209595, 'learning_rate': 2e-05, 'num_tokens': 9547200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7684375047683716, 'rewards/reward_total/std': 0.1773383855819702, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.17768674492835998, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.3611506760120392, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.23612704873085022, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2802442342042923, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.17468752861023, 'reward_std': 0.8314507365226745, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.44653293006122113, 'epoch': 13.28}\n",
            " 57% 855/1500 [46:12<30:25,  2.83s/it][grpo][step 855] KL ALARM: 0.464 > 0.300 - inspect generations.\n",
            "{'loss': 0.0093, 'grad_norm': 1.0993189811706543, 'learning_rate': 2e-05, 'num_tokens': 9603360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7785937547683716, 'rewards/reward_total/std': 0.17546642422676087, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17326816618442537, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3576399564743042, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.23998572528362275, 'rewards/reward_obs_format_compliance/mean': 0.91875, 'rewards/reward_obs_format_compliance/std': 0.2702022552490234, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.225468730926513, 'reward_std': 0.8430636048316955, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.4644301630556583, 'epoch': 13.36}\n",
            " 57% 860/1500 [46:26<30:08,  2.83s/it][grpo][step 860] KL ALARM: 0.471 > 0.300 - inspect generations.\n",
            "{'loss': 0.0094, 'grad_norm': 0.8225990533828735, 'learning_rate': 2e-05, 'num_tokens': 9659520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.789843761920929, 'rewards/reward_total/std': 0.1677441656589508, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.2075096160173416, 'rewards/reward_obs_hamming_overlap/mean': 0.796875, 'rewards/reward_obs_hamming_overlap/std': 0.31195367574691774, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23643614649772643, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.20443988740444183, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.314843654632568, 'reward_std': 0.6973967790603638, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.47104127146303654, 'epoch': 13.44}\n",
            " 58% 865/1500 [46:40<29:48,  2.82s/it][grpo][step 865] KL ALARM: 0.497 > 0.300 - inspect generations.\n",
            "{'loss': 0.0099, 'grad_norm': 1.2243150472640991, 'learning_rate': 2e-05, 'num_tokens': 9715680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.764062511920929, 'rewards/reward_total/std': 0.16239866614341736, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.70625, 'rewards/reward_obs_hamming_overlap/std': 0.35635835528373716, 'rewards/reward_obs_syndrome_consistency/mean': 0.775, 'rewards/reward_obs_syndrome_consistency/std': 0.2511882334947586, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.20065026879310607, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.164062452316284, 'reward_std': 0.7216492295265198, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.4971969693899155, 'epoch': 13.52}\n",
            " 58% 870/1500 [46:54<29:31,  2.81s/it][grpo][step 870] KL ALARM: 0.507 > 0.300 - inspect generations.\n",
            "{'loss': 0.0101, 'grad_norm': 1.107243537902832, 'learning_rate': 2e-05, 'num_tokens': 9771840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7734375, 'rewards/reward_total/std': 0.15863279849290848, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3465150475502014, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.2476797193288803, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.12296734154224395, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.210937595367431, 'reward_std': 0.8002606153488159, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.507206742465496, 'epoch': 13.59}\n",
            " 58% 875/1500 [47:08<29:20,  2.82s/it][grpo][step 875] KL ALARM: 0.466 > 0.300 - inspect generations.\n",
            "{'loss': 0.0093, 'grad_norm': 1.2230303287506104, 'learning_rate': 2e-05, 'num_tokens': 9828000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7564062476158142, 'rewards/reward_total/std': 0.17979362308979036, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23835544288158417, 'rewards/reward_obs_hamming_overlap/mean': 0.703125, 'rewards/reward_obs_hamming_overlap/std': 0.3564131498336792, 'rewards/reward_obs_syndrome_consistency/mean': 0.76875, 'rewards/reward_obs_syndrome_consistency/std': 0.24813052713871003, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.153281307220459, 'reward_std': 0.8407535791397095, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.4659429408609867, 'epoch': 13.67}\n",
            " 59% 880/1500 [47:22<29:03,  2.81s/it][grpo][step 880] KL ALARM: 0.450 > 0.300 - inspect generations.\n",
            "{'loss': 0.009, 'grad_norm': 1.4025654792785645, 'learning_rate': 2e-05, 'num_tokens': 9884160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7609375, 'rewards/reward_total/std': 0.17559235990047456, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.6875, 'rewards/reward_obs_hamming_overlap/std': 0.38099595308303835, 'rewards/reward_obs_syndrome_consistency/mean': 0.778125, 'rewards/reward_obs_syndrome_consistency/std': 0.24899847507476808, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.170312452316284, 'reward_std': 0.8663570404052734, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.4496983662247658, 'epoch': 13.75}\n",
            " 59% 885/1500 [47:36<28:45,  2.81s/it][grpo][step 885] KL ALARM: 0.461 > 0.300 - inspect generations.\n",
            "{'loss': 0.0092, 'grad_norm': 1.1145440340042114, 'learning_rate': 2e-05, 'num_tokens': 9940320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8017187356948853, 'rewards/reward_total/std': 0.14380549490451813, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.3440372347831726, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23711567521095275, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.364218807220459, 'reward_std': 0.7291502237319947, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.4613925039768219, 'epoch': 13.83}\n",
            " 59% 890/1500 [47:50<28:26,  2.80s/it][grpo][step 890] KL ALARM: 0.454 > 0.300 - inspect generations.\n",
            "{'loss': 0.0091, 'grad_norm': 1.3662935495376587, 'learning_rate': 2e-05, 'num_tokens': 9996480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7948437452316284, 'rewards/reward_total/std': 0.15991956889629363, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.19060828983783723, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.3258216977119446, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23963364362716674, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.332343864440918, 'reward_std': 0.7083917737007142, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.4542954444885254, 'epoch': 13.91}\n",
            " 60% 895/1500 [48:04<28:07,  2.79s/it][grpo][step 895] KL ALARM: 0.494 > 0.300 - inspect generations.\n",
            "{'loss': 0.0099, 'grad_norm': 1.2892743349075317, 'learning_rate': 2e-05, 'num_tokens': 10052640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7740624904632568, 'rewards/reward_total/std': 0.17933751344680787, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.2144818663597107, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.35722522139549256, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24335075318813323, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.193678018450737, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.217812633514404, 'reward_std': 0.8032260417938233, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.4944892361760139, 'epoch': 13.98}\n",
            " 60% 899/1500 [48:16<28:00,  2.80s/it]\n",
            "[grpo-inspection] WARN @ step 900: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@900] logical_correction_rate=0.9600, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6300, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6300, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7859, episodes=200\n",
            " 60% 900/1500 [48:57<2:24:31, 14.45s/it][grpo][step 900] KL ALARM: 0.543 > 0.300 - inspect generations.\n",
            "{'loss': 0.0109, 'grad_norm': 1.1736446619033813, 'learning_rate': 2e-05, 'num_tokens': 10108800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7918750166893005, 'rewards/reward_total/std': 0.16307809352874755, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.35184081792831423, 'rewards/reward_obs_syndrome_consistency/mean': 0.83125, 'rewards/reward_obs_syndrome_consistency/std': 0.23623825311660768, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.23210308253765105, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.304374885559082, 'reward_std': 0.7641743421554565, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.5429924197494984, 'epoch': 14.06}\n",
            " 60% 905/1500 [49:12<47:39,  4.81s/it][grpo][step 905] KL ALARM: 0.645 > 0.300 - inspect generations.\n",
            "{'loss': 0.0129, 'grad_norm': 1.8925714492797852, 'learning_rate': 2e-05, 'num_tokens': 10164960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7742187738418579, 'rewards/reward_total/std': 0.15365978181362153, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.1414213538169861, 'rewards/reward_obs_hamming_overlap/mean': 0.715625, 'rewards/reward_obs_hamming_overlap/std': 0.3534501016139984, 'rewards/reward_obs_syndrome_consistency/mean': 0.7828125, 'rewards/reward_obs_syndrome_consistency/std': 0.24851660430431366, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2226560592651365, 'reward_std': 0.7375231385231018, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.6450826533138752, 'epoch': 14.14}\n",
            " 61% 910/1500 [49:26<30:55,  3.14s/it][grpo][step 910] KL ALARM: 0.745 > 0.300 - inspect generations.\n",
            "{'loss': 0.0149, 'grad_norm': 1.3142772912979126, 'learning_rate': 2e-05, 'num_tokens': 10221120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7740625023841858, 'rewards/reward_total/std': 0.1735454946756363, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.18709976375102996, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3769327223300934, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24533893465995787, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.233437347412109, 'reward_std': 0.7100262761116027, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.7450830869376659, 'epoch': 14.22}\n",
            " 61% 915/1500 [49:40<27:57,  2.87s/it][grpo][step 915] KL ALARM: 0.757 > 0.300 - inspect generations.\n",
            "{'loss': 0.0151, 'grad_norm': 1.2265993356704712, 'learning_rate': 2e-05, 'num_tokens': 10277280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7896875143051147, 'rewards/reward_total/std': 0.15227362662553787, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.3219716787338257, 'rewards/reward_obs_syndrome_consistency/mean': 0.83125, 'rewards/reward_obs_syndrome_consistency/std': 0.23582330346107483, 'rewards/reward_obs_format_compliance/mean': 0.9125, 'rewards/reward_obs_format_compliance/std': 0.2781754910945892, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.277187490463257, 'reward_std': 0.6430414080619812, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.757110594958067, 'epoch': 14.3}\n",
            " 61% 920/1500 [49:54<27:15,  2.82s/it][grpo][step 920] KL ALARM: 0.615 > 0.300 - inspect generations.\n",
            "{'loss': 0.0123, 'grad_norm': 1.3519158363342285, 'learning_rate': 2e-05, 'num_tokens': 10333440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7521875143051148, 'rewards/reward_total/std': 0.19921984374523163, 'rewards/reward_obs_logical_correction/mean': 0.925, 'rewards/reward_obs_logical_correction/std': 0.22759357392787932, 'rewards/reward_obs_hamming_overlap/mean': 0.69375, 'rewards/reward_obs_hamming_overlap/std': 0.3991195261478424, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24875318706035615, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.16529493033885956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.127187633514405, 'reward_std': 0.9624011754989624, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.6151685591787099, 'epoch': 14.38}\n",
            " 62% 925/1500 [50:08<26:56,  2.81s/it][grpo][step 925] KL ALARM: 0.546 > 0.300 - inspect generations.\n",
            "{'loss': 0.0109, 'grad_norm': 1.0876567363739014, 'learning_rate': 2e-05, 'num_tokens': 10389600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7717187762260437, 'rewards/reward_total/std': 0.1760265976190567, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.21827148497104645, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3601685404777527, 'rewards/reward_obs_syndrome_consistency/mean': 0.7953125, 'rewards/reward_obs_syndrome_consistency/std': 0.24951257407665253, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.226406192779541, 'reward_std': 0.6603893876075745, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.5459632910788059, 'epoch': 14.45}\n",
            " 62% 930/1500 [50:22<26:45,  2.82s/it][grpo][step 930] KL ALARM: 0.554 > 0.300 - inspect generations.\n",
            "{'loss': 0.0111, 'grad_norm': 1.0714147090911865, 'learning_rate': 2e-05, 'num_tokens': 10445760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7989062428474426, 'rewards/reward_total/std': 0.16866749972105027, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19295812547206878, 'rewards/reward_obs_hamming_overlap/mean': 0.803125, 'rewards/reward_obs_hamming_overlap/std': 0.3233426332473755, 'rewards/reward_obs_syndrome_consistency/mean': 0.85, 'rewards/reward_obs_syndrome_consistency/std': 0.22841627895832062, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17326816618442537, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.358281230926513, 'reward_std': 0.7332204341888428, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.5544266685843467, 'epoch': 14.53}\n",
            " 62% 935/1500 [50:36<26:33,  2.82s/it][grpo][step 935] KL ALARM: 0.543 > 0.300 - inspect generations.\n",
            "{'loss': 0.0109, 'grad_norm': 1.208580493927002, 'learning_rate': 2e-05, 'num_tokens': 10501920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7967187643051148, 'rewards/reward_total/std': 0.15020831376314164, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.09458425343036651, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.3444479316473007, 'rewards/reward_obs_syndrome_consistency/mean': 0.8296875, 'rewards/reward_obs_syndrome_consistency/std': 0.23111922144889832, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.348281288146973, 'reward_std': 0.6512987613677979, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.5431167893111706, 'epoch': 14.61}\n",
            " 63% 940/1500 [50:50<26:16,  2.82s/it][grpo][step 940] KL ALARM: 0.465 > 0.300 - inspect generations.\n",
            "{'loss': 0.0093, 'grad_norm': 1.1104592084884644, 'learning_rate': 2e-05, 'num_tokens': 10558080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7753125071525574, 'rewards/reward_total/std': 0.16682057380676268, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3539669573307037, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24728128015995027, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.231562709808349, 'reward_std': 0.8304413676261901, 'frac_reward_zero_std': 0.025, 'completion_length': 50.0, 'kl': 0.46531045585870745, 'epoch': 14.69}\n",
            " 63% 945/1500 [51:04<26:00,  2.81s/it][grpo][step 945] KL ALARM: 0.519 > 0.300 - inspect generations.\n",
            "{'loss': 0.0104, 'grad_norm': 1.4098509550094604, 'learning_rate': 2e-05, 'num_tokens': 10614240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7775000095367431, 'rewards/reward_total/std': 0.1594160109758377, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.34906678199768065, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.24799343347549438, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.243124961853027, 'reward_std': 0.7112504720687867, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.5189328983426094, 'epoch': 14.77}\n",
            " 63% 950/1500 [51:19<26:16,  2.87s/it][grpo][step 950] KL ALARM: 0.503 > 0.300 - inspect generations.\n",
            "{'loss': 0.0101, 'grad_norm': 1.0351759195327759, 'learning_rate': 2e-05, 'num_tokens': 10670400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7625000238418579, 'rewards/reward_total/std': 0.1907501697540283, 'rewards/reward_obs_logical_correction/mean': 0.925, 'rewards/reward_obs_logical_correction/std': 0.2601602762937546, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3733337461948395, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.24743296205997467, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.184374904632568, 'reward_std': 0.8719318151473999, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.5033960342407227, 'epoch': 14.84}\n",
            " 64% 955/1500 [51:33<25:34,  2.82s/it][grpo][step 955] KL ALARM: 0.422 > 0.300 - inspect generations.\n",
            "{'loss': 0.0084, 'grad_norm': 0.9818931221961975, 'learning_rate': 2e-05, 'num_tokens': 10726560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7854687571525574, 'rewards/reward_total/std': 0.1655769795179367, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.35666854977607726, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24349232017993927, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.297968769073487, 'reward_std': 0.8045529127120972, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.4216214492917061, 'epoch': 14.92}\n",
            " 64% 960/1500 [51:47<25:18,  2.81s/it][grpo][step 960] KL ALARM: 0.416 > 0.300 - inspect generations.\n",
            "{'loss': 0.0083, 'grad_norm': 1.0115315914154053, 'learning_rate': 2e-05, 'num_tokens': 10782720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7703125, 'rewards/reward_total/std': 0.1699775993824005, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1475608080625534, 'rewards/reward_obs_hamming_overlap/mean': 0.70625, 'rewards/reward_obs_hamming_overlap/std': 0.3825939238071442, 'rewards/reward_obs_syndrome_consistency/mean': 0.790625, 'rewards/reward_obs_syndrome_consistency/std': 0.24904607534408568, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.217187595367432, 'reward_std': 0.8120391249656678, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.4163476724177599, 'epoch': 15.0}\n",
            " 64% 965/1500 [52:01<25:06,  2.82s/it][grpo][step 965] KL ALARM: 0.401 > 0.300 - inspect generations.\n",
            "{'loss': 0.008, 'grad_norm': 1.1995748281478882, 'learning_rate': 2e-05, 'num_tokens': 10838880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7782812476158142, 'rewards/reward_total/std': 0.16403468549251557, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.715625, 'rewards/reward_obs_hamming_overlap/std': 0.3820064067840576, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24413599967956542, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.250156307220459, 'reward_std': 0.7937738180160523, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.4013658188283443, 'epoch': 15.08}\n",
            " 65% 970/1500 [52:15<24:53,  2.82s/it][grpo][step 970] KL ALARM: 0.440 > 0.300 - inspect generations.\n",
            "{'loss': 0.0088, 'grad_norm': 0.9432777762413025, 'learning_rate': 2e-05, 'num_tokens': 10895040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7853124976158142, 'rewards/reward_total/std': 0.16583345532417298, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.37350350618362427, 'rewards/reward_obs_syndrome_consistency/mean': 0.8203125, 'rewards/reward_obs_syndrome_consistency/std': 0.24177171885967255, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.280625057220459, 'reward_std': 0.8033244490623475, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.4400683581829071, 'epoch': 15.16}\n",
            " 65% 975/1500 [52:29<24:36,  2.81s/it][grpo][step 975] KL ALARM: 0.409 > 0.300 - inspect generations.\n",
            "{'loss': 0.0082, 'grad_norm': 1.1283961534500122, 'learning_rate': 2e-05, 'num_tokens': 10951200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7521875143051148, 'rewards/reward_total/std': 0.20372312068939208, 'rewards/reward_obs_logical_correction/mean': 0.90625, 'rewards/reward_obs_logical_correction/std': 0.29200708866119385, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.37040711641311647, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.2467696726322174, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.145937442779541, 'reward_std': 0.86303231716156, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.4092413764446974, 'epoch': 15.23}\n",
            " 65% 980/1500 [52:43<24:20,  2.81s/it][grpo][step 980] KL ALARM: 0.383 > 0.300 - inspect generations.\n",
            "{'loss': 0.0077, 'grad_norm': 0.9044919610023499, 'learning_rate': 2e-05, 'num_tokens': 11007360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7793750047683716, 'rewards/reward_total/std': 0.1697636738419533, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.16764476597309114, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.34279813170433043, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24515655934810637, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.26687479019165, 'reward_std': 0.7195804476737976, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.3828949935734272, 'epoch': 15.31}\n",
            " 66% 985/1500 [52:57<23:55,  2.79s/it][grpo][step 985] KL ALARM: 0.378 > 0.300 - inspect generations.\n",
            "{'loss': 0.0076, 'grad_norm': 1.173643946647644, 'learning_rate': 2e-05, 'num_tokens': 11063520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7512499928474426, 'rewards/reward_total/std': 0.20557087361812593, 'rewards/reward_obs_logical_correction/mean': 0.9, 'rewards/reward_obs_logical_correction/std': 0.2947957247495651, 'rewards/reward_obs_hamming_overlap/mean': 0.71875, 'rewards/reward_obs_hamming_overlap/std': 0.3686000108718872, 'rewards/reward_obs_syndrome_consistency/mean': 0.7890625, 'rewards/reward_obs_syndrome_consistency/std': 0.24999713599681855, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.146562480926514, 'reward_std': 0.876227080821991, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.3782382678240538, 'epoch': 15.39}\n",
            " 66% 990/1500 [53:11<23:43,  2.79s/it][grpo][step 990] KL ALARM: 0.490 > 0.300 - inspect generations.\n",
            "{'loss': 0.0098, 'grad_norm': 0.7267982959747314, 'learning_rate': 2e-05, 'num_tokens': 11119680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7707812309265136, 'rewards/reward_total/std': 0.1646794706583023, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.14449108242988587, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.3498083114624023, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.24533893465995787, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.25011829733848573, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.189531230926514, 'reward_std': 0.7893360495567322, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.48955798633396624, 'epoch': 15.47}\n",
            " 66% 995/1500 [53:25<23:23,  2.78s/it][grpo][step 995] KL ALARM: 0.405 > 0.300 - inspect generations.\n",
            "{'loss': 0.0081, 'grad_norm': 0.7818419337272644, 'learning_rate': 2e-05, 'num_tokens': 11175840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7720312714576721, 'rewards/reward_total/std': 0.162077596783638, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3430762469768524, 'rewards/reward_obs_syndrome_consistency/mean': 0.784375, 'rewards/reward_obs_syndrome_consistency/std': 0.24687999188899995, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.14377118945121764, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.209531211853028, 'reward_std': 0.8068336606025696, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.4050602663308382, 'epoch': 15.55}\n",
            " 67% 999/1500 [53:36<23:13,  2.78s/it]\n",
            "[grpo-inspection] WARN @ step 1000: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@1000] logical_correction_rate=0.9600, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6150, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6150, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7875, episodes=200\n",
            " 67% 1000/1500 [54:18<2:00:14, 14.43s/it][grpo][step 1000] KL ALARM: 0.373 > 0.300 - inspect generations.\n",
            "{'loss': 0.0075, 'grad_norm': 0.9303041696548462, 'learning_rate': 2e-05, 'num_tokens': 11232000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7884374976158142, 'rewards/reward_total/std': 0.1605100601911545, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.33562750816345216, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.22475173324346542, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.313437461853027, 'reward_std': 0.6896357059478759, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.37290131375193597, 'epoch': 15.62}\n",
            " 67% 1005/1500 [54:32<39:40,  4.81s/it][grpo][step 1005] KL ALARM: 0.373 > 0.300 - inspect generations.\n",
            "{'loss': 0.0075, 'grad_norm': 0.7542211413383484, 'learning_rate': 2e-05, 'num_tokens': 11288160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7989062547683716, 'rewards/reward_total/std': 0.17087991237640382, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.3496715188026428, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.23421019017696382, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.377031326293945, 'reward_std': 0.6958750724792481, 'frac_reward_zero_std': 0.25, 'completion_length': 50.0, 'kl': 0.37288379296660423, 'epoch': 15.7}\n",
            " 67% 1010/1500 [54:46<25:41,  3.15s/it][grpo][step 1010] KL ALARM: 0.430 > 0.300 - inspect generations.\n",
            "{'loss': 0.0086, 'grad_norm': 1.0909181833267212, 'learning_rate': 2e-05, 'num_tokens': 11344320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8103124976158143, 'rewards/reward_total/std': 0.13462788760662078, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.7875, 'rewards/reward_obs_hamming_overlap/std': 0.3378748118877411, 'rewards/reward_obs_syndrome_consistency/mean': 0.840625, 'rewards/reward_obs_syndrome_consistency/std': 0.2341672033071518, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.407187557220459, 'reward_std': 0.6394746780395508, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.42990993447601794, 'epoch': 15.78}\n",
            " 68% 1015/1500 [55:00<23:14,  2.88s/it][grpo][step 1015] KL ALARM: 0.399 > 0.300 - inspect generations.\n",
            "{'loss': 0.008, 'grad_norm': 1.0356266498565674, 'learning_rate': 2e-05, 'num_tokens': 11400480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7904687523841858, 'rewards/reward_total/std': 0.16438713669776917, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.759375, 'rewards/reward_obs_hamming_overlap/std': 0.357044643163681, 'rewards/reward_obs_syndrome_consistency/mean': 0.8203125, 'rewards/reward_obs_syndrome_consistency/std': 0.2434411734342575, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.313906192779541, 'reward_std': 0.8028018951416016, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.39949735552072524, 'epoch': 15.86}\n",
            " 68% 1020/1500 [55:14<22:39,  2.83s/it][grpo][step 1020] KL ALARM: 0.488 > 0.300 - inspect generations.\n",
            "{'loss': 0.0098, 'grad_norm': 1.227257490158081, 'learning_rate': 2e-05, 'num_tokens': 11456640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7807812571525574, 'rewards/reward_total/std': 0.16371146738529205, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3425287395715714, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.2406759113073349, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.2483961045742035, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.237031173706055, 'reward_std': 0.7473251700401307, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.4875102832913399, 'epoch': 15.94}\n",
            " 68% 1025/1500 [55:29<22:22,  2.83s/it][grpo][step 1025] KL ALARM: 0.500 > 0.300 - inspect generations.\n",
            "{'loss': 0.01, 'grad_norm': 0.7893955111503601, 'learning_rate': 2e-05, 'num_tokens': 11512800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8017187476158142, 'rewards/reward_total/std': 0.14900063574314118, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.08454227447509766, 'rewards/reward_obs_hamming_overlap/mean': 0.790625, 'rewards/reward_obs_hamming_overlap/std': 0.32215147018432616, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23688695430755616, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.20371999740600585, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.345468902587891, 'reward_std': 0.666192764043808, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.5003502674400806, 'epoch': 16.02}\n",
            " 69% 1030/1500 [55:43<22:02,  2.81s/it][grpo][step 1030] KL ALARM: 0.513 > 0.300 - inspect generations.\n",
            "{'loss': 0.0103, 'grad_norm': 1.0127878189086914, 'learning_rate': 2e-05, 'num_tokens': 11568960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8028124809265137, 'rewards/reward_total/std': 0.14458963721990586, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.09458425343036651, 'rewards/reward_obs_hamming_overlap/mean': 0.79375, 'rewards/reward_obs_hamming_overlap/std': 0.3181712508201599, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23635593056678772, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.14377118945121764, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.368437480926514, 'reward_std': 0.7401992559432984, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.5125333365052939, 'epoch': 16.09}\n",
            " 69% 1035/1500 [55:57<21:40,  2.80s/it][grpo][step 1035] KL ALARM: 0.637 > 0.300 - inspect generations.\n",
            "{'loss': 0.0127, 'grad_norm': 0.7498803734779358, 'learning_rate': 2e-05, 'num_tokens': 11625120.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7662500143051147, 'rewards/reward_total/std': 0.18378103971481324, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.23210308253765105, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.35697509050369264, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24418250620365142, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.24632867872714997, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.172500038146973, 'reward_std': 0.8466535329818725, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.636828151345253, 'epoch': 16.17}\n",
            " 69% 1040/1500 [56:11<21:20,  2.78s/it][grpo][step 1040] KL ALARM: 0.578 > 0.300 - inspect generations.\n",
            "{'loss': 0.0116, 'grad_norm': 1.0869518518447876, 'learning_rate': 2e-05, 'num_tokens': 11681280.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7635937571525574, 'rewards/reward_total/std': 0.16481292396783828, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.709375, 'rewards/reward_obs_hamming_overlap/std': 0.3564326822757721, 'rewards/reward_obs_syndrome_consistency/mean': 0.778125, 'rewards/reward_obs_syndrome_consistency/std': 0.24609474539756776, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.2075096160173416, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.151093673706055, 'reward_std': 0.7999460101127625, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.5775421865284442, 'epoch': 16.25}\n",
            " 70% 1045/1500 [56:24<21:03,  2.78s/it][grpo][step 1045] KL ALARM: 0.513 > 0.300 - inspect generations.\n",
            "{'loss': 0.0103, 'grad_norm': 0.9275177717208862, 'learning_rate': 2e-05, 'num_tokens': 11737440.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7692187786102295, 'rewards/reward_total/std': 0.18167465329170226, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.23835544288158417, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.35200291872024536, 'rewards/reward_obs_syndrome_consistency/mean': 0.8046875, 'rewards/reward_obs_syndrome_consistency/std': 0.24633802175521852, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.21827148497104645, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2020313262939455, 'reward_std': 0.7498842120170593, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.5132388390600682, 'epoch': 16.33}\n",
            " 70% 1050/1500 [56:39<21:56,  2.93s/it][grpo][step 1050] KL ALARM: 0.555 > 0.300 - inspect generations.\n",
            "{'loss': 0.0111, 'grad_norm': 0.8784286975860596, 'learning_rate': 2e-05, 'num_tokens': 11793600.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8112500190734864, 'rewards/reward_total/std': 0.13318408876657487, 'rewards/reward_obs_logical_correction/mean': 1.0, 'rewards/reward_obs_logical_correction/std': 0.0, 'rewards/reward_obs_hamming_overlap/mean': 0.7875, 'rewards/reward_obs_hamming_overlap/std': 0.340739107131958, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.23262521922588347, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17326816618442537, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3987500190734865, 'reward_std': 0.6372328639030457, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.554660115391016, 'epoch': 16.41}\n",
            " 70% 1055/1500 [56:53<20:48,  2.81s/it][grpo][step 1055] KL ALARM: 0.529 > 0.300 - inspect generations.\n",
            "{'loss': 0.0106, 'grad_norm': 1.076219916343689, 'learning_rate': 2e-05, 'num_tokens': 11849760.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7850000023841858, 'rewards/reward_total/std': 0.16006625741720198, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.35189072489738465, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.2409750372171402, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.291249942779541, 'reward_std': 0.7322289228439331, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.5285872191190719, 'epoch': 16.48}\n",
            " 71% 1060/1500 [57:07<20:25,  2.79s/it][grpo][step 1060] KL ALARM: 0.553 > 0.300 - inspect generations.\n",
            "{'loss': 0.0111, 'grad_norm': 1.2310892343521118, 'learning_rate': 2e-05, 'num_tokens': 11905920.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7810937523841858, 'rewards/reward_total/std': 0.169504114985466, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.734375, 'rewards/reward_obs_hamming_overlap/std': 0.37334397435188293, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24382228553295135, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.274843788146972, 'reward_std': 0.7422511339187622, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.5525485031306744, 'epoch': 16.56}\n",
            " 71% 1065/1500 [57:21<20:20,  2.81s/it][grpo][step 1065] KL ALARM: 0.486 > 0.300 - inspect generations.\n",
            "{'loss': 0.0097, 'grad_norm': 0.7925800681114197, 'learning_rate': 2e-05, 'num_tokens': 11962080.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7932812571525574, 'rewards/reward_total/std': 0.16970259994268416, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.34895709753036497, 'rewards/reward_obs_syndrome_consistency/mean': 0.83125, 'rewards/reward_obs_syndrome_consistency/std': 0.23759910762310027, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.346406364440918, 'reward_std': 0.66145339012146, 'frac_reward_zero_std': 0.25, 'completion_length': 50.0, 'kl': 0.4863628260791302, 'epoch': 16.64}\n",
            " 71% 1070/1500 [57:35<20:07,  2.81s/it][grpo][step 1070] KL ALARM: 0.522 > 0.300 - inspect generations.\n",
            "{'loss': 0.0104, 'grad_norm': 1.1507974863052368, 'learning_rate': 2e-05, 'num_tokens': 12018240.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7856250166893005, 'rewards/reward_total/std': 0.16901808083057404, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3617367148399353, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.2419471710920334, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.295000076293945, 'reward_std': 0.7730984210968017, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.5216501571238041, 'epoch': 16.72}\n",
            " 72% 1075/1500 [57:49<19:56,  2.82s/it][grpo][step 1075] KL ALARM: 0.663 > 0.300 - inspect generations.\n",
            "{'loss': 0.0133, 'grad_norm': 1.00601065158844, 'learning_rate': 2e-05, 'num_tokens': 12074400.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.76796875, 'rewards/reward_total/std': 0.16999779045581817, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3565200209617615, 'rewards/reward_obs_syndrome_consistency/mean': 0.790625, 'rewards/reward_obs_syndrome_consistency/std': 0.2469675660133362, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.25011829733848573, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.174218654632568, 'reward_std': 0.7925722360610962, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.6629610538482666, 'epoch': 16.8}\n",
            " 72% 1080/1500 [58:03<19:29,  2.78s/it][grpo][step 1080] KL ALARM: 0.902 > 0.300 - inspect generations.\n",
            "{'loss': 0.018, 'grad_norm': 1.4457993507385254, 'learning_rate': 2e-05, 'num_tokens': 12130560.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7862500071525573, 'rewards/reward_total/std': 0.15030214488506316, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3770966768264771, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.24077522456645967, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.25011829733848573, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.255000019073487, 'reward_std': 0.7708734393119812, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.9015360541641713, 'epoch': 16.88}\n",
            " 72% 1085/1500 [58:17<19:18,  2.79s/it][grpo][step 1085] KL ALARM: 0.725 > 0.300 - inspect generations.\n",
            "{'loss': 0.0145, 'grad_norm': 1.5413415431976318, 'learning_rate': 2e-05, 'num_tokens': 12186720.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7748437523841858, 'rewards/reward_total/std': 0.16323037147521974, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.36132078766822817, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24937530755996704, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.21827148497104645, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.215468788146973, 'reward_std': 0.8070228934288025, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.7246159359812736, 'epoch': 16.95}\n",
            " 73% 1090/1500 [58:31<19:13,  2.81s/it][grpo][step 1090] KL ALARM: 0.797 > 0.300 - inspect generations.\n",
            "{'loss': 0.0159, 'grad_norm': 1.0438722372055054, 'learning_rate': 2e-05, 'num_tokens': 12242880.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7798437595367431, 'rewards/reward_total/std': 0.1680627539753914, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.3619846284389496, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24024736881256104, 'rewards/reward_obs_format_compliance/mean': 0.925, 'rewards/reward_obs_format_compliance/std': 0.25637065768241885, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.232968807220459, 'reward_std': 0.7709419012069703, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.7970908641815185, 'epoch': 17.03}\n",
            " 73% 1095/1500 [58:45<18:56,  2.81s/it][grpo][step 1095] KL ALARM: 1.046 > 0.300 - inspect generations.\n",
            "{'loss': 0.0209, 'grad_norm': 1.5564442873001099, 'learning_rate': 2e-05, 'num_tokens': 12299040.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7685937643051147, 'rewards/reward_total/std': 0.16140569746494293, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.715625, 'rewards/reward_obs_hamming_overlap/std': 0.3620119452476501, 'rewards/reward_obs_syndrome_consistency/mean': 0.784375, 'rewards/reward_obs_syndrome_consistency/std': 0.24967443346977233, 'rewards/reward_obs_format_compliance/mean': 0.93125, 'rewards/reward_obs_format_compliance/std': 0.22687368094921112, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.174843788146973, 'reward_std': 0.7879389524459839, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 1.0463365845382213, 'epoch': 17.11}\n",
            " 73% 1099/1500 [58:56<18:48,  2.81s/it]\n",
            "[grpo-inspection] WARN @ step 1100: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@1100] logical_correction_rate=0.9450, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.5650, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.5650, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7648, episodes=200\n",
            " 73% 1100/1500 [59:38<1:36:34, 14.49s/it][grpo][step 1100] KL ALARM: 0.729 > 0.300 - inspect generations.\n",
            "{'loss': 0.0146, 'grad_norm': 1.194692611694336, 'learning_rate': 2e-05, 'num_tokens': 12355200.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8020312786102295, 'rewards/reward_total/std': 0.14697689414024354, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.1414213538169861, 'rewards/reward_obs_hamming_overlap/mean': 0.796875, 'rewards/reward_obs_hamming_overlap/std': 0.303487104177475, 'rewards/reward_obs_syndrome_consistency/mean': 0.8265625, 'rewards/reward_obs_syndrome_consistency/std': 0.24222428500652313, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.362968635559082, 'reward_std': 0.7023332595825196, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.7291634529829025, 'epoch': 17.19}\n",
            " 74% 1105/1500 [59:52<31:34,  4.80s/it][grpo][step 1105] KL ALARM: 0.725 > 0.300 - inspect generations.\n",
            "{'loss': 0.0145, 'grad_norm': 3.3407771587371826, 'learning_rate': 2e-05, 'num_tokens': 12411360.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.78046875, 'rewards/reward_total/std': 0.15932224094867706, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.3434475541114807, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.24457633197307588, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.25546875, 'reward_std': 0.7868738770484924, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.7252643384039402, 'epoch': 17.27}\n",
            " 74% 1110/1500 [1:00:06<20:25,  3.14s/it][grpo][step 1110] KL ALARM: 0.647 > 0.300 - inspect generations.\n",
            "{'loss': 0.0129, 'grad_norm': 2.7809903621673584, 'learning_rate': 2e-05, 'num_tokens': 12467520.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7932812452316285, 'rewards/reward_total/std': 0.162164506316185, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.34488033056259154, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.24034703969955445, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.18291614651679994, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.318281364440918, 'reward_std': 0.7729601979255676, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.6466102451086044, 'epoch': 17.34}\n",
            " 74% 1115/1500 [1:00:21<18:25,  2.87s/it][grpo][step 1115] KL ALARM: 0.606 > 0.300 - inspect generations.\n",
            "{'loss': 0.0121, 'grad_norm': 2.842843770980835, 'learning_rate': 2e-05, 'num_tokens': 12523680.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7900000214576721, 'rewards/reward_total/std': 0.13345257192850113, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.32423365116119385, 'rewards/reward_obs_syndrome_consistency/mean': 0.7921875, 'rewards/reward_obs_syndrome_consistency/std': 0.24963410794734955, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.1690845489501953, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.288437557220459, 'reward_std': 0.7311829090118408, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.6056668814271688, 'epoch': 17.42}\n",
            " 75% 1120/1500 [1:00:35<17:48,  2.81s/it][grpo][step 1120] KL ALARM: 0.613 > 0.300 - inspect generations.\n",
            "{'loss': 0.0123, 'grad_norm': 1.673466682434082, 'learning_rate': 2e-05, 'num_tokens': 12579840.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8045312643051148, 'rewards/reward_total/std': 0.15161509215831756, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.796875, 'rewards/reward_obs_hamming_overlap/std': 0.3138429820537567, 'rewards/reward_obs_syndrome_consistency/mean': 0.840625, 'rewards/reward_obs_syndrome_consistency/std': 0.23098134398460388, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.39203109741211, 'reward_std': 0.6340393364429474, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.6131205543875694, 'epoch': 17.5}\n",
            " 75% 1125/1500 [1:00:49<17:32,  2.81s/it][grpo][step 1125] KL ALARM: 0.598 > 0.300 - inspect generations.\n",
            "{'loss': 0.012, 'grad_norm': 1.6000936031341553, 'learning_rate': 2e-05, 'num_tokens': 12636000.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7785937547683716, 'rewards/reward_total/std': 0.1595826894044876, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3568432927131653, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24637123346328735, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.256718635559082, 'reward_std': 0.7018113136291504, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.5979752227663994, 'epoch': 17.58}\n",
            " 75% 1130/1500 [1:01:03<17:17,  2.81s/it][grpo][step 1130] KL ALARM: 0.734 > 0.300 - inspect generations.\n",
            "{'loss': 0.0147, 'grad_norm': 1.9600281715393066, 'learning_rate': 2e-05, 'num_tokens': 12692160.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7635937571525574, 'rewards/reward_total/std': 0.18976095020771028, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.25597665905952455, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.35156654715538027, 'rewards/reward_obs_syndrome_consistency/mean': 0.790625, 'rewards/reward_obs_syndrome_consistency/std': 0.24517339766025542, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.188593769073487, 'reward_std': 0.8695864319801331, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.7343619354069233, 'epoch': 17.66}\n",
            " 76% 1135/1500 [1:01:17<17:05,  2.81s/it][grpo][step 1135] KL ALARM: 0.705 > 0.300 - inspect generations.\n",
            "{'loss': 0.0141, 'grad_norm': 1.6162381172180176, 'learning_rate': 2e-05, 'num_tokens': 12748320.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7746875047683716, 'rewards/reward_total/std': 0.17045284509658815, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3802016794681549, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24693044126033784, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.237187671661377, 'reward_std': 0.8026537775993348, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.7053678192198276, 'epoch': 17.73}\n",
            " 76% 1140/1500 [1:01:31<16:50,  2.81s/it][grpo][step 1140] KL ALARM: 0.602 > 0.300 - inspect generations.\n",
            "{'loss': 0.012, 'grad_norm': 1.905057430267334, 'learning_rate': 2e-05, 'num_tokens': 12804480.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7760937452316284, 'rewards/reward_total/std': 0.16778382062911987, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.721875, 'rewards/reward_obs_hamming_overlap/std': 0.3723243236541748, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24596802592277528, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.247968673706055, 'reward_std': 0.7288398623466492, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.6022299416363239, 'epoch': 17.81}\n",
            " 76% 1145/1500 [1:01:45<16:37,  2.81s/it][grpo][step 1145] KL ALARM: 0.547 > 0.300 - inspect generations.\n",
            "{'loss': 0.0109, 'grad_norm': 2.503805160522461, 'learning_rate': 2e-05, 'num_tokens': 12860640.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7650000095367432, 'rewards/reward_total/std': 0.16169749349355697, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.70625, 'rewards/reward_obs_hamming_overlap/std': 0.3558740735054016, 'rewards/reward_obs_syndrome_consistency/mean': 0.78125, 'rewards/reward_obs_syndrome_consistency/std': 0.24430534839630128, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.09458425343036651, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.183750057220459, 'reward_std': 0.7660260438919068, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.5473742581903934, 'epoch': 17.89}\n",
            " 77% 1150/1500 [1:01:59<16:42,  2.86s/it][grpo][step 1150] KL ALARM: 0.666 > 0.300 - inspect generations.\n",
            "{'loss': 0.0133, 'grad_norm': 0.9093382954597473, 'learning_rate': 2e-05, 'num_tokens': 12916800.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.784374988079071, 'rewards/reward_total/std': 0.1880173534154892, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.2521870404481888, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.35582002997398376, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.2342684358358383, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.312499904632569, 'reward_std': 0.709788191318512, 'frac_reward_zero_std': 0.25, 'completion_length': 50.0, 'kl': 0.6660564750432968, 'epoch': 17.97}\n",
            " 77% 1155/1500 [1:02:13<16:09,  2.81s/it][grpo][step 1155] KL ALARM: 0.707 > 0.300 - inspect generations.\n",
            "{'loss': 0.0141, 'grad_norm': 1.1000621318817139, 'learning_rate': 2e-05, 'num_tokens': 12972960.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7831250071525574, 'rewards/reward_total/std': 0.15817444920539855, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.39997535943984985, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.2439725786447525, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.12993959188461304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.264375019073486, 'reward_std': 0.7202987194061279, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.7067125603556633, 'epoch': 18.05}\n",
            " 77% 1160/1500 [1:02:27<15:48,  2.79s/it][grpo][step 1160] KL ALARM: 0.751 > 0.300 - inspect generations.\n",
            "{'loss': 0.015, 'grad_norm': 1.2850589752197266, 'learning_rate': 2e-05, 'num_tokens': 13029116.0, 'completions/mean_length': 49.975, 'completions/min_length': 49.2, 'completions/max_length': 50.0, 'completions/clipped_ratio': 0.99375, 'completions/mean_terminated_length': 9.2, 'completions/min_terminated_length': 9.2, 'completions/max_terminated_length': 9.2, 'rewards/reward_total/mean': 0.7828125119209289, 'rewards/reward_total/std': 0.17056164145469666, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.1538131684064865, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.365839684009552, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24183233976364135, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2765624046325685, 'reward_std': 0.7758658409118653, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.7505059041082859, 'epoch': 18.12}\n",
            " 78% 1165/1500 [1:02:41<15:33,  2.79s/it][grpo][step 1165] KL ALARM: 0.726 > 0.300 - inspect generations.\n",
            "{'loss': 0.0145, 'grad_norm': 0.9639705419540405, 'learning_rate': 2e-05, 'num_tokens': 13085276.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7520312666893005, 'rewards/reward_total/std': 0.18251402974128722, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.684375, 'rewards/reward_obs_hamming_overlap/std': 0.3840866506099701, 'rewards/reward_obs_syndrome_consistency/mean': 0.771875, 'rewards/reward_obs_syndrome_consistency/std': 0.2514909416437149, 'rewards/reward_obs_format_compliance/mean': 0.9625, 'rewards/reward_obs_format_compliance/std': 0.16529493033885956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.114531230926514, 'reward_std': 0.8540551662445068, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.725736715644598, 'epoch': 18.2}\n",
            " 78% 1170/1500 [1:02:55<15:28,  2.81s/it][grpo][step 1170] KL ALARM: 0.892 > 0.300 - inspect generations.\n",
            "{'loss': 0.0178, 'grad_norm': 0.8204985857009888, 'learning_rate': 2e-05, 'num_tokens': 13141436.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8124999880790711, 'rewards/reward_total/std': 0.13398030549287795, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.80625, 'rewards/reward_obs_hamming_overlap/std': 0.3145075500011444, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.23521493673324584, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2009313613176346, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.399999904632568, 'reward_std': 0.6304877042770386, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.8915004566311836, 'epoch': 18.28}\n",
            " 78% 1175/1500 [1:03:09<15:12,  2.81s/it][grpo][step 1175] KL ALARM: 0.722 > 0.300 - inspect generations.\n",
            "{'loss': 0.0144, 'grad_norm': 0.6462873220443726, 'learning_rate': 2e-05, 'num_tokens': 13197596.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8028125047683716, 'rewards/reward_total/std': 0.1416382908821106, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.34442636370658875, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23396185040473938, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.380937576293945, 'reward_std': 0.7012582540512085, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.7223397985100746, 'epoch': 18.36}\n",
            " 79% 1180/1500 [1:03:23<15:01,  2.82s/it][grpo][step 1180] KL ALARM: 0.561 > 0.300 - inspect generations.\n",
            "{'loss': 0.0112, 'grad_norm': 0.8542413115501404, 'learning_rate': 2e-05, 'num_tokens': 13253756.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7871875166893005, 'rewards/reward_total/std': 0.15431996881961824, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.10606601536273956, 'rewards/reward_obs_hamming_overlap/mean': 0.7375, 'rewards/reward_obs_hamming_overlap/std': 0.3599664866924286, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24536619186401368, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.293437480926514, 'reward_std': 0.7646668910980224, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.5605411045253277, 'epoch': 18.44}\n",
            " 79% 1185/1500 [1:03:37<14:44,  2.81s/it][grpo][step 1185] KL ALARM: 0.900 > 0.300 - inspect generations.\n",
            "{'loss': 0.018, 'grad_norm': 0.9822339415550232, 'learning_rate': 2e-05, 'num_tokens': 13309916.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7784374952316284, 'rewards/reward_total/std': 0.17854346334934235, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19295812547206878, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.3613781452178955, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24137632548809052, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.256562519073486, 'reward_std': 0.8496769309043884, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.8998487524688243, 'epoch': 18.52}\n",
            " 79% 1190/1500 [1:03:51<14:29,  2.80s/it][grpo][step 1190] KL ALARM: 0.770 > 0.300 - inspect generations.\n",
            "{'loss': 0.0154, 'grad_norm': 0.930289089679718, 'learning_rate': 2e-05, 'num_tokens': 13366076.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7779687523841858, 'rewards/reward_total/std': 0.16998628675937652, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.20300010442733765, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3394647896289825, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.2460666060447693, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.262343692779541, 'reward_std': 0.7614769697189331, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.7701632007956505, 'epoch': 18.59}\n",
            " 80% 1195/1500 [1:04:05<14:14,  2.80s/it][grpo][step 1195] KL ALARM: 0.660 > 0.300 - inspect generations.\n",
            "{'loss': 0.0132, 'grad_norm': 0.7951657772064209, 'learning_rate': 2e-05, 'num_tokens': 13422236.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7817187547683716, 'rewards/reward_total/std': 0.1576797991991043, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.32179314494132993, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24044525921344756, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2785937786102295, 'reward_std': 0.7569946765899658, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.6596651747822762, 'epoch': 18.67}\n",
            " 80% 1199/1500 [1:04:16<14:01,  2.80s/it]\n",
            "[grpo-inspection] WARN @ step 1200: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@1200] logical_correction_rate=0.9500, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6400, hard_syndrome_lcr=0.9000, syndrome_consistency_rate=0.6400, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7871, episodes=200\n",
            " 80% 1200/1500 [1:04:58<1:12:44, 14.55s/it][grpo][step 1200] KL ALARM: 0.830 > 0.300 - inspect generations.\n",
            "{'loss': 0.0166, 'grad_norm': 0.8227050304412842, 'learning_rate': 2e-05, 'num_tokens': 13478396.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8171875, 'rewards/reward_total/std': 0.12367468029260635, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.8125, 'rewards/reward_obs_hamming_overlap/std': 0.3034741699695587, 'rewards/reward_obs_syndrome_consistency/mean': 0.846875, 'rewards/reward_obs_syndrome_consistency/std': 0.22948120534420013, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.439062309265137, 'reward_std': 0.5697338461875916, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.8300632238388062, 'epoch': 18.75}\n",
            " 80% 1205/1500 [1:05:13<23:41,  4.82s/it][grpo][step 1205] KL ALARM: 0.761 > 0.300 - inspect generations.\n",
            "{'loss': 0.0152, 'grad_norm': 0.9192952513694763, 'learning_rate': 2e-05, 'num_tokens': 13534556.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7893750071525574, 'rewards/reward_total/std': 0.1680728167295456, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.3512734711170197, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23945470452308654, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.311250114440918, 'reward_std': 0.7581785678863525, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.761171092838049, 'epoch': 18.83}\n",
            " 81% 1210/1500 [1:05:27<15:10,  3.14s/it][grpo][step 1210] KL ALARM: 0.668 > 0.300 - inspect generations.\n",
            "{'loss': 0.0134, 'grad_norm': 0.7024816870689392, 'learning_rate': 2e-05, 'num_tokens': 13590716.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7550000190734864, 'rewards/reward_total/std': 0.18309161365032195, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.19674774408340454, 'rewards/reward_obs_hamming_overlap/mean': 0.6875, 'rewards/reward_obs_hamming_overlap/std': 0.3624303638935089, 'rewards/reward_obs_syndrome_consistency/mean': 0.759375, 'rewards/reward_obs_syndrome_consistency/std': 0.2525022208690643, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.13937520980835, 'reward_std': 0.7918247699737548, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.667901274561882, 'epoch': 18.91}\n",
            " 81% 1215/1500 [1:05:41<13:32,  2.85s/it][grpo][step 1215] KL ALARM: 0.827 > 0.300 - inspect generations.\n",
            "{'loss': 0.0165, 'grad_norm': 0.7050348520278931, 'learning_rate': 2e-05, 'num_tokens': 13646876.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8015625238418579, 'rewards/reward_total/std': 0.1589496150612831, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.79375, 'rewards/reward_obs_hamming_overlap/std': 0.3263198405504227, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.23196586072444916, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3765625, 'reward_std': 0.6147867649793625, 'frac_reward_zero_std': 0.275, 'completion_length': 50.0, 'kl': 0.8267977133393287, 'epoch': 18.98}\n",
            " 81% 1220/1500 [1:05:55<13:05,  2.81s/it][grpo][step 1220] KL ALARM: 0.786 > 0.300 - inspect generations.\n",
            "{'loss': 0.0157, 'grad_norm': 0.9068588018417358, 'learning_rate': 2e-05, 'num_tokens': 13703036.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7759374976158142, 'rewards/reward_total/std': 0.17169501781463622, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.3717028141021729, 'rewards/reward_obs_syndrome_consistency/mean': 0.8046875, 'rewards/reward_obs_syndrome_consistency/std': 0.2499915689229965, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1025574892759323, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.243125152587891, 'reward_std': 0.8134714245796204, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.7863113418221473, 'epoch': 19.06}\n",
            " 82% 1225/1500 [1:06:09<12:50,  2.80s/it][grpo][step 1225] KL ALARM: 0.806 > 0.300 - inspect generations.\n",
            "{'loss': 0.0161, 'grad_norm': 0.6358886957168579, 'learning_rate': 2e-05, 'num_tokens': 13759196.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7978124856948853, 'rewards/reward_total/std': 0.16420983374118805, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.344526481628418, 'rewards/reward_obs_syndrome_consistency/mean': 0.840625, 'rewards/reward_obs_syndrome_consistency/std': 0.23537315130233766, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.1414213538169861, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3571874618530275, 'reward_std': 0.6721756458282471, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.8059919998049736, 'epoch': 19.14}\n",
            " 82% 1230/1500 [1:06:23<12:35,  2.80s/it][grpo][step 1230] KL ALARM: 0.929 > 0.300 - inspect generations.\n",
            "{'loss': 0.0186, 'grad_norm': 0.5105199217796326, 'learning_rate': 2e-05, 'num_tokens': 13815356.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7714062452316284, 'rewards/reward_total/std': 0.16800673305988312, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1475608080625534, 'rewards/reward_obs_hamming_overlap/mean': 0.715625, 'rewards/reward_obs_hamming_overlap/std': 0.3709292232990265, 'rewards/reward_obs_syndrome_consistency/mean': 0.79375, 'rewards/reward_obs_syndrome_consistency/std': 0.24605108797550201, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1337292104959488, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.212031364440918, 'reward_std': 0.8324816584587097, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.9293721616268158, 'epoch': 19.22}\n",
            " 82% 1235/1500 [1:06:37<12:20,  2.80s/it][grpo][step 1235] KL ALARM: 0.644 > 0.300 - inspect generations.\n",
            "{'loss': 0.0129, 'grad_norm': 0.6420094966888428, 'learning_rate': 2e-05, 'num_tokens': 13871516.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.792187488079071, 'rewards/reward_total/std': 0.14381923973560334, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.08454227447509766, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3473684787750244, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.23797096610069274, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3203125, 'reward_std': 0.638746690750122, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.6439680904150009, 'epoch': 19.3}\n",
            " 83% 1240/1500 [1:06:51<12:08,  2.80s/it][grpo][step 1240] KL ALARM: 0.772 > 0.300 - inspect generations.\n",
            "{'loss': 0.0154, 'grad_norm': 1.3367719650268555, 'learning_rate': 2e-05, 'num_tokens': 13927676.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7762499928474427, 'rewards/reward_total/std': 0.17439993619918823, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20065026879310607, 'rewards/reward_obs_hamming_overlap/mean': 0.73125, 'rewards/reward_obs_hamming_overlap/std': 0.35934874415397644, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.24177476465702058, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.248124980926514, 'reward_std': 0.7797202706336975, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.7719760090112686, 'epoch': 19.38}\n",
            " 83% 1245/1500 [1:07:05<11:56,  2.81s/it][grpo][step 1245] KL ALARM: 0.632 > 0.300 - inspect generations.\n",
            "{'loss': 0.0126, 'grad_norm': 0.5485029220581055, 'learning_rate': 2e-05, 'num_tokens': 13983836.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7987500071525574, 'rewards/reward_total/std': 0.14989984184503555, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.11845782995224, 'rewards/reward_obs_hamming_overlap/mean': 0.7875, 'rewards/reward_obs_hamming_overlap/std': 0.3173093855381012, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.23598563373088838, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.370625114440918, 'reward_std': 0.6619099080562592, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.6319112330675125, 'epoch': 19.45}\n",
            " 83% 1250/1500 [1:07:19<12:18,  2.95s/it][grpo][step 1250] KL ALARM: 0.686 > 0.300 - inspect generations.\n",
            "{'loss': 0.0137, 'grad_norm': 0.9771508574485779, 'learning_rate': 2e-05, 'num_tokens': 14039996.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7817187309265137, 'rewards/reward_total/std': 0.16935955584049225, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17326816618442537, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.35683788657188414, 'rewards/reward_obs_syndrome_consistency/mean': 0.8078125, 'rewards/reward_obs_syndrome_consistency/std': 0.24631256759166717, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.049186936020851134, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.280156230926513, 'reward_std': 0.760350501537323, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.6858382269740104, 'epoch': 19.53}\n",
            " 84% 1255/1500 [1:07:33<11:35,  2.84s/it][grpo][step 1255] KL ALARM: 0.971 > 0.300 - inspect generations.\n",
            "{'loss': 0.0194, 'grad_norm': 0.8137330412864685, 'learning_rate': 2e-05, 'num_tokens': 14096156.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7656250238418579, 'rewards/reward_total/std': 0.1842492252588272, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.71875, 'rewards/reward_obs_hamming_overlap/std': 0.379888242483139, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24555499851703644, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.184375, 'reward_std': 0.8166262149810791, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.9709102869033813, 'epoch': 19.61}\n",
            " 84% 1260/1500 [1:07:47<11:12,  2.80s/it][grpo][step 1260] KL ALARM: 0.781 > 0.300 - inspect generations.\n",
            "{'loss': 0.0156, 'grad_norm': 0.6902388334274292, 'learning_rate': 2e-05, 'num_tokens': 14152316.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7987500190734863, 'rewards/reward_total/std': 0.16593077182769775, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.7875, 'rewards/reward_obs_hamming_overlap/std': 0.34112144112586973, 'rewards/reward_obs_syndrome_consistency/mean': 0.840625, 'rewards/reward_obs_syndrome_consistency/std': 0.2328865647315979, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.10841585099697112, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.358124923706055, 'reward_std': 0.7232208490371704, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.7806241117417813, 'epoch': 19.69}\n",
            " 84% 1265/1500 [1:08:01<10:54,  2.79s/it][grpo][step 1265] KL ALARM: 0.685 > 0.300 - inspect generations.\n",
            "{'loss': 0.0137, 'grad_norm': 0.4586311876773834, 'learning_rate': 2e-05, 'num_tokens': 14208476.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7825000047683716, 'rewards/reward_total/std': 0.17651250064373017, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.17561800181865692, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.35557073950767515, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24226088523864747, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.049186936020851134, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.295000171661377, 'reward_std': 0.7730515003204346, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.6849634639918805, 'epoch': 19.77}\n",
            " 85% 1270/1500 [1:08:15<10:43,  2.80s/it][grpo][step 1270] KL ALARM: 0.568 > 0.300 - inspect generations.\n",
            "{'loss': 0.0114, 'grad_norm': 0.6012998819351196, 'learning_rate': 2e-05, 'num_tokens': 14264636.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8043750166893006, 'rewards/reward_total/std': 0.13684623092412948, 'rewards/reward_obs_logical_correction/mean': 0.98125, 'rewards/reward_obs_logical_correction/std': 0.05922891497612, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.3262748658657074, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23106300532817842, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.388749885559082, 'reward_std': 0.5937643885612488, 'frac_reward_zero_std': 0.275, 'completion_length': 50.0, 'kl': 0.5676870256662369, 'epoch': 19.84}\n",
            " 85% 1275/1500 [1:08:29<10:28,  2.79s/it][grpo][step 1275] KL ALARM: 0.583 > 0.300 - inspect generations.\n",
            "{'loss': 0.0117, 'grad_norm': 0.617340624332428, 'learning_rate': 2e-05, 'num_tokens': 14320796.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7596875190734863, 'rewards/reward_total/std': 0.19224382638931276, 'rewards/reward_obs_logical_correction/mean': 0.93125, 'rewards/reward_obs_logical_correction/std': 0.25011829733848573, 'rewards/reward_obs_hamming_overlap/mean': 0.7, 'rewards/reward_obs_hamming_overlap/std': 0.38979735374450686, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.24258815348148347, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.18156247138977, 'reward_std': 0.8516054749488831, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.5831141173839569, 'epoch': 19.92}\n",
            " 85% 1280/1500 [1:08:43<10:14,  2.79s/it][grpo][step 1280] KL ALARM: 0.578 > 0.300 - inspect generations.\n",
            "{'loss': 0.0116, 'grad_norm': 0.5164880156517029, 'learning_rate': 2e-05, 'num_tokens': 14376956.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7676562428474426, 'rewards/reward_total/std': 0.1919780880212784, 'rewards/reward_obs_logical_correction/mean': 0.9125, 'rewards/reward_obs_logical_correction/std': 0.2709221482276917, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3318127006292343, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.24722956717014313, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.230156135559082, 'reward_std': 0.7267446517944336, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.5783112898468972, 'epoch': 20.0}\n",
            " 86% 1285/1500 [1:08:57<09:58,  2.79s/it][grpo][step 1285] KL ALARM: 0.614 > 0.300 - inspect generations.\n",
            "{'loss': 0.0123, 'grad_norm': 0.6769233345985413, 'learning_rate': 2e-05, 'num_tokens': 14433116.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7893749952316285, 'rewards/reward_total/std': 0.16448945701122283, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.1721542775630951, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.31629313826560973, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24256125390529631, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.333125019073487, 'reward_std': 0.7116723895072937, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.6135894693434238, 'epoch': 20.08}\n",
            " 86% 1290/1500 [1:09:11<09:45,  2.79s/it][grpo][step 1290] KL ALARM: 0.595 > 0.300 - inspect generations.\n",
            "{'loss': 0.0119, 'grad_norm': 0.5449346303939819, 'learning_rate': 2e-05, 'num_tokens': 14489276.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.77109375, 'rewards/reward_total/std': 0.16920616030693053, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.16178640425205232, 'rewards/reward_obs_hamming_overlap/mean': 0.728125, 'rewards/reward_obs_hamming_overlap/std': 0.3448954701423645, 'rewards/reward_obs_syndrome_consistency/mean': 0.7828125, 'rewards/reward_obs_syndrome_consistency/std': 0.24933498203754426, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.23203125, 'reward_std': 0.8038251519203186, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.595351429283619, 'epoch': 20.16}\n",
            " 86% 1295/1500 [1:09:25<09:33,  2.80s/it][grpo][step 1295] KL ALARM: 0.588 > 0.300 - inspect generations.\n",
            "{'loss': 0.0118, 'grad_norm': 0.5366074442863464, 'learning_rate': 2e-05, 'num_tokens': 14545436.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.774218738079071, 'rewards/reward_total/std': 0.1766716718673706, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.715625, 'rewards/reward_obs_hamming_overlap/std': 0.3895678579807281, 'rewards/reward_obs_syndrome_consistency/mean': 0.803125, 'rewards/reward_obs_syndrome_consistency/std': 0.24786150753498076, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.24921875, 'reward_std': 0.7755946755409241, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.5882732197642326, 'epoch': 20.23}\n",
            " 87% 1299/1500 [1:09:36<09:22,  2.80s/it]\n",
            "[grpo-inspection] WARN @ step 1300: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@1300] logical_correction_rate=0.9700, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6450, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6450, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7971, episodes=200\n",
            "[grpo][eval@1300] new best total_reward_mean=0.7971 (prev 0.7878); saving to checkpoints/grpo_final/best\n",
            " 87% 1300/1500 [1:10:19<49:14, 14.77s/it][grpo][step 1300] KL ALARM: 0.626 > 0.300 - inspect generations.\n",
            "{'loss': 0.0125, 'grad_norm': 0.42453449964523315, 'learning_rate': 2e-05, 'num_tokens': 14601596.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7926562666893006, 'rewards/reward_total/std': 0.14343822300434111, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.740625, 'rewards/reward_obs_hamming_overlap/std': 0.36258254051208494, 'rewards/reward_obs_syndrome_consistency/mean': 0.8125, 'rewards/reward_obs_syndrome_consistency/std': 0.23776761591434478, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.327031230926513, 'reward_std': 0.6254341661930084, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.6255865074694157, 'epoch': 20.31}\n",
            " 87% 1305/1500 [1:10:34<15:45,  4.85s/it][grpo][step 1305] KL ALARM: 0.626 > 0.300 - inspect generations.\n",
            "{'loss': 0.0125, 'grad_norm': 0.5839731097221375, 'learning_rate': 2e-05, 'num_tokens': 14657756.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7762500047683716, 'rewards/reward_total/std': 0.15486931800842285, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.7125, 'rewards/reward_obs_hamming_overlap/std': 0.3688048541545868, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.24536619186401368, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.244999980926513, 'reward_std': 0.7833090424537659, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.626412907242775, 'epoch': 20.39}\n",
            " 87% 1310/1500 [1:10:48<09:56,  3.14s/it][grpo][step 1310] KL ALARM: 0.682 > 0.300 - inspect generations.\n",
            "{'loss': 0.0136, 'grad_norm': 1.0529900789260864, 'learning_rate': 2e-05, 'num_tokens': 14713916.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7467187523841858, 'rewards/reward_total/std': 0.19579761624336242, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.24214506149291992, 'rewards/reward_obs_hamming_overlap/mean': 0.671875, 'rewards/reward_obs_hamming_overlap/std': 0.4018628716468811, 'rewards/reward_obs_syndrome_consistency/mean': 0.778125, 'rewards/reward_obs_syndrome_consistency/std': 0.2485806792974472, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.19295812547206878, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.084218692779541, 'reward_std': 0.9579055309295654, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 0.6816599369049072, 'epoch': 20.47}\n",
            " 88% 1315/1500 [1:11:02<08:47,  2.85s/it][grpo][step 1315] KL ALARM: 0.714 > 0.300 - inspect generations.\n",
            "{'loss': 0.0143, 'grad_norm': 0.7719445824623108, 'learning_rate': 2e-05, 'num_tokens': 14770076.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7896875143051147, 'rewards/reward_total/std': 0.16280780285596846, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.75, 'rewards/reward_obs_hamming_overlap/std': 0.3629863500595093, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.2412351191043854, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.31781234741211, 'reward_std': 0.7263453006744385, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.7138187617063523, 'epoch': 20.55}\n",
            " 88% 1320/1500 [1:11:15<08:23,  2.80s/it][grpo][step 1320] KL ALARM: 1.310 > 0.300 - inspect generations.\n",
            "{'loss': 0.0262, 'grad_norm': 0.7188395261764526, 'learning_rate': 2e-05, 'num_tokens': 14826236.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7903125166893006, 'rewards/reward_total/std': 0.16126652657985688, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.775, 'rewards/reward_obs_hamming_overlap/std': 0.33302032947540283, 'rewards/reward_obs_syndrome_consistency/mean': 0.8234375, 'rewards/reward_obs_syndrome_consistency/std': 0.24062583446502686, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.301249885559082, 'reward_std': 0.7543694615364075, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 1.3100318327546119, 'epoch': 20.62}\n",
            " 88% 1325/1500 [1:11:30<08:11,  2.81s/it][grpo][step 1325] KL ALARM: 0.766 > 0.300 - inspect generations.\n",
            "{'loss': 0.0153, 'grad_norm': 0.737027645111084, 'learning_rate': 2e-05, 'num_tokens': 14882396.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7935937643051147, 'rewards/reward_total/std': 0.15799695998430252, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1552529513835907, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.3341435372829437, 'rewards/reward_obs_syndrome_consistency/mean': 0.8203125, 'rewards/reward_obs_syndrome_consistency/std': 0.237358957529068, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.1414213538169861, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.329531288146972, 'reward_std': 0.6214347600936889, 'frac_reward_zero_std': 0.25, 'completion_length': 50.0, 'kl': 0.7659454062581063, 'epoch': 20.7}\n",
            " 89% 1330/1500 [1:11:44<07:57,  2.81s/it][grpo][step 1330] KL ALARM: 0.798 > 0.300 - inspect generations.\n",
            "{'loss': 0.016, 'grad_norm': 0.5855680108070374, 'learning_rate': 2e-05, 'num_tokens': 14938556.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7879687786102295, 'rewards/reward_total/std': 0.15404854267835616, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.07378040552139283, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.35574738383293153, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.23904250264167787, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1552529513835907, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.297343635559082, 'reward_std': 0.6995602369308471, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.7976267971098423, 'epoch': 20.78}\n",
            " 89% 1335/1500 [1:11:58<07:43,  2.81s/it][grpo][step 1335] KL ALARM: 1.470 > 0.300 - inspect generations.\n",
            "{'loss': 0.0294, 'grad_norm': 1.0973578691482544, 'learning_rate': 2e-05, 'num_tokens': 14994716.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.792187488079071, 'rewards/reward_total/std': 0.17047425508499145, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.370502769947052, 'rewards/reward_obs_syndrome_consistency/mean': 0.840625, 'rewards/reward_obs_syndrome_consistency/std': 0.23585465252399446, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.19295812547206878, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.3140625, 'reward_std': 0.7588533639907837, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 1.4698806829750537, 'epoch': 20.86}\n",
            " 89% 1340/1500 [1:12:12<07:27,  2.80s/it][grpo][step 1340] KL ALARM: 0.891 > 0.300 - inspect generations.\n",
            "{'loss': 0.0178, 'grad_norm': 0.6027427315711975, 'learning_rate': 2e-05, 'num_tokens': 15050876.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7950000047683716, 'rewards/reward_total/std': 0.1525474399328232, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.775, 'rewards/reward_obs_hamming_overlap/std': 0.3395357668399811, 'rewards/reward_obs_syndrome_consistency/mean': 0.8265625, 'rewards/reward_obs_syndrome_consistency/std': 0.2398137003183365, 'rewards/reward_obs_format_compliance/mean': 0.96875, 'rewards/reward_obs_format_compliance/std': 0.1337292104959488, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.334062767028809, 'reward_std': 0.7602526664733886, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.8911725677549839, 'epoch': 20.94}\n",
            " 90% 1345/1500 [1:12:26<07:13,  2.80s/it][grpo][step 1345] KL ALARM: 0.852 > 0.300 - inspect generations.\n",
            "{'loss': 0.017, 'grad_norm': 0.6351868510246277, 'learning_rate': 2e-05, 'num_tokens': 15107036.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7693750143051148, 'rewards/reward_total/std': 0.18635623753070832, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.21683170199394225, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3765609085559845, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24186048209667205, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.049186936020851134, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.225624942779541, 'reward_std': 0.8270071506500244, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.8518254831433296, 'epoch': 21.02}\n",
            " 90% 1350/1500 [1:12:40<07:06,  2.84s/it][grpo][step 1350] KL ALARM: 1.307 > 0.300 - inspect generations.\n",
            "{'loss': 0.0261, 'grad_norm': 0.5470308661460876, 'learning_rate': 2e-05, 'num_tokens': 15163196.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7799999952316284, 'rewards/reward_total/std': 0.16615930795669556, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.3520134031772614, 'rewards/reward_obs_syndrome_consistency/mean': 0.80625, 'rewards/reward_obs_syndrome_consistency/std': 0.24477422535419463, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.267499828338623, 'reward_std': 0.6777685165405274, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 1.3068804755806922, 'epoch': 21.09}\n",
            " 90% 1355/1500 [1:12:54<06:47,  2.81s/it][grpo][step 1355] KL ALARM: 0.847 > 0.300 - inspect generations.\n",
            "{'loss': 0.0169, 'grad_norm': 0.6530712246894836, 'learning_rate': 2e-05, 'num_tokens': 15219356.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7971874952316285, 'rewards/reward_total/std': 0.15767724364995955, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.10841585099697112, 'rewards/reward_obs_hamming_overlap/mean': 0.775, 'rewards/reward_obs_hamming_overlap/std': 0.3487551510334015, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23635593056678772, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.1414213538169861, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.350312519073486, 'reward_std': 0.6965229511260986, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.8468030899763107, 'epoch': 21.17}\n",
            " 91% 1360/1500 [1:13:08<06:33,  2.81s/it][grpo][step 1360] KL ALARM: 1.059 > 0.300 - inspect generations.\n",
            "{'loss': 0.0212, 'grad_norm': 0.9947993755340576, 'learning_rate': 2e-05, 'num_tokens': 15275516.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7753125071525574, 'rewards/reward_total/std': 0.17622610926628113, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.20371999740600585, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.34875927567481996, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24137632548809052, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.259687519073486, 'reward_std': 0.7483427822589874, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 1.058869720995426, 'epoch': 21.25}\n",
            " 91% 1365/1500 [1:13:22<06:18,  2.81s/it][grpo][step 1365] KL ALARM: 1.691 > 0.300 - inspect generations.\n",
            "{'loss': 0.0338, 'grad_norm': 0.6689929962158203, 'learning_rate': 2e-05, 'num_tokens': 15331676.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7704687714576721, 'rewards/reward_total/std': 0.16290052384138107, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.16529493033885956, 'rewards/reward_obs_hamming_overlap/mean': 0.721875, 'rewards/reward_obs_hamming_overlap/std': 0.3682754456996918, 'rewards/reward_obs_syndrome_consistency/mean': 0.796875, 'rewards/reward_obs_syndrome_consistency/std': 0.2477838009595871, 'rewards/reward_obs_format_compliance/mean': 0.9375, 'rewards/reward_obs_format_compliance/std': 0.23249708116054535, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.1892187118530275, 'reward_std': 0.7814699530601501, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 1.6907444417476654, 'epoch': 21.33}\n",
            " 91% 1370/1500 [1:13:36<06:04,  2.80s/it][grpo][step 1370] KL ALARM: 1.403 > 0.300 - inspect generations.\n",
            "{'loss': 0.0281, 'grad_norm': 0.4934408664703369, 'learning_rate': 2e-05, 'num_tokens': 15387836.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7860937476158142, 'rewards/reward_total/std': 0.1668894737958908, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.20443988740444183, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.3260295450687408, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24513553977012634, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.298593807220459, 'reward_std': 0.6862440407276154, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 1.402956548333168, 'epoch': 21.41}\n",
            " 92% 1375/1500 [1:13:50<05:51,  2.81s/it][grpo][step 1375] KL ALARM: 1.047 > 0.300 - inspect generations.\n",
            "{'loss': 0.0209, 'grad_norm': 0.5396324396133423, 'learning_rate': 2e-05, 'num_tokens': 15443996.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8021874785423279, 'rewards/reward_total/std': 0.16769703477621078, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.20300010442733765, 'rewards/reward_obs_hamming_overlap/mean': 0.8125, 'rewards/reward_obs_hamming_overlap/std': 0.3071254104375839, 'rewards/reward_obs_syndrome_consistency/mean': 0.853125, 'rewards/reward_obs_syndrome_consistency/std': 0.22770412564277648, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.10606601536273956, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.392812442779541, 'reward_std': 0.6864384055137634, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 1.0466793179512024, 'epoch': 21.48}\n",
            " 92% 1380/1500 [1:14:04<05:34,  2.79s/it][grpo][step 1380] KL ALARM: 0.696 > 0.300 - inspect generations.\n",
            "{'loss': 0.0139, 'grad_norm': 0.49122411012649536, 'learning_rate': 2e-05, 'num_tokens': 15500156.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7660937666893005, 'rewards/reward_total/std': 0.16642462313175202, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.19060828983783723, 'rewards/reward_obs_hamming_overlap/mean': 0.696875, 'rewards/reward_obs_hamming_overlap/std': 0.373737108707428, 'rewards/reward_obs_syndrome_consistency/mean': 0.775, 'rewards/reward_obs_syndrome_consistency/std': 0.252203094959259, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.20046854019165, 'reward_std': 0.7756213307380676, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 0.6959245026111602, 'epoch': 21.56}\n",
            " 92% 1385/1500 [1:14:18<05:19,  2.78s/it][grpo][step 1385] KL ALARM: 0.740 > 0.300 - inspect generations.\n",
            "{'loss': 0.0148, 'grad_norm': 1.0078884363174438, 'learning_rate': 2e-05, 'num_tokens': 15556316.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7846874952316284, 'rewards/reward_total/std': 0.1727692097425461, 'rewards/reward_obs_logical_correction/mean': 0.95, 'rewards/reward_obs_logical_correction/std': 0.2144818663597107, 'rewards/reward_obs_hamming_overlap/mean': 0.75625, 'rewards/reward_obs_hamming_overlap/std': 0.35040218830108644, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24279190599918365, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.306562519073486, 'reward_std': 0.7592401504516602, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.7398858278989792, 'epoch': 21.64}\n",
            " 93% 1390/1500 [1:14:32<05:14,  2.86s/it][grpo][step 1390] KL ALARM: 0.734 > 0.300 - inspect generations.\n",
            "{'loss': 0.0147, 'grad_norm': 0.41364943981170654, 'learning_rate': 2e-05, 'num_tokens': 15612476.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7932812571525574, 'rewards/reward_total/std': 0.1562098890542984, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.09837387204170227, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3605444014072418, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.24362173974514006, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.340156173706054, 'reward_std': 0.6406728148460388, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 0.7341680943965911, 'epoch': 21.72}\n",
            " 93% 1395/1500 [1:14:46<04:54,  2.81s/it][grpo][step 1395] KL ALARM: 0.668 > 0.300 - inspect generations.\n",
            "{'loss': 0.0134, 'grad_norm': 0.5940254926681519, 'learning_rate': 2e-05, 'num_tokens': 15668636.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7995312571525574, 'rewards/reward_total/std': 0.149452368915081, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.778125, 'rewards/reward_obs_hamming_overlap/std': 0.3280132830142975, 'rewards/reward_obs_syndrome_consistency/mean': 0.825, 'rewards/reward_obs_syndrome_consistency/std': 0.24023533165454863, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.365156173706055, 'reward_std': 0.6755539178848267, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.6681318484246731, 'epoch': 21.8}\n",
            " 93% 1399/1500 [1:14:58<04:43,  2.81s/it]\n",
            "[grpo-inspection] WARN @ step 1400: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@1400] logical_correction_rate=0.9600, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6150, hard_syndrome_lcr=1.0000, syndrome_consistency_rate=0.6150, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7838, episodes=200\n",
            " 93% 1400/1500 [1:15:39<24:09, 14.49s/it][grpo][step 1400] KL ALARM: 0.857 > 0.300 - inspect generations.\n",
            "{'loss': 0.0171, 'grad_norm': 0.7075225710868835, 'learning_rate': 2e-05, 'num_tokens': 15724796.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7959375023841858, 'rewards/reward_total/std': 0.16662717759609222, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.3402061402797699, 'rewards/reward_obs_syndrome_consistency/mean': 0.8328125, 'rewards/reward_obs_syndrome_consistency/std': 0.24034917056560517, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.360000038146973, 'reward_std': 0.7397422373294831, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.8565801501274108, 'epoch': 21.88}\n",
            " 94% 1405/1500 [1:15:54<07:37,  4.81s/it][grpo][step 1405] KL ALARM: 1.358 > 0.300 - inspect generations.\n",
            "{'loss': 0.0272, 'grad_norm': 0.5719002485275269, 'learning_rate': 2e-05, 'num_tokens': 15780956.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.78203125, 'rewards/reward_total/std': 0.1735154539346695, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.18291614651679994, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.35622358322143555, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24224016070365906, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.27578125, 'reward_std': 0.7623908162117005, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 1.3584539212286473, 'epoch': 21.95}\n",
            " 94% 1410/1500 [1:16:08<04:42,  3.14s/it][grpo][step 1410] KL ALARM: 1.652 > 0.300 - inspect generations.\n",
            "{'loss': 0.033, 'grad_norm': 0.7441402673721313, 'learning_rate': 2e-05, 'num_tokens': 15837116.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7756249904632568, 'rewards/reward_total/std': 0.15211971700191498, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.09458425343036651, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3385211408138275, 'rewards/reward_obs_syndrome_consistency/mean': 0.778125, 'rewards/reward_obs_syndrome_consistency/std': 0.2508891075849533, 'rewards/reward_obs_format_compliance/mean': 0.975, 'rewards/reward_obs_format_compliance/std': 0.11989761292934417, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.228749847412109, 'reward_std': 0.7482692122459411, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 1.6520588018000126, 'epoch': 22.03}\n",
            " 94% 1415/1500 [1:16:22<04:03,  2.86s/it][grpo][step 1415] KL ALARM: 1.619 > 0.300 - inspect generations.\n",
            "{'loss': 0.0324, 'grad_norm': 0.8782316446304321, 'learning_rate': 2e-05, 'num_tokens': 15893276.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7487499952316284, 'rewards/reward_total/std': 0.181797394156456, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.68125, 'rewards/reward_obs_hamming_overlap/std': 0.3713541626930237, 'rewards/reward_obs_syndrome_consistency/mean': 0.7625, 'rewards/reward_obs_syndrome_consistency/std': 0.25218850672245025, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.092500019073486, 'reward_std': 0.8152814149856568, 'frac_reward_zero_std': 0.1, 'completion_length': 50.0, 'kl': 1.6191884227097035, 'epoch': 22.11}\n",
            " 95% 1420/1500 [1:16:36<03:45,  2.82s/it][grpo][step 1420] KL ALARM: 3.225 > 0.300 - inspect generations.\n",
            "{'loss': 0.0645, 'grad_norm': 0.9883185625076294, 'learning_rate': 2e-05, 'num_tokens': 15949436.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7571874976158142, 'rewards/reward_total/std': 0.1736918419599533, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.1538131684064865, 'rewards/reward_obs_hamming_overlap/mean': 0.7, 'rewards/reward_obs_hamming_overlap/std': 0.38178507089614866, 'rewards/reward_obs_syndrome_consistency/mean': 0.784375, 'rewards/reward_obs_syndrome_consistency/std': 0.24919351935386658, 'rewards/reward_obs_format_compliance/mean': 0.90625, 'rewards/reward_obs_format_compliance/std': 0.288543364405632, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.10406265258789, 'reward_std': 0.9176977515220642, 'frac_reward_zero_std': 0.05, 'completion_length': 50.0, 'kl': 3.2251009553670884, 'epoch': 22.19}\n",
            " 95% 1425/1500 [1:16:50<03:31,  2.82s/it][grpo][step 1425] KL ALARM: 1.804 > 0.300 - inspect generations.\n",
            "{'loss': 0.0361, 'grad_norm': 1.3688862323760986, 'learning_rate': 2e-05, 'num_tokens': 16005596.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8054687738418579, 'rewards/reward_total/std': 0.1469314068555832, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.1414213538169861, 'rewards/reward_obs_hamming_overlap/mean': 0.796875, 'rewards/reward_obs_hamming_overlap/std': 0.3132062077522278, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.2387215316295624, 'rewards/reward_obs_format_compliance/mean': 0.98125, 'rewards/reward_obs_format_compliance/std': 0.08454227447509766, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.392968845367432, 'reward_std': 0.6714488387107849, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 1.804024588316679, 'epoch': 22.27}\n",
            " 95% 1430/1500 [1:17:04<03:16,  2.81s/it][grpo][step 1430] KL ALARM: 1.282 > 0.300 - inspect generations.\n",
            "{'loss': 0.0256, 'grad_norm': 0.9225649833679199, 'learning_rate': 2e-05, 'num_tokens': 16061756.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7754687547683716, 'rewards/reward_total/std': 0.17571927905082702, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.20300010442733765, 'rewards/reward_obs_hamming_overlap/mean': 0.746875, 'rewards/reward_obs_hamming_overlap/std': 0.33274019360542295, 'rewards/reward_obs_syndrome_consistency/mean': 0.7953125, 'rewards/reward_obs_syndrome_consistency/std': 0.2505273848772049, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.255156230926514, 'reward_std': 0.7596945524215698, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 1.2818949207663537, 'epoch': 22.34}\n",
            " 96% 1435/1500 [1:17:18<03:02,  2.81s/it][grpo][step 1435] KL ALARM: 0.907 > 0.300 - inspect generations.\n",
            "{'loss': 0.0181, 'grad_norm': 1.9307011365890503, 'learning_rate': 2e-05, 'num_tokens': 16117916.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7931250095367431, 'rewards/reward_total/std': 0.13814897388219832, 'rewards/reward_obs_logical_correction/mean': 0.99375, 'rewards/reward_obs_logical_correction/std': 0.03535533845424652, 'rewards/reward_obs_hamming_overlap/mean': 0.74375, 'rewards/reward_obs_hamming_overlap/std': 0.3430699288845062, 'rewards/reward_obs_syndrome_consistency/mean': 0.8, 'rewards/reward_obs_syndrome_consistency/std': 0.24769430756568908, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.324374866485596, 'reward_std': 0.6710195660591125, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.9069676995277405, 'epoch': 22.42}\n",
            " 96% 1440/1500 [1:17:32<02:48,  2.81s/it][grpo][step 1440] KL ALARM: 1.086 > 0.300 - inspect generations.\n",
            "{'loss': 0.0217, 'grad_norm': 1.5392402410507202, 'learning_rate': 2e-05, 'num_tokens': 16174076.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7978125095367432, 'rewards/reward_total/std': 0.13752336502075196, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.049186936020851134, 'rewards/reward_obs_hamming_overlap/mean': 0.76875, 'rewards/reward_obs_hamming_overlap/std': 0.3257960855960846, 'rewards/reward_obs_syndrome_consistency/mean': 0.81875, 'rewards/reward_obs_syndrome_consistency/std': 0.2395605504512787, 'rewards/reward_obs_format_compliance/mean': 0.95625, 'rewards/reward_obs_format_compliance/std': 0.17912652790546418, 'rewards/reward_obs_pymatching_beat/mean': 0.00625, 'rewards/reward_obs_pymatching_beat/std': 0.03535533845424652, 'reward': 4.3353126525878904, 'reward_std': 0.6841232776641846, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 1.0859578490257262, 'epoch': 22.5}\n",
            " 96% 1445/1500 [1:17:47<02:35,  2.82s/it][grpo][step 1445] KL ALARM: 1.009 > 0.300 - inspect generations.\n",
            "{'loss': 0.0202, 'grad_norm': 0.9369542002677917, 'learning_rate': 2e-05, 'num_tokens': 16230236.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7910937547683716, 'rewards/reward_total/std': 0.16119328439235686, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.12993959188461304, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.35515273213386533, 'rewards/reward_obs_syndrome_consistency/mean': 0.828125, 'rewards/reward_obs_syndrome_consistency/std': 0.2376508206129074, 'rewards/reward_obs_format_compliance/mean': 0.95, 'rewards/reward_obs_format_compliance/std': 0.18709976375102996, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.303593730926513, 'reward_std': 0.7596693754196167, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 1.0089188143610954, 'epoch': 22.58}\n",
            " 97% 1450/1500 [1:18:01<02:23,  2.87s/it][grpo][step 1450] KL ALARM: 0.716 > 0.300 - inspect generations.\n",
            "{'loss': 0.0143, 'grad_norm': 0.4694187045097351, 'learning_rate': 2e-05, 'num_tokens': 16286396.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8089062809944153, 'rewards/reward_total/std': 0.15704819262027742, 'rewards/reward_obs_logical_correction/mean': 0.975, 'rewards/reward_obs_logical_correction/std': 0.11989761292934417, 'rewards/reward_obs_hamming_overlap/mean': 0.790625, 'rewards/reward_obs_hamming_overlap/std': 0.34945067167282107, 'rewards/reward_obs_syndrome_consistency/mean': 0.85, 'rewards/reward_obs_syndrome_consistency/std': 0.23238980174064636, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.424531364440918, 'reward_std': 0.702599573135376, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.7159259587526321, 'epoch': 22.66}\n",
            " 97% 1455/1500 [1:18:15<02:06,  2.82s/it][grpo][step 1455] KL ALARM: 0.713 > 0.300 - inspect generations.\n",
            "{'loss': 0.0143, 'grad_norm': 0.5104221105575562, 'learning_rate': 2e-05, 'num_tokens': 16342556.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.8034374952316284, 'rewards/reward_total/std': 0.15890905857086182, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.14377118945121764, 'rewards/reward_obs_hamming_overlap/mean': 0.79375, 'rewards/reward_obs_hamming_overlap/std': 0.3347751498222351, 'rewards/reward_obs_syndrome_consistency/mean': 0.84375, 'rewards/reward_obs_syndrome_consistency/std': 0.23173589408397674, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.397187519073486, 'reward_std': 0.6817985653877259, 'frac_reward_zero_std': 0.25, 'completion_length': 50.0, 'kl': 0.7133311316370964, 'epoch': 22.73}\n",
            " 97% 1460/1500 [1:18:29<01:52,  2.81s/it][grpo][step 1460] KL ALARM: 0.683 > 0.300 - inspect generations.\n",
            "{'loss': 0.0137, 'grad_norm': 0.6573737859725952, 'learning_rate': 2e-05, 'num_tokens': 16398716.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7826562523841858, 'rewards/reward_total/std': 0.17612999975681304, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.2362866997718811, 'rewards/reward_obs_hamming_overlap/mean': 0.765625, 'rewards/reward_obs_hamming_overlap/std': 0.3351370930671692, 'rewards/reward_obs_syndrome_consistency/mean': 0.815625, 'rewards/reward_obs_syndrome_consistency/std': 0.24091679155826567, 'rewards/reward_obs_format_compliance/mean': 1.0, 'rewards/reward_obs_format_compliance/std': 0.0, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.301406288146973, 'reward_std': 0.7236026287078857, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.682561632990837, 'epoch': 22.81}\n",
            " 98% 1465/1500 [1:18:43<01:38,  2.81s/it][grpo][step 1465] KL ALARM: 0.640 > 0.300 - inspect generations.\n",
            "{'loss': 0.0128, 'grad_norm': 0.6698185801506042, 'learning_rate': 2e-05, 'num_tokens': 16454876.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7776562452316285, 'rewards/reward_total/std': 0.18007733523845673, 'rewards/reward_obs_logical_correction/mean': 0.9375, 'rewards/reward_obs_logical_correction/std': 0.2051149785518646, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3463393092155457, 'rewards/reward_obs_syndrome_consistency/mean': 0.809375, 'rewards/reward_obs_syndrome_consistency/std': 0.24533893465995787, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.271406269073486, 'reward_std': 0.7658750653266907, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.6396588295698166, 'epoch': 22.89}\n",
            " 98% 1470/1500 [1:18:57<01:24,  2.82s/it][grpo][step 1470] KL ALARM: 0.731 > 0.300 - inspect generations.\n",
            "{'loss': 0.0146, 'grad_norm': 0.4739859700202942, 'learning_rate': 2e-05, 'num_tokens': 16511036.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7926562547683715, 'rewards/reward_total/std': 0.174279648065567, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.784375, 'rewards/reward_obs_hamming_overlap/std': 0.33847378492355346, 'rewards/reward_obs_syndrome_consistency/mean': 0.8375, 'rewards/reward_obs_syndrome_consistency/std': 0.2310034453868866, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.345781326293945, 'reward_std': 0.7617215752601624, 'frac_reward_zero_std': 0.15, 'completion_length': 50.0, 'kl': 0.7314790353178978, 'epoch': 22.97}\n",
            " 98% 1475/1500 [1:19:11<01:10,  2.82s/it][grpo][step 1475] KL ALARM: 0.935 > 0.300 - inspect generations.\n",
            "{'loss': 0.0187, 'grad_norm': 0.5521063804626465, 'learning_rate': 2e-05, 'num_tokens': 16567196.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7721874833106994, 'rewards/reward_total/std': 0.1642629861831665, 'rewards/reward_obs_logical_correction/mean': 0.95625, 'rewards/reward_obs_logical_correction/std': 0.17912652790546418, 'rewards/reward_obs_hamming_overlap/mean': 0.725, 'rewards/reward_obs_hamming_overlap/std': 0.3458476185798645, 'rewards/reward_obs_syndrome_consistency/mean': 0.784375, 'rewards/reward_obs_syndrome_consistency/std': 0.2462182879447937, 'rewards/reward_obs_format_compliance/mean': 0.99375, 'rewards/reward_obs_format_compliance/std': 0.03535533845424652, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2315624237060545, 'reward_std': 0.7244516015052795, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.9348469659686088, 'epoch': 23.05}\n",
            " 99% 1480/1500 [1:19:25<00:56,  2.81s/it][grpo][step 1480] KL ALARM: 0.941 > 0.300 - inspect generations.\n",
            "{'loss': 0.0188, 'grad_norm': 0.603971540927887, 'learning_rate': 2e-05, 'num_tokens': 16623356.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7623437762260437, 'rewards/reward_total/std': 0.18171192705631256, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2283134639263153, 'rewards/reward_obs_hamming_overlap/mean': 0.703125, 'rewards/reward_obs_hamming_overlap/std': 0.3748575747013092, 'rewards/reward_obs_syndrome_consistency/mean': 0.7875, 'rewards/reward_obs_syndrome_consistency/std': 0.24553948044776916, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.07071067690849304, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.184218692779541, 'reward_std': 0.8046533823013305, 'frac_reward_zero_std': 0.125, 'completion_length': 50.0, 'kl': 0.9412967011332511, 'epoch': 23.12}\n",
            " 99% 1485/1500 [1:19:39<00:42,  2.80s/it][grpo][step 1485] KL ALARM: 0.885 > 0.300 - inspect generations.\n",
            "{'loss': 0.0177, 'grad_norm': 1.5812718868255615, 'learning_rate': 2e-05, 'num_tokens': 16679516.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.767968761920929, 'rewards/reward_total/std': 0.1683862626552582, 'rewards/reward_obs_logical_correction/mean': 0.9625, 'rewards/reward_obs_logical_correction/std': 0.1690845489501953, 'rewards/reward_obs_hamming_overlap/mean': 0.703125, 'rewards/reward_obs_hamming_overlap/std': 0.37639760971069336, 'rewards/reward_obs_syndrome_consistency/mean': 0.7828125, 'rewards/reward_obs_syndrome_consistency/std': 0.25027517676353456, 'rewards/reward_obs_format_compliance/mean': 0.9875, 'rewards/reward_obs_format_compliance/std': 0.049186936020851134, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2039063453674315, 'reward_std': 0.826121473312378, 'frac_reward_zero_std': 0.075, 'completion_length': 50.0, 'kl': 0.8846790090203285, 'epoch': 23.2}\n",
            " 99% 1490/1500 [1:19:53<00:28,  2.81s/it][grpo][step 1490] KL ALARM: 1.219 > 0.300 - inspect generations.\n",
            "{'loss': 0.0244, 'grad_norm': 1.0547102689743042, 'learning_rate': 2e-05, 'num_tokens': 16735676.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.796875, 'rewards/reward_total/std': 0.15808898210525513, 'rewards/reward_obs_logical_correction/mean': 0.96875, 'rewards/reward_obs_logical_correction/std': 0.1337292104959488, 'rewards/reward_obs_hamming_overlap/mean': 0.78125, 'rewards/reward_obs_hamming_overlap/std': 0.3412117600440979, 'rewards/reward_obs_syndrome_consistency/mean': 0.840625, 'rewards/reward_obs_syndrome_consistency/std': 0.23089646100997924, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.2283134639263153, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.33125, 'reward_std': 0.6456985354423523, 'frac_reward_zero_std': 0.225, 'completion_length': 50.0, 'kl': 1.2185997471213341, 'epoch': 23.28}\n",
            "100% 1495/1500 [1:20:07<00:13,  2.80s/it][grpo][step 1495] KL ALARM: 0.908 > 0.300 - inspect generations.\n",
            "{'loss': 0.0182, 'grad_norm': 1.3006242513656616, 'learning_rate': 2e-05, 'num_tokens': 16791836.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.77734375, 'rewards/reward_total/std': 0.18054758310317992, 'rewards/reward_obs_logical_correction/mean': 0.94375, 'rewards/reward_obs_logical_correction/std': 0.2009313613176346, 'rewards/reward_obs_hamming_overlap/mean': 0.753125, 'rewards/reward_obs_hamming_overlap/std': 0.3658332586288452, 'rewards/reward_obs_syndrome_consistency/mean': 0.821875, 'rewards/reward_obs_syndrome_consistency/std': 0.24199025928974152, 'rewards/reward_obs_format_compliance/mean': 0.94375, 'rewards/reward_obs_format_compliance/std': 0.193678018450737, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.239843654632568, 'reward_std': 0.7040615439414978, 'frac_reward_zero_std': 0.2, 'completion_length': 50.0, 'kl': 0.9082757383584976, 'epoch': 23.36}\n",
            "100% 1499/1500 [1:20:19<00:02,  2.82s/it]\n",
            "[grpo-inspection] WARN @ step 1500: 10/10 prompts collapsed but temperature already at cap (2.00); leaving unchanged.\n",
            "[grpo][eval@1500] logical_correction_rate=0.9650, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6500, hard_syndrome_lcr=0.9000, syndrome_consistency_rate=0.6500, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7953, episodes=200\n",
            "100% 1500/1500 [1:21:01<00:00, 14.69s/it][grpo][step 1500] KL ALARM: 0.617 > 0.300 - inspect generations.\n",
            "{'loss': 0.0123, 'grad_norm': 3.9186267852783203, 'learning_rate': 2e-05, 'num_tokens': 16847996.0, 'completions/mean_length': 50.0, 'completions/min_length': 50.0, 'completions/max_length': 50.0, 'completions/clipped_ratio': 1.0, 'completions/mean_terminated_length': 0.0, 'completions/min_terminated_length': 0.0, 'completions/max_terminated_length': 0.0, 'rewards/reward_total/mean': 0.7892187476158142, 'rewards/reward_total/std': 0.14801508486270903, 'rewards/reward_obs_logical_correction/mean': 0.9875, 'rewards/reward_obs_logical_correction/std': 0.07071067690849304, 'rewards/reward_obs_hamming_overlap/mean': 0.771875, 'rewards/reward_obs_hamming_overlap/std': 0.3547254979610443, 'rewards/reward_obs_syndrome_consistency/mean': 0.834375, 'rewards/reward_obs_syndrome_consistency/std': 0.23482499718666078, 'rewards/reward_obs_format_compliance/mean': 0.8375, 'rewards/reward_obs_format_compliance/std': 0.37149894833564756, 'rewards/reward_obs_pymatching_beat/mean': 0.0, 'rewards/reward_obs_pymatching_beat/std': 0.0, 'reward': 4.2204687118530275, 'reward_std': 0.6614326655864715, 'frac_reward_zero_std': 0.175, 'completion_length': 50.0, 'kl': 0.6173223629593849, 'epoch': 23.44}\n",
            "{'train_runtime': 4862.0827, 'train_samples_per_second': 9.872, 'train_steps_per_second': 0.309, 'train_loss': 0.01034718650703629, 'epoch': 23.44}\n",
            "100% 1500/1500 [1:21:02<00:00, 14.69s/it][grpo][eval@1500] logical_correction_rate=0.9350, pymatching_beat_rate=0.0000, format_compliance=1.0000, exact_match_pymatching=0.6050, hard_syndrome_lcr=0.9000, syndrome_consistency_rate=0.6050, avg_completion_length=7.0000, output_diversity_temp_1=1.0000, total_reward_mean=0.7709, episodes=200\n",
            "100% 1500/1500 [1:21:40<00:00,  3.27s/it]\n",
            "finished in 4902.4s\n",
            "saving rolling adapter snapshot to checkpoints/grpo_final\n",
            "saving final adapter snapshot to checkpoints/grpo_final/final\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Adding directory to artifact (checkpoints/grpo_final/final)... Done. 0.1s\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Adding directory to artifact (checkpoints/grpo_final/best)... Done. 0.0s\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact run-4p7eurnc-rlfinal_eval-RPZluQ (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m updating run metadata (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact run-4p7eurnc-rlfinal_eval-RPZluQ (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m updating run metadata (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact run-4p7eurnc-rlfinal_eval-RPZluQ (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m updating run metadata (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact run-4p7eurnc-rlfinal_eval-RPZluQ (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m updating run metadata (0.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (0.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (0.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m README.md 5.1KB/5.1KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m adapter_model.safetensors 336.0KB/28.2MB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m added_tokens.json 605B/605B (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m chat_template.jinja 2.4KB/2.4KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 2 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m README.md 5.1KB/5.1KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m adapter_model.safetensors 336.0KB/28.2MB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m added_tokens.json 605B/605B (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m chat_template.jinja 2.4KB/2.4KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 2 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m README.md 5.1KB/5.1KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m adapter_model.safetensors 336.0KB/28.2MB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m added_tokens.json 605B/605B (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m chat_template.jinja 2.4KB/2.4KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 2 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m README.md 5.1KB/5.1KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m adapter_model.safetensors 336.0KB/28.2MB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m added_tokens.json 605B/605B (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m chat_template.jinja 2.4KB/2.4KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 2 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m README.md 5.1KB/5.1KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m adapter_model.safetensors 336.0KB/28.2MB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m added_tokens.json 605B/605B (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m chat_template.jinja 2.4KB/2.4KB (0.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: + 2 more task(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m adapter_model.safetensors 448.0KB/28.2MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m merges.txt 480.0KB/1.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m tokenizer.json 304.0KB/10.9MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m vocab.json 656.0KB/2.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m adapter_model.safetensors 448.0KB/28.2MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m merges.txt 480.0KB/1.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m tokenizer.json 304.0KB/10.9MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m vocab.json 656.0KB/2.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m adapter_model.safetensors 448.0KB/28.2MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m merges.txt 480.0KB/1.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m tokenizer.json 304.0KB/10.9MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m vocab.json 656.0KB/2.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m adapter_model.safetensors 448.0KB/28.2MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m merges.txt 480.0KB/1.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m tokenizer.json 304.0KB/10.9MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m vocab.json 656.0KB/2.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (1.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m adapter_model.safetensors 448.0KB/28.2MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m merges.txt 480.0KB/1.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m tokenizer.json 304.0KB/10.9MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m vocab.json 656.0KB/2.6MB (0.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m adapter_model.safetensors 1.3MB/28.2MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m merges.txt 1.1MB/1.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m tokenizer.json 848.0KB/10.9MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m vocab.json 1.4MB/2.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m adapter_model.safetensors 1.3MB/28.2MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m merges.txt 1.1MB/1.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m tokenizer.json 848.0KB/10.9MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m vocab.json 1.4MB/2.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m adapter_model.safetensors 1.3MB/28.2MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m merges.txt 1.1MB/1.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m tokenizer.json 848.0KB/10.9MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m vocab.json 1.4MB/2.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m adapter_model.safetensors 1.3MB/28.2MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m merges.txt 1.1MB/1.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m tokenizer.json 848.0KB/10.9MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m vocab.json 1.4MB/2.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m adapter_model.safetensors 1.3MB/28.2MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m merges.txt 1.1MB/1.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m tokenizer.json 848.0KB/10.9MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m vocab.json 1.4MB/2.6MB (1.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m adapter_model.safetensors 3.9MB/28.2MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m tokenizer.json 3.8MB/10.9MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m vocab.json 2.6MB/2.6MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m merges.txt 1.6MB/1.6MB (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m adapter_model.safetensors 3.9MB/28.2MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m tokenizer.json 3.8MB/10.9MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m vocab.json 2.6MB/2.6MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m merges.txt 1.6MB/1.6MB (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m adapter_model.safetensors 3.9MB/28.2MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m tokenizer.json 3.8MB/10.9MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m vocab.json 2.6MB/2.6MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m merges.txt 1.6MB/1.6MB (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m adapter_model.safetensors 3.9MB/28.2MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m tokenizer.json 3.8MB/10.9MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m vocab.json 2.6MB/2.6MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m merges.txt 1.6MB/1.6MB (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (2.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m adapter_model.safetensors 3.9MB/28.2MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m tokenizer.json 3.8MB/10.9MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m vocab.json 2.6MB/2.6MB (1.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (2.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m merges.txt 1.6MB/1.6MB (1.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m adapter_model.safetensors 18.1MB/28.2MB (2.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m adapter_model.safetensors 20.4MB/28.2MB (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m adapter_model.safetensors 18.1MB/28.2MB (2.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m adapter_model.safetensors 20.4MB/28.2MB (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m adapter_model.safetensors 18.1MB/28.2MB (2.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⡿\u001b[0m adapter_model.safetensors 20.4MB/28.2MB (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m adapter_model.safetensors 18.1MB/28.2MB (2.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⢿\u001b[0m adapter_model.safetensors 20.4MB/28.2MB (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m adapter_model.safetensors 18.1MB/28.2MB (2.4s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣻\u001b[0m adapter_model.safetensors 20.4MB/28.2MB (2.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣽\u001b[0m adapter_model.safetensors 28.2MB/28.2MB (2.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣾\u001b[0m adapter_model.safetensors 28.2MB/28.2MB (2.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣷\u001b[0m adapter_model.safetensors 28.2MB/28.2MB (2.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣯\u001b[0m adapter_model.safetensors 28.2MB/28.2MB (2.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (3.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   ↳ \u001b[38;5;178m⣟\u001b[0m adapter_model.safetensors 28.2MB/28.2MB (2.9s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (3.5s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading output.log 374.0KB/374.0KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading wandb-summary.json 6.4KB/6.4KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading config.yaml 17.6KB/17.6KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading output.log 374.0KB/374.0KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading wandb-summary.json 6.4KB/6.4KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⢿\u001b[0m uploading config.yaml 17.6KB/17.6KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading output.log 374.0KB/374.0KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading wandb-summary.json 6.4KB/6.4KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣻\u001b[0m uploading config.yaml 17.6KB/17.6KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading output.log 374.0KB/374.0KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading wandb-summary.json 6.4KB/6.4KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣽\u001b[0m uploading config.yaml 17.6KB/17.6KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.2s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading artifact grpo-best-grpo-20260426-045324 (4.0s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading output.log 374.0KB/374.0KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading wandb-summary.json 6.4KB/6.4KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣾\u001b[0m uploading config.yaml 17.6KB/17.6KB (0.3s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣷\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣯\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⣟\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \u001b[38;5;178m⡿\u001b[0m uploading artifact grpo-final-grpo-20260426-045324 (4.7s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run history:\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:   alarms/format_below_floor ▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:         alarms/format_value ▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:             alarms/kl_alarm ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:       alarms/kl_alarm_value ▁▂▁▁▁▁▁▁▁▁▁▁▁▂▂▂▂▂▂▂▃▁▁▂▂▃▂▂▃▃▃▃▂▃▆▃█▅▃▃\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:  alarms/mode_collapse_count ▁██▁████████\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:       alarms/zero_beat_rate ▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:  eval/avg_completion_length ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:               eval/episodes ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: eval/exact_match_pymatching ▁▇███▇█▇██▇█████\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:      eval/format_compliance ▁███████████████\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                         +79 ...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Run summary:\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:  alarms/format_below_floor 1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:        alarms/format_value 0\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:            alarms/kl_alarm 1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:      alarms/kl_alarm_value 0.61732\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: alarms/mode_collapse_count 10\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:      alarms/zero_beat_rate 1\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                  best/step 1300\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:     best/total_reward_mean 0.79713\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: eval/avg_completion_length 7\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:              eval/episodes 200\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m:                        +96 ...\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: \n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: 🚀 View run \u001b[33mgrpo-20260426-045324\u001b[0m at: \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO/runs/4p7eurnc\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: ⭐️ View project at: \u001b[34m\u001b[4mhttps://wandb.ai/ronitraj/QuantumScribe-GRPO\u001b[0m\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Synced 5 W&B file(s), 46 media file(s), 114 artifact file(s) and 0 other file(s)\n",
            "\u001b[34m\u001b[1mwandb\u001b[0m: Find logs at: \u001b[35m\u001b[1m./wandb/run-20260426_045324-4p7eurnc/logs\u001b[0m\n",
            "🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.\n",
            "2026-04-26 06:15:41.642759: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.\n",
            "2026-04-26 06:15:41.651485: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
            "WARNING: All log messages before absl::InitializeLog() is called are written to STDERR\n",
            "E0000 00:00:1777184141.661313   27886 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
            "E0000 00:00:1777184141.664615   27886 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n",
            "W0000 00:00:1777184141.672955   27886 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777184141.672971   27886 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777184141.672972   27886 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "W0000 00:00:1777184141.672973   27886 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.\n",
            "2026-04-26 06:15:41.675441: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\n",
            "To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
            "🦥 Unsloth Zoo will now patch everything to make training faster!\n",
            "Unable to import `torchao` Tensor objects. This may affect loading checkpoints serialized with `torchao`\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "Flax classes are deprecated and will be removed in Diffusers v1.0.0. We recommend migrating to PyTorch classes or pinning your version of Diffusers.\n",
            "==((====))==  Unsloth 2025.11.1: Fast Qwen2 patching. Transformers: 4.57.2.\n",
            "   \\\\   /|    NVIDIA RTX PRO 6000 Blackwell Server Edition. Num GPUs = 1. Max memory: 94.971 GB. Platform: Linux.\n",
            "O^O/ \\_/ \\    Torch: 2.10.0+cu128. CUDA: 12.0. CUDA Toolkit: 12.8. Triton: 3.6.0\n",
            "\\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.35. FA2 = False]\n",
            " \"-____-\"     Free license: http://github.com/unslothai/unsloth\n",
            "Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!\n",
            "Unsloth 2025.11.1 patched 36 layers with 0 QKV layers, 0 O layers and 0 MLP layers.\n",
            "{\n",
            "  \"name\": \"model[checkpoints/grpo_final]\",\n",
            "  \"episodes\": 1000,\n",
            "  \"logical_correction_rate\": 0.964,\n",
            "  \"pymatching_beat_rate\": 0.0,\n",
            "  \"format_compliance_rate\": 1.0,\n",
            "  \"format_partial_rate\": 0.0,\n",
            "  \"syndrome_consistency_rate\": 0.734,\n",
            "  \"mean_syndrome_consistency\": 0.867,\n",
            "  \"mean_hamming_overlap\": 0.8405,\n",
            "  \"mean_total_reward\": 0.8209249999999999,\n",
            "  \"exact_match_pymatching\": 0.734,\n",
            "  \"mean_output_length\": 7.0,\n",
            "  \"level\": \"L2_target\"\n",
            "}\n",
            "\n",
            "Pipeline complete.\n",
            "Final eval file: /content/Meta_RL_Phase2/data/eval_grpo.json\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!zip -r checkpoints.zip /content/Meta_RL_Phase2/checkpoints"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "ZZZ0NuJwHt74",
        "outputId": "2c6c7772-2d18-42d1-a4a1-c8b17e061a98"
      },
      "execution_count": 4,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "  adding: content/Meta_RL_Phase2/checkpoints/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step200.txt (deflated 74%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step190.txt (deflated 73%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step25.txt (deflated 74%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step30.txt (deflated 74%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/trainer_state.json (deflated 59%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/optimizer.pt (deflated 10%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/adapter_model.safetensors (deflated 9%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-25/rng_state.pth (deflated 26%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/trainer_state.json (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/optimizer.pt (deflated 10%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/special_tokens_map.json (deflated 60%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/added_tokens.json (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-50/rng_state.pth (deflated 26%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step15.txt (deflated 75%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/README.md (deflated 45%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step50.txt (deflated 74%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step5.txt (deflated 75%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step150.txt (deflated 73%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/trainer_state.json (deflated 76%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/optimizer.pt (deflated 11%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/special_tokens_map.json (deflated 60%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/added_tokens.json (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-200/rng_state.pth (deflated 26%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/eval_samples_step100.txt (deflated 74%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/adapter_model.safetensors (deflated 9%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/trainer_state.json (deflated 74%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/optimizer.pt (deflated 11%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/special_tokens_map.json (deflated 60%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/added_tokens.json (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/sft_warmup/checkpoint-150/rng_state.pth (deflated 26%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/.gitkeep (deflated 2%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/trainer_state.json (deflated 90%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/optimizer.pt (deflated 12%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1500/rng_state.pth (deflated 26%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/README.md (deflated 48%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/trainer_state.json (deflated 90%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/optimizer.pt (deflated 12%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1300/rng_state.pth (deflated 26%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/best/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/final/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/ (stored 0%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/trainer_state.json (deflated 90%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/vocab.json (deflated 61%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/scheduler.pt (deflated 62%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/optimizer.pt (deflated 12%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/merges.txt (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/training_args.bin (deflated 53%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/special_tokens_map.json (deflated 69%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/README.md (deflated 65%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/tokenizer.json (deflated 81%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/chat_template.jinja (deflated 71%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/tokenizer_config.json (deflated 89%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/adapter_model.safetensors (deflated 8%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/adapter_config.json (deflated 57%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/added_tokens.json (deflated 67%)\n",
            "  adding: content/Meta_RL_Phase2/checkpoints/grpo_final/checkpoint-1400/rng_state.pth (deflated 26%)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "from google.colab import files\n",
        "files.download(\"checkpoints.zip\")"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 17
        },
        "id": "TrSqvCHAddes",
        "outputId": "f4686cb9-6f4c-4ad3-ef54-5a30df11f507"
      },
      "execution_count": 5,
      "outputs": [
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<IPython.core.display.Javascript object>"
            ],
            "application/javascript": [
              "\n",
              "    async function download(id, filename, size) {\n",
              "      if (!google.colab.kernel.accessAllowed) {\n",
              "        return;\n",
              "      }\n",
              "      const div = document.createElement('div');\n",
              "      const label = document.createElement('label');\n",
              "      label.textContent = `Downloading \"${filename}\": `;\n",
              "      div.appendChild(label);\n",
              "      const progress = document.createElement('progress');\n",
              "      progress.max = size;\n",
              "      div.appendChild(progress);\n",
              "      document.body.appendChild(div);\n",
              "\n",
              "      const buffers = [];\n",
              "      let downloaded = 0;\n",
              "\n",
              "      const channel = await google.colab.kernel.comms.open(id);\n",
              "      // Send a message to notify the kernel that we're ready.\n",
              "      channel.send({})\n",
              "\n",
              "      for await (const message of channel.messages) {\n",
              "        // Send a message to notify the kernel that we're ready.\n",
              "        channel.send({})\n",
              "        if (message.buffers) {\n",
              "          for (const buffer of message.buffers) {\n",
              "            buffers.push(buffer);\n",
              "            downloaded += buffer.byteLength;\n",
              "            progress.value = downloaded;\n",
              "          }\n",
              "        }\n",
              "      }\n",
              "      const blob = new Blob(buffers, {type: 'application/binary'});\n",
              "      const a = document.createElement('a');\n",
              "      a.href = window.URL.createObjectURL(blob);\n",
              "      a.download = filename;\n",
              "      div.appendChild(a);\n",
              "      a.click();\n",
              "      div.remove();\n",
              "    }\n",
              "  "
            ]
          },
          "metadata": {}
        },
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<IPython.core.display.Javascript object>"
            ],
            "application/javascript": [
              "download(\"download_fc7044a5-96a0-4e8e-92aa-e75b2213d9c2\", \"checkpoints.zip\", 438225549)"
            ]
          },
          "metadata": {}
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "from google.colab import drive\n",
        "drive.mount('/content/drive')"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "GswN61XjihyF",
        "outputId": "b3946246-4b13-4136-cd56-b7d6c98aa6a9"
      },
      "execution_count": 8,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Mounted at /content/drive\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "cp checkpoints.zip /content/drive/MyDrive/Meta_Hackathon"
      ],
      "metadata": {
        "id": "Agg516PBdscV"
      },
      "execution_count": 9,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "cp -r /content/Meta_RL_Phase2/data /content/drive/MyDrive/Meta_Hackathon"
      ],
      "metadata": {
        "id": "gS574PjJiZxz"
      },
      "execution_count": 10,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "cp -r /content/Meta_RL_Phase2/wandb /content/drive/MyDrive/Meta_Hackathon"
      ],
      "metadata": {
        "id": "Brqqdm7GjfcY"
      },
      "execution_count": 12,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [],
      "metadata": {
        "id": "5rbnVepdoa7H"
      },
      "execution_count": null,
      "outputs": []
    }
  ]
}