Spaces:

Prasham1710
/

ci-triage-training

Sleeping

Prasham.Jain Claude Sonnet 4.6 commited on 17 days ago

Commit

421885d

1 Parent(s): b78f85d

fix(spaces): switch training Space to A10G Small, tune notebook for 24 GB

A10G Large has been unavailable for 40+ min. A10G Small (24 GB) is more
reliably allocated and fully fits Qwen3-4B-bnb-4bit 4-bit + LoRA + GRPO
with our current hyperparams.

push_to_hf.sh:
- hardware: a10g-small in training Space YAML
- app_port: 7860 (JupyterLab)
- app_port: 8000 in env Space YAML (fixes "Starting" loop)

notebook:
- per_device_batch_size 4→2 (SFT, fits 24 GB)
- num_generations 4→2 (GRPO, halves peak VRAM)
- max_completion_length 256→128
- max_prompt_length 2048→1536
- all A10G Large references updated to A10G Small

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (2) hide show

notebooks/train_grpo.ipynb +14 -14
push_to_hf.sh +2 -0

notebooks/train_grpo.ipynb CHANGED Viewed

@@ -7,14 +7,14 @@
    "source": [
     "# CI-Triage-Env — GRPO Training\n",
     "\n",
-    "**Hardware target**: A10G Large (46 GB VRAM, 12 vCPU) — HuggingFace Space\n",
     "\n",
     "**Set these as Space secrets** (Settings → Variables and secrets):\n",
     "- `HF_TOKEN` — HuggingFace write token\n",
     "- `HF_USERNAME` — your HF username\n",
     "- `WANDB_API_KEY` — Weights & Biases key (get free at wandb.ai)\n",
     "\n",
-    "**Time budget**: SFT≈45 min + GRPO≈90 min = ~2.5 hours on A10G Large."
    ]
   },
   {
@@ -143,7 +143,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Cell 5 — SFT warmstart (~45 min on A10G Large)\n",
     "from pathlib import Path\n",
     "from ci_triage_env.training.sft import run_sft\n",
     "\n",
@@ -156,7 +156,7 @@
     "        dataset_path=str(SFT_DS_DIR),\n",
     "        output_dir=str(SFT_CKPT),\n",
     "        num_epochs=2,\n",
-    "        per_device_batch_size=4,\n",
     "        gradient_accumulation_steps=4,\n",
     "    )\n",
     "    print(f'SFT done → {SFT_CKPT}')\n",
@@ -167,9 +167,9 @@
     "        repo_id=MODEL_REPO + '-sft',\n",
     "        repo_type='model',\n",
     "        token=HF_TOKEN,\n",
-    "        commit_message='SFT warmstart checkpoint (Qwen3.5-4B + LoRA)',\n",
     "    )\n",
-    "    print(f'SFT checkpoint pushed to {MODEL_REPO}-sft')"
    ]
   },
   {
@@ -179,7 +179,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Cell 6 — GRPO fine-tuning (~90 min for 100 steps on A10G Large)\n",
     "from pathlib import Path\n",
     "from ci_triage_env.training.mock_env_client import MockEnvClient\n",
     "from ci_triage_env.training.grpo import run_grpo\n",
@@ -204,9 +204,9 @@
     "        'gradient_accumulation_steps': 4,\n",
     "        'learning_rate': 5e-6,\n",
     "        'kl_coef': 0.04,\n",
-    "        'num_generations': 4,\n",
-    "        'max_prompt_length': 2048,\n",
-    "        'max_completion_length': 256,\n",
     "        'temperature': 0.8,\n",
     "        'top_p': 0.95,\n",
     "        'logging_steps': 5,\n",
@@ -214,7 +214,7 @@
     "        'report_to': 'wandb' if WANDB_KEY else 'none',\n",
     "    },\n",
     ")\n",
-    "print(f'GRPO done → {GRPO_CKPT}')"
    ]
   },
   {
@@ -235,9 +235,9 @@
     "    repo_id=MODEL_REPO,\n",
     "    repo_type='model',\n",
     "    token=HF_TOKEN,\n",
-    "    commit_message=f'GRPO-trained adapter — {GRPO_STEPS} steps on A10G Large',\n",
     ")\n",
-    "print(f'Final model: https://huggingface.co/{MODEL_REPO}')"
    ]
   }
  ],
@@ -254,4 +254,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 5
-}

    "source": [
     "# CI-Triage-Env — GRPO Training\n",
     "\n",
+    "**Hardware target**: A10G Small (24 GB VRAM, 4 vCPU) — HuggingFace Space\n",
     "\n",
     "**Set these as Space secrets** (Settings → Variables and secrets):\n",
     "- `HF_TOKEN` — HuggingFace write token\n",
     "- `HF_USERNAME` — your HF username\n",
     "- `WANDB_API_KEY` — Weights & Biases key (get free at wandb.ai)\n",
     "\n",
+    "**Time budget**: SFT≈50 min + GRPO≈90 min = ~2.5 hours on A10G Small.\n"
    ]
   },
   {
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Cell 5 — SFT warmstart (~50 min on A10G Small)\n",
     "from pathlib import Path\n",
     "from ci_triage_env.training.sft import run_sft\n",
     "\n",
     "        dataset_path=str(SFT_DS_DIR),\n",
     "        output_dir=str(SFT_CKPT),\n",
     "        num_epochs=2,\n",
+    "        per_device_batch_size=2,\n",
     "        gradient_accumulation_steps=4,\n",
     "    )\n",
     "    print(f'SFT done → {SFT_CKPT}')\n",
     "        repo_id=MODEL_REPO + '-sft',\n",
     "        repo_type='model',\n",
     "        token=HF_TOKEN,\n",
+    "        commit_message='SFT warmstart checkpoint (Qwen3-4B + LoRA)',\n",
     "    )\n",
+    "    print(f'SFT checkpoint pushed to {MODEL_REPO}-sft')\n"
    ]
   },
   {
    "metadata": {},
    "outputs": [],
    "source": [
+    "# Cell 6 — GRPO fine-tuning (~90 min for 100 steps on A10G Small)\n",
     "from pathlib import Path\n",
     "from ci_triage_env.training.mock_env_client import MockEnvClient\n",
     "from ci_triage_env.training.grpo import run_grpo\n",
     "        'gradient_accumulation_steps': 4,\n",
     "        'learning_rate': 5e-6,\n",
     "        'kl_coef': 0.04,\n",
+    "        'num_generations': 2,\n",
+    "        'max_prompt_length': 1536,\n",
+    "        'max_completion_length': 128,\n",
     "        'temperature': 0.8,\n",
     "        'top_p': 0.95,\n",
     "        'logging_steps': 5,\n",
     "        'report_to': 'wandb' if WANDB_KEY else 'none',\n",
     "    },\n",
     ")\n",
+    "print(f'GRPO done → {GRPO_CKPT}')\n"
    ]
   },
   {
     "    repo_id=MODEL_REPO,\n",
     "    repo_type='model',\n",
     "    token=HF_TOKEN,\n",
+    "    commit_message=f'GRPO-trained adapter — {GRPO_STEPS} steps on A10G Small',\n",
     ")\n",
+    "print(f'Final model: https://huggingface.co/{MODEL_REPO}')\n"
    ]
   }
  ],
  },
  "nbformat": 4,
  "nbformat_minor": 5
+}

push_to_hf.sh CHANGED Viewed

@@ -73,6 +73,8 @@ emoji: 🏋️
 colorFrom: yellow
 colorTo: red
 sdk: docker
 pinned: false
 ---"

 colorFrom: yellow
 colorTo: red
 sdk: docker
+app_port: 7860
+hardware: a10g-small
 pinned: false
 ---"