Spaces:

agentDebugger
/

AgentDebugger-training-v3

Running

App Files Files Community

shank commited on 12 days ago

Commit

663b8db

1 Parent(s): 8f291e0

Stabilize Space runtime: pin ML deps and disable runtime package drift

Browse files

Files changed (2) hide show

README.md +1 -0
training/train_grpo.py +27 -3

README.md CHANGED Viewed

@@ -5,6 +5,7 @@ colorFrom: blue
 colorTo: purple
 sdk: gradio
 app_file: app.py
 pinned: true
 license: mit
 ---

 colorTo: purple
 sdk: gradio
 app_file: app.py
+python_version: 3.10.13
 pinned: true
 license: mit
 ---

training/train_grpo.py CHANGED Viewed

@@ -26,6 +26,7 @@ import random
 import subprocess
 import tempfile
 import shutil
 # ── Parse args ────────────────────────────────────────────────────────────────
 parser = argparse.ArgumentParser()
@@ -36,9 +37,15 @@ parser.add_argument("--resume", type=str, default=None, help="Path to checkpoint
 parser.add_argument("--max_steps", type=int, default=500)
 args = parser.parse_args()
-# ── Install dependencies (for Colab/HF Spaces) ───────────────────────────────
-if os.environ.get("COLAB_RELEASE_TAG") or os.environ.get("SPACE_ID"):
-    os.system("pip install -q trl wandb datasets bitsandbytes>=0.43 peft>=0.10 transformers>=4.40 accelerate>=0.30")
 # ── GPU/training imports (skipped in --test-local mode) ───────────────────────
 if not args.test_local:
@@ -51,6 +58,23 @@ if not args.test_local:
     from peft import get_peft_model, LoraConfig, TaskType
     from trl import GRPOTrainer, GRPOConfig
 sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 from server.reward_calculator import DebugRewardCalculator
 from server.models import parse_agent_output

 import subprocess
 import tempfile
 import shutil
+from importlib import metadata
 # ── Parse args ────────────────────────────────────────────────────────────────
 parser = argparse.ArgumentParser()
 parser.add_argument("--max_steps", type=int, default=500)
 args = parser.parse_args()
+# ── Optional dependency bootstrap (disabled by default in Spaces) ─────────────
+# Runtime installs with loose versions caused repeated breakages from version drift.
+# Keep this opt-in for fresh Colab notebooks only.
+if os.environ.get("FORCE_BOOTSTRAP_DEPS") == "1":
+    os.system(
+        f"{sys.executable} -m pip install -q "
+        "wandb==0.18.7 datasets==3.0.2 transformers==4.46.3 "
+        "accelerate==1.0.1 trl==0.12.2 bitsandbytes==0.43.3 peft==0.13.2"
+    )
 # ── GPU/training imports (skipped in --test-local mode) ───────────────────────
 if not args.test_local:
     from peft import get_peft_model, LoraConfig, TaskType
     from trl import GRPOTrainer, GRPOConfig
+    def _pkg_ver(name: str) -> str:
+        try:
+            return metadata.version(name)
+        except metadata.PackageNotFoundError:
+            return "not-installed"
+    print(
+        "Runtime package versions | "
+        f"python={sys.version.split()[0]} "
+        f"torch={_pkg_ver('torch')} "
+        f"transformers={_pkg_ver('transformers')} "
+        f"trl={_pkg_ver('trl')} "
+        f"accelerate={_pkg_ver('accelerate')} "
+        f"peft={_pkg_ver('peft')} "
+        f"bitsandbytes={_pkg_ver('bitsandbytes')}"
+    )
 sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 from server.reward_calculator import DebugRewardCalculator
 from server.models import parse_agent_output