Spaces:

InosLihka
/

rhythm_env

Sleeping

InosLihka Claude Opus 4.7 (1M context) commited on 16 days ago

Commit

1a865f8

1 Parent(s): 73c7ea0

feat: FAST_MODE preset for 10-15 min iteration cycles

Adds knobs for fast hyperparameter sweeps:
- FAST_MODE=1 -> 200 steps, 80 episodes, 800 samples, 2 generations, 2 eval episodes
- All knobs individually overridable via env vars
- MODEL_REPO_SUFFIX lets each run upload to a unique repo for comparison

On A100-large: FAST_MODE finishes in ~10-12 min for ~$0.70 per iteration.
Use to debug training stability and tune beta/lr before committing to a
full 1500-step run.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

Files changed (1) hide show

scripts/train_on_hf.py +38 -7

scripts/train_on_hf.py CHANGED Viewed

@@ -52,12 +52,40 @@ WORK_DIR = "/tmp/rhythm_env"
 OUTPUT_DIR = "/tmp/rhythm_env/outputs/rhythmenv_meta_trained"
 PLOTS_DIR = "/tmp/rhythm_env/plots"
-MAX_STEPS = int(os.environ.get("MAX_STEPS", "1500"))
-NUM_EPISODES = int(os.environ.get("NUM_EPISODES", "300"))
-LORA_RANK = int(os.environ.get("LORA_RANK", "8"))
-BETA = float(os.environ.get("BETA", "0.1"))
-MODEL_REPO = os.environ.get("MODEL_REPO", "InosLihka/rhythm-env-meta-trained")
 def run(cmd: list[str], **kw):
@@ -89,8 +117,11 @@ def main():
         "python", "training/train.py",
         "--max_steps", str(MAX_STEPS),
         "--num_episodes", str(NUM_EPISODES),
         "--lora_rank", str(LORA_RANK),
         "--beta", str(BETA),
         "--output_dir", OUTPUT_DIR,
     ]
     run(train_args)
@@ -101,7 +132,7 @@ def main():
     eval_args = [
         "python", "training/inference_eval.py",
         "--model_path", OUTPUT_DIR,
-        "--num_episodes", "5",
         "--output_file", "eval_results.json",
     ]
     run(eval_args)

 OUTPUT_DIR = "/tmp/rhythm_env/outputs/rhythmenv_meta_trained"
 PLOTS_DIR = "/tmp/rhythm_env/plots"
+# FAST_MODE preset: ~10-15 min iteration on A100 large.
+# Use for hyperparameter sweeps and pipeline debugging.
+FAST_MODE = os.environ.get("FAST_MODE", "0") == "1"
+if FAST_MODE:
+    DEFAULTS = dict(MAX_STEPS=200, NUM_EPISODES=80, MAX_SAMPLES=800,
+                    NUM_GENERATIONS=2, LORA_RANK=8, BETA=0.1,
+                    LEARNING_RATE=5e-5, EVAL_EPISODES=2)
+else:
+    DEFAULTS = dict(MAX_STEPS=1500, NUM_EPISODES=300, MAX_SAMPLES=3000,
+                    NUM_GENERATIONS=4, LORA_RANK=8, BETA=0.1,
+                    LEARNING_RATE=5e-5, EVAL_EPISODES=5)
+MAX_STEPS = int(os.environ.get("MAX_STEPS", str(DEFAULTS["MAX_STEPS"])))
+NUM_EPISODES = int(os.environ.get("NUM_EPISODES", str(DEFAULTS["NUM_EPISODES"])))
+MAX_SAMPLES = int(os.environ.get("MAX_SAMPLES", str(DEFAULTS["MAX_SAMPLES"])))
+NUM_GENERATIONS = int(os.environ.get("NUM_GENERATIONS", str(DEFAULTS["NUM_GENERATIONS"])))
+LORA_RANK = int(os.environ.get("LORA_RANK", str(DEFAULTS["LORA_RANK"])))
+BETA = float(os.environ.get("BETA", str(DEFAULTS["BETA"])))
+LEARNING_RATE = float(os.environ.get("LEARNING_RATE", str(DEFAULTS["LEARNING_RATE"])))
+EVAL_EPISODES = int(os.environ.get("EVAL_EPISODES", str(DEFAULTS["EVAL_EPISODES"])))
+# Each iteration uploads to a unique repo if MODEL_REPO_SUFFIX is set
+SUFFIX = os.environ.get("MODEL_REPO_SUFFIX", "")
+DEFAULT_REPO = "InosLihka/rhythm-env-meta-trained" + (f"-{SUFFIX}" if SUFFIX else "")
+MODEL_REPO = os.environ.get("MODEL_REPO", DEFAULT_REPO)
+print(f"=== Run config ===")
+print(f"  FAST_MODE: {FAST_MODE}")
+print(f"  MAX_STEPS={MAX_STEPS}, NUM_EPISODES={NUM_EPISODES}, MAX_SAMPLES={MAX_SAMPLES}")
+print(f"  NUM_GENERATIONS={NUM_GENERATIONS}, LORA_RANK={LORA_RANK}, BETA={BETA}")
+print(f"  LEARNING_RATE={LEARNING_RATE}, EVAL_EPISODES={EVAL_EPISODES}")
+print(f"  MODEL_REPO={MODEL_REPO}")
+print()
 def run(cmd: list[str], **kw):
         "python", "training/train.py",
         "--max_steps", str(MAX_STEPS),
         "--num_episodes", str(NUM_EPISODES),
+        "--max_samples", str(MAX_SAMPLES),
+        "--num_generations", str(NUM_GENERATIONS),
         "--lora_rank", str(LORA_RANK),
         "--beta", str(BETA),
+        "--learning_rate", str(LEARNING_RATE),
         "--output_dir", OUTPUT_DIR,
     ]
     run(train_args)
     eval_args = [
         "python", "training/inference_eval.py",
         "--model_path", OUTPUT_DIR,
+        "--num_episodes", str(EVAL_EPISODES),
         "--output_file", "eval_results.json",
     ]
     run(eval_args)