Spaces:

ycwhencpp
/

final-iteration

Paused

vaibhav12332112312 commited on 12 days ago

Commit

1f72457

1 Parent(s): e52d302

training: smoke-mode + hardcoded peak hint + valid tool IDs

- SMOKE_MODE=1 default: 1 phase x 1 round x 4 eps, lr 2e-4, r=16, 3 epochs (visible delta)
- always-on coach hint with day-aware top-3 peak hours
- system prompt lists valid niche/segment/competitor IDs (kills tool-arg errors)
- LoRA targets full MLP in smoke (gate/up/down + qkvo)
- new debug cell: io_log diff/error/hint stats

Made-with: Cursor

Files changed (2) hide show

training/hf_run_space_train_job.sh +1 -1
training/train_grpo.ipynb +117 -19

training/hf_run_space_train_job.sh CHANGED Viewed

@@ -8,7 +8,7 @@
 set -euo pipefail
 IMAGE="${HF_JOB_IMAGE:-pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime}"
-FLAVOR="${HF_JOB_FLAVOR:-l40sx1}"
 TIMEOUT="${HF_JOB_TIMEOUT:-8h}"
 SPACE_REPO="${HF_SPACE_REPO_ID:-vaibhavkhandare/train-bhai-train}"
 NB_EXEC_TIMEOUT="${NB_EXEC_TIMEOUT:-3600}"

 set -euo pipefail
 IMAGE="${HF_JOB_IMAGE:-pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime}"
+FLAVOR="${HF_JOB_FLAVOR:-a100-large}"
 TIMEOUT="${HF_JOB_TIMEOUT:-8h}"
 SPACE_REPO="${HF_SPACE_REPO_ID:-vaibhavkhandare/train-bhai-train}"
 NB_EXEC_TIMEOUT="${NB_EXEC_TIMEOUT:-3600}"

training/train_grpo.ipynb CHANGED Viewed

@@ -175,7 +175,11 @@
         "# Same sanity as syntax_only.ipynb (kernel parses modern Python)\n",
         "import ast\n",
         "ast.parse(\"def _t(x: int) -> str: return f'{x}'\")\n",
-        "print(\"OK: ast.parse (syntax check)\")"
       ],
       "execution_count": null,
       "outputs": []
@@ -439,6 +443,11 @@
         "- topic:        free-form string\n",
         "- empty scheduled_actions = full day rest\n",
         "\n",
         "POSTING RULES:\n",
         "- Each active day: 2-3 `post` actions at the audience's peak hours.\n",
         "- `create_content` alone earns 0 reward.\n",
@@ -494,7 +503,10 @@
         "            tool_str += f\"  {tr.name}: {json.dumps(tr.data)}\\n\"\n",
         "    if not tool_str:\n",
         "        tool_str = \"  (none — call query_* tools to discover)\\n\"\n",
-        "    hint_str = f\"Coach hint: today's peak hours are {extra_hint}.\\n\" if extra_hint else \"\"\n",
         "    return (f\"Day: {day_name} | days_elapsed={obs.days_elapsed}\\n\"\n",
         "            f\"Energy: {obs.creator_energy:.2f} | Followers: {obs.follower_count}\\n\"\n",
         "            f\"Engagement: {obs.engagement_rate:.3f} | Queue: {obs.content_queue_size}\\n\"\n",
@@ -653,9 +665,9 @@
         "        actions_by_idx = {i: rest_action for i in rest}\n",
         "        if active:\n",
         "            def _hint_for(i):\n",
-        "                if not hint_peak_hours:\n",
         "                    return None\n",
-        "                hrs = get_peak_hours(obss[i].day_of_week, top_k=2)\n",
         "                return \", \".join(f\"{h:02d}:00\" for h in hrs) if hrs else None\n",
         "            base_prompts = [format_obs(obss[i], histories[i], extra_hint=_hint_for(i)) for i in active]\n",
         "\n",
@@ -787,11 +799,19 @@
         "# Cell 10: Attach LoRA adapter\n",
         "from peft import LoraConfig, get_peft_model, TaskType\n",
         "\n",
-        "lora_config = LoraConfig(\n",
-        "    r=8, lora_alpha=16, lora_dropout=0.05,\n",
-        "    target_modules=[\"q_proj\", \"k_proj\", \"v_proj\", \"o_proj\"],\n",
-        "    task_type=TaskType.CAUSAL_LM, bias=\"none\",\n",
-        ")\n",
         "\n",
         "model.enable_input_require_grads()\n",
         "peft_model = get_peft_model(model, lora_config)\n",
@@ -810,14 +830,25 @@
         "from trl import SFTTrainer, SFTConfig\n",
         "from datasets import Dataset\n",
         "\n",
-        "EPISODES_PER_ROUND = 6\n",
-        "ROUNDS_PER_PHASE = 3\n",
-        "QUALITY_FLOOR = 0.0\n",
-        "\n",
-        "PHASES = [\n",
-        "    {\"name\": \"phase1_timing\",  \"reward_mode\": \"timing\",  \"system\": SYSTEM_PROMPT_TIMING},\n",
-        "    {\"name\": \"phase2_content\", \"reward_mode\": \"content\", \"system\": SYSTEM_PROMPT_CONTENT},\n",
-        "]\n",
         "\n",
         "training_log = {\n",
         "    \"phase\": [], \"round\": [], \"global_step\": [], \"use_hint\": [],\n",
@@ -889,10 +920,10 @@
         "                dataset = Dataset.from_list([{\"text\": p[\"text\"]} for p in filtered])\n",
         "                sft_config = SFTConfig(\n",
         "                    output_dir=f\"./checkpoints/{phase_name}_r{round_idx}\",\n",
-        "                    num_train_epochs=1,\n",
         "                    per_device_train_batch_size=2,\n",
         "                    gradient_accumulation_steps=4,\n",
-        "                    learning_rate=5e-6,\n",
         "                    warmup_steps=5,\n",
         "                    logging_steps=1,\n",
         "                    save_strategy=\"no\",\n",
@@ -965,6 +996,73 @@
       "execution_count": null,
       "outputs": []
     },
     {
       "cell_type": "markdown",
       "metadata": {},

         "# Same sanity as syntax_only.ipynb (kernel parses modern Python)\n",
         "import ast\n",
         "ast.parse(\"def _t(x: int) -> str: return f'{x}'\")\n",
+        "print(\"OK: ast.parse (syntax check)\")\n",
+        "\n",
+        "SMOKE_MODE = bool(int(os.environ.get(\"SMOKE_MODE\", \"1\")))\n",
+        "HINT_ALWAYS = True\n",
+        "print(f\"SMOKE_MODE={SMOKE_MODE} | HINT_ALWAYS={HINT_ALWAYS}\")"
       ],
       "execution_count": null,
       "outputs": []
         "- topic:        free-form string\n",
         "- empty scheduled_actions = full day rest\n",
         "\n",
+        "VALID TOOL ARGS (use ONLY these IDs — invented IDs return ERROR):\n",
+        "- niche:           tech | lifestyle | fitness | business | food | travel | fashion | beauty | photography | education\n",
+        "- segment_id:      young_professionals | students | parents | global_night_owls | passive_scrollers\n",
+        "- competitor_id:   niche_expert | viral_chaser | lifestyle_blogger | b2b_thought_leader | food_creator | fitness_coach | travel_creator\n",
+        "\n",
         "POSTING RULES:\n",
         "- Each active day: 2-3 `post` actions at the audience's peak hours.\n",
         "- `create_content` alone earns 0 reward.\n",
         "            tool_str += f\"  {tr.name}: {json.dumps(tr.data)}\\n\"\n",
         "    if not tool_str:\n",
         "        tool_str = \"  (none — call query_* tools to discover)\\n\"\n",
+        "    hint_str = (\n",
+        "        f\"COACH HINT (USE THESE EXACT HOURS): post 2-3 times today at hours {extra_hint}. \"\n",
+        "        f\"Set scheduled_actions[i].hour to one of these values.\\n\"\n",
+        "    ) if extra_hint else \"\"\n",
         "    return (f\"Day: {day_name} | days_elapsed={obs.days_elapsed}\\n\"\n",
         "            f\"Energy: {obs.creator_energy:.2f} | Followers: {obs.follower_count}\\n\"\n",
         "            f\"Engagement: {obs.engagement_rate:.3f} | Queue: {obs.content_queue_size}\\n\"\n",
         "        actions_by_idx = {i: rest_action for i in rest}\n",
         "        if active:\n",
         "            def _hint_for(i):\n",
+        "                if not (hint_peak_hours or HINT_ALWAYS):\n",
         "                    return None\n",
+        "                hrs = get_peak_hours(obss[i].day_of_week, top_k=3)\n",
         "                return \", \".join(f\"{h:02d}:00\" for h in hrs) if hrs else None\n",
         "            base_prompts = [format_obs(obss[i], histories[i], extra_hint=_hint_for(i)) for i in active]\n",
         "\n",
         "# Cell 10: Attach LoRA adapter\n",
         "from peft import LoraConfig, get_peft_model, TaskType\n",
         "\n",
+        "if SMOKE_MODE:\n",
+        "    lora_config = LoraConfig(\n",
+        "        r=16, lora_alpha=32, lora_dropout=0.05,\n",
+        "        target_modules=[\"q_proj\", \"k_proj\", \"v_proj\", \"o_proj\",\n",
+        "                        \"gate_proj\", \"up_proj\", \"down_proj\"],\n",
+        "        task_type=TaskType.CAUSAL_LM, bias=\"none\",\n",
+        "    )\n",
+        "else:\n",
+        "    lora_config = LoraConfig(\n",
+        "        r=8, lora_alpha=16, lora_dropout=0.05,\n",
+        "        target_modules=[\"q_proj\", \"k_proj\", \"v_proj\", \"o_proj\"],\n",
+        "        task_type=TaskType.CAUSAL_LM, bias=\"none\",\n",
+        "    )\n",
         "\n",
         "model.enable_input_require_grads()\n",
         "peft_model = get_peft_model(model, lora_config)\n",
         "from trl import SFTTrainer, SFTConfig\n",
         "from datasets import Dataset\n",
         "\n",
+        "if SMOKE_MODE:\n",
+        "    EPISODES_PER_ROUND = 4\n",
+        "    ROUNDS_PER_PHASE = 1\n",
+        "    QUALITY_FLOOR = 0.0\n",
+        "    NUM_TRAIN_EPOCHS = 3\n",
+        "    LEARNING_RATE = 2e-4\n",
+        "    PHASES = [\n",
+        "        {\"name\": \"phase1_timing\", \"reward_mode\": \"timing\", \"system\": SYSTEM_PROMPT_TIMING},\n",
+        "    ]\n",
+        "else:\n",
+        "    EPISODES_PER_ROUND = 6\n",
+        "    ROUNDS_PER_PHASE = 3\n",
+        "    QUALITY_FLOOR = 0.0\n",
+        "    NUM_TRAIN_EPOCHS = 1\n",
+        "    LEARNING_RATE = 5e-6\n",
+        "    PHASES = [\n",
+        "        {\"name\": \"phase1_timing\",  \"reward_mode\": \"timing\",  \"system\": SYSTEM_PROMPT_TIMING},\n",
+        "        {\"name\": \"phase2_content\", \"reward_mode\": \"content\", \"system\": SYSTEM_PROMPT_CONTENT},\n",
+        "    ]\n",
         "\n",
         "training_log = {\n",
         "    \"phase\": [], \"round\": [], \"global_step\": [], \"use_hint\": [],\n",
         "                dataset = Dataset.from_list([{\"text\": p[\"text\"]} for p in filtered])\n",
         "                sft_config = SFTConfig(\n",
         "                    output_dir=f\"./checkpoints/{phase_name}_r{round_idx}\",\n",
+        "                    num_train_epochs=NUM_TRAIN_EPOCHS,\n",
         "                    per_device_train_batch_size=2,\n",
         "                    gradient_accumulation_steps=4,\n",
+        "                    learning_rate=LEARNING_RATE,\n",
         "                    warmup_steps=5,\n",
         "                    logging_steps=1,\n",
         "                    save_strategy=\"no\",\n",
       "execution_count": null,
       "outputs": []
     },
+    {
+      "cell_type": "code",
+      "metadata": {},
+      "source": [
+        "# Cell 12.5: Debug — analyse io_log.jsonl (before vs after, tool error rate, hint usage)\n",
+        "import re\n",
+        "from collections import Counter\n",
+        "\n",
+        "def _safe_json_loads(s):\n",
+        "    try:\n",
+        "        s = s.strip()\n",
+        "        if \"```\" in s:\n",
+        "            s = \"\\n\".join(l for l in s.split(\"\\n\") if not l.strip().startswith(\"```\")).strip()\n",
+        "        a, b = s.find(\"{\"), s.rfind(\"}\") + 1\n",
+        "        return json.loads(s[a:b]) if a >= 0 and b > a else None\n",
+        "    except Exception:\n",
+        "        return None\n",
+        "\n",
+        "records = []\n",
+        "with open(IO_LOG_PATH) as f:\n",
+        "    for line in f:\n",
+        "        if line.strip():\n",
+        "            records.append(json.loads(line))\n",
+        "\n",
+        "by_tag = Counter(r[\"tag\"] for r in records)\n",
+        "print(\"io_log records by tag:\", dict(by_tag))\n",
+        "\n",
+        "before = {(r[\"ep\"], r[\"day\"], r[\"tag\"].split(\"/\")[1]): r for r in records if r[\"tag\"].startswith(\"before\")}\n",
+        "after  = {(r[\"ep\"], r[\"day\"], r[\"tag\"].split(\"/\")[1]): r for r in records if r[\"tag\"].startswith(\"after\")}\n",
+        "common = set(before) & set(after)\n",
+        "identical = sum(1 for k in common if before[k][\"response\"] == after[k][\"response\"])\n",
+        "print(f\"\\nbefore/after: {len(common)} common keys, identical={identical}, diff={len(common)-identical}\")\n",
+        "\n",
+        "tool_errs = sum(1 for r in records if r[\"tag\"].endswith(\"/A\") and \"ERROR\" in r[\"response\"])\n",
+        "print(f\"PHASE A responses containing 'ERROR' string: {tool_errs}\")\n",
+        "\n",
+        "niche_used, seg_used, comp_used = Counter(), Counter(), Counter()\n",
+        "for r in records:\n",
+        "    if not r[\"tag\"].endswith(\"/A\"):\n",
+        "        continue\n",
+        "    j = _safe_json_loads(r[\"response\"])\n",
+        "    if not j:\n",
+        "        continue\n",
+        "    for tc in j.get(\"tool_calls\", []):\n",
+        "        a = tc.get(\"arguments\", {}) or {}\n",
+        "        if tc.get(\"name\") == \"query_trends\" and \"niche\" in a:        niche_used[a[\"niche\"]] += 1\n",
+        "        if tc.get(\"name\") == \"query_audience\" and \"segment_id\" in a: seg_used[a[\"segment_id\"]] += 1\n",
+        "        if tc.get(\"name\") == \"query_competitor\" and \"competitor_id\" in a: comp_used[a[\"competitor_id\"]] += 1\n",
+        "print(\"\\nTop niches used:\", niche_used.most_common(8))\n",
+        "print(\"Top segments used:\", seg_used.most_common(8))\n",
+        "print(\"Top competitors used:\", comp_used.most_common(8))\n",
+        "\n",
+        "hint_seen = sum(1 for r in records if \"COACH HINT\" in r[\"prompt\"])\n",
+        "print(f\"\\nPrompts containing COACH HINT: {hint_seen}/{len(records)}\")\n",
+        "\n",
+        "if common:\n",
+        "    k = next(iter(sorted(common)))\n",
+        "    print(f\"\\n--- diff sample @ {k} (B-phase only if available) ---\")\n",
+        "    bk = before.get((k[0], k[1], \"B\"))\n",
+        "    ak = after.get((k[0], k[1], \"B\"))\n",
+        "    if bk and ak:\n",
+        "        print(\"BEFORE response head:\", bk[\"response\"][:300].replace(\"\\n\", \" \"))\n",
+        "        print(\"AFTER  response head:\", ak[\"response\"][:300].replace(\"\\n\", \" \"))"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
     {
       "cell_type": "markdown",
       "metadata": {},