rtferraz
/

tucano2-commerce

Model card Files Files and versions

xet

Community

rtferraz commited on 10 days ago

Commit

63b1c86

verified ·

1 Parent(s): 41eb15f

fix(classifier): reorder _classify_task_type — insights before push to prevent reengajamento misclassification

Browse files

Files changed (1) hide show

notebooks/v4_2_instruct_grpo.ipynb +12 -4

notebooks/v4_2_instruct_grpo.ipynb CHANGED Viewed

@@ -81,7 +81,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "---\n\n## Cell 7: Reward Functions V2\n\n**V4.2 changes (Change 3 + Change 5):**\n\n### SQL Reward Overhaul (Change 3)\n- **Tier 1 (0.30):** SQL structure detected — requires ≥3 SQL keywords (SELECT, FROM, WHERE, etc.)\n- **Tier 2 (0.25):** Answer has BOTH query AND explanation (not just domain vocabulary)\n- **Tier 3 (0.25):** Numerical specificity (concrete data in answer)\n- **Tier 4 (0.20):** Portuguese business domain coherence\n\n### GDPO Per-Component Normalization (Change 5) — ACTIVE IN TRAINING\n- `commerce_reward_fn` applies per-task z-score normalization INSIDE the reward call\n- TRL 0.24.0 calls reward_fn with the full batch → we normalize per-component before returning\n- No trainer modification needed — normalized rewards flow through standard GRPO advantage computation\n- Preserves ~4× more distinct advantage groups (GDPO §3.1)\n\n### Dynamic Task Weights (Change 6) — ACTIVE IN TRAINING\n- `_task_weights` dict tracks per-task weights, updated by `update_task_weights()` in eval callback\n- Weights are applied as multiplicative scaling INSIDE `commerce_reward_fn` after GDPO normalization\n- Effect: stagnating tasks (e.g. SQL) get amplified reward signal → larger GRPO advantages → more gradient\n- MT-GRPO IWU §3.2: prevents easy-task collapse without requiring custom sampling\n\n### V4.2.1 Fixes (Cell 8 Audit)\n- **Push reward:** Steep length penalty (hard 0 above 200 chars) + formal email penalty (-0.20 for \"Prezado\"/\"Atenciosamente\")\n- **SQL reward Tier 4:** Expanded domain word list (+20 words: compradores, sentimentos, reclamações, taxa, distribuição, etc.)\n- **Extraction reward:** `sentiment_score` validator requires `isinstance(v, int) and not isinstance(v, bool)` — rejects floats from PT decimal normalization"
    ]
   },
   {
@@ -103,13 +103,21 @@
     "\n",
     "\n",
     "def _classify_task_type(prompt_text: str) -> str:\n",
     "    p = prompt_text.lower()\n",
-    "    if \"retorne um objeto json\" in p or \"extraia dados\" in p or \"json\" in p:\n",
     "        return \"extraction\"\n",
     "    elif \"notificação push\" in p or \"notificação de reengajamento\" in p:\n",
     "        return \"push\"\n",
-    "    elif \"perfil do cliente\" in p or \"retenção\" in p or \"análise\" in p or \"insight\" in p:\n",
-    "        return \"insights\"\n",
     "    else:\n",
     "        return \"sql_qa\"\n",
     "\n",

    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "---\n\n## Cell 7: Reward Functions V2\n\n**V4.2 changes (Change 3 + Change 5):**\n\n### SQL Reward Overhaul (Change 3)\n- **Tier 1 (0.30):** SQL structure detected — requires ≥3 SQL keywords (SELECT, FROM, WHERE, etc.)\n- **Tier 2 (0.25):** Answer has BOTH query AND explanation (not just domain vocabulary)\n- **Tier 3 (0.25):** Numerical specificity (concrete data in answer)\n- **Tier 4 (0.20):** Portuguese business domain coherence\n\n### GDPO Per-Component Normalization (Change 5) — ACTIVE IN TRAINING\n- `commerce_reward_fn` applies per-task z-score normalization INSIDE the reward call\n- TRL 0.24.0 calls reward_fn with the full batch → we normalize per-component before returning\n- No trainer modification needed — normalized rewards flow through standard GRPO advantage computation\n- Preserves ~4× more distinct advantage groups (GDPO §3.1)\n\n### Dynamic Task Weights (Change 6) — ACTIVE IN TRAINING\n- `_task_weights` dict tracks per-task weights, updated by `update_task_weights()` in eval callback\n- Weights are applied as multiplicative scaling INSIDE `commerce_reward_fn` after GDPO normalization\n- Effect: stagnating tasks (e.g. SQL) get amplified reward signal → larger GRPO advantages → more gradient\n- MT-GRPO IWU §3.2: prevents easy-task collapse without requiring custom sampling\n\n### V4.2.1 Fixes (Cell 8 Audit)\n- **Push reward:** Steep length penalty (hard 0 above 200 chars) + formal email penalty (-0.20 for \"Prezado\"/\"Atenciosamente\")\n- **SQL reward Tier 4:** Expanded domain word list (+20 words: compradores, sentimentos, reclamações, taxa, distribuição, etc.)\n- **Extraction reward:** `sentiment_score` validator requires `isinstance(v, int) and not isinstance(v, bool)` — rejects floats from PT decimal normalization\n- **Task classifier:** Reordered `_classify_task_type` — insights checked before push to prevent 'reengajamento' misclassification"
    ]
   },
   {
     "\n",
     "\n",
     "def _classify_task_type(prompt_text: str) -> str:\n",
+    "    \"\"\"V4.2.1: reordered — insights before push to prevent misclassification.\n",
+    "    \n",
+    "    \"notificação de reengajamento\" in a customer profile context is insights,\n",
+    "    not push. Check insights keywords first.\n",
+    "    \"\"\"\n",
     "    p = prompt_text.lower()\n",
+    "    # 1. Insights FIRST — customer profile questions mentioning reengagement are insights\n",
+    "    if \"perfil do cliente\" in p or \"retenção\" in p or \"análise\" in p or \"insight\" in p:\n",
+    "        return \"insights\"\n",
+    "    # 2. Extraction\n",
+    "    elif \"retorne um objeto json\" in p or \"extraia dados\" in p or \"json\" in p:\n",
     "        return \"extraction\"\n",
+    "    # 3. Push — only after insights is ruled out\n",
     "    elif \"notificação push\" in p or \"notificação de reengajamento\" in p:\n",
     "        return \"push\"\n",
     "    else:\n",
     "        return \"sql_qa\"\n",
     "\n",