Spaces:

gaurv007
/

ClauseGuard

Sleeping

App Files Files Community

gaurv007 commited on 15 days ago

Commit

55761de

verified ·

1 Parent(s): a4cb2c1

Update notebook for T4 GPU: batch=4, grad_accum=8, eval_batch=8

Browse files

Files changed (1) hide show

ml/ClauseGuard_DeBERTa_Training.ipynb +12 -13

ml/ClauseGuard_DeBERTa_Training.ipynb CHANGED Viewed

@@ -4,8 +4,7 @@
   "metadata": {
     "colab": {
       "provenance": [],
-      "gpuType": "A100",
-      "machine_shape": "hm"
     },
     "kernelspec": {
       "name": "python3",
@@ -36,10 +35,10 @@
         "1. **Stage 1 — LEDGAR** (60K legal provisions, 100 classes): Teaches \"what types of contract clauses exist\"\n",
         "2. **Stage 2 — CUAD** (41 CUAD classes): Target task with Asymmetric Loss for class imbalance\n",
         "\n",
-        "**Runtime:** ~4-6 hours on A100 GPU\n",
         "\n",
         "**Before running:**\n",
-        "1. `Runtime` → `Change runtime type` → **A100 GPU** (High-RAM if available)\n",
         "2. `Runtime` → `Run all`\n",
         "3. Paste your HuggingFace token when prompted"
       ],
@@ -104,14 +103,14 @@
         "# Stage 1: LEDGAR config\n",
         "STAGE1_EPOCHS = 5           # LEDGAR is large, converges fast\n",
         "STAGE1_LR = 2e-5\n",
-        "STAGE1_BATCH = 8\n",
-        "STAGE1_GRAD_ACCUM = 4       # effective batch = 32\n",
         "\n",
         "# Stage 2: CUAD config  \n",
         "STAGE2_EPOCHS = 20\n",
         "STAGE2_LR = 1e-5            # lower LR for fine-tuning pretrained model\n",
-        "STAGE2_BATCH = 8\n",
-        "STAGE2_GRAD_ACCUM = 4       # effective batch = 32\n",
         "EARLY_STOPPING_PATIENCE = 3\n",
         "\n",
         "# ASL hyperparameters (from arxiv 2009.14119)\n",
@@ -559,7 +558,7 @@
         "\n",
         "This stage uses standard cross-entropy loss since LEDGAR is well-balanced.\n",
         "\n",
-        "**Expected:** ~85-90% micro-F1 after 3-5 epochs (~1-2 hours on A100)"
       ],
       "metadata": {}
     },
@@ -594,7 +593,7 @@
         "    output_dir=\"./stage1_ledgar\",\n",
         "    num_train_epochs=STAGE1_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE1_BATCH,\n",
-        "    per_device_eval_batch_size=16,\n",
         "    gradient_accumulation_steps=STAGE1_GRAD_ACCUM,\n",
         "    learning_rate=STAGE1_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",
@@ -615,7 +614,7 @@
         "    report_to=\"none\",\n",
         "    dataloader_num_workers=2,\n",
         "    seed=SEED,\n",
-        "    gradient_checkpointing=True,  # Save VRAM on A100\n",
         ")\n",
         "\n",
         "stage1_trainer = Trainer(\n",
@@ -672,7 +671,7 @@
         "- Asymmetric Loss for class imbalance\n",
         "- Full fine-tuning (no LoRA bottleneck)\n",
         "\n",
-        "**Expected:** 75-87% macro-F1 after 10-20 epochs (~2-4 hours on A100)"
       ],
       "metadata": {}
     },
@@ -726,7 +725,7 @@
         "    output_dir=\"./stage2_cuad\",\n",
         "    num_train_epochs=STAGE2_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE2_BATCH,\n",
-        "    per_device_eval_batch_size=16,\n",
         "    gradient_accumulation_steps=STAGE2_GRAD_ACCUM,\n",
         "    learning_rate=STAGE2_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",

   "metadata": {
     "colab": {
       "provenance": [],
+      "gpuType": "T4"
     },
     "kernelspec": {
       "name": "python3",
         "1. **Stage 1 — LEDGAR** (60K legal provisions, 100 classes): Teaches \"what types of contract clauses exist\"\n",
         "2. **Stage 2 — CUAD** (41 CUAD classes): Target task with Asymmetric Loss for class imbalance\n",
         "\n",
+        "**Runtime:** ~8-12 hours on T4 GPU (or ~4-6 hours on A100)\n",
         "\n",
         "**Before running:**\n",
+        "1. `Runtime` → `Change runtime type` → **T4 GPU**\n",
         "2. `Runtime` → `Run all`\n",
         "3. Paste your HuggingFace token when prompted"
       ],
         "# Stage 1: LEDGAR config\n",
         "STAGE1_EPOCHS = 5           # LEDGAR is large, converges fast\n",
         "STAGE1_LR = 2e-5\n",
+        "STAGE1_BATCH = 4            # T4: reduced from 8 (16GB VRAM)\n",
+        "STAGE1_GRAD_ACCUM = 8       # effective batch = 32 (4 * 8)\n",
         "\n",
         "# Stage 2: CUAD config  \n",
         "STAGE2_EPOCHS = 20\n",
         "STAGE2_LR = 1e-5            # lower LR for fine-tuning pretrained model\n",
+        "STAGE2_BATCH = 4            # T4: reduced from 8\n",
+        "STAGE2_GRAD_ACCUM = 8       # effective batch = 32 (4 * 8)\n",
         "EARLY_STOPPING_PATIENCE = 3\n",
         "\n",
         "# ASL hyperparameters (from arxiv 2009.14119)\n",
         "\n",
         "This stage uses standard cross-entropy loss since LEDGAR is well-balanced.\n",
         "\n",
+        "**Expected:** ~85-90% micro-F1 after 3-5 epochs (~3-5 hours on T4, ~1-2 hours on A100)"
       ],
       "metadata": {}
     },
         "    output_dir=\"./stage1_ledgar\",\n",
         "    num_train_epochs=STAGE1_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE1_BATCH,\n",
+        "    per_device_eval_batch_size=8,\n",
         "    gradient_accumulation_steps=STAGE1_GRAD_ACCUM,\n",
         "    learning_rate=STAGE1_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",
         "    report_to=\"none\",\n",
         "    dataloader_num_workers=2,\n",
         "    seed=SEED,\n",
+        "    gradient_checkpointing=True,  # Critical for T4 (16GB VRAM)\n",
         ")\n",
         "\n",
         "stage1_trainer = Trainer(\n",
         "- Asymmetric Loss for class imbalance\n",
         "- Full fine-tuning (no LoRA bottleneck)\n",
         "\n",
+        "**Expected:** 75-87% macro-F1 after 10-20 epochs (~5-8 hours on T4, ~2-4 hours on A100)"
       ],
       "metadata": {}
     },
         "    output_dir=\"./stage2_cuad\",\n",
         "    num_train_epochs=STAGE2_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE2_BATCH,\n",
+        "    per_device_eval_batch_size=8,\n",
         "    gradient_accumulation_steps=STAGE2_GRAD_ACCUM,\n",
         "    learning_rate=STAGE2_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",