Spaces:

gaurv007
/

ClauseGuard

Running

App Files Files Community

gaurv007 commited on 14 days ago

Commit

970316e

verified ·

1 Parent(s): 55761de

Fix: DeBERTa-v3 fp16 crash on T4 — use fp32, batch=2, grad_accum=16

Browse files

Files changed (1) hide show

ml/ClauseGuard_DeBERTa_Training.ipynb +11 -11

ml/ClauseGuard_DeBERTa_Training.ipynb CHANGED Viewed

@@ -103,14 +103,14 @@
         "# Stage 1: LEDGAR config\n",
         "STAGE1_EPOCHS = 5           # LEDGAR is large, converges fast\n",
         "STAGE1_LR = 2e-5\n",
-        "STAGE1_BATCH = 4            # T4: reduced from 8 (16GB VRAM)\n",
-        "STAGE1_GRAD_ACCUM = 8       # effective batch = 32 (4 * 8)\n",
         "\n",
         "# Stage 2: CUAD config  \n",
         "STAGE2_EPOCHS = 20\n",
         "STAGE2_LR = 1e-5            # lower LR for fine-tuning pretrained model\n",
-        "STAGE2_BATCH = 4            # T4: reduced from 8\n",
-        "STAGE2_GRAD_ACCUM = 8       # effective batch = 32 (4 * 8)\n",
         "EARLY_STOPPING_PATIENCE = 3\n",
         "\n",
         "# ASL hyperparameters (from arxiv 2009.14119)\n",
@@ -593,7 +593,7 @@
         "    output_dir=\"./stage1_ledgar\",\n",
         "    num_train_epochs=STAGE1_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE1_BATCH,\n",
-        "    per_device_eval_batch_size=8,\n",
         "    gradient_accumulation_steps=STAGE1_GRAD_ACCUM,\n",
         "    learning_rate=STAGE1_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",
@@ -605,12 +605,12 @@
         "    load_best_model_at_end=True,\n",
         "    metric_for_best_model=\"macro_f1\",\n",
         "    greater_is_better=True,\n",
-        "    bf16=torch.cuda.is_available() and torch.cuda.get_device_capability()[0] >= 8,\n",
-        "    fp16=torch.cuda.is_available() and torch.cuda.get_device_capability()[0] < 8,\n",
         "    logging_strategy=\"steps\",\n",
         "    logging_steps=50,\n",
         "    logging_first_step=True,\n",
-        "    disable_tqdm=False,  # Keep progress bar in Colab\n",
         "    report_to=\"none\",\n",
         "    dataloader_num_workers=2,\n",
         "    seed=SEED,\n",
@@ -725,7 +725,7 @@
         "    output_dir=\"./stage2_cuad\",\n",
         "    num_train_epochs=STAGE2_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE2_BATCH,\n",
-        "    per_device_eval_batch_size=8,\n",
         "    gradient_accumulation_steps=STAGE2_GRAD_ACCUM,\n",
         "    learning_rate=STAGE2_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",
@@ -737,8 +737,8 @@
         "    load_best_model_at_end=True,\n",
         "    metric_for_best_model=\"macro_f1\",\n",
         "    greater_is_better=True,\n",
-        "    bf16=torch.cuda.is_available() and torch.cuda.get_device_capability()[0] >= 8,\n",
-        "    fp16=torch.cuda.is_available() and torch.cuda.get_device_capability()[0] < 8,\n",
         "    logging_strategy=\"steps\",\n",
         "    logging_steps=25,\n",
         "    logging_first_step=True,\n",

         "# Stage 1: LEDGAR config\n",
         "STAGE1_EPOCHS = 5           # LEDGAR is large, converges fast\n",
         "STAGE1_LR = 2e-5\n",
+        "STAGE1_BATCH = 2            # T4 fp32: reduced for DeBERTa-v3 compatibility\n",
+        "STAGE1_GRAD_ACCUM = 16      # effective batch = 32 (2 * 16)\n",
         "\n",
         "# Stage 2: CUAD config  \n",
         "STAGE2_EPOCHS = 20\n",
         "STAGE2_LR = 1e-5            # lower LR for fine-tuning pretrained model\n",
+        "STAGE2_BATCH = 2            # T4 fp32: reduced for DeBERTa-v3 compatibility\n",
+        "STAGE2_GRAD_ACCUM = 16      # effective batch = 32 (2 * 16)\n",
         "EARLY_STOPPING_PATIENCE = 3\n",
         "\n",
         "# ASL hyperparameters (from arxiv 2009.14119)\n",
         "    output_dir=\"./stage1_ledgar\",\n",
         "    num_train_epochs=STAGE1_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE1_BATCH,\n",
+        "    per_device_eval_batch_size=4,\n",
         "    gradient_accumulation_steps=STAGE1_GRAD_ACCUM,\n",
         "    learning_rate=STAGE1_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",
         "    load_best_model_at_end=True,\n",
         "    metric_for_best_model=\"macro_f1\",\n",
         "    greater_is_better=True,\n",
+        "    bf16=False,  # DeBERTa-v3 breaks with fp16 gradient scaler; fp32 is safest on T4\n",
+        "    fp16=False,\n",
         "    logging_strategy=\"steps\",\n",
         "    logging_steps=50,\n",
         "    logging_first_step=True,\n",
+        "    disable_tqdm=False,\n",
         "    report_to=\"none\",\n",
         "    dataloader_num_workers=2,\n",
         "    seed=SEED,\n",
         "    output_dir=\"./stage2_cuad\",\n",
         "    num_train_epochs=STAGE2_EPOCHS,\n",
         "    per_device_train_batch_size=STAGE2_BATCH,\n",
+        "    per_device_eval_batch_size=4,\n",
         "    gradient_accumulation_steps=STAGE2_GRAD_ACCUM,\n",
         "    learning_rate=STAGE2_LR,\n",
         "    weight_decay=WEIGHT_DECAY,\n",
         "    load_best_model_at_end=True,\n",
         "    metric_for_best_model=\"macro_f1\",\n",
         "    greater_is_better=True,\n",
+        "    bf16=False,  # DeBERTa-v3 breaks with fp16 gradient scaler; fp32 is safest on T4\n",
+        "    fp16=False,\n",
         "    logging_strategy=\"steps\",\n",
         "    logging_steps=25,\n",
         "    logging_first_step=True,\n",