Spaces:

gaurv007
/

ClauseGuard

Running

gaurv007 commited on 15 days ago

Commit

597978a

verified ·

1 Parent(s): 85cf385

Fix: cast labels to float32 for BCEWithLogitsLoss compatibility

Files changed (1) hide show

ml/train_classifier.py CHANGED Viewed

@@ -8,7 +8,7 @@ Compatible with: Transformers 5.6.x, Datasets 4.8.x (April 2026)
 import os
 import numpy as np
 import torch
-from datasets import load_dataset
 from sklearn.metrics import f1_score, precision_score, recall_score
 from transformers import (
     AutoConfig,
@@ -85,7 +85,12 @@ def preprocess(examples):
     return tokenized
 print("Tokenizing dataset...")
-tokenized_ds = dataset.map(preprocess, batched=True, remove_columns=["text"])
 tokenized_ds.set_format("torch")
 # ─── 4. Metrics ───

 import os
 import numpy as np
 import torch
+from datasets import load_dataset, Sequence, Value
 from sklearn.metrics import f1_score, precision_score, recall_score
 from transformers import (
     AutoConfig,
     return tokenized
 print("Tokenizing dataset...")
+tokenized_ds = dataset.map(preprocess, batched=True, remove_columns=dataset["train"].column_names)
+# Critical: cast labels to float32 for BCEWithLogitsLoss (datasets default is int64)
+for split in tokenized_ds:
+    tokenized_ds[split] = tokenized_ds[split].cast_column("labels", Sequence(Value("float32")))
 tokenized_ds.set_format("torch")
 # ─── 4. Metrics ───