GrimSqueaker
/

ModernProteinLM

ml-intern

Model card Files Files and versions

xet

Community

GrimSqueaker commited on about 23 hours ago

Commit

3714d46

verified ·

1 Parent(s): 9cac9b5

Upload train_finetune.py with huggingface_hub

Browse files

Files changed (1) hide show

train_finetune.py +430 -0

train_finetune.py ADDED Viewed

	@@ -0,0 +1,430 @@

+"""
+Fine-tune pretrained ModernProteinLM on downstream predictive tasks.
+Supports: regression (fluorescence, stability), classification (solubility, remote homology).
+"""
+import os
+import sys
+import argparse
+import json
+import random
+import math
+from typing import Dict, List
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.distributed as dist
+from torch.nn.parallel import DistributedDataParallel as DDP
+from torch.utils.data import DataLoader, Dataset, DistributedSampler
+from torch.cuda.amp import autocast, GradScaler
+from transformers import get_cosine_schedule_with_warmup
+from datasets import load_dataset
+from scipy.stats import spearmanr
+from sklearn.metrics import accuracy_score, f1_score
+from modeling_modern_protein import ModernProteinLM, ModernProteinLMConfig
+# =============================================================================
+# TOKENIZER (shared with pretrain)
+# =============================================================================
+class ProteinTokenizer:
+    def __init__(self):
+        self.vocab = {
+            "<cls>": 0, "<pad>": 1, "<eos>": 2, "<unk>": 3,
+            "L": 4, "A": 5, "G": 6, "V": 7, "S": 8, "E": 9, "R": 10,
+            "T": 11, "I": 12, "D": 13, "P": 14, "Q": 15, "K": 16, "N": 17,
+            "F": 18, "Y": 19, "W": 20, "M": 21, "H": 22, "C": 23, "X": 24,
+            "B": 25, "U": 26, "Z": 27, "O": 28, "<mask>": 29, "<sep>": 30,
+        }
+        while len(self.vocab) < 33:
+            self.vocab[f"<special_{len(self.vocab)}>"] = len(self.vocab)
+        self.id_to_token = {v: k for k, v in self.vocab.items()}
+        self.mask_token_id = 29
+        self.pad_token_id = 1
+        self.cls_token_id = 0
+        self.eos_token_id = 2
+    def encode(self, sequence: str, max_length: int = 1024):
+        tokens = [self.cls_token_id]
+        for aa in sequence.upper():
+            tokens.append(self.vocab.get(aa, self.vocab["<unk>"]))
+        tokens.append(self.eos_token_id)
+        if len(tokens) > max_length:
+            tokens = tokens[:max_length]
+        attention_mask = [1] * len(tokens)
+        while len(tokens) < max_length:
+            tokens.append(self.pad_token_id)
+            attention_mask.append(0)
+        return {"input_ids": tokens, "attention_mask": attention_mask}
+def setup_distributed():
+    if "RANK" in os.environ and "WORLD_SIZE" in os.environ:
+        rank = int(os.environ["RANK"])
+        world_size = int(os.environ["WORLD_SIZE"])
+        local_rank = int(os.environ.get("LOCAL_RANK", 0))
+        dist.init_process_group(backend="nccl", rank=rank, world_size=world_size)
+        torch.cuda.set_device(local_rank)
+        return rank, world_size, local_rank
+    return 0, 1, 0
+def log_rank0(msg):
+    if not dist.is_initialized() or dist.get_rank() == 0:
+        print(msg)
+# =============================================================================
+# TASK DEFINITIONS
+# =============================================================================
+TASK_SPECS = {
+    "fluorescence": {
+        "dataset": "proteinea/fluorescence",
+        "seq_key": "primary",
+        "label_key": "log_fluorescence",
+        "task_type": "regression",
+        "metric": "spearman",
+        "splits": ["train", "validation", "test"],
+    },
+    "stability": {
+        "dataset": "proteinea/fluorescence",
+        "seq_key": "primary",
+        "label_key": "log_fluorescence",
+        "task_type": "regression",
+        "metric": "spearman",
+        "splits": ["train", "validation", "test"],
+    },
+    "solubility": {
+        "dataset": "proteinea/solubility",
+        "seq_key": "sequences",
+        "label_key": "labels",
+        "task_type": "classification",
+        "num_labels": 2,
+        "metric": "accuracy",
+        "splits": ["train", "validation", "test"],
+    },
+    "remote_homology": {
+        "dataset": "proteinea/remote_homology",
+        "seq_key": "primary",
+        "label_key": "fold_label",
+        "task_type": "classification",
+        "num_labels": 1195,
+        "metric": "accuracy",
+        "splits": ["train", "validation", "test"],
+    },
+}
+class DownstreamDataset(Dataset):
+    def __init__(self, task_name, split, tokenizer, max_length=1024):
+        self.spec = TASK_SPECS[task_name]
+        self.tokenizer = tokenizer
+        self.max_length = max_length
+        try:
+            self.data = load_dataset(self.spec["dataset"], split=split)
+        except Exception as e:
+            log_rank0(f"Failed to load {split}: {e}, using train")
+            self.data = load_dataset(self.spec["dataset"], split="train")
+        self.examples = list(self.data)
+    def __len__(self):
+        return len(self.examples)
+    def __getitem__(self, idx):
+        ex = self.examples[idx]
+        seq = ex[self.spec["seq_key"]]
+        encoded = self.tokenizer.encode(seq, self.max_length)
+        item = {
+            "input_ids": torch.tensor(encoded["input_ids"], dtype=torch.long),
+            "attention_mask": torch.tensor(encoded["attention_mask"], dtype=torch.long),
+        }
+        if self.spec["task_type"] == "regression":
+            item["labels"] = torch.tensor(ex[self.spec["label_key"]], dtype=torch.float)
+        else:
+            item["labels"] = torch.tensor(ex[self.spec["label_key"]], dtype=torch.long)
+        return item
+def mean_pool(hidden_states, attention_mask):
+    mask = attention_mask.unsqueeze(-1).float()
+    return (hidden_states * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1e-9)
+class TaskHead(nn.Module):
+    def __init__(self, hidden_size, task_spec):
+        super().__init__()
+        if task_spec["task_type"] == "regression":
+            self.head = nn.Linear(hidden_size, 1)
+        else:
+            self.head = nn.Linear(hidden_size, task_spec.get("num_labels", 2))
+        self.task_type = task_spec["task_type"]
+    def forward(self, pooled):
+        return self.head(pooled)
+def evaluate(model, head, dataloader, task_spec, device):
+    model.eval()
+    head.eval()
+    all_preds = []
+    all_labels = []
+    total_loss = 0.0
+    with torch.no_grad():
+        for batch in dataloader:
+            input_ids = batch["input_ids"].to(device)
+            attention_mask = batch["attention_mask"].to(device)
+            labels = batch["labels"].to(device)
+            outputs = model(input_ids, attention_mask, output_hidden_states=True, return_dict=True)
+            hidden = outputs.hidden_states[-1]
+            pooled = mean_pool(hidden, attention_mask)
+            logits = head(pooled)
+            if task_spec["task_type"] == "regression":
+                loss = F.mse_loss(logits.squeeze(-1), labels)
+                preds = logits.squeeze(-1).cpu().numpy()
+            else:
+                loss = F.cross_entropy(logits, labels)
+                preds = torch.argmax(logits, dim=-1).cpu().numpy()
+            total_loss += loss.item() * input_ids.size(0)
+            all_preds.extend(preds.tolist() if hasattr(preds, 'tolist') else preds)
+            all_labels.extend(labels.cpu().numpy().tolist())
+    metric = task_spec["metric"]
+    if metric == "spearman":
+        score, _ = spearmanr(all_labels, all_preds)
+    elif metric == "accuracy":
+        score = accuracy_score(all_labels, all_preds)
+    elif metric == "f1":
+        score = f1_score(all_labels, all_preds, average="macro")
+    return score, total_loss / len(dataloader.dataset)
+def train_task(args, model, task_name, tokenizer, device, rank, world_size):
+    spec = TASK_SPECS[task_name]
+    train_ds = DownstreamDataset(task_name, spec["splits"][0], tokenizer, args.max_seq_length)
+    val_ds = DownstreamDataset(
+        task_name,
+        spec["splits"][1] if len(spec["splits"]) > 1 else spec["splits"][0],
+        tokenizer, args.max_seq_length
+    )
+    test_ds = DownstreamDataset(
+        task_name,
+        spec["splits"][-1],
+        tokenizer, args.max_seq_length
+    )
+    if world_size > 1:
+        train_sampler = DistributedSampler(train_ds, num_replicas=world_size, rank=rank)
+    else:
+        train_sampler = None
+    train_loader = DataLoader(train_ds, batch_size=args.batch_size, sampler=train_sampler,
+                               num_workers=args.num_workers, pin_memory=True, drop_last=True)
+    val_loader = DataLoader(val_ds, batch_size=args.batch_size, shuffle=False,
+                             num_workers=args.num_workers, pin_memory=True)
+    test_loader = DataLoader(test_ds, batch_size=args.batch_size, shuffle=False,
+                              num_workers=args.num_workers, pin_memory=True)
+    head = TaskHead(args.hidden_size, spec).to(device)
+    # Layer-wise LR decay
+    params = [
+        {"params": head.parameters(), "lr": args.lr},
+        {"params": model.layers[-4:].parameters(), "lr": args.lr * 0.5},
+        {"params": model.layers[:-4].parameters(), "lr": args.lr * 0.1},
+        {"params": [model.embeddings.weight], "lr": args.lr * 0.1},
+    ]
+    optimizer = torch.optim.AdamW(params, weight_decay=args.weight_decay)
+    total_steps = len(train_loader) * args.epochs
+    scheduler = get_cosine_schedule_with_warmup(
+        optimizer, int(args.warmup_ratio * total_steps), total_steps
+    )
+    scaler = GradScaler() if args.use_amp else None
+    best_score = -float("inf")
+    best_state = None
+    for epoch in range(args.epochs):
+        model.train()
+        head.train()
+        if train_sampler:
+            train_sampler.set_epoch(epoch)
+        for batch in train_loader:
+            input_ids = batch["input_ids"].to(device)
+            attention_mask = batch["attention_mask"].to(device)
+            labels = batch["labels"].to(device)
+            with autocast(enabled=args.use_amp):
+                outputs = model(input_ids, attention_mask, output_hidden_states=True, return_dict=True)
+                hidden = outputs.hidden_states[-1]
+                pooled = mean_pool(hidden, attention_mask)
+                logits = head(pooled)
+                if spec["task_type"] == "regression":
+                    loss = F.mse_loss(logits.squeeze(-1), labels)
+                else:
+                    loss = F.cross_entropy(logits, labels)
+            if scaler:
+                scaler.scale(loss).backward()
+                scaler.unscale_(optimizer)
+                torch.nn.utils.clip_grad_norm_(list(model.parameters()) + list(head.parameters()), 1.0)
+                scaler.step(optimizer)
+                scaler.update()
+            else:
+                loss.backward()
+                torch.nn.utils.clip_grad_norm_(list(model.parameters()) + list(head.parameters()), 1.0)
+                optimizer.step()
+            scheduler.step()
+            optimizer.zero_grad()
+        # Evaluate
+        val_score, val_loss = evaluate(model, head, val_loader, spec, device)
+        if rank == 0:
+            log_rank0(f"  Epoch {epoch+1}/{args.epochs}: val_{spec['metric']}={val_score:.4f}, loss={val_loss:.4f}")
+        if val_score > best_score:
+            best_score = val_score
+            best_state = {
+                "model": model.state_dict(),
+                "head": head.state_dict(),
+            }
+    # Load best and test
+    if best_state:
+        model.load_state_dict(best_state["model"])
+        head.load_state_dict(best_state["head"])
+    test_score, test_loss = evaluate(model, head, test_loader, spec, device)
+    return {
+        "task": task_name,
+        "val_score": float(best_score),
+        "test_score": float(test_score),
+        "metric": spec["metric"],
+    }
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--pretrain_dir", required=True)
+    parser.add_argument("--tasks", default="fluorescence,solubility")
+    parser.add_argument("--epochs", type=int, default=20)
+    parser.add_argument("--batch_size", type=int, default=16)
+    parser.add_argument("--lr", type=float, default=1e-4)
+    parser.add_argument("--warmup_ratio", type=float, default=0.1)
+    parser.add_argument("--weight_decay", type=float, default=0.01)
+    parser.add_argument("--max_seq_length", type=int, default=1024)
+    parser.add_argument("--output_dir", default="./outputs/finetune")
+    parser.add_argument("--num_workers", type=int, default=4)
+    parser.add_argument("--use_amp", action="store_true")
+    parser.add_argument("--seed", type=int, default=42)
+    parser.add_argument("--use_trackio", action="store_true")
+    parser.add_argument("--trackio_project", default="modern-protein-lm")
+    args = parser.parse_args()
+    rank, world_size, local_rank = setup_distributed()
+    random.seed(args.seed + rank)
+    np.random.seed(args.seed + rank)
+    torch.manual_seed(args.seed + rank)
+    device = torch.device(f"cuda:{local_rank}" if torch.cuda.is_available() else "cpu")
+    tokenizer = ProteinTokenizer()
+    # Load pretrained discriminator base
+    checkpoint_path = os.path.join(args.pretrain_dir, "checkpoint.pt")
+    if not os.path.exists(checkpoint_path):
+        raise FileNotFoundError(f"Checkpoint not found: {checkpoint_path}")
+    checkpoint = torch.load(checkpoint_path, map_location="cpu")
+    # Infer config from checkpoint
+    disc_state = checkpoint["discriminator"]
+    # Find hidden_size from state dict
+    hidden_size = None
+    for key in disc_state:
+        if "model.embeddings.weight" in key:
+            hidden_size = disc_state[key].shape[1]
+            break
+    if hidden_size is None:
+        raise ValueError("Could not infer model size from checkpoint")
+    args.hidden_size = hidden_size
+    config = ModernProteinLMConfig(
+        vocab_size=33,
+        hidden_size=hidden_size,
+        num_hidden_layers=28,
+        num_attention_heads=9,
+        intermediate_size=2304,
+        use_geglu=True,
+        tie_word_embeddings=True,
+    )
+    model = ModernProteinLM(config).to(device)
+    # Load only base model weights (not discriminator head)
+    base_state = {k.replace("model.", ""): v for k, v in disc_state.items() if k.startswith("model.")}
+    model.load_state_dict(base_state, strict=False)
+    log_rank0(f"Loaded model with {sum(p.numel() for p in model.parameters())/1e6:.1f}M params")
+    if world_size > 1:
+        model = DDP(model, device_ids=[local_rank])
+    tasks = [t.strip() for t in args.tasks.split(",")]
+    results = {}
+    for task in tasks:
+        log_rank0(f"\n{'='*50}")
+        log_rank0(f"Task: {task}")
+        log_rank0(f"{'='*50}")
+        result = train_task(args, model, task, tokenizer, device, rank, world_size)
+        results[task] = result
+        if rank == 0:
+            log_rank0(f"  Test {result['metric']}: {result['test_score']:.4f}")
+    if rank == 0:
+        os.makedirs(args.output_dir, exist_ok=True)
+        with open(os.path.join(args.output_dir, "results.json"), "w") as f:
+            json.dump(results, f, indent=2)
+        log_rank0(f"\n{'='*50}")
+        log_rank0("FINAL RESULTS")
+        log_rank0(f"{'='*50}")
+        for task, res in results.items():
+            log_rank0(f"  {task}: {res['test_score']:.4f} ({res['metric']})")
+    if dist.is_initialized():
+        dist.destroy_process_group()
+if __name__ == "__main__":
+    main()