File size: 13,521 Bytes

9c95323

"""
Downstream evaluation for ModernProteinLM on predictive protein tasks:
- Fluorescence (regression, Spearman)
- Solubility (binary classification)
- Secondary Structure (token classification, Q3/Q8 accuracy)
- Remote Homology (classification)

Compares against ESM-2 baselines.
"""

import os
import json
import torch
import torch.nn as nn
import numpy as np
from torch.utils.data import DataLoader, Dataset
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, mean_squared_error
from scipy.stats import spearmanr
from transformers import get_linear_schedule_with_warmup
from datasets import load_dataset
from tqdm import tqdm
import warnings
warnings.filterwarnings("ignore")

from modeling_modern_protein import ModernProteinLM, ModernProteinLMConfig
from electra_pretrain import ProteinTokenizer


class ProteinDownstreamDataset(Dataset):
    """Generic downstream dataset wrapper."""
    
    TASK_CONFIGS = {
        "fluorescence": {
            "dataset": "proteinea/fluorescence",
            "seq_col": "primary",
            "label_col": "log_fluorescence",
            "task": "regression",
            "metric": "spearman",
        },
        "solubility": {
            "dataset": "proteinea/solubility",
            "seq_col": "sequences",
            "label_col": "labels",
            "task": "classification",
            "num_labels": 2,
            "metric": "accuracy",
        },
        "secondary_structure": {
            "dataset": "proteinea/secondary_structure_prediction",
            "seq_col": "input",
            "label_cols": ["dssp3", "dssp8"],
            "task": "token_classification",
            "num_labels": 3,  # Q3 first
            "metric": "accuracy",
        },
        "remote_homology": {
            "dataset": "proteinea/remote_homology",
            "seq_col": "primary",
            "label_col": "fold_label",
            "task": "classification",
            "num_labels": 1195,  # Actually fold labels
            "metric": "accuracy",
        },
    }
    
    def __init__(self, task_name, split, tokenizer, max_length=1024):
        self.task_name = task_name
        self.config = self.TASK_CONFIGS[task_name]
        self.tokenizer = tokenizer
        self.max_length = max_length
        
        try:
            self.data = load_dataset(self.config["dataset"], split=split)
        except:
            # Some datasets don't have validation/test splits, use train
            self.data = load_dataset(self.config["dataset"], split="train")
        
        self.examples = list(self.data)
    
    def __len__(self):
        return len(self.examples)
    
    def __getitem__(self, idx):
        ex = self.examples[idx]
        seq = ex[self.config["seq_col"]]
        encoded = self.tokenizer.encode(seq, max_length=self.max_length)
        
        item = {
            "input_ids": torch.tensor(encoded["input_ids"], dtype=torch.long),
            "attention_mask": torch.tensor(encoded["attention_mask"], dtype=torch.long),
        }
        
        if self.config["task"] == "regression":
            item["labels"] = torch.tensor(ex[self.config["label_col"]], dtype=torch.float)
        elif self.config["task"] == "classification":
            item["labels"] = torch.tensor(ex[self.config["label_col"]], dtype=torch.long)
        elif self.config["task"] == "token_classification":
            # Secondary structure: each AA has a label
            ss = ex[self.config["label_cols"][0]]  # dssp3
            # Map 'C', 'H', 'E' to 0, 1, 2
            ss_map = {'C': 0, 'H': 1, 'E': 2}
            labels = [ss_map.get(c, 0) for c in ss]
            # Pad/truncate to match sequence length
            seq_len = sum(encoded["attention_mask"])
            labels = labels[:seq_len]
            while len(labels) < len(encoded["input_ids"]):
                labels.append(-100)
            item["labels"] = torch.tensor(labels, dtype=torch.long)
        
        return item


class DownstreamModel(nn.Module):
    def __init__(self, base_model, task_config):
        super().__init__()
        self.base = base_model
        self.task = task_config["task"]
        self.config = task_config
        
        hidden_size = base_model.config.hidden_size
        
        if self.task == "regression":
            self.head = nn.Linear(hidden_size, 1)
        elif self.task == "classification":
            self.head = nn.Linear(hidden_size, task_config.get("num_labels", 2))
        elif self.task == "token_classification":
            self.head = nn.Linear(hidden_size, task_config.get("num_labels", 3))
    
    def forward(self, input_ids, attention_mask, labels=None):
        outputs = self.base(
            input_ids=input_ids,
            attention_mask=attention_mask,
            output_hidden_states=True,
            return_dict=True,
        )
        hidden = outputs.hidden_states[-1]
        
        if self.task in ["regression", "classification"]:
            # Mean pool
            mask_expanded = attention_mask.unsqueeze(-1).float()
            pooled = (hidden * mask_expanded).sum(dim=1) / mask_expanded.sum(dim=1).clamp(min=1e-9)
            logits = self.head(pooled)
        else:
            # Token-level
            logits = self.head(hidden)
        
        loss = None
        if labels is not None:
            if self.task == "regression":
                loss_fct = nn.MSELoss()
                loss = loss_fct(logits.squeeze(-1), labels)
            elif self.task == "classification":
                loss_fct = nn.CrossEntropyLoss()
                loss = loss_fct(logits, labels)
            elif self.task == "token_classification":
                loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
                loss = loss_fct(logits.view(-1, self.config.get("num_labels", 3)), labels.view(-1))
        
        return {"loss": loss, "logits": logits}


def evaluate(model, dataloader, task_config, device):
    model.eval()
    all_preds = []
    all_labels = []
    total_loss = 0
    
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            labels = batch["labels"].to(device)
            
            outputs = model(input_ids, attention_mask, labels)
            total_loss += outputs["loss"].item() * input_ids.size(0)
            
            logits = outputs["logits"]
            if task_config["task"] == "regression":
                preds = logits.squeeze(-1).cpu().numpy()
                all_preds.extend(preds)
                all_labels.extend(labels.cpu().numpy())
            elif task_config["task"] == "classification":
                preds = torch.argmax(logits, dim=-1).cpu().numpy()
                all_preds.extend(preds)
                all_labels.extend(labels.cpu().numpy())
            elif task_config["task"] == "token_classification":
                preds = torch.argmax(logits, dim=-1).cpu().numpy()
                labels_np = labels.cpu().numpy()
                # Only evaluate non-padding positions
                for i in range(len(preds)):
                    mask = labels_np[i] != -100
                    all_preds.extend(preds[i][mask])
                    all_labels.extend(labels_np[i][mask])
    
    metric = task_config["metric"]
    if metric == "spearman":
        score, _ = spearmanr(all_labels, all_preds)
    elif metric == "accuracy":
        score = accuracy_score(all_labels, all_preds)
    elif metric == "f1":
        score = f1_score(all_labels, all_preds, average="macro")
    
    avg_loss = total_loss / len(dataloader.dataset)
    return score, avg_loss


def train_downstream(
    base_model,
    task_name,
    tokenizer,
    epochs=20,
    batch_size=16,
    lr=1e-4,
    device="cuda",
    seed=42,
):
    torch.manual_seed(seed)
    np.random.seed(seed)
    
    task_config = ProteinDownstreamDataset.TASK_CONFIGS[task_name]
    
    train_dataset = ProteinDownstreamDataset(task_name, "train", tokenizer)
    
    # For validation, use test or create split
    try:
        val_dataset = ProteinDownstreamDataset(task_name, "validation", tokenizer)
    except:
        val_dataset = ProteinDownstreamDataset(task_name, "test", tokenizer)
    
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=2)
    val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False, num_workers=2)
    
    model = DownstreamModel(base_model, task_config).to(device)
    
    # Freeze some layers for small datasets
    if task_name in ["fluorescence"]:
        # Fine-tune all for small regression tasks
        pass
    
    optimizer = torch.optim.AdamW(model.parameters(), lr=lr, weight_decay=0.01)
    
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(
        optimizer, num_warmup_steps=int(0.1 * total_steps), num_training_steps=total_steps
    )
    
    best_score = -float("inf") if task_config["metric"] != "mse" else float("inf")
    best_model_state = None
    
    for epoch in range(epochs):
        model.train()
        total_loss = 0
        
        pbar = tqdm(train_loader, desc=f"Epoch {epoch+1}/{epochs}")
        for batch in pbar:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            labels = batch["labels"].to(device)
            
            outputs = model(input_ids, attention_mask, labels)
            loss = outputs["loss"]
            
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            scheduler.step()
            optimizer.zero_grad()
            
            total_loss += loss.item()
            pbar.set_postfix({"loss": f"{loss.item():.4f}"})
        
        # Evaluate
        score, val_loss = evaluate(model, val_loader, task_config, device)
        print(f"Epoch {epoch+1}: Val {task_config['metric']}={score:.4f}, Loss={val_loss:.4f}")
        
        if task_config["metric"] == "spearman":
            is_better = score > best_score
        elif task_config["metric"] == "accuracy":
            is_better = score > best_score
        
        if is_better:
            best_score = score
            best_model_state = {k: v.cpu().clone() for k, v in model.state_dict().items()}
    
    if best_model_state:
        model.load_state_dict(best_model_state)
    
    return model, best_score


def compare_models(
    task_names=["fluorescence", "solubility", "secondary_structure"],
    epochs=20,
    device="cuda",
):
    tokenizer = ProteinTokenizer()
    results = {}
    
    for task in task_names:
        print(f"\n{'='*50}")
        print(f"Task: {task}")
        print(f"{'='*50}")
        
        # ModernProteinLM (random init)
        config = ModernProteinLMConfig(
            vocab_size=33,
            hidden_size=640,
            num_hidden_layers=24,
            num_attention_heads=10,
            intermediate_size=2304,
            use_geglu=True,
            tie_word_embeddings=True,
        )
        modern_model = ModernProteinLM(config)
        print(f"ModernProteinLM params: {sum(p.numel() for p in modern_model.parameters())/1e6:.1f}M")
        
        modern_model, modern_score = train_downstream(
            modern_model, task, tokenizer, epochs=epochs, device=device
        )
        
        # ESM-2 baseline
        try:
            from transformers import AutoModel, AutoTokenizer
            esm_tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t12_35M_UR50D")
            esm_model = AutoModel.from_pretrained("facebook/esm2_t12_35M_UR50D")
            print(f"ESM-2 35M params: {sum(p.numel() for p in esm_model.parameters())/1e6:.1f}M")
            
            # Convert ESM model to have same interface
            esm_model.config.hidden_size = esm_model.config.hidden_size
            
            esm_model, esm_score = train_downstream(
                esm_model, task, tokenizer, epochs=epochs, device=device
            )
            
            results[task] = {
                "modern": modern_score,
                "esm2_35m": esm_score,
            }
        except Exception as e:
            print(f"ESM-2 comparison failed: {e}")
            results[task] = {"modern": modern_score, "esm2_35m": None}
        
        print(f"\nResults for {task}:")
        print(f"  ModernProteinLM: {modern_score:.4f}")
        if "esm2_35m" in results[task] and results[task]["esm2_35m"] is not None:
            print(f"  ESM-2 35M: {results[task]['esm2_35m']:.4f}")
    
    with open("downstream_results.json", "w") as f:
        json.dump(results, f, indent=2)
    
    return results


if __name__ == "__main__":
    device = "cuda" if torch.cuda.is_available() else "cpu"
    print(f"Using device: {device}")
    
    # Quick test on solubility (smallest dataset)
    tokenizer = ProteinTokenizer()
    
    config = ModernProteinLMConfig(
        vocab_size=33,
        hidden_size=128,
        num_hidden_layers=4,
        num_attention_heads=4,
        intermediate_size=512,
        use_geglu=True,
        tie_word_embeddings=True,
    )
    model = ModernProteinLM(config)
    
    print(f"\nTesting on solubility (tiny model)...")
    trained_model, score = train_downstream(
        model, "solubility", tokenizer, epochs=5, batch_size=8, lr=5e-4, device=device
    )
    print(f"Solubility accuracy: {score:.4f}")