Add upgraded SFT training script with SciRIFF data + proper QLoRA config

Browse files

Files changed (1) hide show

phd_research_os_v2/training/train_sft_v2.py +233 -0

phd_research_os_v2/training/train_sft_v2.py ADDED Viewed

	@@ -0,0 +1,233 @@

+"""
+PhD Research OS — Upgraded SFT Training Script
+=================================================
+Stage 1 of the 4-stage training pipeline.
+Changes from original train.py:
+- Integrates SciRIFF data (72× more training examples)
+- Proper QLoRA configuration based on TRL v1.2.0 docs
+- Trackio monitoring for loss tracking
+- push_to_hub enabled (model not lost when job ends)
+- Proper eval strategy with paper-level awareness
+- Logging configured for headless training (no tqdm)
+Usage:
+    python -m phd_research_os_v2.training.train_sft_v2
+Dependencies:
+    pip install trl peft transformers datasets bitsandbytes accelerate trackio torch
+"""
+import os
+import sys
+import json
+import logging
+import torch
+from datetime import datetime
+# ── Logging setup ─────────────────────────────────────────────────────
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s [%(levelname)s] %(name)s: %(message)s",
+    handlers=[logging.StreamHandler(sys.stdout)],
+)
+logger = logging.getLogger("train_sft_v2")
+# ── Configuration ─────────────────────────────────────────────────────
+# Model
+BASE_MODEL = os.environ.get("BASE_MODEL", "Qwen/Qwen2.5-3B-Instruct")
+# Data
+EXISTING_DATASET = "nkshirsa/phd-research-os-sft-data"
+SCIRIFF_MAX = int(os.environ.get("SCIRIFF_MAX", "8000"))  # SciRIFF examples to include
+# Training
+NUM_EPOCHS = int(os.environ.get("NUM_EPOCHS", "3"))
+BATCH_SIZE = int(os.environ.get("BATCH_SIZE", "2"))
+GRAD_ACCUM = int(os.environ.get("GRAD_ACCUM", "8"))
+LEARNING_RATE = float(os.environ.get("LEARNING_RATE", "2e-4"))
+MAX_SEQ_LENGTH = int(os.environ.get("MAX_SEQ_LENGTH", "2048"))
+LORA_R = int(os.environ.get("LORA_R", "64"))
+LORA_ALPHA = int(os.environ.get("LORA_ALPHA", "16"))
+# Output
+OUTPUT_DIR = os.environ.get("OUTPUT_DIR", "./research-os-sft-v2")
+HUB_MODEL_ID = os.environ.get("HUB_MODEL_ID", "nkshirsa/phd-research-os-brain-v2")
+PUSH_TO_HUB = os.environ.get("PUSH_TO_HUB", "true").lower() == "true"
+def main():
+    logger.info("=" * 60)
+    logger.info("PhD Research OS — SFT Training v2")
+    logger.info("=" * 60)
+    logger.info(f"Base model: {BASE_MODEL}")
+    logger.info(f"SciRIFF max examples: {SCIRIFF_MAX}")
+    logger.info(f"Epochs: {NUM_EPOCHS}, Batch: {BATCH_SIZE}, Grad accum: {GRAD_ACCUM}")
+    logger.info(f"LR: {LEARNING_RATE}, Max seq: {MAX_SEQ_LENGTH}")
+    logger.info(f"LoRA r={LORA_R}, alpha={LORA_ALPHA}")
+    logger.info(f"Output: {OUTPUT_DIR}")
+    logger.info(f"Push to hub: {PUSH_TO_HUB} → {HUB_MODEL_ID}")
+    # ── 1. Setup Trackio monitoring ──────────────────────────────────
+    try:
+        import trackio
+        trackio.init(name="phd-research-os-sft-v2")
+        logger.info("Trackio monitoring initialized")
+    except ImportError:
+        logger.warning("Trackio not available — training will proceed without monitoring")
+    # ── 2. Load and merge datasets ───────────────────────────────────
+    logger.info("Loading datasets...")
+    from datasets import load_dataset, concatenate_datasets
+    # Load existing data
+    existing_ds = load_dataset(EXISTING_DATASET, split="train", trust_remote_code=True)
+    existing_test = load_dataset(EXISTING_DATASET, split="test", trust_remote_code=True)
+    logger.info(f"Existing dataset: {len(existing_ds)} train, {len(existing_test)} test")
+    # Load and convert SciRIFF
+    logger.info(f"Loading SciRIFF (max {SCIRIFF_MAX} examples)...")
+    try:
+        from phd_research_os_v2.training.sciriff_integration import load_sciriff
+        sciriff_examples = load_sciriff(config="4096", max_examples=SCIRIFF_MAX)
+        from datasets import Dataset
+        sciriff_ds = Dataset.from_list(sciriff_examples)
+        # Merge
+        train_ds = concatenate_datasets([existing_ds, sciriff_ds])
+        train_ds = train_ds.shuffle(seed=42)
+        logger.info(f"Merged: {len(existing_ds)} + {len(sciriff_ds)} = {len(train_ds)} training examples")
+    except Exception as e:
+        logger.warning(f"SciRIFF loading failed: {e}. Using existing data only.")
+        train_ds = existing_ds
+    test_ds = existing_test
+    logger.info(f"Final: {len(train_ds)} train, {len(test_ds)} test")
+    # ── 3. Load model with QLoRA quantization ────────────────────────
+    logger.info(f"Loading {BASE_MODEL} with 4-bit quantization...")
+    from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True,
+        bnb_4bit_compute_dtype=torch.bfloat16,
+    )
+    model = AutoModelForCausalLM.from_pretrained(
+        BASE_MODEL,
+        quantization_config=bnb_config,
+        device_map="auto",
+        trust_remote_code=True,
+    )
+    tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    logger.info(f"Model loaded: {model.num_parameters():,} parameters")
+    # ── 4. Configure LoRA ────────────────────────────────────────────
+    from peft import LoraConfig, prepare_model_for_kbit_training
+    model = prepare_model_for_kbit_training(model)
+    peft_config = LoraConfig(
+        r=LORA_R,
+        lora_alpha=LORA_ALPHA,
+        lora_dropout=0.05,
+        bias="none",
+        task_type="CAUSAL_LM",
+        target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
+                        "gate_proj", "up_proj", "down_proj"],
+    )
+    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    total_params = sum(p.numel() for p in model.parameters())
+    logger.info(f"LoRA: r={LORA_R}, alpha={LORA_ALPHA}")
+    logger.info(f"Trainable: {trainable_params:,} / {total_params:,} ({trainable_params/total_params:.1%})")
+    # ── 5. Configure training ────────────────────────────────────────
+    from trl import SFTConfig, SFTTrainer
+    training_args = SFTConfig(
+        output_dir=OUTPUT_DIR,
+        num_train_epochs=NUM_EPOCHS,
+        per_device_train_batch_size=BATCH_SIZE,
+        per_device_eval_batch_size=BATCH_SIZE,
+        gradient_accumulation_steps=GRAD_ACCUM,
+        learning_rate=LEARNING_RATE,
+        lr_scheduler_type="cosine",
+        warmup_ratio=0.05,
+        bf16=True,
+        gradient_checkpointing=True,
+        # Logging — critical for headless training
+        logging_strategy="steps",
+        logging_steps=10,
+        logging_first_step=True,
+        disable_tqdm=True,
+        report_to="none",
+        # Evaluation
+        eval_strategy="steps",
+        eval_steps=200,
+        save_strategy="steps",
+        save_steps=500,
+        save_total_limit=3,
+        load_best_model_at_end=True,
+        metric_for_best_model="eval_loss",
+        # SFT-specific
+        max_seq_length=MAX_SEQ_LENGTH,
+        dataset_text_field=None,  # Auto-detect 'messages' column
+        packing=False,
+        # Hub
+        push_to_hub=PUSH_TO_HUB,
+        hub_model_id=HUB_MODEL_ID,
+        hub_strategy="end",
+    )
+    # ── 6. Create trainer ────────────────────────────────────────────
+    trainer = SFTTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_ds,
+        eval_dataset=test_ds,
+        peft_config=peft_config,
+        processing_class=tokenizer,
+    )
+    # ── 7. Train ─────────────────────────────────────────────────────
+    logger.info("Starting training...")
+    logger.info(f"Effective batch size: {BATCH_SIZE * GRAD_ACCUM}")
+    logger.info(f"Total steps: ~{len(train_ds) // (BATCH_SIZE * GRAD_ACCUM) * NUM_EPOCHS}")
+    result = trainer.train()
+    logger.info("Training complete!")
+    logger.info(f"Final metrics: {result.metrics}")
+    # ── 8. Save and push ─────────────────────────────────────────────
+    logger.info("Saving model...")
+    trainer.save_model()
+    if PUSH_TO_HUB:
+        logger.info(f"Pushing to hub: {HUB_MODEL_ID}")
+        trainer.push_to_hub()
+        logger.info(f"Model pushed: https://huggingface.co/{HUB_MODEL_ID}")
+    logger.info("=" * 60)
+    logger.info("SFT Training v2 — COMPLETE")
+    logger.info("=" * 60)
+    return result
+if __name__ == "__main__":
+    main()