asdf98
/

ethical-hacking-llm-colab

Model card Files Files and versions

xet

Community

asdf98 commited on 1 day ago

Commit

f09f7ce

verified ·

1 Parent(s): 8ecbd0a

Upload EthicalHacking_LFM2.5_Ultimate_Colab.ipynb

Browse files

Files changed (1) hide show

EthicalHacking_LFM2.5_Ultimate_Colab.ipynb +164 -152

EthicalHacking_LFM2.5_Ultimate_Colab.ipynb CHANGED Viewed

@@ -4,14 +4,14 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# 🔐 Ultimate Ethical Hacking LLM – Liquid LFM2.5 (Colab Free Tier T4)\n",
     "\n",
     "**🥇 Model:** [Liquid LFM2.5-1.2B-Instruct](https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct) via Unsloth 4-bit  \n",
-    "**🏆 Why this model?** 1.2B params, only **~1GB in 4-bit**, runs on phones. Massive T4 headroom for training. 128K context window.  \n",
-    "**📊 Datasets:** [Fenrir v2.1](https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1) + [Trendyol Cybersecurity](https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset) — 153K+ instruction pairs  \n",
     "**⚡ Framework:** Unsloth + TRL SFTTrainer — 2× faster, 70% less VRAM  \n",
     "\n",
-    "> ⚠️ **Disclaimer:** This trains on **defensive cybersecurity** datasets only. Intended for ethical hacking education and security research.\n",
     "\n",
     "---\n",
     "\n",
@@ -22,10 +22,8 @@
     "| Parameters | 1.2B |\n",
     "| 4-bit VRAM | ~1.0 GB |\n",
     "| Context | 128K tokens |\n",
-    "| VRAM for training | **~14 GB free on T4** |\n",
-    "| Batch size | **4-8** easily |\n",
-    "| Max seq length | 4096-8192 |\n",
-    "| Speed | **Very fast** on T4 |\n",
     "\n",
     "**Unsloth docs:** https://unsloth.ai/docs/models/tutorials/lfm2.5  \n",
     "**Official notebook:** https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Liquid_LFM2_(1.2B)-Conversational.ipynb"
@@ -69,9 +67,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 3️⃣ Load LFM2.5-1.2B-Instruct in 4-bit via Unsloth\n",
-    "\n",
-    "Uses Unsloth's pre-converted 4-bit model. Only ~1GB in memory — leaves massive room for LoRA training."
    ]
   },
   {
@@ -84,26 +80,25 @@
     "import torch\n",
     "\n",
     "# ==================== T4-COLAB HYPERPARAMETERS (LFM2.5) ====================\n",
-    "MAX_SEQ_LENGTH = 4096          # 1.2B model leaves huge VRAM headroom\n",
-    "LORA_R = 128                   # higher rank possible on LFM2.5 (tiny base)\n",
-    "LORA_ALPHA = 128               # alpha = r\n",
-    "BATCH_SIZE = 8                 # massive batch thanks to small model\n",
-    "GRAD_ACCUM = 1                 # effective batch = 8\n",
-    "LEARNING_RATE = 2e-4           \n",
-    "NUM_EPOCHS = 1\n",
-    "MAX_STEPS = 4000               # cap steps for speed\n",
-    "WARMUP_STEPS = 200             \n",
-    "LOGGING_STEPS = 50             \n",
-    "SAVE_STEPS = 500               \n",
-    "PACKING = True                 # massive throughput boost\n",
-    "SAMPLE_SIZE = 50000            # subsample for fast convergence\n",
-    "HUB_MODEL_ID = \"your-username/cyber-lfm25-lora\"  \n",
     "# ========================================================================\n",
     "\n",
     "model, tokenizer = FastLanguageModel.from_pretrained(\n",
     "    model_name=\"unsloth/LFM2.5-1.2B-Instruct\",\n",
     "    max_seq_length=MAX_SEQ_LENGTH,\n",
-    "    dtype=None,                   # auto-detect (fp16 on T4)\n",
     "    load_in_4bit=True,\n",
     ")\n",
     "\n",
@@ -113,11 +108,11 @@
     "    target_modules=[\"q_proj\", \"k_proj\", \"v_proj\", \"o_proj\",\n",
     "                   \"gate_proj\", \"up_proj\", \"down_proj\"],\n",
     "    lora_alpha=LORA_ALPHA,\n",
-    "    lora_dropout=0,               \n",
     "    bias=\"none\",\n",
     "    use_gradient_checkpointing=\"unsloth\",\n",
     "    random_state=3407,\n",
-    "    use_rslora=False,             \n",
     "    loftq_config=None,\n",
     ")\n",
     "\n",
@@ -132,7 +127,19 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 4️⃣ Load, Audit, Subsample & Merge Cybersecurity Datasets"
    ]
   },
   {
@@ -142,53 +149,119 @@
    "outputs": [],
    "source": [
     "from datasets import load_dataset, concatenate_datasets\n",
     "import random\n",
     "\n",
-    "# ---------- Dataset 1: Fenrir v2.1 ----------\n",
-    "print(\"📥 Loading Fenrir v2.1...\")\n",
-    "ds1 = load_dataset(\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", split=\"train\")\n",
-    "print(f\"   Rows: {len(ds1)} | Columns: {ds1.column_names}\")\n",
-    "\n",
-    "for i in random.sample(range(len(ds1)), 2):\n",
-    "    print(f\"\\n--- Sample {i} ---\")\n",
-    "    print(f\"SYSTEM: {ds1[i]['system'][:120]}...\")\n",
-    "    print(f\"USER:   {ds1[i]['user'][:120]}...\")\n",
-    "    print(f\"ASSIST: {ds1[i]['assistant'][:120]}...\")\n",
-    "\n",
-    "def fenrir_to_messages(example):\n",
-    "    return {\n",
-    "        \"messages\": [\n",
-    "            {\"role\": \"system\",    \"content\": example[\"system\"]},\n",
-    "            {\"role\": \"user\",      \"content\": example[\"user\"]},\n",
-    "            {\"role\": \"assistant\", \"content\": example[\"assistant\"]},\n",
-    "        ]\n",
-    "    }\n",
-    "\n",
-    "ds1 = ds1.map(fenrir_to_messages, remove_columns=ds1.column_names, batched=False)\n",
-    "\n",
-    "# ---------- Dataset 2: Trendyol ----------\n",
-    "print(\"\\n📥 Loading Trendyol Cybersecurity...\")\n",
-    "ds2 = load_dataset(\"Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset\", split=\"train\")\n",
-    "print(f\"   Rows: {len(ds2)} | Columns: {ds2.column_names}\")\n",
-    "\n",
-    "def trendyol_to_messages(example):\n",
-    "    return {\n",
-    "        \"messages\": [\n",
-    "            {\"role\": \"system\",    \"content\": example[\"system\"]},\n",
-    "            {\"role\": \"user\",      \"content\": example[\"user\"]},\n",
-    "            {\"role\": \"assistant\", \"content\": example[\"assistant\"]},\n",
-    "        ]\n",
-    "    }\n",
-    "\n",
-    "ds2 = ds2.map(trendyol_to_messages, remove_columns=ds2.column_names, batched=False)\n",
-    "\n",
-    "# ---------- Merge & Subsample ----------\n",
-    "train_dataset = concatenate_datasets([ds1, ds2])\n",
     "print(f\"\\n📊 COMBINED DATASET: {len(train_dataset)} rows\")\n",
     "\n",
     "if len(train_dataset) > SAMPLE_SIZE:\n",
     "    train_dataset = train_dataset.shuffle(seed=3407).select(range(SAMPLE_SIZE))\n",
-    "    print(f\"🚀 SUBSAMPLED to {len(train_dataset)} rows\")\n",
     "\n",
     "print(f\"   Effective batch size: {BATCH_SIZE * GRAD_ACCUM}\")\n",
     "print(f\"   Steps per epoch: ~{len(train_dataset) // (BATCH_SIZE * GRAD_ACCUM)}\")\n",
@@ -199,7 +272,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 5️⃣ Pre-process Dataset to Text (Avoid Unsloth formatting_func issues)"
    ]
   },
   {
@@ -208,26 +281,15 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# ========== PRE-PROCESS: messages → text with chat template ==========\n",
     "def convert_messages_to_text(examples):\n",
     "    texts = []\n",
     "    for msgs in examples[\"messages\"]:\n",
-    "        text = tokenizer.apply_chat_template(\n",
-    "            msgs,\n",
-    "            tokenize=False,\n",
-    "            add_generation_prompt=False,\n",
-    "        )\n",
     "        texts.append(text)\n",
     "    return {\"text\": texts}\n",
     "\n",
     "print(\"🔄 Converting messages to text...\")\n",
-    "train_dataset = train_dataset.map(\n",
-    "    convert_messages_to_text,\n",
-    "    batched=True,\n",
-    "    remove_columns=[\"messages\"],\n",
-    "    batch_size=100,\n",
-    ")\n",
-    "\n",
     "print(f\"✅ Dataset pre-processed. Columns: {train_dataset.column_names}\")\n",
     "print(f\"📄 Sample text length: {len(train_dataset[0]['text'])} chars\")"
    ]
@@ -236,7 +298,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 6️⃣ Configure SFT Trainer (with Packing)"
    ]
   },
   {
@@ -276,7 +338,7 @@
     "    ),\n",
     ")\n",
     "\n",
-    "print(f\"✅ Trainer ready. Total steps: {MAX_STEPS}\")\n",
     "print(f\"   Effective batch size: {BATCH_SIZE * GRAD_ACCUM}\")\n",
     "print(f\"   Packing enabled: {PACKING}\")\n",
     "print(f\"   Est. time at ~0.6 it/s: ~{MAX_STEPS * 1.7 / 3600:.1f} hours\")"
@@ -286,7 +348,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 7️⃣ Train 🚀"
    ]
   },
   {
@@ -311,7 +373,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 8️⃣ Save & Push to HuggingFace Hub"
    ]
   },
   {
@@ -320,19 +382,16 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# 8A) Save LoRA adapter\n",
     "model.save_pretrained(\"./lfm25-lora-adapter\")\n",
     "tokenizer.save_pretrained(\"./lfm25-lora-adapter\")\n",
     "print(\"✅ LoRA adapter saved\")\n",
     "\n",
-    "# 8B) Merge & save full model\n",
     "print(\"\\n🔄 Merging LoRA into base model...\")\n",
     "merged_model = model.merge_and_unload()\n",
     "merged_model.save_pretrained(\"./lfm25-merged\")\n",
     "tokenizer.save_pretrained(\"./lfm25-merged\")\n",
     "print(\"✅ Merged model saved\")\n",
     "\n",
-    "# 8C) Push to HF Hub (uncomment if logged in)\n",
     "# model.push_to_hub(HUB_MODEL_ID)\n",
     "# tokenizer.push_to_hub(HUB_MODEL_ID)"
    ]
@@ -341,7 +400,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 9️⃣ Inference Demo – Responsible Pentesting"
    ]
   },
   {
@@ -352,90 +411,43 @@
    "source": [
     "FastLanguageModel.for_inference(model)\n",
     "\n",
-    "test_prompt = \"How would you perform a responsible penetration test on a web application?\"\n",
     "\n",
     "messages = [\n",
-    "    {\"role\": \"system\", \"content\": \"You are a cybersecurity expert. Explain concepts clearly and ethically.\"},\n",
     "    {\"role\": \"user\",     \"content\": test_prompt},\n",
     "]\n",
     "\n",
-    "inputs = tokenizer.apply_chat_template(\n",
-    "    messages,\n",
-    "    tokenize=True,\n",
-    "    add_generation_prompt=True,\n",
-    "    return_tensors=\"pt\",\n",
-    ").to(model.device)\n",
-    "\n",
-    "outputs = model.generate(\n",
-    "    input_ids=inputs,\n",
-    "    max_new_tokens=512,\n",
-    "    temperature=0.7,\n",
-    "    top_p=0.9,\n",
-    "    do_sample=True,\n",
-    "    pad_token_id=tokenizer.pad_token_id,\n",
-    "    eos_token_id=tokenizer.eos_token_id,\n",
-    ")\n",
     "\n",
     "response = tokenizer.decode(outputs[0], skip_special_tokens=True)\n",
     "reply = response.split(\"user\")[-1].split(\"assistant\")[-1].strip()\n",
     "print(reply[:800])"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## 🔟 Quick Benchmark – CyberMetric Sample"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "benchmark_q = (\n",
-    "    \"Which of the following is the MOST effective defense against SQL injection?\\n\"\n",
-    "    \"A) Input validation only\\n\"\n",
-    "    \"B) Parameterized queries\\n\"\n",
-    "    \"C) Escaping special characters\\n\"\n",
-    "    \"D) Client-side filtering\\n\"\n",
-    "    \"Answer with the letter only.\"\n",
-    ")\n",
-    "\n",
-    "bench_msgs = [\n",
-    "    {\"role\": \"system\", \"content\": \"You are a cybersecurity expert. Answer accurately.\"},\n",
-    "    {\"role\": \"user\",     \"content\": benchmark_q},\n",
-    "]\n",
-    "\n",
-    "inputs = tokenizer.apply_chat_template(bench_msgs, tokenize=True, add_generation_prompt=True, return_tensors=\"pt\").to(model.device)\n",
-    "\n",
-    "outputs = model.generate(input_ids=inputs, max_new_tokens=64, temperature=0.1, do_sample=True,\n",
-    "    pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id)\n",
-    "\n",
-    "answer = tokenizer.decode(outputs[0], skip_special_tokens=True)\n",
-    "print(\"📊 Benchmark Answer:\")\n",
-    "print(answer.split(\"assistant\")[-1].strip())"
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
     "---\n",
-    "## 📚 References\n",
     "\n",
     "| Resource | Link |\n",
     "|----------|------|\n",
     "| **Liquid AI Models** | https://www.liquid.ai/models |\n",
     "| **LFM2.5-1.2B-Instruct** | https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct |\n",
     "| **Unsloth LFM2.5 Docs** | https://unsloth.ai/docs/models/tutorials/lfm2.5 |\n",
-    "| **Official Colab** | https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Liquid_LFM2_(1.2B)-Conversational.ipynb |\n",
-    "| **Fenrir Dataset** | https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1 |\n",
-    "| **Trendyol Dataset** | https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset |\n",
     "\n",
     "---\n",
-    "*Built with ❤️ for the cybersecurity community. Use responsibly.*"
    ]
   }
  ],

    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "# 🔐 Ultimate LLM Fine-Tuning – Liquid LFM2.5 (Colab Free Tier T4)\n",
     "\n",
     "**🥇 Model:** [Liquid LFM2.5-1.2B-Instruct](https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct) via Unsloth 4-bit  \n",
+    "**🏆 Why this model?** 1.2B params, only **~1GB in 4-bit**, runs on phones. Massive T4 headroom for training. 128K context.  \n",
+    "**📊 Datasets:** Your choice — cybersecurity, general chat, multilingual, coding, or mix them!  \n",
     "**⚡ Framework:** Unsloth + TRL SFTTrainer — 2× faster, 70% less VRAM  \n",
     "\n",
+    "> ⚠️ Pick any dataset below. Default is cybersecurity. Mix datasets for hybrid tuning.\n",
     "\n",
     "---\n",
     "\n",
     "| Parameters | 1.2B |\n",
     "| 4-bit VRAM | ~1.0 GB |\n",
     "| Context | 128K tokens |\n",
+    "| Batch size on T4 | **4-8** |\n",
+    "| Training headroom | **~14 GB free** |\n",
     "\n",
     "**Unsloth docs:** https://unsloth.ai/docs/models/tutorials/lfm2.5  \n",
     "**Official notebook:** https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Liquid_LFM2_(1.2B)-Conversational.ipynb"
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 3️⃣ Load LFM2.5-1.2B-Instruct in 4-bit via Unsloth"
    ]
   },
   {
     "import torch\n",
     "\n",
     "# ==================== T4-COLAB HYPERPARAMETERS (LFM2.5) ====================\n",
+    "MAX_SEQ_LENGTH = 4096\n",
+    "LORA_R = 128\n",
+    "LORA_ALPHA = 128\n",
+    "BATCH_SIZE = 8\n",
+    "GRAD_ACCUM = 1\n",
+    "LEARNING_RATE = 2e-4\n",
+    "MAX_STEPS = 4000\n",
+    "WARMUP_STEPS = 200\n",
+    "LOGGING_STEPS = 50\n",
+    "SAVE_STEPS = 500\n",
+    "PACKING = True\n",
+    "SAMPLE_SIZE = 50000\n",
+    "HUB_MODEL_ID = \"your-username/lfm25-lora\"\n",
     "# ========================================================================\n",
     "\n",
     "model, tokenizer = FastLanguageModel.from_pretrained(\n",
     "    model_name=\"unsloth/LFM2.5-1.2B-Instruct\",\n",
     "    max_seq_length=MAX_SEQ_LENGTH,\n",
+    "    dtype=None,\n",
     "    load_in_4bit=True,\n",
     ")\n",
     "\n",
     "    target_modules=[\"q_proj\", \"k_proj\", \"v_proj\", \"o_proj\",\n",
     "                   \"gate_proj\", \"up_proj\", \"down_proj\"],\n",
     "    lora_alpha=LORA_ALPHA,\n",
+    "    lora_dropout=0,\n",
     "    bias=\"none\",\n",
     "    use_gradient_checkpointing=\"unsloth\",\n",
     "    random_state=3407,\n",
+    "    use_rslora=False,\n",
     "    loftq_config=None,\n",
     ")\n",
     "\n",
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 4️⃣ 🎯 CHOOSE YOUR DATASET(S)\n",
+    "\n",
+    "Uncomment **ONE** `DATASET_CHOICE` line. Mix datasets with `custom_mix`.\n",
+    "\n",
+    "| Choice | Dataset | Size | Format | Best For |\n",
+    "|--------|---------|------|--------|----------|\n",
+    "| `\"cybersecurity\"` | Fenrir + Trendyol | 153K | system/user/assistant | **Ethical hacking education** |\n",
+    "| `\"ultrachat\"` | UltraChat 200K SFT | 200K | messages | General conversation |\n",
+    "| `\"openhermes\"` | OpenHermes 2.5 | 1M+ | conversations | Reasoning, coding |\n",
+    "| `\"sharegpt_en\"` | ShareGPT English | ~90K | conversations | Multi-turn dialogue |\n",
+    "| `\"sharegpt_de\"` | ShareGPT German | ~104K | conversations | German fine-tuning |\n",
+    "| `\"sharegpt_hi\"` | ShareGPT Hindi | ~153K | conversations | Hindi fine-tuning |\n",
+    "| `\"custom_mix\"` | Your mix | — | varies | Combine multiple |"
    ]
   },
   {
    "outputs": [],
    "source": [
     "from datasets import load_dataset, concatenate_datasets\n",
+    "\n",
+    "# ═══════════════════════════════════════════════════════════════\n",
+    "#   SELECT YOUR DATASET — UNCOMMENT ONE LINE\n",
+    "# ═══════════════════════════════════════════════════════════════\n",
+    "\n",
+    "DATASET_CHOICE = \"cybersecurity\"\n",
+    "\n",
+    "# DATASET_CHOICE = \"ultrachat\"\n",
+    "# DATASET_CHOICE = \"openhermes\"\n",
+    "# DATASET_CHOICE = \"sharegpt_en\"\n",
+    "# DATASET_CHOICE = \"sharegpt_de\"\n",
+    "# DATASET_CHOICE = \"sharegpt_hi\"\n",
+    "# DATASET_CHOICE = \"custom_mix\"\n",
+    "\n",
+    "CUSTOM_DATASETS = [\n",
+    "    (\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", \"train\", 10000, \"messages\"),\n",
+    "    (\"HuggingFaceH4/ultrachat_200k\", \"train_sft\", 20000, \"messages\"),\n",
+    "    (\"teknium/OpenHermes-2.5\", \"train\", 20000, \"conversations\"),\n",
+    "]\n",
+    "\n",
+    "print(f\"🎯 DATASET_CHOICE = {DATASET_CHOICE}\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 5️⃣ Load, Convert & Pre-process Selected Dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
     "import random\n",
     "\n",
+    "def _convert_fenrir(example):\n",
+    "    return {\"messages\": [\n",
+    "        {\"role\": \"system\",    \"content\": example[\"system\"]},\n",
+    "        {\"role\": \"user\",      \"content\": example[\"user\"]},\n",
+    "        {\"role\": \"assistant\", \"content\": example[\"assistant\"]},\n",
+    "    ]}\n",
+    "\n",
+    "def _convert_trendyol(example):\n",
+    "    return {\"messages\": [\n",
+    "        {\"role\": \"system\",    \"content\": example[\"system\"]},\n",
+    "        {\"role\": \"user\",      \"content\": example[\"user\"]},\n",
+    "        {\"role\": \"assistant\", \"content\": example[\"assistant\"]},\n",
+    "    ]}\n",
+    "\n",
+    "def _convert_ultrachat(example):\n",
+    "    return {\"messages\": example[\"messages\"]}\n",
+    "\n",
+    "def _convert_conversations(example):\n",
+    "    msgs = []\n",
+    "    system = example.get(\"system_prompt\", \"\") or example.get(\"system\", \"\")\n",
+    "    if system:\n",
+    "        msgs.append({\"role\": \"system\", \"content\": system})\n",
+    "    for turn in example[\"conversations\"]:\n",
+    "        role = \"user\" if turn[\"from\"] in (\"human\", \"user\") else \"assistant\"\n",
+    "        msgs.append({\"role\": role, \"content\": turn[\"value\"]})\n",
+    "    return {\"messages\": msgs}\n",
+    "\n",
+    "all_datasets = []\n",
+    "\n",
+    "if DATASET_CHOICE == \"cybersecurity\":\n",
+    "    ds1 = load_dataset(\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", split=\"train\")\n",
+    "    ds1 = ds1.map(_convert_fenrir, remove_columns=ds1.column_names, batched=False)\n",
+    "    all_datasets.append(ds1)\n",
+    "    ds2 = load_dataset(\"Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset\", split=\"train\")\n",
+    "    ds2 = ds2.map(_convert_trendyol, remove_columns=ds2.column_names, batched=False)\n",
+    "    all_datasets.append(ds2)\n",
+    "\n",
+    "elif DATASET_CHOICE == \"ultrachat\":\n",
+    "    ds = load_dataset(\"HuggingFaceH4/ultrachat_200k\", split=\"train_sft\")\n",
+    "    ds = ds.map(_convert_ultrachat, remove_columns=ds.column_names, batched=False)\n",
+    "    all_datasets.append(ds)\n",
+    "\n",
+    "elif DATASET_CHOICE == \"openhermes\":\n",
+    "    ds = load_dataset(\"teknium/OpenHermes-2.5\", split=\"train\")\n",
+    "    ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
+    "    all_datasets.append(ds)\n",
+    "\n",
+    "elif DATASET_CHOICE.startswith(\"sharegpt_\"):\n",
+    "    split_map = {\"sharegpt_en\": \"english\", \"sharegpt_de\": \"german_4b_translated\", \"sharegpt_hi\": \"hindi_27b_translated\"}\n",
+    "    ds = load_dataset(\"deepmage121/ShareGPT_multilingual\", split=split_map[DATASET_CHOICE])\n",
+    "    ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
+    "    all_datasets.append(ds)\n",
+    "\n",
+    "elif DATASET_CHOICE == \"custom_mix\":\n",
+    "    for ds_id, split, n_rows, fmt in CUSTOM_DATASETS:\n",
+    "        ds = load_dataset(ds_id, split=split)\n",
+    "        if n_rows and len(ds) > n_rows:\n",
+    "            ds = ds.shuffle(seed=3407).select(range(n_rows))\n",
+    "        if fmt == \"messages\": ds = ds.map(_convert_ultrachat, remove_columns=ds.column_names, batched=False)\n",
+    "        elif fmt == \"conversations\": ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
+    "        all_datasets.append(ds)\n",
+    "\n",
+    "else:\n",
+    "    raise ValueError(f\"Unknown DATASET_CHOICE: {DATASET_CHOICE}\")\n",
+    "\n",
+    "train_dataset = concatenate_datasets(all_datasets) if len(all_datasets) > 1 else all_datasets[0]\n",
     "print(f\"\\n📊 COMBINED DATASET: {len(train_dataset)} rows\")\n",
     "\n",
+    "sample = train_dataset[random.randint(0, len(train_dataset)-1)]\n",
+    "print(f\"Sample roles: {[m['role'] for m in sample['messages']]}\")\n",
+    "for m in sample[\"messages\"]: print(f\"  {m['role']}: {m['content'][:80]}...\")\n",
+    "\n",
     "if len(train_dataset) > SAMPLE_SIZE:\n",
     "    train_dataset = train_dataset.shuffle(seed=3407).select(range(SAMPLE_SIZE))\n",
+    "    print(f\"\\n🚀 SUBSAMPLED to {len(train_dataset)} rows\")\n",
     "\n",
     "print(f\"   Effective batch size: {BATCH_SIZE * GRAD_ACCUM}\")\n",
     "print(f\"   Steps per epoch: ~{len(train_dataset) // (BATCH_SIZE * GRAD_ACCUM)}\")\n",
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 6️⃣ Convert Messages → Text (Chat Template)"
    ]
   },
   {
    "metadata": {},
    "outputs": [],
    "source": [
     "def convert_messages_to_text(examples):\n",
     "    texts = []\n",
     "    for msgs in examples[\"messages\"]:\n",
+    "        text = tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=False)\n",
     "        texts.append(text)\n",
     "    return {\"text\": texts}\n",
     "\n",
     "print(\"🔄 Converting messages to text...\")\n",
+    "train_dataset = train_dataset.map(convert_messages_to_text, batched=True, remove_columns=[\"messages\"], batch_size=100)\n",
     "print(f\"✅ Dataset pre-processed. Columns: {train_dataset.column_names}\")\n",
     "print(f\"📄 Sample text length: {len(train_dataset[0]['text'])} chars\")"
    ]
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 7️⃣ Configure SFT Trainer (with Packing)"
    ]
   },
   {
     "    ),\n",
     ")\n",
     "\n",
+    "print(f\"✅ Trainer ready. Dataset: {DATASET_CHOICE} | Steps: {MAX_STEPS}\")\n",
     "print(f\"   Effective batch size: {BATCH_SIZE * GRAD_ACCUM}\")\n",
     "print(f\"   Packing enabled: {PACKING}\")\n",
     "print(f\"   Est. time at ~0.6 it/s: ~{MAX_STEPS * 1.7 / 3600:.1f} hours\")"
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 8️⃣ Train 🚀"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 9️⃣ Save & Push to HuggingFace Hub"
    ]
   },
   {
    "metadata": {},
    "outputs": [],
    "source": [
     "model.save_pretrained(\"./lfm25-lora-adapter\")\n",
     "tokenizer.save_pretrained(\"./lfm25-lora-adapter\")\n",
     "print(\"✅ LoRA adapter saved\")\n",
     "\n",
     "print(\"\\n🔄 Merging LoRA into base model...\")\n",
     "merged_model = model.merge_and_unload()\n",
     "merged_model.save_pretrained(\"./lfm25-merged\")\n",
     "tokenizer.save_pretrained(\"./lfm25-merged\")\n",
     "print(\"✅ Merged model saved\")\n",
     "\n",
     "# model.push_to_hub(HUB_MODEL_ID)\n",
     "# tokenizer.push_to_hub(HUB_MODEL_ID)"
    ]
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 🔟 Inference Demo"
    ]
   },
   {
    "source": [
     "FastLanguageModel.for_inference(model)\n",
     "\n",
+    "test_prompt = \"Explain how parameterized queries prevent SQL injection, with a Python example.\"\n",
     "\n",
     "messages = [\n",
+    "    {\"role\": \"system\", \"content\": \"You are a helpful and knowledgeable assistant.\"},\n",
     "    {\"role\": \"user\",     \"content\": test_prompt},\n",
     "]\n",
     "\n",
+    "inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors=\"pt\").to(model.device)\n",
+    "\n",
+    "outputs = model.generate(input_ids=inputs, max_new_tokens=512, temperature=0.7, top_p=0.9,\n",
+    "    do_sample=True, pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id)\n",
     "\n",
     "response = tokenizer.decode(outputs[0], skip_special_tokens=True)\n",
     "reply = response.split(\"user\")[-1].split(\"assistant\")[-1].strip()\n",
     "print(reply[:800])"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
     "---\n",
+    "## 📚 Dataset & Model References\n",
     "\n",
     "| Resource | Link |\n",
     "|----------|------|\n",
     "| **Liquid AI Models** | https://www.liquid.ai/models |\n",
     "| **LFM2.5-1.2B-Instruct** | https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct |\n",
     "| **Unsloth LFM2.5 Docs** | https://unsloth.ai/docs/models/tutorials/lfm2.5 |\n",
+    "| **UltraChat 200K** | https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k |\n",
+    "| **OpenHermes 2.5** | https://huggingface.co/datasets/teknium/OpenHermes-2.5 |\n",
+    "| **ShareGPT Multilingual** | https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual |\n",
+    "| **Fenrir Cybersecurity** | https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1 |\n",
+    "| **Trendyol Cybersecurity** | https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset |\n",
     "\n",
     "---\n",
+    "*Pick any dataset. Train anything. Use responsibly.*"
    ]
   }
  ],