asdf98
/

ethical-hacking-llm-colab

Model card Files Files and versions

xet

Community

asdf98 commited on 19 days ago

Commit

fbc4da7

verified ·

1 Parent(s): 00c07ae

Upload EthicalHacking_Qwen3-4B_Ultimate_Colab.ipynb

Browse files

Files changed (1) hide show

EthicalHacking_Qwen3-4B_Ultimate_Colab.ipynb +49 -77

EthicalHacking_Qwen3-4B_Ultimate_Colab.ipynb CHANGED Viewed

@@ -4,14 +4,14 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# 🔐 Ultimate Ethical Hacking / General-Purpose LLM – Colab Free Tier (T4)\n",
     "\n",
     "**🥇 Model:** [Qwen3-4B-Instruct-2507](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507) via Unsloth 4-bit  \n",
     "**🏆 Why this model?** Highest coding/reasoning scores among sub-10B models (LiveCodeBench 35.1, MMLU-Pro 69.6). Only **3.3 GB** in 4-bit.  \n",
-    "**📊 Datasets:** Your choice — pick from cybersecurity, general chat, multilingual, coding, or mix them!  \n",
     "**⚡ Framework:** Unsloth + TRL SFTTrainer — 2× faster, 70% less VRAM  \n",
     "\n",
-    "> ⚠️ **Disclaimer:** Default datasets include **defensive cybersecurity** content (pentesting education, threat analysis, IR). Pick general-purpose datasets for other domains.\n",
     "\n",
     "---\n",
     "\n",
@@ -127,20 +127,18 @@
    "source": [
     "## 4️⃣ 🎯 CHOOSE YOUR DATASET(S)\n",
     "\n",
-    "Uncomment **ONE** `DATASET_CHOICE` line to select your training data. You can also mix multiple datasets by setting a list.\n",
     "\n",
-    "| Choice | Dataset | Size | Format | Best For |\n",
     "|--------|---------|------|--------|----------|\n",
-    "| `\"cybersecurity\"` | Fenrir v2.1 + Trendyol | 153K → 50K | system/user/assistant | **Ethical hacking, pentesting education** |\n",
-    "| `\"ultrachat\"` | UltraChat 200K (SFT) | 200K → 50K | messages (user/assistant) | General conversation, chatbot tuning |\n",
-    "| `\"openhermes\"` | OpenHermes 2.5 | 1M+ → 50K | conversations (human/gpt) | Reasoning, coding, instruction following |\n",
-    "| `\"sharegpt_en\"` | ShareGPT English | ~90K → 50K | conversations (human/gpt) | Multi-turn dialogue, general QA |\n",
-    "| `\"sharegpt_de\"` | ShareGPT German | ~104K → 50K | conversations (human/gpt) | German language fine-tuning |\n",
-    "| `\"sharegpt_hi\"` | ShareGPT Hindi (27B) | ~153K → 50K | conversations (human/gpt) | Hindi language fine-tuning |\n",
-    "| `\"custom_mix\"` | Mix of your choice | — | varies | Combine datasets for hybrid tuning |\n",
-    "\n",
-    "\n",
-    "**To mix datasets**, set `DATASET_CHOICE = \"custom_mix\"` and configure `CUSTOM_DATASETS` below."
    ]
   },
   {
@@ -155,33 +153,19 @@
     "#   SELECT YOUR DATASET — UNCOMMENT ONE LINE\n",
     "# ═══════════════════════════════════════════════════════════════\n",
     "\n",
-    "# --- Option 1: Cybersecurity (default) ---\n",
     "DATASET_CHOICE = \"cybersecurity\"\n",
     "\n",
-    "# --- Option 2: General-purpose chat (UltraChat) ---\n",
     "# DATASET_CHOICE = \"ultrachat\"\n",
-    "\n",
-    "# --- Option 3: Reasoning & coding (OpenHermes 2.5) ---\n",
     "# DATASET_CHOICE = \"openhermes\"\n",
-    "\n",
-    "# --- Option 4: Multi-turn dialogue (ShareGPT English) ---\n",
     "# DATASET_CHOICE = \"sharegpt_en\"\n",
-    "\n",
-    "# --- Option 5: German language (ShareGPT German) ---\n",
     "# DATASET_CHOICE = \"sharegpt_de\"\n",
-    "\n",
-    "# --- Option 6: Hindi language (ShareGPT Hindi 27B) ---\n",
     "# DATASET_CHOICE = \"sharegpt_hi\"\n",
-    "\n",
-    "# --- Option 7: Mix multiple datasets ---\n",
     "# DATASET_CHOICE = \"custom_mix\"\n",
     "\n",
-    "# ═══════════════════════════════════════════════════════════════\n",
-    "#   CUSTOM MIX CONFIG (only used if DATASET_CHOICE = \"custom_mix\")\n",
-    "# ═══════════════════════════════════════════════════════════════\n",
     "CUSTOM_DATASETS = [\n",
     "    # (\"dataset_name_or_id\", \"split\", rows_to_take, \"format_type\")\n",
-    "    # format_type: \"messages\" | \"conversations\" | \"instruction\"\n",
     "    (\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", \"train\", 10000, \"messages\"),\n",
     "    (\"HuggingFaceH4/ultrachat_200k\", \"train_sft\", 20000, \"messages\"),\n",
     "    (\"teknium/OpenHermes-2.5\", \"train\", 20000, \"conversations\"),\n",
@@ -196,8 +180,7 @@
    "source": [
     "## 5️⃣ Load, Convert & Pre-process Selected Dataset\n",
     "\n",
-    "This cell auto-detects the dataset format and converts everything to standard `messages` → `text` pipeline.\n",
-    "**No changes needed** — just run it after selecting your dataset above."
    ]
   },
   {
@@ -223,13 +206,11 @@
     "    ]}\n",
     "\n",
     "def _convert_ultrachat(example):\n",
-    "    # Already in messages format with role/content\n",
     "    return {\"messages\": example[\"messages\"]}\n",
     "\n",
     "def _convert_conversations(example):\n",
-    "    # OpenHermes / ShareGPT style: [{from: 'human'/'gpt', value: '...'}]\n",
     "    msgs = []\n",
-    "    system_prompt = example.get(\"system_prompt\") or example.get(\"system\", \"\")\n",
     "    if system_prompt:\n",
     "        msgs.append({\"role\": \"system\", \"content\": system_prompt})\n",
     "    for turn in example[\"conversations\"]:\n",
@@ -237,40 +218,52 @@
     "        msgs.append({\"role\": role, \"content\": turn[\"value\"]})\n",
     "    return {\"messages\": msgs}\n",
     "\n",
     "# ===================== LOAD DATASET(S) =====================\n",
     "all_datasets = []\n",
     "\n",
     "if DATASET_CHOICE == \"cybersecurity\":\n",
-    "    print(\"📥 Loading Fenrir v2.1...\")\n",
     "    ds1 = load_dataset(\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", split=\"train\")\n",
     "    ds1 = ds1.map(_convert_fenrir, remove_columns=ds1.column_names, batched=False)\n",
     "    all_datasets.append(ds1)\n",
-    "\n",
-    "    print(\"📥 Loading Trendyol Cybersecurity...\")\n",
     "    ds2 = load_dataset(\"Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset\", split=\"train\")\n",
     "    ds2 = ds2.map(_convert_trendyol, remove_columns=ds2.column_names, batched=False)\n",
     "    all_datasets.append(ds2)\n",
     "\n",
     "elif DATASET_CHOICE == \"ultrachat\":\n",
-    "    print(\"📥 Loading UltraChat 200K (train_sft split)...\")\n",
     "    ds = load_dataset(\"HuggingFaceH4/ultrachat_200k\", split=\"train_sft\")\n",
     "    ds = ds.map(_convert_ultrachat, remove_columns=ds.column_names, batched=False)\n",
     "    all_datasets.append(ds)\n",
     "\n",
     "elif DATASET_CHOICE == \"openhermes\":\n",
-    "    print(\"📥 Loading OpenHermes 2.5...\")\n",
     "    ds = load_dataset(\"teknium/OpenHermes-2.5\", split=\"train\")\n",
     "    ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
     "    all_datasets.append(ds)\n",
     "\n",
     "elif DATASET_CHOICE.startswith(\"sharegpt_\"):\n",
     "    split_map = {\"sharegpt_en\": \"english\", \"sharegpt_de\": \"german_4b_translated\", \"sharegpt_hi\": \"hindi_27b_translated\"}\n",
-    "    split_name = split_map[DATASET_CHOICE]\n",
-    "    print(f\"📥 Loading ShareGPT multilingual ({split_name})...\")\n",
-    "    ds = load_dataset(\"deepmage121/ShareGPT_multilingual\", split=split_name)\n",
     "    ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
     "    all_datasets.append(ds)\n",
     "\n",
     "elif DATASET_CHOICE == \"custom_mix\":\n",
     "    for ds_id, split, n_rows, fmt in CUSTOM_DATASETS:\n",
     "        print(f\"📥 Loading {ds_id} ({split}, {n_rows} rows)...\")\n",
@@ -281,6 +274,8 @@
     "            ds = ds.map(_convert_ultrachat, remove_columns=ds.column_names, batched=False)\n",
     "        elif fmt == \"conversations\":\n",
     "            ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
     "        else:\n",
     "            raise ValueError(f\"Unknown format: {fmt}\")\n",
     "        all_datasets.append(ds)\n",
@@ -288,21 +283,13 @@
     "else:\n",
     "    raise ValueError(f\"Unknown DATASET_CHOICE: {DATASET_CHOICE}\")\n",
     "\n",
-    "# Merge all loaded datasets\n",
-    "if len(all_datasets) == 1:\n",
-    "    train_dataset = all_datasets[0]\n",
-    "else:\n",
-    "    train_dataset = concatenate_datasets(all_datasets)\n",
-    "\n",
     "print(f\"\\n📊 COMBINED DATASET: {len(train_dataset)} rows\")\n",
     "\n",
-    "# Show a random sample\n",
     "sample = train_dataset[random.randint(0, len(train_dataset)-1)]\n",
-    "print(f\"\\n--- Random sample roles: {[m['role'] for m in sample['messages']]} ---\")\n",
-    "for m in sample[\"messages\"]:\n",
-    "    print(f\"  {m['role']}: {m['content'][:100]}...\")\n",
     "\n",
-    "# Subsample for speed\n",
     "if len(train_dataset) > SAMPLE_SIZE:\n",
     "    train_dataset = train_dataset.shuffle(seed=3407).select(range(SAMPLE_SIZE))\n",
     "    print(f\"\\n🚀 SUBSAMPLED to {len(train_dataset)} rows\")\n",
@@ -316,9 +303,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## 6️⃣ Convert Messages → Text (Chat Template)\n",
-    "\n",
-    "Uses `tokenizer.apply_chat_template` to convert structured messages into training text. No `formatting_func` needed."
    ]
   },
   {
@@ -330,25 +315,14 @@
     "def convert_messages_to_text(examples):\n",
     "    texts = []\n",
     "    for msgs in examples[\"messages\"]:\n",
-    "        text = tokenizer.apply_chat_template(\n",
-    "            msgs,\n",
-    "            tokenize=False,\n",
-    "            add_generation_prompt=False,\n",
-    "        )\n",
     "        texts.append(text)\n",
     "    return {\"text\": texts}\n",
     "\n",
     "print(\"🔄 Converting messages to text...\")\n",
-    "train_dataset = train_dataset.map(\n",
-    "    convert_messages_to_text,\n",
-    "    batched=True,\n",
-    "    remove_columns=[\"messages\"],\n",
-    "    batch_size=100,\n",
-    ")\n",
-    "\n",
     "print(f\"✅ Dataset pre-processed. Columns: {train_dataset.column_names}\")\n",
-    "print(f\"📄 Sample text length: {len(train_dataset[0]['text'])} chars\")\n",
-    "print(f\"📄 First 200 chars:\\n{train_dataset[0]['text'][:200]}...\")"
    ]
   },
   {
@@ -438,19 +412,16 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Save LoRA adapter (tiny, ~50-100 MB)\n",
     "model.save_pretrained(\"./lora-adapter\")\n",
     "tokenizer.save_pretrained(\"./lora-adapter\")\n",
     "print(\"✅ LoRA adapter saved\")\n",
     "\n",
-    "# Merge & save full 16-bit model (~8 GB)\n",
     "print(\"\\n🔄 Merging LoRA into base model...\")\n",
     "merged_model = model.merge_and_unload()\n",
     "merged_model.save_pretrained(\"./merged-model\")\n",
     "tokenizer.save_pretrained(\"./merged-model\")\n",
     "print(\"✅ Merged model saved\")\n",
     "\n",
-    "# Push to HF Hub (uncomment if logged in)\n",
     "# model.push_to_hub(HUB_MODEL_ID)\n",
     "# tokenizer.push_to_hub(HUB_MODEL_ID)"
    ]
@@ -463,8 +434,8 @@
     "\n",
     "| Mode | Use Case | Speed |\n",
     "|------|----------|-------|\n",
-    "| `enable_thinking=True` | Deep reasoning, analysis, chain-of-thought | Slower, thorough |\n",
-    "| `enable_thinking=False` | Quick answers, coding snippets, commands | Fast, direct |"
    ]
   },
   {
@@ -517,6 +488,7 @@
     "| **UltraChat 200K** | https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k |\n",
     "| **OpenHermes 2.5** | https://huggingface.co/datasets/teknium/OpenHermes-2.5 |\n",
     "| **ShareGPT Multilingual** | https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual |\n",
     "| **Fenrir Cybersecurity** | https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1 |\n",
     "| **Trendyol Cybersecurity** | https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset |\n",
     "| **Unsloth Docs** | https://unsloth.ai/docs |\n",

    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "# 🔐 Ultimate LLM Fine-Tuning – Qwen3-4B (Colab Free Tier T4)\n",
     "\n",
     "**🥇 Model:** [Qwen3-4B-Instruct-2507](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507) via Unsloth 4-bit  \n",
     "**🏆 Why this model?** Highest coding/reasoning scores among sub-10B models (LiveCodeBench 35.1, MMLU-Pro 69.6). Only **3.3 GB** in 4-bit.  \n",
+    "**📊 Datasets:** Your choice — cybersecurity, general chat, multilingual, coding, or mix them!  \n",
     "**⚡ Framework:** Unsloth + TRL SFTTrainer — 2× faster, 70% less VRAM  \n",
     "\n",
+    "> ⚠️ Default is cybersecurity. Pick general-purpose datasets for other domains.\n",
     "\n",
     "---\n",
     "\n",
    "source": [
     "## 4️⃣ 🎯 CHOOSE YOUR DATASET(S)\n",
     "\n",
+    "Uncomment **ONE** `DATASET_CHOICE` line to select your training data.\n",
     "\n",
+    "| Choice | Dataset | Rows | Format | Best For |\n",
     "|--------|---------|------|--------|----------|\n",
+    "| `\"cybersecurity\"` | Fenrir v2.1 + Trendyol | 153K→50K | system/user/assistant | Ethical hacking education |\n",
+    "| `\"ultrachat\"` | UltraChat 200K SFT | 200K→50K | messages (user/assistant) | General conversation |\n",
+    "| `\"openhermes\"` | OpenHermes 2.5 | 1M+→50K | conversations (human/gpt) | Reasoning, coding |\n",
+    "| `\"sharegpt_en\"` | ShareGPT English | ~90K→50K | conversations (human/gpt) | Multi-turn dialogue |\n",
+    "| `\"sharegpt_de\"` | ShareGPT German | ~104K→50K | conversations (human/gpt) | German fine-tuning |\n",
+    "| `\"sharegpt_hi\"` | ShareGPT Hindi | ~153K→50K | conversations (human/gpt) | Hindi fine-tuning |\n",
+    "| `\"code_corpus\"` | [Code Corpus LLM Training](https://huggingface.co/datasets/krystv/code-corpus-llm-training) | 240K→50K | text (code files) | **Code completion, coding assistant** |\n",
+    "| `\"custom_mix\"` | Mix of your choice | — | varies | Combine datasets |"
    ]
   },
   {
     "#   SELECT YOUR DATASET — UNCOMMENT ONE LINE\n",
     "# ═══════════════════════════════════════════════════════════════\n",
     "\n",
     "DATASET_CHOICE = \"cybersecurity\"\n",
     "\n",
     "# DATASET_CHOICE = \"ultrachat\"\n",
     "# DATASET_CHOICE = \"openhermes\"\n",
     "# DATASET_CHOICE = \"sharegpt_en\"\n",
     "# DATASET_CHOICE = \"sharegpt_de\"\n",
     "# DATASET_CHOICE = \"sharegpt_hi\"\n",
+    "# DATASET_CHOICE = \"code_corpus\"\n",
     "# DATASET_CHOICE = \"custom_mix\"\n",
     "\n",
     "CUSTOM_DATASETS = [\n",
     "    # (\"dataset_name_or_id\", \"split\", rows_to_take, \"format_type\")\n",
+    "    # format_type: \"messages\" | \"conversations\" | \"text\"\n",
     "    (\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", \"train\", 10000, \"messages\"),\n",
     "    (\"HuggingFaceH4/ultrachat_200k\", \"train_sft\", 20000, \"messages\"),\n",
     "    (\"teknium/OpenHermes-2.5\", \"train\", 20000, \"conversations\"),\n",
    "source": [
     "## 5️⃣ Load, Convert & Pre-process Selected Dataset\n",
     "\n",
+    "Auto-detects dataset format and converts everything to standard `messages` → `text`."
    ]
   },
   {
     "    ]}\n",
     "\n",
     "def _convert_ultrachat(example):\n",
     "    return {\"messages\": example[\"messages\"]}\n",
     "\n",
     "def _convert_conversations(example):\n",
     "    msgs = []\n",
+    "    system_prompt = example.get(\"system_prompt\", \"\") or example.get(\"system\", \"\")\n",
     "    if system_prompt:\n",
     "        msgs.append({\"role\": \"system\", \"content\": system_prompt})\n",
     "    for turn in example[\"conversations\"]:\n",
     "        msgs.append({\"role\": role, \"content\": turn[\"value\"]})\n",
     "    return {\"messages\": msgs}\n",
     "\n",
+    "def _convert_code_corpus(example):\n",
+    "    # Code Corpus: raw code text with domain/repo metadata in a user prompt + assistant format\n",
+    "    # We treat the code block as an assistant response to a user asking about that code\n",
+    "    code_text = example[\"text\"]\n",
+    "    domain = example.get(\"domain\", \"code\")\n",
+    "    repo = example.get(\"repo\", \"unknown\")\n",
+    "    lang = example.get(\"language\", \"\")\n",
+    "    user_prompt = f\"Here is a code snippet from the {domain} domain (repo: {repo}, language: {lang}). Please explain or improve it.\"\n",
+    "    return {\"messages\": [\n",
+    "        {\"role\": \"user\",      \"content\": user_prompt},\n",
+    "        {\"role\": \"assistant\", \"content\": code_text},\n",
+    "    ]}\n",
+    "\n",
     "# ===================== LOAD DATASET(S) =====================\n",
     "all_datasets = []\n",
     "\n",
     "if DATASET_CHOICE == \"cybersecurity\":\n",
     "    ds1 = load_dataset(\"AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1\", split=\"train\")\n",
     "    ds1 = ds1.map(_convert_fenrir, remove_columns=ds1.column_names, batched=False)\n",
     "    all_datasets.append(ds1)\n",
     "    ds2 = load_dataset(\"Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset\", split=\"train\")\n",
     "    ds2 = ds2.map(_convert_trendyol, remove_columns=ds2.column_names, batched=False)\n",
     "    all_datasets.append(ds2)\n",
     "\n",
     "elif DATASET_CHOICE == \"ultrachat\":\n",
     "    ds = load_dataset(\"HuggingFaceH4/ultrachat_200k\", split=\"train_sft\")\n",
     "    ds = ds.map(_convert_ultrachat, remove_columns=ds.column_names, batched=False)\n",
     "    all_datasets.append(ds)\n",
     "\n",
     "elif DATASET_CHOICE == \"openhermes\":\n",
     "    ds = load_dataset(\"teknium/OpenHermes-2.5\", split=\"train\")\n",
     "    ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
     "    all_datasets.append(ds)\n",
     "\n",
     "elif DATASET_CHOICE.startswith(\"sharegpt_\"):\n",
     "    split_map = {\"sharegpt_en\": \"english\", \"sharegpt_de\": \"german_4b_translated\", \"sharegpt_hi\": \"hindi_27b_translated\"}\n",
+    "    ds = load_dataset(\"deepmage121/ShareGPT_multilingual\", split=split_map[DATASET_CHOICE])\n",
     "    ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
     "    all_datasets.append(ds)\n",
     "\n",
+    "elif DATASET_CHOICE == \"code_corpus\":\n",
+    "    print(\"📥 Loading Code Corpus LLM Training (krystv)...\")\n",
+    "    ds = load_dataset(\"krystv/code-corpus-llm-training\", split=\"train\")\n",
+    "    ds = ds.map(_convert_code_corpus, remove_columns=ds.column_names, batched=False)\n",
+    "    all_datasets.append(ds)\n",
+    "\n",
     "elif DATASET_CHOICE == \"custom_mix\":\n",
     "    for ds_id, split, n_rows, fmt in CUSTOM_DATASETS:\n",
     "        print(f\"📥 Loading {ds_id} ({split}, {n_rows} rows)...\")\n",
     "            ds = ds.map(_convert_ultrachat, remove_columns=ds.column_names, batched=False)\n",
     "        elif fmt == \"conversations\":\n",
     "            ds = ds.map(_convert_conversations, remove_columns=ds.column_names, batched=False)\n",
+    "        elif fmt == \"text\":\n",
+    "            ds = ds.map(_convert_code_corpus, remove_columns=ds.column_names, batched=False)\n",
     "        else:\n",
     "            raise ValueError(f\"Unknown format: {fmt}\")\n",
     "        all_datasets.append(ds)\n",
     "else:\n",
     "    raise ValueError(f\"Unknown DATASET_CHOICE: {DATASET_CHOICE}\")\n",
     "\n",
+    "train_dataset = concatenate_datasets(all_datasets) if len(all_datasets) > 1 else all_datasets[0]\n",
     "print(f\"\\n📊 COMBINED DATASET: {len(train_dataset)} rows\")\n",
     "\n",
     "sample = train_dataset[random.randint(0, len(train_dataset)-1)]\n",
+    "print(f\"Sample roles: {[m['role'] for m in sample['messages']]}\")\n",
+    "for m in sample[\"messages\"]: print(f\"  {m['role']}: {m['content'][:80]}...\")\n",
     "\n",
     "if len(train_dataset) > SAMPLE_SIZE:\n",
     "    train_dataset = train_dataset.shuffle(seed=3407).select(range(SAMPLE_SIZE))\n",
     "    print(f\"\\n🚀 SUBSAMPLED to {len(train_dataset)} rows\")\n",
    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "## 6️⃣ Convert Messages → Text (Chat Template)"
    ]
   },
   {
     "def convert_messages_to_text(examples):\n",
     "    texts = []\n",
     "    for msgs in examples[\"messages\"]:\n",
+    "        text = tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=False)\n",
     "        texts.append(text)\n",
     "    return {\"text\": texts}\n",
     "\n",
     "print(\"🔄 Converting messages to text...\")\n",
+    "train_dataset = train_dataset.map(convert_messages_to_text, batched=True, remove_columns=[\"messages\"], batch_size=100)\n",
     "print(f\"✅ Dataset pre-processed. Columns: {train_dataset.column_names}\")\n",
+    "print(f\"📄 Sample text length: {len(train_dataset[0]['text'])} chars\")"
    ]
   },
   {
    "metadata": {},
    "outputs": [],
    "source": [
     "model.save_pretrained(\"./lora-adapter\")\n",
     "tokenizer.save_pretrained(\"./lora-adapter\")\n",
     "print(\"✅ LoRA adapter saved\")\n",
     "\n",
     "print(\"\\n🔄 Merging LoRA into base model...\")\n",
     "merged_model = model.merge_and_unload()\n",
     "merged_model.save_pretrained(\"./merged-model\")\n",
     "tokenizer.save_pretrained(\"./merged-model\")\n",
     "print(\"✅ Merged model saved\")\n",
     "\n",
     "# model.push_to_hub(HUB_MODEL_ID)\n",
     "# tokenizer.push_to_hub(HUB_MODEL_ID)"
    ]
     "\n",
     "| Mode | Use Case | Speed |\n",
     "|------|----------|-------|\n",
+    "| `enable_thinking=True` | Deep reasoning, analysis | Slower, thorough |\n",
+    "| `enable_thinking=False` | Quick answers, coding | Fast, direct |"
    ]
   },
   {
     "| **UltraChat 200K** | https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k |\n",
     "| **OpenHermes 2.5** | https://huggingface.co/datasets/teknium/OpenHermes-2.5 |\n",
     "| **ShareGPT Multilingual** | https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual |\n",
+    "| **Code Corpus LLM Training** | https://huggingface.co/datasets/krystv/code-corpus-llm-training |\n",
     "| **Fenrir Cybersecurity** | https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1 |\n",
     "| **Trendyol Cybersecurity** | https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset |\n",
     "| **Unsloth Docs** | https://unsloth.ai/docs |\n",