asdf98
/

ethical-hacking-llm-colab

Model card Files Files and versions

xet

Community

asdf98 commited on 1 day ago

Commit

8df17e2

verified ·

1 Parent(s): dc0b1ad

Upload EthicalHacking_Qwen3-8B_Colab.ipynb

Browse files

Files changed (1) hide show

EthicalHacking_Qwen3-8B_Colab.ipynb +24 -2

EthicalHacking_Qwen3-8B_Colab.ipynb CHANGED Viewed

@@ -82,7 +82,28 @@
     "ds1 = ds1.map(to_messages, remove_columns=ds1.column_names, batched=False)\n",
     "ds2 = ds2.map(to_messages, remove_columns=ds2.column_names, batched=False)\n",
     "train_dataset = concatenate_datasets([ds1, ds2])\n",
-    "print(f\"✅ Combined: {len(train_dataset)} rows\")"
    ]
   },
   {
@@ -98,7 +119,7 @@
     "    model=model,\n",
     "    tokenizer=tokenizer,\n",
     "    train_dataset=train_dataset,\n",
-    "    dataset_text_field=\"messages\",\n",
     "    max_seq_length=MAX_SEQ_LENGTH,\n",
     "    dataset_num_proc=2,\n",
     "    packing=False,\n",
@@ -119,6 +140,7 @@
     "        report_to=\"none\",\n",
     "    ),\n",
     ")\n",
     "trainer.train()\n",
     "model.save_pretrained(\"./cyber-lora-adapter\")\n",
     "tokenizer.save_pretrained(\"./cyber-lora-adapter\")\n",

     "ds1 = ds1.map(to_messages, remove_columns=ds1.column_names, batched=False)\n",
     "ds2 = ds2.map(to_messages, remove_columns=ds2.column_names, batched=False)\n",
     "train_dataset = concatenate_datasets([ds1, ds2])\n",
+    "print(f\"✅ Messages dataset: {len(train_dataset)} rows\")\n",
+    "\n",
+    "# ========== PRE-PROCESS: messages → text with chat template ==========\n",
+    "def convert_messages_to_text(examples):\n",
+    "    texts = []\n",
+    "    for msgs in examples[\"messages\"]:\n",
+    "        text = tokenizer.apply_chat_template(\n",
+    "            msgs,\n",
+    "            tokenize=False,\n",
+    "            add_generation_prompt=False,\n",
+    "        )\n",
+    "        texts.append(text)\n",
+    "    return {\"text\": texts}\n",
+    "\n",
+    "print(\"🔄 Converting messages to text...\")\n",
+    "train_dataset = train_dataset.map(\n",
+    "    convert_messages_to_text,\n",
+    "    batched=True,\n",
+    "    remove_columns=[\"messages\"],\n",
+    "    batch_size=100,\n",
+    ")\n",
+    "print(f\"✅ Dataset ready with columns: {train_dataset.column_names}\")"
    ]
   },
   {
     "    model=model,\n",
     "    tokenizer=tokenizer,\n",
     "    train_dataset=train_dataset,\n",
+    "    dataset_text_field=\"text\",          # ← standard text format\n",
     "    max_seq_length=MAX_SEQ_LENGTH,\n",
     "    dataset_num_proc=2,\n",
     "    packing=False,\n",
     "        report_to=\"none\",\n",
     "    ),\n",
     ")\n",
+    "\n",
     "trainer.train()\n",
     "model.save_pretrained(\"./cyber-lora-adapter\")\n",
     "tokenizer.save_pretrained(\"./cyber-lora-adapter\")\n",