asdf98
/

ethical-hacking-llm-colab

Model card Files Files and versions

xet

Community

asdf98 commited on 18 days ago

Commit

a7d1cc9

verified ·

1 Parent(s): 2fab0ea

Upload README.md

Browse files

Files changed (1) hide show

README.md +26 -5

README.md CHANGED Viewed

@@ -30,18 +30,19 @@ A curated collection of **production-ready Colab notebooks** for fine-tuning sta
 ---
-## 📊 Dataset Selection — 7 Built-in Choices
 Every notebook includes a `DATASET_CHOICE` variable. **Just uncomment one line** to pick your data.
 | Choice | Dataset | Rows | Format | Best For | Language |
 |--------|---------|------|--------|----------|----------|
-| `cybersecurity` | **Fenrir v2.1 + Trendyol** | 153K→50K | system/user/assistant | Ethical hacking, pentesting education | English |
-| `ultrachat` | [UltraChat 200K](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) (SFT) | 200K→50K | messages (role/content) | General conversation, chatbot | English |
 | `openhermes` | [OpenHermes 2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5) | 1M+→50K | conversations (human/gpt) | Reasoning, coding, instruction following | English |
 | `sharegpt_en` | [ShareGPT](https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual) (English) | ~90K→50K | conversations (human/gpt) | Multi-turn dialogue, general QA | English |
 | `sharegpt_de` | [ShareGPT](https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual) (German) | ~104K→50K | conversations (human/gpt) | German language fine-tuning | **German** |
 | `sharegpt_hi` | [ShareGPT](https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual) (Hindi 27B) | ~153K→50K | conversations (human/gpt) | Hindi language fine-tuning | **Hindi** |
 | `custom_mix` | Your combination | — | varies | Combine datasets for hybrid tuning | Mixed |
 ### How to Switch Datasets (in any notebook)
@@ -55,16 +56,35 @@ DATASET_CHOICE = "cybersecurity"    # ← Default (defensive security)
 # DATASET_CHOICE = "sharegpt_en"    # ← English dialogue
 # DATASET_CHOICE = "sharegpt_de"    # ← German
 # DATASET_CHOICE = "sharegpt_hi"    # ← Hindi
 # DATASET_CHOICE = "custom_mix"     # ← Mix multiple
 ```
 ### Mixing Datasets (custom_mix)
 ```python
 CUSTOM_DATASETS = [
     # (dataset_id, split, num_rows, format_type)
     ("AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1", "train", 10000, "messages"),
-    ("HuggingFaceH4/ultrachat_200k", "train_sft", 20000, "messages"),
     ("teknium/OpenHermes-2.5", "train", 20000, "conversations"),
 ]
 ```
@@ -103,7 +123,7 @@ train_dataset = train_dataset.map(convert_messages_to_text, batched=True, remove
 trainer = SFTTrainer(..., dataset_text_field="text")
 ```
-All notebooks handle format auto-detection (Fenrir, UltraChat, OpenHermes, ShareGPT) automatically.
 ---
@@ -130,6 +150,7 @@ All notebooks handle format auto-detection (Fenrir, UltraChat, OpenHermes, Share
 | **UltraChat 200K** | https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k |
 | **OpenHermes 2.5** | https://huggingface.co/datasets/teknium/OpenHermes-2.5 |
 | **ShareGPT Multilingual** | https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual |
 | **Fenrir Cybersecurity** | https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1 |
 | **Trendyol Cybersecurity** | https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset |

 ---
+## 📊 Dataset Selection — 8 Built-in Choices
 Every notebook includes a `DATASET_CHOICE` variable. **Just uncomment one line** to pick your data.
 | Choice | Dataset | Rows | Format | Best For | Language |
 |--------|---------|------|--------|----------|----------|
+| `cybersecurity` | **Fenrir v2.1 + Trendyol** | 153K→50K | system/user/assistant | **Ethical hacking, pentesting education** | English |
+| `ultrachat` | [UltraChat 200K](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) (SFT) | 200K→50K | messages (role/content) | General conversation, chatbot tuning | English |
 | `openhermes` | [OpenHermes 2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5) | 1M+→50K | conversations (human/gpt) | Reasoning, coding, instruction following | English |
 | `sharegpt_en` | [ShareGPT](https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual) (English) | ~90K→50K | conversations (human/gpt) | Multi-turn dialogue, general QA | English |
 | `sharegpt_de` | [ShareGPT](https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual) (German) | ~104K→50K | conversations (human/gpt) | German language fine-tuning | **German** |
 | `sharegpt_hi` | [ShareGPT](https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual) (Hindi 27B) | ~153K→50K | conversations (human/gpt) | Hindi language fine-tuning | **Hindi** |
+| `code_corpus` | **[Code Corpus LLM Training](https://huggingface.co/datasets/krystv/code-corpus-llm-training)** | 240K→50K | text (code files with domain/repo/lang metadata) | **Code completion, coding assistant** | Multi (20 domains: Rust, Python, C++, Kotlin, Flutter, game engines, web frameworks, ethical hacking repos, etc.) |
 | `custom_mix` | Your combination | — | varies | Combine datasets for hybrid tuning | Mixed |
 ### How to Switch Datasets (in any notebook)
 # DATASET_CHOICE = "sharegpt_en"    # ← English dialogue
 # DATASET_CHOICE = "sharegpt_de"    # ← German
 # DATASET_CHOICE = "sharegpt_hi"    # ← Hindi
+# DATASET_CHOICE = "code_corpus"    # ← Code completion (Rust, Python, C++, etc.)
 # DATASET_CHOICE = "custom_mix"     # ← Mix multiple
 ```
+### Code Corpus Dataset Details
+The [Code Corpus LLM Training](https://huggingface.co/datasets/krystv/code-corpus-llm-training) dataset contains **240,378 code files** from top open-source repositories across 20 domains:
+| Domain | Examples |
+|--------|----------|
+| `web_ui` | Web frameworks, UI components |
+| `cpp` | C++ systems code |
+| `kotlin_android` | Android apps |
+| `rust` | Rust systems (e.g., actix-web) |
+| `python` | Python libraries |
+| `ethical_hacking` | Security tools, pentesting repos |
+| `game_engines` | Game development |
+| `ui_ux_design` | Design systems |
+Each example has: `text` (the full code file), `domain`, `repo`, `language`, `file_path`, `size_chars`. The notebook converts each code snippet into a user/assistant conversation: user asks to explain/improve the code, assistant provides the code.
 ### Mixing Datasets (custom_mix)
 ```python
 CUSTOM_DATASETS = [
     # (dataset_id, split, num_rows, format_type)
+    # format_type: "messages" | "conversations" | "text"
     ("AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1", "train", 10000, "messages"),
+    ("krystv/code-corpus-llm-training", "train", 20000, "text"),
     ("teknium/OpenHermes-2.5", "train", 20000, "conversations"),
 ]
 ```
 trainer = SFTTrainer(..., dataset_text_field="text")
 ```
+All notebooks handle format auto-detection (Fenrir, UltraChat, OpenHermes, ShareGPT, Code Corpus) automatically.
 ---
 | **UltraChat 200K** | https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k |
 | **OpenHermes 2.5** | https://huggingface.co/datasets/teknium/OpenHermes-2.5 |
 | **ShareGPT Multilingual** | https://huggingface.co/datasets/deepmage121/ShareGPT_multilingual |
+| **Code Corpus LLM Training** | https://huggingface.co/datasets/krystv/code-corpus-llm-training |
 | **Fenrir Cybersecurity** | https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.1 |
 | **Trendyol Cybersecurity** | https://huggingface.co/datasets/Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset |