sandbox-5ca717e4

Sleeping

App Files Files Community

Justin-lee commited on 15 days ago

Commit

9f2a23b

verified ·

1 Parent(s): 8e46316

Upload enterprise_llm_train.py with huggingface_hub

Browse files

Files changed (1) hide show

enterprise_llm_train.py +506 -1

enterprise_llm_train.py CHANGED Viewed

@@ -3,5 +3,510 @@
 企業多任務 LLM 訓練腳本
 基座模型: Qwen/Qwen2.5-7B-Instruct + QLoRA 4-bit
 四大能力: 客服FAQ | 文件問答 | 工單分類 | 資訊抽取
 """
-# See full script in training job

 企業多任務 LLM 訓練腳本
 基座模型: Qwen/Qwen2.5-7B-Instruct + QLoRA 4-bit
 四大能力: 客服FAQ | 文件問答 | 工單分類 | 資訊抽取
+資料來源:
+  - YeungNLP/firefly-train-1.1M (NER/分類/摘要/QA)
+  - hfl/cmrc2018 (中文閱讀理解)
+  - clue/clue [tnews] (15類新聞分類)
+  - BelleGroup/train_1M_CN (通用指令)
+訓練方法: QLoRA SFT (NF4 + double quant, LoRA on all-linear)
+參考: Qwen2 Technical Report (2407.10671), QLoRA Paper (2305.14314)
 """
+import os
+import json
+import random
+import torch
+import numpy as np
+from datasets import load_dataset, Dataset, concatenate_datasets
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+from peft import LoraConfig, prepare_model_for_kbit_training
+from trl import SFTTrainer, SFTConfig
+# ── Reproducibility ──
+SEED = 42
+random.seed(SEED)
+np.random.seed(SEED)
+torch.manual_seed(SEED)
+# ── Config ──
+MODEL_ID = "Qwen/Qwen2.5-7B-Instruct"
+OUTPUT_DIR = "./qwen25-7b-enterprise-zh"
+HUB_MODEL_ID = "Justin-lee/Qwen2.5-7B-Enterprise-ZH"
+MAX_SEQ_LENGTH = 2048
+# ── Task system prompts ──
+SYSTEM_PROMPTS = {
+    "faq": "你是一個專業的企業客服助手。請根據用戶的問題，提供準確、簡潔、有禮貌的回答。如果不確定答案，請誠實告知。",
+    "doc_qa": "你是一個文件分析助手。請仔細閱讀提供的文件內容，僅根據文件中的資訊回答問題。答案必須來自文件，不要編造內容。",
+    "classify": "你是一個工單分類與分流助手。請根據用戶描述的問題，將其分類到最合適的處理類別，並簡述分類理由。",
+    "ner": "你是一個資訊抽取助手。請從文本中準確抽取指定類型的實體資訊（如日期、金額、地址、姓名、條件等），以結構化格式輸出。",
+    "general": "你是一個智能助手，請根據用戶的指令完成任務。",
+}
+# ── TNEWS label mapping (15 classes) ──
+TNEWS_LABELS = {
+    0: "故事", 1: "文化", 2: "娛樂", 3: "體育", 4: "財經",
+    5: "房產", 6: "汽車", 7: "教育", 8: "科技", 9: "軍事",
+    10: "旅遊", 11: "國際", 12: "股票", 13: "農業", 14: "電競",
+}
+# ── Firefly task type mapping (verified from actual dataset kinds) ──
+FIREFLY_IE_KINDS = {"NER", "KeywordRecognition", "SentimentAnalyze"}
+FIREFLY_QA_KINDS = {"MRC", "Cot", "TextMatching"}
+FIREFLY_FAQ_KINDS = {"OpenQA", "ProductDesc", "Dictionary"}
+FIREFLY_CLASSIFY_KINDS = {"ClassicalChinese", "NLI", "TextCorrection"}
+def format_messages(system: str, user: str, assistant: str) -> dict:
+    """Format a single example into ChatML messages format."""
+    msgs = []
+    if system:
+        msgs.append({"role": "system", "content": system})
+    msgs.append({"role": "user", "content": user})
+    msgs.append({"role": "assistant", "content": assistant})
+    return {"messages": msgs}
+def load_firefly_data(max_per_task: int = 5000):
+    """Load YeungNLP/firefly-train-1.1M and split by task type."""
+    print("📦 Loading Firefly-1.1M...")
+    ds = load_dataset("YeungNLP/firefly-train-1.1M", split="train", streaming=True)
+    ie_data, qa_data, faq_data = [], [], []
+    counts = {"ie": 0, "qa": 0, "faq": 0}
+    for row in ds:
+        kind = row["kind"]
+        inp = row["input"].strip()
+        tgt = row["target"].strip()
+        if not inp or not tgt or len(tgt) < 5:
+            continue
+        if kind in FIREFLY_IE_KINDS and counts["ie"] < max_per_task:
+            ie_data.append(format_messages(SYSTEM_PROMPTS["ner"], inp, tgt))
+            counts["ie"] += 1
+        elif kind in FIREFLY_QA_KINDS and counts["qa"] < max_per_task:
+            qa_data.append(format_messages(SYSTEM_PROMPTS["doc_qa"], inp, tgt))
+            counts["qa"] += 1
+        elif kind in FIREFLY_FAQ_KINDS and counts["faq"] < max_per_task:
+            faq_data.append(format_messages(SYSTEM_PROMPTS["faq"], inp, tgt))
+            counts["faq"] += 1
+        if all(v >= max_per_task for v in counts.values()):
+            break
+    print(f"  ✅ Firefly — IE: {counts['ie']}, QA: {counts['qa']}, FAQ: {counts['faq']}")
+    all_data = ie_data + qa_data + faq_data
+    return Dataset.from_list(all_data) if all_data else None
+def load_cmrc_data(max_samples: int = 5000):
+    """Load hfl/cmrc2018 as document QA examples."""
+    print("📦 Loading CMRC2018...")
+    ds = load_dataset("hfl/cmrc2018", split="train")
+    data = []
+    for row in ds:
+        context = row["context"].strip()
+        question = row["question"].strip()
+        answers = row["answers"]["text"]
+        if not answers:
+            continue
+        answer = answers[0].strip()
+        user_msg = f"請根據以下文件回答問題。\n\n【文件內容】\n{context}\n\n【問題】\n{question}"
+        data.append(format_messages(SYSTEM_PROMPTS["doc_qa"], user_msg, answer))
+        if len(data) >= max_samples:
+            break
+    print(f"  ✅ CMRC2018 — {len(data)} 條文件問答")
+    return Dataset.from_list(data) if data else None
+def load_tnews_data(max_samples: int = 10000):
+    """Load CLUE TNEWS as classification examples."""
+    print("📦 Loading TNEWS...")
+    ds = load_dataset("clue/clue", "tnews", split="train")
+    data = []
+    for row in ds:
+        sentence = row["sentence"].strip()
+        label = row["label"]
+        if label < 0 or label > 14:
+            continue
+        label_name = TNEWS_LABELS.get(label, "其他")
+        user_msg = f"請將以下文本分類到最合適的類別。\n可選類別：{', '.join(TNEWS_LABELS.values())}\n\n文本：{sentence}\n\n請直接輸出類別名稱和分類理由。"
+        assistant_msg = f"類別：{label_name}\n理由：根據文本內容，該文本主要討論的是{label_name}相關的話題。"
+        data.append(format_messages(SYSTEM_PROMPTS["classify"], user_msg, assistant_msg))
+        if len(data) >= max_samples:
+            break
+    print(f"  ✅ TNEWS — {len(data)} 條分類樣本")
+    return Dataset.from_list(data) if data else None
+def load_belle_data(max_samples: int = 10000):
+    """Load BelleGroup/train_1M_CN as general instruction + FAQ samples."""
+    print("📦 Loading BELLE-1M...")
+    ds = load_dataset("BelleGroup/train_1M_CN", split="train", streaming=True)
+    data = []
+    count = 0
+    for row in ds:
+        instruction = row["instruction"].strip()
+        inp = row.get("input", "").strip()
+        output = row["output"].strip()
+        if not instruction or not output or len(output) < 10:
+            continue
+        user_msg = instruction
+        if inp:
+            user_msg += f"\n{inp}"
+        # Alternate between FAQ and general system prompts
+        sys_prompt = SYSTEM_PROMPTS["faq"] if count % 2 == 0 else SYSTEM_PROMPTS["general"]
+        data.append(format_messages(sys_prompt, user_msg, output))
+        count += 1
+        if count >= max_samples:
+            break
+    print(f"  ✅ BELLE — {len(data)} 條通用指令")
+    return Dataset.from_list(data) if data else None
+def create_synthetic_ie_examples():
+    """Create synthetic IE examples for dates/amounts/addresses/names extraction."""
+    print("📦 Creating synthetic IE examples...")
+    examples = [
+        # 日期抽取
+        {
+            "input": "請從以下文本中抽取所有日期資訊：\n\n「張先生於2024年3月15日簽訂了購房合同，約定在2024年6月30日前完成過戶手續，首付款需在2024年4月1日前支付。」",
+            "output": "抽取結果：\n- 日期1：2024年3月15日（合同簽訂日）\n- 日期2：2024年6月30日（過戶截止日）\n- 日期3：2024年4月1日（首付款支付截止日）"
+        },
+        # 金額抽取
+        {
+            "input": "請從以下文本中抽取所有金額資訊：\n\n「本次交易總金額為人民幣358萬元整，其中首付款107.4萬元，銀行貸款250.6萬元，月供約12,800元，貸款期限30年。」",
+            "output": "抽取結果：\n- 總金額：358萬元\n- 首付款：107.4萬元\n- 銀行貸款：250.6萬元\n- 月供：12,800元"
+        },
+        # 地址抽取
+        {
+            "input": "請從以下文本中抽取所有地址資訊：\n\n「發貨地址：上海市浦東新區張江高科技園區碧波路690號。收貨地址：北京市朝陽區建國門外大街1號國貿大廈A座2305室。退貨地址：廣東省深圳市南山區科技園南區W1-B棟3樓。」",
+            "output": "抽取結果：\n- 發貨地址：上海市浦東新區張江高科技園區碧波路690號\n- 收貨地址：北京市朝陽區建國門外大街1號國貿大廈A座2305室\n- 退貨地址：廣東省深圳市南山區科技園南區W1-B棟3樓"
+        },
+        # 姓名抽取
+        {
+            "input": "請從以下文本中抽取所有人名：\n\n「與會人員包括：項目經理王建國、技術總監李芳、市場部的陳志明和張小紅，以及外部顧問Dr. Michael Chen。會議由副總裁趙國強主持。」",
+            "output": "抽取結果：\n- 王建國（項目經理）\n- 李芳（技術總監）\n- 陳志明（市場部）\n- 張小紅（市場部）\n- Dr. Michael Chen（外部顧問）\n- 趙國強（副總裁）"
+        },
+        # 混合抽取
+        {
+            "input": "請從以下文本中抽取所有關鍵實體（人名、日期、金額、地址）：\n\n「買方林美玲女士於2024年1月10日在台北市信義區松仁路100號的不動產仲介處，以新台幣2,580萬元購入一戶住宅。賣方陳大明先生同意在2024年2月28日前完成交屋，違約金為總價的10%即258萬元。」",
+            "output": "抽取結果：\n\n【人名】\n- 林美玲（買方）\n- 陳大明（賣方）\n\n【日期】\n- 2024年1月10日（購買日）\n- 2024年2月28日（交屋截��日）\n\n【金額】\n- 2,580萬元（購買總價）\n- 258萬元（違約金，總價10%）\n\n【地址】\n- 台北市信義區松仁路100號（仲介處地址）"
+        },
+        # 合約條件抽取
+        {
+            "input": "請抽取以下合約條款中的關鍵條件：\n\n「甲方應在收到乙方交付的驗收合格報告後15個工作日內，支付合同總額的70%即人民幣84萬元。剩餘30%即36萬元作為質保金，在質保期（自驗收合格之日起12個月）滿後30個工作日內無息退還。如甲方逾期付款，每日按未付金額的0.05%支付違約金。」",
+            "output": "抽取結果：\n\n【付款條件】\n- 首期：合同總額70%（84萬元），驗收合格後15個工作日內支付\n- 質保金：合同總額30%（36萬元），質保期滿後30個工作日內退還\n- 合同總額：120萬元\n\n【時限條件】\n- 首期付款期限：驗收合格後15個工作日\n- 質保期：驗收合格之日起12個月\n- 質保金退還期限：質保期滿後30個工作日\n\n【違約條件】\n- 逾期付款違約金：每日按未付金額的0.05%"
+        },
+        # 客服工單抽取
+        {
+            "input": "請從以下客服對話中抽取關鍵資訊：\n\n「客戶：你好，我是訂單號 ORD-2024031578 的買家張小明，我3月18號在你們官網買了一台型號為 XR-500 的空氣清淨機，花了3,299元，收貨地址是杭州市西湖區文三路489號。但收到的商品外殼有明顯刮痕，我要求換貨或退款。我的聯繫電話是 138-0571-8899。」",
+            "output": "抽取結果：\n\n【客戶資訊】\n- 姓名：張小明\n- 電話：138-0571-8899\n- 地址：杭州市西湖區文三路489號\n\n【訂單資訊】\n- 訂單號：ORD-2024031578\n- 下單日期：3月18日\n- 購買渠道：官網\n- 商品型號：XR-500（空氣清淨機）\n- 金額：3,299元\n\n【問題描述】\n- 問題類型：商品品質問題（外殼刮痕）\n- 客戶訴求：換貨或退款"
+        },
+        # 發票/收據抽取
+        {
+            "input": "請從以下發票資訊中抽取結構化數據：\n\n「增值稅專用發票 發票代碼：3100224130 發票號碼：08956723 開票日期：2024年03月20日 銷售方：上海科創數據技術有限公司 統一社會信用代碼：91310115MA1K4XYZ89 地址：上海市浦東新區世紀大道1000號 電話：021-58889999 購買方：北京智慧雲端科技有限公司 金額合計（大寫）：壹拾貳萬叁仟肆佰伍拾陸元整 金額合計（小寫）：¥123,456.00 稅率：13% 稅額：¥16,049.28 價稅合計：¥139,505.28」",
+            "output": "抽取結果：\n\n【發票基本資訊】\n- 類型：增值稅專用發票\n- 發票代碼：3100224130\n- 發票號碼：08956723\n- 開票日期：2024年03月20日\n\n【銷售方】\n- 名稱：上海科創數據技術有限公司\n- 信用代碼：91310115MA1K4XYZ89\n- 地址：上海市浦東新區世紀大道1000號\n- 電話：021-58889999\n\n【購買方】\n- 名稱：北京智慧雲端科技有限公司\n\n【金額資訊】\n- 金額（不含稅）：¥123,456.00\n- 稅率：13%\n- 稅額：¥16,049.28\n- 價稅合計：¥139,505.28"
+        },
+    ]
+    # Expand to more variations
+    expanded = []
+    for ex in examples:
+        expanded.append(format_messages(SYSTEM_PROMPTS["ner"], ex["input"], ex["output"]))
+    print(f"  ✅ Synthetic IE — {len(expanded)} 條")
+    return Dataset.from_list(expanded)
+def create_synthetic_faq_examples():
+    """Create realistic enterprise customer service FAQ examples."""
+    print("📦 Creating synthetic FAQ examples...")
+    examples = [
+        # 訂單相關
+        {"q": "我的訂單什麼時候能到？訂單號是 ORD-20240315。", "a": "您好！讓我為您查詢訂單 ORD-20240315 的物流狀態。一般情況下：\n- 標準配送：3-5個工作日\n- 加急配送：1-2個工作日\n\n您可以在「我的訂單」頁面查看即時物流追蹤資訊。如果超過預計送達時間仍未收到，請聯繫我們，我們會為您優先處理。"},
+        {"q": "我想退貨，已經收到商品3天了。", "a": "沒問題！我們的退貨政策如下：\n\n✅ **支持退貨的條件：**\n- 簽收後7天內\n- 商品未使用、未拆封\n- 保留原包裝和配件\n\n**退貨流程：**\n1. 進入「我的訂單」→ 選擇要退貨的訂單\n2. 點擊「申請退貨」\n3. 選擇退貨原因並上傳照片\n4. 等待審核（通常1個工作日內）\n5. 審核通過後寄回商品\n6. 我們收到商品後3-5個工作日內退款\n\n您收到才3天，完全在退貨時效內。需要我幫您發起退貨申請嗎？"},
+        {"q": "退款多久能到帳？", "a": "退款到帳時間取決於您的付款方式：\n\n| 付款方式 | 預計到帳時間 |\n|---------|------------|\n| 信用卡 | 3-7個工作日 |\n| 銀行轉帳 | 1-3個工作日 |\n| 第三方支付（支付寶/微信） | 即時-24小時 |\n| 禮品卡/餘額 | 即時退回 |\n\n退款一經處理，���們會發送通知郵件給您。如果超過上述時間仍未收到，請聯繫銀行確認。"},
+        {"q": "你們的產品有保固嗎？", "a": "有的！我們所有產品均享有保固服務：\n\n🔧 **標準保固：**\n- 電子產品：1年\n- 家電產品：2年\n- 配件耗材：6個月\n\n📋 **保固涵蓋：**\n- 製造缺陷\n- 非人為損壞的功能故障\n- 材料品質問題\n\n❌ **不涵蓋：**\n- 人為損壞（摔落、進水等）\n- 未經授權的拆裝或改裝\n- 正常磨損消耗\n\n報修方式：撥打客服電話 400-888-9999 或在官網提交維修申請。"},
+        {"q": "怎麼修改收貨地址？訂單已經付款了。", "a": "可以修改！但需要注意訂單狀態：\n\n✅ **可修改：** 訂單狀態為「待發貨」\n→ 在「我的訂單」中直接修改地址\n\n⚠️ **需聯繫客服：** 訂單狀態為「已發貨」\n→ 如果快遞還在分揀中心，有可能可以攔截修改\n→ 請提供：訂單號 + 新地址 + 收件人電話\n\n❌ **無法修改：** 訂單已在派送中\n→ 建議聯繫快遞員協商送到新地址，或拒收後重新下單\n\n請告訴我您的訂單號，我來幫您查詢目前狀態。"},
+        # 帳號相關
+        {"q": "忘記密碼怎麼辦？", "a": "重設密碼很簡單：\n\n**方法一：線上重設**\n1. 點擊登入頁面的「忘記密碼」\n2. 輸入註冊時的手機號碼或郵箱\n3. 接收驗證碼\n4. 設定新密碼（至少8位，需包含字母和數字）\n\n**方法二：客服協助**\n如果您的手機號碼/郵箱已更換：\n1. 準備身分證明文件\n2. 撥打客服電話 400-888-9999\n3. 我們驗證身分後為您重設\n\n💡 建議設定後開啟雙重驗證，更安全！"},
+        {"q": "怎麼開發票？", "a": "開立發票有以下方式：\n\n**電子發票（推薦）：**\n1. 進入「我的訂單」→ 選擇已完成的訂單\n2. 點擊「申請發票」\n3. 選擇發票類型（個人/公司）\n4. 填寫抬頭和統一編號\n5. 電子發票會在1-3個工作日內發送到您的信箱\n\n**紙質發票：**\n- 需額外申請，郵寄時間約5-7個工作日\n- 下單時在備註欄註明需要紙質發票\n\n📝 注意：訂單完成後30天內可申請發票。"},
+        # 產品相關
+        {"q": "XR-500 和 XR-700 有什麼差別？該買哪個？", "a": "以下是兩款產品的詳細比較：\n\n| 規格 | XR-500 | XR-700 |\n|------|--------|--------|\n| 適用面積 | 20-30坪 | 35-50坪 |\n| CADR值 | 500 m³/h | 700 m³/h |\n| 噪音 | 30-52 dB | 28-48 dB |\n| 濾網壽命 | 6個月 | 12個月 |\n| 智能功能 | Wi-Fi控制 | Wi-Fi + AI感知 |\n| 價格 | ¥3,299 | ¥5,499 |\n\n**購買建議：**\n- 🏠 一般家庭（30坪以內）→ XR-500 性價比更高\n- 🏢 大空間/對噪音敏感 → XR-700 更安靜、更強效\n\n兩款都支持7天無理由退貨，可以放心購買試用。"},
+    ]
+    data = []
+    for ex in examples:
+        data.append(format_messages(SYSTEM_PROMPTS["faq"], ex["q"], ex["a"]))
+    print(f"  ✅ Synthetic FAQ — {len(data)} 條")
+    return Dataset.from_list(data)
+def create_synthetic_ticket_examples():
+    """Create synthetic ticket classification/routing examples."""
+    print("📦 Creating synthetic ticket classification examples...")
+    TICKET_CATEGORIES = {
+        "售後服務": "商品退換貨、維修、保固問題",
+        "物流配送": "物流查詢、延遲、丟件、地址修改",
+        "帳號問題": "登入、密碼、安全、個人資料",
+        "付款財務": "付款失敗、退款、發票、帳單",
+        "產品諮詢": "產品規格、選購建議、庫存查詢",
+        "投訴建議": "服務態度、品質投訴、改善建議",
+        "技術支援": "產品使用問題、故障排除、軟體更新",
+        "合作洽談": "商務合作、批量採購、代理加盟",
+    }
+    examples = [
+        ("我上個月買的洗衣機漏水了，還在保固期內，怎麼報修？", "售後服務", "客戶反映產品在保固期內出現故障（洗衣機漏水），屬於維修保固範疇。"),
+        ("快遞已經5天了還沒到，物流資訊3天沒更新。", "物流配送", "客戶反映物流超時且追蹤資訊停滯，屬於物流異常問題。"),
+        ("我一直收到登入異常的通知，但我沒有在其他地方登入過。", "帳號問題", "客戶帳號可能存在安全風險（疑似被盜），需要安全團隊處理。"),
+        ("上次退貨的退款一直沒收到，已經超過7天了。", "付款財務", "退款逾期未到帳，屬於財務退款問題。"),
+        ("想問一下你們的智能手錶支不支持游泳時使用？防水等級是多少？", "產品諮詢", "客戶詢問產品規格（防水等級），屬於售前諮詢。"),
+        ("你們的客服態度太差了！上次打電話過來被掛了三次！", "投訴建議", "客戶投訴客服服務態度，屬於服務品質投訴，需要優先處理。"),
+        ("新買的平板電腦連不上WiFi，試了重開機還是不行。", "技術支援", "產品技術問題（WiFi連線故障），需要技術人員協助排查。"),
+        ("我們公司想採購200台你們的空氣清淨機，有團購價嗎？", "合作洽談", "企業客戶的批量採購需求，需轉至商務部門。"),
+        ("我付款的時候一直顯示付款失敗，餘額是夠的。", "付款財務", "付款異常問題，可能涉及支付通道或系統問題。"),
+        ("APP更新之後一直閃退，手機是iPhone 15。", "技術支援", "軟體相容性問題（APP閃退），需要技術排查。"),
+        ("我想取消訂單，商品還沒發貨。", "售後服務", "客戶要求取消未發貨訂單，屬於售後處理。"),
+        ("你們有沒有在招地區經銷商？", "合作洽談", "代理加盟諮詢，需轉至渠道拓展部門。"),
+    ]
+    data = []
+    for text, category, reason in examples:
+        cat_desc = TICKET_CATEGORIES[category]
+        user_msg = f"請將以下客戶訊息分類到合適的處理部門。\n\n可選部門：\n"
+        for cat, desc in TICKET_CATEGORIES.items():
+            user_msg += f"- {cat}：{desc}\n"
+        user_msg += f"\n客戶訊息：{text}\n\n請輸出分類結果和理由。"
+        assistant_msg = f"分類結果：{category}\n\n理由：{reason}\n\n建議處理優先級：{'高' if category in ['投訴建議', '帳號問題'] else '中'}"
+        data.append(format_messages(SYSTEM_PROMPTS["classify"], user_msg, assistant_msg))
+    print(f"  ✅ Synthetic Tickets — {len(data)} 條")
+    return Dataset.from_list(data)
+def build_dataset():
+    """Build the combined multi-task training dataset."""
+    print("\n" + "="*60)
+    print("🔨 Building multi-task training dataset")
+    print("="*60 + "\n")
+    datasets_list = []
+    # 1. Firefly: IE + QA + FAQ (15K total)
+    firefly_ds = load_firefly_data(max_per_task=5000)
+    if firefly_ds:
+        datasets_list.append(firefly_ds)
+    # 2. CMRC2018: Document QA (all ~10K)
+    cmrc_ds = load_cmrc_data(max_samples=10000)
+    if cmrc_ds:
+        datasets_list.append(cmrc_ds)
+    # 3. TNEWS: Classification (10K)
+    tnews_ds = load_tnews_data(max_samples=10000)
+    if tnews_ds:
+        datasets_list.append(tnews_ds)
+    # 4. BELLE: General FAQ + instructions (10K)
+    belle_ds = load_belle_data(max_samples=10000)
+    if belle_ds:
+        datasets_list.append(belle_ds)
+    # 5. Synthetic IE examples (high-quality, task-specific)
+    syn_ie = create_synthetic_ie_examples()
+    datasets_list.append(syn_ie)
+    # 6. Synthetic FAQ examples (enterprise-specific)
+    syn_faq = create_synthetic_faq_examples()
+    datasets_list.append(syn_faq)
+    # 7. Synthetic ticket classification examples
+    syn_tickets = create_synthetic_ticket_examples()
+    datasets_list.append(syn_tickets)
+    # Combine all
+    combined = concatenate_datasets(datasets_list)
+    combined = combined.shuffle(seed=SEED)
+    print(f"\n📊 Total training examples: {len(combined)}")
+    print(f"   Sample messages format: {combined[0]['messages'][:1]}")
+    return combined
+def main():
+    print("🚀 Enterprise Multi-Task LLM Training")
+    print(f"   Model: {MODEL_ID}")
+    print(f"   Output: {HUB_MODEL_ID}")
+    print(f"   Max Seq Length: {MAX_SEQ_LENGTH}")
+    print()
+    # ── Build dataset ──
+    train_dataset = build_dataset()
+    # ── Initialize Trackio ──
+    try:
+        import trackio
+        trackio.init(
+            project="enterprise-llm",
+            name="qwen25-7b-multitask-sft",
+            config={
+                "model": MODEL_ID,
+                "method": "QLoRA-SFT",
+                "tasks": "FAQ,DocQA,Classification,IE",
+                "dataset_size": len(train_dataset),
+                "max_seq_length": MAX_SEQ_LENGTH,
+            }
+        )
+        print("📊 Trackio monitoring initialized")
+    except Exception as e:
+        print(f"⚠️ Trackio init failed (non-fatal): {e}")
+    # ── Load tokenizer ──
+    print("\n📦 Loading tokenizer...")
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    tokenizer.padding_side = "right"
+    # ── BitsAndBytes config ──
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True,
+        bnb_4bit_compute_dtype=torch.bfloat16,
+    )
+    # ── Load model ──
+    print("📦 Loading model with 4-bit quantization...")
+    model = AutoModelForCausalLM.from_pretrained(
+        MODEL_ID,
+        quantization_config=bnb_config,
+        device_map="auto",
+        trust_remote_code=True,
+        torch_dtype=torch.bfloat16,
+    )
+    model = prepare_model_for_kbit_training(model)
+    print(f"   Model loaded: {model.dtype}, device: {model.device}")
+    # ── LoRA config ──
+    peft_config = LoraConfig(
+        r=64,
+        lora_alpha=128,
+        target_modules="all-linear",
+        lora_dropout=0.05,
+        bias="none",
+        task_type="CAUSAL_LM",
+    )
+    # ── Training config ──
+    training_args = SFTConfig(
+        output_dir=OUTPUT_DIR,
+        hub_model_id=HUB_MODEL_ID,
+        push_to_hub=True,
+        # Training hyperparams
+        num_train_epochs=3,
+        per_device_train_batch_size=2,
+        gradient_accumulation_steps=8,  # effective batch = 16
+        learning_rate=2e-4,
+        lr_scheduler_type="cosine",
+        warmup_ratio=0.03,
+        weight_decay=0.01,
+        max_grad_norm=1.0,
+        # Sequence
+        max_length=MAX_SEQ_LENGTH,
+        packing=False,
+        # Memory optimization
+        gradient_checkpointing=True,
+        gradient_checkpointing_kwargs={"use_reentrant": False},
+        optim="paged_adamw_8bit",
+        bf16=True,
+        # Logging
+        logging_steps=10,
+        logging_first_step=True,
+        logging_strategy="steps",
+        disable_tqdm=True,
+        report_to="none",
+        # Saving
+        save_strategy="steps",
+        save_steps=500,
+        save_total_limit=3,
+        # Other
+        dataloader_num_workers=4,
+        seed=SEED,
+        remove_unused_columns=True,
+    )
+    # ── Trainer ──
+    print("\n🏋️ Initializing SFTTrainer...")
+    trainer = SFTTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_dataset,
+        peft_config=peft_config,
+        processing_class=tokenizer,
+    )
+    # Print trainable params
+    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    total_params = sum(p.numel() for p in model.parameters())
+    print(f"   Trainable: {trainable_params:,} / {total_params:,} ({100*trainable_params/total_params:.2f}%)")
+    # ── Train ──
+    print("\n🚀 Starting training...")
+    train_result = trainer.train()
+    # ── Save & Push ──
+    print("\n💾 Saving model...")
+    trainer.save_model()
+    # Save training metrics
+    metrics = train_result.metrics
+    trainer.log_metrics("train", metrics)
+    trainer.save_metrics("train", metrics)
+    print("\n📤 Pushing to Hub...")
+    trainer.push_to_hub(commit_message="Multi-task enterprise LLM: FAQ + DocQA + Classification + IE")
+    # Also push tokenizer
+    tokenizer.push_to_hub(HUB_MODEL_ID)
+    print("\n" + "="*60)
+    print("✅ Training complete!")
+    print(f"   Model: https://huggingface.co/{HUB_MODEL_ID}")
+    print(f"   Metrics: {json.dumps(metrics, indent=2)}")
+    print("="*60)
+if __name__ == "__main__":
+    main()