sandbox-5ca717e4

Sleeping

App Files Files Community

sandbox-5ca717e4 / network_admin_llm_train.py

Justin-lee

Add network admin LLM training script

bbf6ae6 verified 16 days ago

raw

history blame contribute delete

10.6 kB

	#!/usr/bin/env python3
	# -- coding: utf-8 --
	'''
	Network Admin LLM - QLoRA Fine-tuning Script
	=============================================
	Base Model: microsoft/Phi-4-mini-instruct
	Method: QLoRA SFT (4-bit quantization + LoRA)
	Datasets: NetEval + Telecom Intent Config

	Run locally with GPU:
	pip install transformers trl peft bitsandbytes accelerate datasets trackio
	python network_admin_llm_train.py

	Or on Google Colab:
	!pip install transformers trl peft bitsandbytes accelerate datasets trackio
	%cd /content
	!python network_admin_llm_train.py

	Author: Network Admin LLM Project
	'''

	import os
	import sys
	import torch
	from datetime import datetime

	# ============== CONFIGURATION ==============
	# 請修改以下設定
	MODEL_NAME = 'microsoft/Phi-4-mini-instruct'
	HF_USERNAME = 'YOUR_HF_USERNAME' # 改成你的 HuggingFace 用戶名
	HF_TOKEN = os.environ.get('HF_TOKEN', 'YOUR_HF_TOKEN') # HF token for upload

	# 訓練超參數
	TRAINING_CONFIG = {
	'learning_rate': 2e-4, # LoRA 需要較高學習率
	'num_epochs': 3,
	'batch_size': 4,
	'gradient_accumulation': 4, # effective batch = 16
	'max_seq_length': 2048,
	'lora_r': 16,
	'lora_alpha': 32,
	'lora_dropout': 0.05,
	'warmup_ratio': 0.1,
	}

	OUTPUT_DIR = f'{HF_USERNAME}/network-admin-phi4-mini'
	# ===========================================

	def print_section(title):
	print(f'\n{"="*60}')
	print(f' {title}')
	print('='*60)

	def install_dependencies():
	'''檢查並安裝依賴'''
	print_section('CHECKING DEPENDENCIES')

	required = ['transformers', 'trl', 'peft', 'bitsandbytes', 'accelerate', 'datasets', 'trackio']
	missing = []

	for pkg in required:
	try:
	__import__(pkg.replace('-', '_'))
	print(f'✅ {pkg}')
	except ImportError:
	missing.append(pkg)
	print(f'❌ {pkg} - 需要安裝')

	if missing:
	print(f'\n請運行: pip install {" ".join(missing)}')
	return False
	return True

	def load_and_prepare_datasets():
	'''載入並轉換數據集'''
	from datasets import load_dataset, concatenate_datasets

	print_section('LOADING DATASETS')

	# 1. 載入 NetEval 考試題庫
	print('📚 載入 NetEval 考試題庫...')
	neteval_dataset = load_dataset('NASP/neteval-exam', split='train')
	print(f' NetEval: {len(neteval_dataset)} 題')

	def convert_neteval(example):
	'''將 Q&A 格式轉換為對話格式'''
	question = example['Question']
	options = f'\nA. {example.get("A", "")}\nB. {example.get("B", "")}\nC. {example.get("C", "")}\nD. {example.get("D", "")}'

	answer = f'正確答案是: {example["Answer"]}'
	if example.get('Explanation'):
	answer += f'\n\n📖 解說: {example["Explanation"]}'

	return {
	'messages': [
	{'role': 'system', 'content': '你是一位網路管理專家。請回答關於網路、安全、路由、交換機、VLAN、防火牆等IT基礎設施的問題。'},
	{'role': 'user', 'content': f'{question}{options}'},
	{'role': 'assistant', 'content': answer}
	]
	}

	neteval_converted = neteval_dataset.map(
	convert_neteval,
	remove_columns=neteval_dataset.column_names,
	desc='轉換 NetEval 格式'
	)

	# 2. 載入電信意圖配置數據集
	print('📚 載入電信意圖配置數據集...')
	telecom_dataset = load_dataset('nraptisss/telecom-intent-config-sft-10k', split='train')
	print(f' Telecom: {len(telecom_dataset)} 條')

	telecom_messages = telecom_dataset.map(
	lambda x: {'messages': x['messages']},
	remove_columns=[c for c in telecom_dataset.column_names if c != 'messages']
	)

	# 3. 合併數據集
	print('🔄 合併數據集...')
	combined = concatenate_datasets([neteval_converted, telecom_messages])
	split_data = combined.train_test_split(test_size=0.1, seed=42)

	train_ds = split_data['train']
	eval_ds = split_data['test']

	print(f'\n📊 數據集統計:')
	print(f' 訓練集: {len(train_ds)} 條')
	print(f' 驗證集: {len(eval_ds)} 條')
	print(f' 總計: {len(combined)} 條')

	return train_ds, eval_ds

	def setup_model_and_tokenizer():
	'''設置模型和 tokenizer'''
	from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
	from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model

	print_section('LOADING MODEL')
	print(f'🤖 模型: {MODEL_NAME}')

	# Tokenizer
	print('\n📝 載入 Tokenizer...')
	tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
	tokenizer.pad_token = tokenizer.eos_token
	tokenizer.padding_side = 'right'
	print(f' Vocab size: {len(tokenizer):,}')

	# QLoRA 配置 (4-bit)
	print('\n⚡ 配置 QLoRA (4-bit)...')
	bnb_config = BitsAndBytesConfig(
	load_in_4bit=True,
	bnb_4bit_quant_type='nf4', # Normalized Float4
	bnb_4bit_compute_dtype=torch.bfloat16,
	bnb_4bit_use_double_quant=True, # 嵌套量化
	)

	# 載入模型
	print('📥 載入模型 (4-bit)...')
	model = AutoModelForCausalLM.from_pretrained(
	MODEL_NAME,
	quantization_config=bnb_config,
	device_map='auto',
	trust_remote_code=True,
	)

	# 準備 kbit 訓練
	model = prepare_model_for_kbit_training(model)
	print('✅ 模型準備完成')

	# LoRA 配置
	print('\n🔧 配置 LoRA...')
	lora_config = LoraConfig(
	r=TRAINING_CONFIG['lora_r'],
	lora_alpha=TRAINING_CONFIG['lora_alpha'],
	lora_dropout=TRAINING_CONFIG['lora_dropout'],
	bias='none',
	task_type='CAUSAL_LM',
	target_modules=[
	'q_proj', 'k_proj', 'v_proj', 'o_proj', # Attention
	'gate_proj', 'up_proj', 'down_proj', # MLP
	],
	modules_to_save=['lm_head', 'embed_tokens'],
	)

	# 應用 LoRA
	model = get_peft_model(model, lora_config)
	model.print_trainable_parameters()

	return model, tokenizer, lora_config

	def setup_trainer(model, tokenizer, train_ds, eval_ds, lora_config):
	'''設置訓練器'''
	from trl import SFTTrainer, SFTConfig

	print_section('CONFIGURING TRAINER')

	# 生成運行名稱
	run_name = f'phi4-netadmin-{datetime.now().strftime("%m%d-%H%M")}'

	# 嘗試初始化 trackio
	try:
	import trackio
	trackio.init(project='network-admin-llm', experiment='qlora-sft', run_name=run_name)
	print('✅ Trackio 初始化成功')
	report_to = ['trackio']
	except Exception as e:
	print(f'⚠️ Trackio 初始化失敗: {e}')
	report_to = ['none']

	# SFT 配置
	training_args = SFTConfig(
	# 學習率
	learning_rate=TRAINING_CONFIG['learning_rate'],
	lr_scheduler_type='cosine',
	warmup_ratio=TRAINING_CONFIG['warmup_ratio'],

	# 訓練
	num_train_epochs=TRAINING_CONFIG['num_epochs'],
	per_device_train_batch_size=TRAINING_CONFIG['batch_size'],
	gradient_accumulation_steps=TRAINING_CONFIG['gradient_accumulation'],
	max_seq_length=TRAINING_CONFIG['max_seq_length'],

	# 記憶體優化
	gradient_checkpointing=True,
	bf16=True,
	fp16=False,

	# 輸出
	output_dir='./output',
	logging_steps=10,
	save_steps=500,
	save_total_limit=2,
	evaluation_strategy='steps',
	eval_steps=500,

	# Hub 上傳
	push_to_hub=True,
	hub_model_id=OUTPUT_DIR,
	hub_strategy='checkpoint',

	# 監控
	report_to=report_to,
	logging_strategy='steps',
	logging_first_step=True,

	# 雜項
	remove_unused_columns=False,
	dataloader_num_workers=4,
	seed=42,
	)

	# 創建 trainer
	trainer = SFTTrainer(
	model=model,
	args=training_args,
	train_dataset=train_ds,
	eval_dataset=eval_ds,
	processing_class=tokenizer,
	peft_config=lora_config,
	)

	return trainer, run_name

	def train_model(trainer):
	'''執行訓練'''
	print_section('STARTING TRAINING')
	print('🚀 開始訓練...')
	print(' (按 Ctrl+C 可隨時中斷)')
	print()

	try:
	trainer.train()
	print('\n✅ 訓練完成!')
	return True
	except KeyboardInterrupt:
	print('\n⚠️ 訓練被用戶中斷')
	return False
	except Exception as e:
	print(f'\n❌ 訓練失敗: {e}')
	raise

	def save_and_upload(trainer):
	'''保存並上傳模型'''
	print_section('SAVING & UPLOADING')

	try:
	print('📤 上傳模型到 HuggingFace Hub...')
	trainer.push_to_hub()
	print(f'\n✅ 模型已上傳!')
	print(f'🔗 連結: https://huggingface.co/{OUTPUT_DIR}')
	except Exception as e:
	print(f'\n⚠️ 上傳失敗: {e}')
	print('模型已保存在 ./output 目錄')

	def main():
	'''主函數'''
	print('''
	╔═══════════════════════════════════════════════════════════╗
	║ Network Admin LLM - QLoRA Fine-tuning ║
	║ Base: microsoft/Phi-4-mini-instruct ║
	╚═══════════════════════════════════════════════════════════╝
	''')

	# 檢查 GPU
	print(f'🖥️ GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else "無 GPU"}')
	if torch.cuda.is_available():
	print(f' Memory: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB')

	# 安裝依賴
	if not install_dependencies():
	sys.exit(1)

	# 載入數據
	train_ds, eval_ds = load_and_prepare_datasets()

	# 設置模型
	model, tokenizer, lora_config = setup_model_and_tokenizer()

	# 設置 trainer
	trainer, run_name = setup_trainer(model, tokenizer, train_ds, eval_ds, lora_config)

	# 訓練
	success = train_model(trainer)

	# 保存
	if success:
	save_and_upload(trainer)

	print_section('DONE')
	print(f'Run name: {run_name}')

	if __name__ == '__main__':
	main()