chihoonlee-27B-SFT-V1.0
Qwen3.5-27B 기반 한국어 Chain-of-Thought (CoT) 증류 SFT 모델입니다.
모델 정보
- Base Model: Qwen/Qwen3.5-27B
- Teacher Model: Qwen3.5-122B-A10B (MoE, local ollama)
- Training Method: QLoRA (4-bit NF4) SFT → Full weights merge
- Parameters: 27B
- Context Length: 262,144 tokens
- Language: 한국어 (Korean) + 영어 (English)
- License: Apache 2.0
학습 상세
데이터
- Dataset: KMMLU 기반 CoT 증류 데이터
- Size: 3,988 샘플 (4,000개 생성, 12개 empty 필터)
- Method: Qwen3.5-122B-A10B teacher가 생성한 한국어 reasoning chain
학습 하이퍼파라미터
- Quantization: 4-bit NF4 + double quantization
- LoRA: rank 32, alpha 64, target=all-linear
- Learning Rate: 2e-5
- Batch Size: 1 × gradient accumulation 32 (effective 32)
- Epochs: 2
- Max Length: 2,048 tokens (packing enabled)
- Optimizer: AdamW
- GPU: NVIDIA RTX PRO 6000 (97GB VRAM)
학습 결과
- Training Time: 5시간 5분 (120 steps)
- Final Loss: 0.6454
- Train Loss: 0.7299
- Token Accuracy: 80.99%
- Total Tokens Processed: 7.34M
성능
타겟 벤치마크 (K-AI Leaderboard)
이 모델은 다음 벤치마크에서의 성능 향상을 목표로 학습되었습니다:
- KMMLU-Pro: 전문 지식 MCQ + reasoning chain
- CLIcK: 한국 문화/언어
- HLE(Ko): 박사급 추론
- MuSR(Ko): 다단계 서사 추론
- Com2-main(Ko): 대화 맥락/의도 파악
평가 결과는 업데이트 예정입니다.
사용법
from transformers import AutoModelForCausalLM, AutoTokenizer
# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
"chihoonlee10/chihoonlee-27B-SFT-V1.0",
torch_dtype="bfloat16",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("chihoonlee10/chihoonlee-27B-SFT-V1.0")
# 추론
messages = [
{"role": "system", "content": "당신은 유능한 AI 어시스턴트입니다."},
{"role": "user", "content": "한국의 수도는 어디인가요?"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
do_sample=True
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
모델 구조
- Architecture: Qwen3.5 (Transformer-based)
- Hidden Size: 3,584
- Num Layers: 28
- Num Attention Heads: 28
- Vocab Size: 248,064
- Dtype: bfloat16
제한사항
- 이 모델은 KMMLU 중심의 CoT 데이터로 학습되어 다른 도메인에서는 성능이 제한적일 수 있습니다
- 2,048 토큰 이상의 긴 문맥에서는 평가되지 않았습니다
- 사실성 검증이나 안전성 평가는 별도로 수행되지 않았습니다
Citation
@misc{chihoonlee-27b-sft-v1,
author = {CHI-HOON LEE},
title = {chihoonlee-27B-SFT-V1.0: Korean CoT Distilled Model},
year = {2026},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/chihoonlee10/chihoonlee-27B-SFT-V1.0}},
}
Acknowledgements
- Base Model: Qwen Team
- Teacher Model: Qwen3.5-122B-A10B
- Training Framework: Hugging Face Transformers + PEFT
- Evaluation: K-AI Leaderboard
Contact
For questions or issues, please contact via Hugging Face discussions or create an issue.
Model Card Author: CHI-HOON LEE
Last Updated: 2026-04-18
- Downloads last month
- 458

