chihoonlee-27B-SFT-V1.0

Qwen3.5-27B 기반 한국어 Chain-of-Thought (CoT) 증류 SFT 모델입니다.

모델 정보

Base Model: Qwen/Qwen3.5-27B
Teacher Model: Qwen3.5-122B-A10B (MoE, local ollama)
Training Method: QLoRA (4-bit NF4) SFT → Full weights merge
Parameters: 27B
Context Length: 262,144 tokens
Language: 한국어 (Korean) + 영어 (English)
License: Apache 2.0

학습 상세

데이터

Dataset: KMMLU 기반 CoT 증류 데이터
Size: 3,988 샘플 (4,000개 생성, 12개 empty 필터)
Method: Qwen3.5-122B-A10B teacher가 생성한 한국어 reasoning chain

학습 하이퍼파라미터

Quantization: 4-bit NF4 + double quantization
LoRA: rank 32, alpha 64, target=all-linear
Learning Rate: 2e-5
Batch Size: 1 × gradient accumulation 32 (effective 32)
Epochs: 2
Max Length: 2,048 tokens (packing enabled)
Optimizer: AdamW
GPU: NVIDIA RTX PRO 6000 (97GB VRAM)

학습 결과

Training Time: 5시간 5분 (120 steps)
Final Loss: 0.6454
Train Loss: 0.7299
Token Accuracy: 80.99%
Total Tokens Processed: 7.34M

성능

타겟 벤치마크 (K-AI Leaderboard)

이 모델은 다음 벤치마크에서의 성능 향상을 목표로 학습되었습니다:

KMMLU-Pro: 전문 지식 MCQ + reasoning chain
CLIcK: 한국 문화/언어
HLE(Ko): 박사급 추론
MuSR(Ko): 다단계 서사 추론
Com2-main(Ko): 대화 맥락/의도 파악

평가 결과는 업데이트 예정입니다.

사용법

from transformers import AutoModelForCausalLM, AutoTokenizer

# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    "chihoonlee10/chihoonlee-27B-SFT-V1.0",
    torch_dtype="bfloat16",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("chihoonlee10/chihoonlee-27B-SFT-V1.0")

# 추론
messages = [
    {"role": "system", "content": "당신은 유능한 AI 어시스턴트입니다."},
    {"role": "user", "content": "한국의 수도는 어디인가요?"}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

inputs = tokenizer([text], return_tensors="pt").to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
    do_sample=True
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

모델 구조

Architecture: Qwen3.5 (Transformer-based)
Hidden Size: 3,584
Num Layers: 28
Num Attention Heads: 28
Vocab Size: 248,064
Dtype: bfloat16

제한사항

이 모델은 KMMLU 중심의 CoT 데이터로 학습되어 다른 도메인에서는 성능이 제한적일 수 있습니다
2,048 토큰 이상의 긴 문맥에서는 평가되지 않았습니다
사실성 검증이나 안전성 평가는 별도로 수행되지 않았습니다

Citation

@misc{chihoonlee-27b-sft-v1,
  author = {CHI-HOON LEE},
  title = {chihoonlee-27B-SFT-V1.0: Korean CoT Distilled Model},
  year = {2026},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/chihoonlee10/chihoonlee-27B-SFT-V1.0}},
}