session-vault-qwen35-9b-gguf

Qwen 3.5 9B를 한국어 개발 세션 요약 태스크에 LoRA 파인튜닝한 모델의 GGUF 양자화 버전.

학습 정보

항목	값
Base model	Qwen/Qwen3.5-9B
Method	LoRA 16-bit (r=32, alpha=64)
Hardware	NVIDIA H200 NVL x2 (287GB VRAM)
Dataset	196개 Claude 세션 요약 쌍 (avg quality 88.8)
Epochs	3
Loss	1.36 → 0.77
Training time	~530s
Quantization	Q4_K_M (llama.cpp)

태스크

Claude Code 세션 로그(raw markdown)를 구조화된 한국어 요약으로 변환:

YAML frontmatter (프로젝트, 태그, 유형)
본문 섹션: 목적 / 핵심 변경사항 / 결과 / 관련 파일

Ollama 사용법

# Modelfile
cat > Modelfile << 'EOF'
FROM ./session-vault-9b-q4_k_m.gguf
PARAMETER num_ctx 8192
PARAMETER num_predict 6144
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.0
EOF

ollama create session-vault:9b -f Modelfile
ollama run session-vault:9b

권장 파라미터

파라미터	값	비고
num_ctx	8192	4096은 타임아웃 유발
num_predict	6144	thinking 토큰 포함
temperature	0.7	Qwen 3.5 non-thinking 공식
top_p	0.8	공식 권장
top_k	20	공식 권장
repeat_penalty	1.0	공식: 항상 1.0
presence_penalty	1.5	/api/chat 전용
kv_cache_type	q8_0	VRAM 절감 (12GB GPU 권장)

학습 데이터

session-vault에서 자동 생성:

scripts/build_finetune_dataset.py: raw/summary 매칭 + 품질 필터링
에이전트/단기 세션 자동 제외, score >= 60 필터
Unsloth 호환 conversations 포맷 (system/user/assistant)

라이선스

Apache 2.0 (Qwen 3.5 라이선스 준수)

Downloads last month: 17

GGUF

Model size

9B params

Architecture

qwen35

Hardware compatibility

4-bit

16-bit

Model tree for tellang/session-vault-qwen35-9b-gguf

Base model

Qwen/Qwen3.5-9B-Base

Finetuned

Qwen/Qwen3.5-9B

Adapter

(125)

this model