Model Card for qwen35-a3b-lora-v3

This model is a fine-tuned version of Qwen/Qwen3.5-35B-A3B. It has been trained using TRL.

Inference (레포 `llm-infra`)

이 어댑터는 한의 처방 후보 JSON만 내는 SFT다. 시스템 문구는 configs/chat/v3_prescription_system.txt와 학습 train.jsonl의 system과 동일해야 한다.

cd /path/to/llm-infra
uv run --project training smoody-chat \
  --repo-root "$(pwd)" \
  --single-turn --stream --temperature 0 --max-new-tokens 2048

--single-turn: 학습 샘플처럼 매 질문마다 system+user만 넣고, 이전 assistant 답을 프롬프트에 쌓지 않는다(긴 JSON 멀티턴은 매우 느려짐).
--stream: 긴 생성에서 진행이 보인다.
LoRA 로드 시 Found missing adapter keys가 나오면 peft_qwen35_moe 키 매핑(.weight만, .default 이중 금지)이 반영된 빌드인지 확인하고 재실행한다.

LoRA → 단일 HF 체크포인트 병합 (vLLM 등)

Unsloth 공식: Saving to vLLM for deployment — save_pretrained_merged / push_to_hub_merged, save_method 설명.

1) 어댑터 폴더만 있을 때 (이 레포 CLI, bf16 기본)

cd /path/to/llm-infra
chmod +x scripts/merge_qwen35_lora_for_vllm.sh   # Permission denied 나오면 한 번 실행
./scripts/merge_qwen35_lora_for_vllm.sh
# 또는 실행 비트 없이: bash scripts/merge_qwen35_lora_for_vllm.sh
# 옵션은 그대로 전달: ./scripts/merge_qwen35_lora_for_vllm.sh --dtype fp16
# 출력 경로만 바꿀 때: MERGED_OUT=artifacts/merged/my-run ./scripts/merge_qwen35_lora_for_vllm.sh

# 또는 직접:
uv run --project training smoody-merge-lora \
  --repo-root "$(pwd)" \
  --adapter artifacts/checkpoints/qwen35-a3b-lora-v3 \
  --out artifacts/merged/qwen35-a3b-v3-merged \
  --dtype bf16

--dtype fp16 / fp32, --experts-implementation batched_mm|eager|grouped_mm, --max-shard-size 5GB 는 smoody-merge-lora --help.

2) 학습 직후 GPU에 `FastLanguageModel` 이 있을 때 (Unsloth 권장 흐름)

문서 예시와 동일하게 vLLM 배포용으로 fp16 병합 저장할 수 있다 (merged_16bit). Hub 업로드는 push_to_hub_merged.

# 학습 스크립트 맥락에서, PEFT 적용된 model / tokenizer 가 있을 때
model.save_pretrained_merged(
    "artifacts/merged/qwen35-a3b-v3-merged",
    tokenizer,
    save_method="merged_16bit",
)
# tokenizer.save_pretrained 는 위 호출에 포함되는 경우가 많음 — Unsloth 버전별로 문서 확인

MoE·대형 모델은 Unsloth 문서의 메모리/maximum_memory_usage 옵션을 함께 본다. 이 레포의 디스크 전용 경로(1)는 PEFT merge_and_unload 로 bf16을 유지해 vLLM과 맞추기 쉽다.

요구사항: GPU 메모리(35B 전체 적재) + 병합 산출물 수십 GB 디스크.

Serving (운영)

로컬/내부 API: 위 smoody-chat을 프로세스로 두거나, --one-shot "증상 텍스트"로 배치 호출.
vLLM
레포는 vLLM 0.19+·torch 2.10 락을 쓰므로
uv sync --package smoody-serving --extra vllm --package smoody-training 권장.

병합 후 서빙(권장)
이 어댑터는 target_parameters에 mlp.experts.gate_up_proj / mlp.experts.down_proj(MoE 전문가)가 포함된다.
vLLM은 베이스 Qwen3_5MoeForConditionalGeneration 로딩은 되지만, 런타임 LoRA는 PEFT의 …experts.base_layer… 경로와 FusedMoE LoRA 버퍼 레이아웃이 맞지 않아 add_lora 단계에서
experts.base_layer 미지원 경고 → RuntimeError: … 512 … 2048 … 로 끊기는 경우가 있다.
따라서 운영은 smoody-merge-lora로 병합한 뒤 MODE=merged로 올리는 것을 권장한다.
```
uv run --project training smoody-merge-lora --repo-root "$(pwd)" \
  --adapter artifacts/checkpoints/qwen35-a3b-lora-v3 \
  --out artifacts/merged/qwen35-a3b-v3-merged
MODE=merged MERGED_MODEL=artifacts/merged/qwen35-a3b-v3-merged ./scripts/run_vllm_qwen35_sft.sh
```
로그 참고
- no matching PunicaWrapper … visual.blocks.*: 멀티모달(비전) 블록용 LoRA는 vLLM에서 스킵(텍스트만 쓰면 보통 무해).
- experts.base_layer … not in the model's supported LoRA target modules: 위와 동일 계열(전문가 LoRA 바인딩 불일치).
(실험) LoRA 동적 로드
./scripts/run_vllm_qwen35_sft.sh 기본 MODE=lora. OpenAI API에서는 "model": "qwen35-prescription-v3" 등 LORA_NAME.
vLLM LoRA — Qwen3.5 MoE expert 어댑터는 버전에 따라 미지원일 수 있음.

Quick start (generic placeholder — replace with your path)

from transformers import pipeline

question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
generator = pipeline("text-generation", model="None", device="cuda")
output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
print(output["generated_text"])

Training procedure

This model was trained with SFT.

Framework versions

PEFT 0.18.1
TRL: 0.24.0
Transformers: 5.5.0
Pytorch: 2.8.0
Datasets: 4.3.0
Tokenizers: 0.22.2

Citations

Cite TRL as:

@misc{vonwerra2022trl,
    title        = {{TRL: Transformer Reinforcement Learning}},
    author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
    year         = 2020,
    journal      = {GitHub repository},
    publisher    = {GitHub},
    howpublished = {\url{https://github.com/huggingface/trl}}
}

Downloads last month: 14

Model tree for hwmwi/s_h

Base model

Qwen/Qwen3.5-35B-A3B-Base

Finetuned

Qwen/Qwen3.5-35B-A3B

Adapter

(21)

this model