A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA
Paper โข 2312.03732 โข Published โข 12
โ ๏ธ ์ด ๋ชจ๋ธ์ ๋ ์ด์ ์ฌ์ฉ๋์ง ์์ต๋๋ค. tellang/yeji-8b-rslora-v7-AWQ๋ฅผ ์ฌ์ฉํ์ธ์.
์ด ๋ชจ๋ธ์ ์ด๊ธฐ ์คํ ๋จ๊ณ์ QLoRA ๋ชจ๋ธ๋ก, ๋ค์ ์ด์ ๋ก ํ๊ธฐ๋์์ต๋๋ค:
# QLoRA ํ์ต ์ค์
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
)
๋ฌธ์ :
v2๋ ํ๋ก์ ํธ ์ด๊ธฐ ๋จ๊ณ์ ์คํ ๋ชจ๋ธ๋ก:
| ์งํ | v2 (QLoRA) | v7 (rsLoRA) |
|---|---|---|
| ์ ํ๋ | Baseline | +25% |
| ํ์ต ์์ ์ฑ | ๋ถ์์ (NaN ๋ฐ์) | ์์ ์ |
| ์ถ๋ก ์๋ | 20 tokens/s | 50 tokens/s |
tellang/yeji-8b-rslora-v7-AWQfrom vllm import LLM, SamplingParams
# QLoRA v2 ๋์ rsLoRA v7-AWQ ์ฌ์ฉ
llm = LLM(
model="tellang/yeji-8b-rslora-v7-AWQ",
quantization="awq", # 4-bit AWQ (QLoRA์ NF4๋ณด๋ค ์ฐ์)
gpu_memory_utilization=0.9,
)
tellang/yeji-4b-rslora-v8.1tellang/yeji-8b-rslora-v7-AWQ| ์งํ | v2 (QLoRA) | v7-AWQ (rsLoRA + AWQ) |
|---|---|---|
| ์ ํ๋ | 65% | 90% |
| ํ์ต ์์ ์ฑ | โ NaN ๋ฐ์ | โ ์์ ์ |
| ์ถ๋ก ์๋ | 20 tokens/s | 50 tokens/s |
| ๋ฉ๋ชจ๋ฆฌ | 4.5GB | 5.3GB (AWQ) |
| ์์ํ ๋ฐฉ์ | 4-bit NF4 | 4-bit AWQ |
# QLoRA - 4-bit ์์ํ ์ค ํ์ต
- ๋ฉ๋ชจ๋ฆฌ ํจ์จ์
- ํ์ต ์ค ์์ํ โ ์์น ๋ถ์์
- NaN gradient ๋ฐ์ ์ํ
# rsLoRA - Full precision ํ์ต โ AWQ ์์ํ
- ํ์ต ์์ ์ฑ ๋ณด์ฅ
- ํ์ต ํ AWQ๋ก ์์ํ
- ์ ํ๋์ ํจ์จ ๋ชจ๋ ํ๋ณด
# v2 - QLoRA (๋น์ถ์ฒ)
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
model = AutoModelForCausalLM.from_pretrained(
"tellang/yeji-8b-qlora-v2",
load_in_4bit=True,
)
# v7-AWQ - rsLoRA + AWQ (๊ถ์ฅ)
from vllm import LLM
llm = LLM(
model="tellang/yeji-8b-rslora-v7-AWQ",
quantization="awq", # AWQ๊ฐ NF4๋ณด๋ค ์ฐ์
)
| ์ธก๋ฉด | QLoRA (v2) | rsLoRA (v7) |
|---|---|---|
| ํ์ต ์์ ์์ํ | โ 4-bit (๋ฉ๋ชจ๋ฆฌ ์ ์ฝ) | โ Full precision |
| ํ์ต ์์ ์ฑ | โ NaN ๋ฐ์ | โ ์์ ์ |
| ์ถ๋ก ์์ ์์ํ | 4-bit NF4 | โ 4-bit AWQ (๋ ์ ํ) |
| ์ต์ข ์ฑ๋ฅ | ๋ฎ์ | ๋์ |
| ํ๋ก๋์ ์ฌ์ฉ | โ | โ |
๊ฒฐ๋ก : rsLoRA๋ ํ์ต ์์ ์ฑ์ ํ๋ณดํ๊ณ , ์ถ๋ก ์ AWQ๋ก ์์ํํ์ฌ QLoRA์ ์ฅ์ (๋ฉ๋ชจ๋ฆฌ ํจ์จ)์ ๋ชจ๋ ๊ฐ์ ธ์ด
Apache 2.0
@misc{yeji-8b-qlora-v2,
title={YEJI Fortune Telling Model (QLoRA v2 - Deprecated)},
author={SSAFY YEJI Team},
year={2026},
note={Deprecated: Early experiment. Use yeji-8b-rslora-v7-AWQ instead}
}
Base model
Qwen/Qwen3-8B-Base