GPT-OSS 120B QLoRA 어댑터

GPT-OSS 120B 모델을 위한 QLoRA (Quantized Low-Rank Adaptation) 어댑터입니다. Unsloth 라이브러리를 사용하여 파인튜닝되었습니다.

Model Details

베이스 모델: unsloth/gpt-oss-120b-unsloth-bnb-4bit
학습 방법: QLoRA (4-bit 양자화)
LoRA Rank: 16
LoRA Alpha: 32
타겟 모듈: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
프레임워크: Unsloth + Transformers + PEFT

Usage

Installation

pip install unsloth transformers accelerate

Loading the Model

from unsloth import FastLanguageModel

# 베이스 모델과 함께 어댑터 로드
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="jiwon9703/gpt-oss-120b-qlora-4bit-v2",
    max_seq_length=8192,
    load_in_4bit=True,
    device_map="auto",
)

# 추론 모드로 전환
FastLanguageModel.for_inference(model)

Inference

messages = [
    {"role": "user", "content": "한국의 수도는 어디인가요?"}
]

# reasoning effort와 함께 채팅 템플릿 적용
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
    reasoning_effort="medium",  # "low", "medium", "high" 중 선택
).to("cuda")

# 응답 생성
outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
    do_sample=True,
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Reasoning Effort Levels

GPT-OSS는 다양한 추론 강도를 지원합니다:

low: 빠르고 간결한 응답
medium: 균형잡힌 추론 (기본값)
high: 단계별 사고를 통한 깊이있는 상세 추론

# 높은 추론 강도 예시
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
    reasoning_effort="high",  # 더 철저한 추론
).to("cuda")

Hardware Requirements

GPU 메모리: 4-bit 양자화 모델 기준 ~40-50GB
권장 GPU: H100 또는 유사 사양
CPU RAM: 16GB 이상

Training Details

이 어댑터는 다음을 사용하여 학습되었습니다:

학습 프레임워크: Unsloth + TRL (SFTTrainer)
양자화: 4-bit (bitsandbytes)
옵티마이저: AdamW 8-bit
학습률 스케줄러: Linear
Gradient Checkpointing: Unsloth 최적화 버전
학습 파라미터:
- Learning Rate: 2e-4
- Batch Size: 16 (per device)
- Gradient Accumulation: 8 steps
- Warmup Ratio: 5%
- Max Sequence Length: 5120

Files Included

adapter_model.safetensors: LoRA 어댑터 가중치 (~46MB)
adapter_config.json: 어댑터 설정
tokenizer.json: 토크나이저 어휘
tokenizer_config.json: 토크나이저 설정
chat_template.jinja: 포맷팅을 위한 채팅 템플릿
special_tokens_map.json: 특수 토큰 매핑

Acknowledgments

Unsloth로 구축
GPT-OSS 기반

Downloads last month: 2

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jiwon9703/gpt-oss-120b-qlora-v2

Base model

openai/gpt-oss-120b

Quantized

unsloth/gpt-oss-120b-unsloth-bnb-4bit

Adapter

(24)

this model