GPT-OSS 120B QLoRA 어댑터

GPT-OSS 120B 모델을 위한 QLoRA (Quantized Low-Rank Adaptation) 어댑터입니다. Unsloth 라이브러리를 사용하여 파인튜닝되었습니다.

Model Details

  • 베이스 모델: unsloth/gpt-oss-120b-unsloth-bnb-4bit
  • 학습 방법: QLoRA (4-bit 양자화)
  • LoRA Rank: 16
  • LoRA Alpha: 32
  • 타겟 모듈: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
  • 프레임워크: Unsloth + Transformers + PEFT

Usage

Installation

pip install unsloth transformers accelerate

Loading the Model

from unsloth import FastLanguageModel

# 베이스 모델과 함께 어댑터 로드
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="jiwon9703/gpt-oss-120b-qlora-4bit-v2",
    max_seq_length=8192,
    load_in_4bit=True,
    device_map="auto",
)

# 추론 모드로 전환
FastLanguageModel.for_inference(model)

Inference

messages = [
    {"role": "user", "content": "한국의 수도는 어디인가요?"}
]

# reasoning effort와 함께 채팅 템플릿 적용
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
    reasoning_effort="medium",  # "low", "medium", "high" 중 선택
).to("cuda")

# 응답 생성
outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
    do_sample=True,
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Reasoning Effort Levels

GPT-OSS는 다양한 추론 강도를 지원합니다:

  • low: 빠르고 간결한 응답
  • medium: 균형잡힌 추론 (기본값)
  • high: 단계별 사고를 통한 깊이있는 상세 추론
# 높은 추론 강도 예시
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
    reasoning_effort="high",  # 더 철저한 추론
).to("cuda")

Hardware Requirements

  • GPU 메모리: 4-bit 양자화 모델 기준 ~40-50GB
  • 권장 GPU: H100 또는 유사 사양
  • CPU RAM: 16GB 이상

Training Details

이 어댑터는 다음을 사용하여 학습되었습니다:

  • 학습 프레임워크: Unsloth + TRL (SFTTrainer)
  • 양자화: 4-bit (bitsandbytes)
  • 옵티마이저: AdamW 8-bit
  • 학습률 스케줄러: Linear
  • Gradient Checkpointing: Unsloth 최적화 버전
  • 학습 파라미터:
    • Learning Rate: 2e-4
    • Batch Size: 16 (per device)
    • Gradient Accumulation: 8 steps
    • Warmup Ratio: 5%
    • Max Sequence Length: 5120

Files Included

  • adapter_model.safetensors: LoRA 어댑터 가중치 (~46MB)
  • adapter_config.json: 어댑터 설정
  • tokenizer.json: 토크나이저 어휘
  • tokenizer_config.json: 토크나이저 설정
  • chat_template.jinja: 포맷팅을 위한 채팅 템플릿
  • special_tokens_map.json: 특수 토큰 매핑

Acknowledgments

Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jiwon9703/gpt-oss-120b-qlora-v2

Adapter
(24)
this model