FLOAT8 Quantized Model (torchao)

이 모델은 FP16 원본이며, 사용 시 torchao로 양자화를 적용하세요.

원본 모델

Model ID: frankjoshua/novaAnimeXL_ilV140
Source: Hugging Face Hub

양자화 정보

Quantization Type: FLOAT8 (torchao)
Method: Weight-only quantization
Components: 전체 파이프라인
Storage Format: safetensors (FP16 원본)

사용 방법

from diffusers import StableDiffusionXLPipeline
from torchao.quantization import quantize_, float8_weight_only
import torch

# 모델 로드
pipe = StableDiffusionXLPipeline.from_pretrained(
    "data_fp8/novaAnimeXL_fp8",
    torch_dtype=torch.float16,
)

# GPU로 이동
pipe = pipe.to("cuda")

# FLOAT8 양자화 적용 (런타임)
quantize_(pipe.unet, float8_weight_only())
quantize_(pipe.vae, float8_weight_only())

# 이미지 생성
prompt = "a beautiful landscape"
image = pipe(prompt).images[0]
image.save("output.png")

주의사항

torchao 양자화는 메모리상에서만 적용됩니다
모델 파일 자체는 FP16 원본입니다 (safetensors)
매번 로딩할 때마다 양자화를 다시 적용해야 합니다
이렇게 해도 메모리와 속도 이점은 동일합니다
원본 모델 대비 메모리 사용량이 감소하고 추론 속도가 향상될 수 있습니다

변환 도구

Script: convert_hf_to_fp8_torchao.py
Library: torchao