# FLOAT8 Quantized Model (torchao)

이 모델은 FP16 원본이며, 사용 시 torchao로 양자화를 적용하세요.

## 원본 모델
- Model ID: `frankjoshua/novaAnimeXL_ilV140`
- Source: Hugging Face Hub

## 양자화 정보
- Quantization Type: **FLOAT8** (torchao)
- Method: Weight-only quantization
- Components: 전체 파이프라인
- Storage Format: **safetensors** (FP16 원본)

## 사용 방법

```python
from diffusers import StableDiffusionXLPipeline
from torchao.quantization import quantize_, float8_weight_only
import torch

# 모델 로드
pipe = StableDiffusionXLPipeline.from_pretrained(
    "data_fp8/novaAnimeXL_fp8",
    torch_dtype=torch.float16,
)

# GPU로 이동
pipe = pipe.to("cuda")

# FLOAT8 양자화 적용 (런타임)
quantize_(pipe.unet, float8_weight_only())
quantize_(pipe.vae, float8_weight_only())

# 이미지 생성
prompt = "a beautiful landscape"
image = pipe(prompt).images[0]
image.save("output.png")
```

## 주의사항
- torchao 양자화는 메모리상에서만 적용됩니다
- 모델 파일 자체는 FP16 원본입니다 (safetensors)
- 매번 로딩할 때마다 양자화를 다시 적용해야 합니다
- 이렇게 해도 메모리와 속도 이점은 동일합니다
- 원본 모델 대비 메모리 사용량이 감소하고 추론 속도가 향상될 수 있습니다

## 변환 도구
- Script: `convert_hf_to_fp8_torchao.py`
- Library: torchao