# FLOAT8 Quantized Model (torchao) 이 모델은 FP16 원본이며, 사용 시 torchao로 양자화를 적용하세요. ## 원본 모델 - Model ID: `frankjoshua/novaAnimeXL_ilV140` - Source: Hugging Face Hub ## 양자화 정보 - Quantization Type: **FLOAT8** (torchao) - Method: Weight-only quantization - Components: 전체 파이프라인 - Storage Format: **safetensors** (FP16 원본) ## 사용 방법 ```python from diffusers import StableDiffusionXLPipeline from torchao.quantization import quantize_, float8_weight_only import torch # 모델 로드 pipe = StableDiffusionXLPipeline.from_pretrained( "data_fp8/novaAnimeXL_fp8", torch_dtype=torch.float16, ) # GPU로 이동 pipe = pipe.to("cuda") # FLOAT8 양자화 적용 (런타임) quantize_(pipe.unet, float8_weight_only()) quantize_(pipe.vae, float8_weight_only()) # 이미지 생성 prompt = "a beautiful landscape" image = pipe(prompt).images[0] image.save("output.png") ``` ## 주의사항 - torchao 양자화는 메모리상에서만 적용됩니다 - 모델 파일 자체는 FP16 원본입니다 (safetensors) - 매번 로딩할 때마다 양자화를 다시 적용해야 합니다 - 이렇게 해도 메모리와 속도 이점은 동일합니다 - 원본 모델 대비 메모리 사용량이 감소하고 추론 속도가 향상될 수 있습니다 ## 변환 도구 - Script: `convert_hf_to_fp8_torchao.py` - Library: torchao