Instructions to use jjbRs/rs-imagen-models with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use jjbRs/rs-imagen-models with Diffusers:

pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("jjbRs/rs-imagen-models", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

llama-cpp-python

How to use jjbRs/rs-imagen-models with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="jjbRs/rs-imagen-models",
	filename="clip/Josiefied-Qwen3-4B-abliterated-v2.Q8_0.gguf",
)

llm.create_chat_completion(
	messages = "No input example has been defined for this model task."
)

Notebooks
Google Colab
Kaggle
Local Apps

llama.cpp

How to use jjbRs/rs-imagen-models with llama.cpp:

Install from brew

brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf jjbRs/rs-imagen-models:Q8_0
# Run inference directly in the terminal:
llama-cli -hf jjbRs/rs-imagen-models:Q8_0

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf jjbRs/rs-imagen-models:Q8_0
# Run inference directly in the terminal:
llama-cli -hf jjbRs/rs-imagen-models:Q8_0

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf jjbRs/rs-imagen-models:Q8_0
# Run inference directly in the terminal:
./llama-cli -hf jjbRs/rs-imagen-models:Q8_0

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf jjbRs/rs-imagen-models:Q8_0
# Run inference directly in the terminal:
./build/bin/llama-cli -hf jjbRs/rs-imagen-models:Q8_0

Use Docker

docker model run hf.co/jjbRs/rs-imagen-models:Q8_0

LM Studio
Jan
Ollama
How to use jjbRs/rs-imagen-models with Ollama:
```
ollama run hf.co/jjbRs/rs-imagen-models:Q8_0
```

Unsloth Studio new

How to use jjbRs/rs-imagen-models with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for jjbRs/rs-imagen-models to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for jjbRs/rs-imagen-models to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for jjbRs/rs-imagen-models to start chatting

Pi new

How to use jjbRs/rs-imagen-models with Pi:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf jjbRs/rs-imagen-models:Q8_0

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "llama-cpp": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "jjbRs/rs-imagen-models:Q8_0"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use jjbRs/rs-imagen-models with Hermes Agent:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf jjbRs/rs-imagen-models:Q8_0

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default jjbRs/rs-imagen-models:Q8_0

Run Hermes

hermes

Docker Model Runner
How to use jjbRs/rs-imagen-models with Docker Model Runner:
```
docker model run hf.co/jjbRs/rs-imagen-models:Q8_0
```

Lemonade

How to use jjbRs/rs-imagen-models with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull jjbRs/rs-imagen-models:Q8_0

Run and chat with the model

lemonade run user.rs-imagen-models-Q8_0

List all available models

lemonade list

jjbRs commited on Mar 28

Commit

1bfe354

verified ·

1 Parent(s): 75e53ff

Upload folder using huggingface_hub

Browse files

Files changed (38) hide show

.gitattributes +11 -0
training/Tongyi-MAI__Z-Image-Turbo/.DS_Store +0 -0
training/Tongyi-MAI__Z-Image-Turbo/.gitattributes +46 -0
training/Tongyi-MAI__Z-Image-Turbo/README.md +200 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/DMDR.webp +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/Z-Image-Gallery.pdf +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/architecture.webp +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/decoupled-dmd.webp +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/leaderboard.png +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/leaderboard.webp +0 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/reasoning.png +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/showcase.jpg +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_editing.png +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_realistic.png +3 -0
training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_rendering.png +3 -0
training/Tongyi-MAI__Z-Image-Turbo/model_index.json +24 -0
training/Tongyi-MAI__Z-Image-Turbo/scheduler/scheduler_config.json +7 -0
training/Tongyi-MAI__Z-Image-Turbo/text_encoder/config.json +30 -0
training/Tongyi-MAI__Z-Image-Turbo/text_encoder/generation_config.json +13 -0
training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model-00001-of-00003.safetensors +3 -0
training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model-00002-of-00003.safetensors +3 -0
training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model-00003-of-00003.safetensors +3 -0
training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model.safetensors.index.json +405 -0
training/Tongyi-MAI__Z-Image-Turbo/tokenizer/merges.txt +0 -0
training/Tongyi-MAI__Z-Image-Turbo/tokenizer/tokenizer.json +3 -0
training/Tongyi-MAI__Z-Image-Turbo/tokenizer/tokenizer_config.json +239 -0
training/Tongyi-MAI__Z-Image-Turbo/tokenizer/vocab.json +0 -0
training/Tongyi-MAI__Z-Image-Turbo/transformer/config.json +31 -0
training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model-00001-of-00003.safetensors +3 -0
training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model-00002-of-00003.safetensors +3 -0
training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model-00003-of-00003.safetensors +3 -0
training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model.safetensors.index.json +528 -0
training/Tongyi-MAI__Z-Image-Turbo/vae/config.json +38 -0
training/Tongyi-MAI__Z-Image-Turbo/vae/diffusion_pytorch_model.safetensors +3 -0
training/ostris__zimage_turbo_training_adapter/.gitattributes +35 -0
training/ostris__zimage_turbo_training_adapter/README.md +48 -0
training/ostris__zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors +3 -0
training/ostris__zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors +3 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,14 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 clip/Josiefied-Qwen3-4B-abliterated-v2.Q8_0.gguf filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 clip/Josiefied-Qwen3-4B-abliterated-v2.Q8_0.gguf filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/DMDR.webp filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/Z-Image-Gallery.pdf filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/architecture.webp filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/decoupled-dmd.webp filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/leaderboard.png filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/reasoning.png filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/showcase.jpg filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_editing.png filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_realistic.png filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_rendering.png filter=lfs diff=lfs merge=lfs -text
+training/Tongyi-MAI__Z-Image-Turbo/tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text

training/Tongyi-MAI__Z-Image-Turbo/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

training/Tongyi-MAI__Z-Image-Turbo/.gitattributes ADDED Viewed

	@@ -0,0 +1,46 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+assets/DMDR.webp filter=lfs diff=lfs merge=lfs -text
+assets/architecture.webp filter=lfs diff=lfs merge=lfs -text
+assets/decoupled-dmd.webp filter=lfs diff=lfs merge=lfs -text
+assets/reasoning.png filter=lfs diff=lfs merge=lfs -text
+assets/showcase.jpg filter=lfs diff=lfs merge=lfs -text
+assets/showcase_editing.png filter=lfs diff=lfs merge=lfs -text
+assets/showcase_realistic.png filter=lfs diff=lfs merge=lfs -text
+assets/showcase_rendering.png filter=lfs diff=lfs merge=lfs -text
+assets/Z-Image-Gallery.pdf filter=lfs diff=lfs merge=lfs -text
+assets/leaderboard.png filter=lfs diff=lfs merge=lfs -text

training/Tongyi-MAI__Z-Image-Turbo/README.md ADDED Viewed

	@@ -0,0 +1,200 @@

+---
+license: apache-2.0
+language:
+- en
+pipeline_tag: text-to-image
+library_name: diffusers
+---
+<h1 align="center">⚡️- Image<br><sub><sup>An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer</sup></sub></h1>
+<div align="center">
+[![Official Site](https://img.shields.io/badge/Official%20Site-333399.svg?logo=homepage)](https://tongyi-mai.github.io/Z-Image-blog/)&#160;
+[![GitHub](https://img.shields.io/badge/GitHub-Z--Image-181717?logo=github&logoColor=white)](https://github.com/Tongyi-MAI/Z-Image)&#160;
+[![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Checkpoint-Z--Image--Turbo-yellow)](https://huggingface.co/Tongyi-MAI/Z-Image-Turbo)&#160;
+[![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Online_Demo-Z--Image--Turbo-blue)](https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo)&#160;
+[![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Mobile_Demo-Z--Image--Turbo-red)](https://huggingface.co/spaces/akhaliq/Z-Image-Turbo)&#160;
+[![ModelScope Model](https://img.shields.io/badge/🤖%20Checkpoint-Z--Image--Turbo-624aff)](https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo)&#160;
+[![ModelScope Space](https://img.shields.io/badge/🤖%20Online_Demo-Z--Image--Turbo-17c7a7)](https://www.modelscope.cn/aigc/imageGeneration?tab=advanced&versionId=469191&modelType=Checkpoint&sdVersion=Z_IMAGE_TURBO&modelUrl=modelscope%3A%2F%2FTongyi-MAI%2FZ-Image-Turbo%3Frevision%3Dmaster)&#160;
+[![Art Gallery PDF](https://img.shields.io/badge/%F0%9F%96%BC%20Art_Gallery-PDF-ff69b4)](assets/Z-Image-Gallery.pdf)&#160;
+[![Web Art Gallery](https://img.shields.io/badge/%F0%9F%8C%90%20Web_Art_Gallery-online-00bfff)](https://modelscope.cn/studios/Tongyi-MAI/Z-Image-Gallery/summary)&#160;
+<a href="https://arxiv.org/abs/2511.22699" target="_blank"><img src="https://img.shields.io/badge/Report-b5212f.svg?logo=arxiv" height="21px"></a>
+Welcome to the official repository for the Z-Image（造相）project!
+</div>
+## ✨ Z-Image
+Z-Image is a powerful and highly efficient image generation model family with **6B** parameters. Currently there are four variants:
+- 🚀 **Z-Image-Turbo** – A distilled version of Z-Image that matches or exceeds leading competitors with only **8 NFEs** (Number of Function Evaluations). It offers **⚡️sub-second inference latency⚡️** on enterprise-grade H800 GPUs and fits comfortably within **16G VRAM consumer devices**. It excels in photorealistic image generation, bilingual text rendering (English & Chinese), and robust instruction adherence.
+- 🎨 **Z-Image** – The foundation model behind Z-Image-Turbo. Z-Image focuses on **high-quality generation**, **rich aesthetics**, **strong diversity**, and **controllability**, well-suited for creative generation, **fine-tuning**, and downstream development. It supports a wide range of artistic styles, effective negative prompting, and high diversity across identities, poses, compositions, and layouts.
+- 🧱 **Z-Image-Omni-Base** – The versatile foundation model capable of both **generation and editing tasks**. By releasing this checkpoint, we aim to unlock the full potential for community-driven fine-tuning and custom development, providing the most "raw" and diverse starting point for the open-source community.
+- ✍️ **Z-Image-Edit** – A variant fine-tuned on Z-Image specifically for image editing tasks. It supports creative image-to-image generation with impressive instruction-following capabilities, allowing for precise edits based on natural language prompts.
+### 📥 Model Zoo
+| Model | Pre-Training | SFT | RL | Step | CFG | Task | Visual Quality | Diversity | Fine-Tunability | Hugging Face | ModelScope |
+| :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
+| **Z-Image-Omni-Base** | ✅ | ❌ | ❌ | 50 | ✅ | Gen. / Editing | Medium | High | Easy | *To be released* | *To be released* |
+| **Z-Image** | ✅ | ✅ | ❌ | 50 | ✅ | Gen. | High | Medium | Easy | [![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Checkpoint%20-Z--Image-yellow)](https://huggingface.co/Tongyi-MAI/Z-Image) <br> [![Hugging Face Space](https://img.shields.io/badge/%F0%9F%A4%97%20Demo-Z--Image-blue)](https://huggingface.co/spaces/Tongyi-MAI/Z-Image) | [![ModelScope Model](https://img.shields.io/badge/🤖%20%20Checkpoint-Z--Image-624aff)](https://www.modelscope.cn/models/Tongyi-MAI/Z-Image) <br> [![ModelScope Space](https://img.shields.io/badge/%F0%9F%A4%96%20Demo-Z--Image-17c7a7)](https://www.modelscope.cn/aigc/imageGeneration?tab=advanced&versionId=569345&modelType=Checkpoint&sdVersion=Z_IMAGE&modelUrl=modelscope%3A%2F%2FTongyi-MAI%2FZ-Image%3Frevision%3Dmaster) |
+| **Z-Image-Turbo** | ✅ | ✅ | ✅ | 8 | ❌ | Gen. | Very High | Low | N/A | [![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Checkpoint%20-Z--Image--Turbo-yellow)](https://huggingface.co/Tongyi-MAI/Z-Image-Turbo) <br> [![Hugging Face Space](https://img.shields.io/badge/%F0%9F%A4%97%20Demo-Z--Image--Turbo-blue)](https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo) | [![ModelScope Model](https://img.shields.io/badge/🤖%20%20Checkpoint-Z--Image--Turbo-624aff)](https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo) <br> [![ModelScope Space](https://img.shields.io/badge/%F0%9F%A4%96%20Demo-Z--Image--Turbo-17c7a7)](https://www.modelscope.cn/aigc/imageGeneration?tab=advanced&versionId=469191&modelType=Checkpoint&sdVersion=Z_IMAGE_TURBO&modelUrl=modelscope%3A%2F%2FTongyi-MAI%2FZ-Image-Turbo%3Frevision%3Dmaster) |
+| **Z-Image-Edit** | ✅ | ✅ | ❌ | 50 | ✅ | Editing | High | Medium | Easy | *To be released* | *To be released* |                                                                                                                                                                                                                                                                                           | *To be released*                                                                                                                                                                                                                                                                                                                                                                                                                                                            |
+### 🖼️ Showcase
+📸 **Photorealistic Quality**: **Z-Image-Turbo** delivers strong photorealistic image generation while maintaining excellent aesthetic quality.
+![Showcase of Z-Image on Photo-realistic image Generation](assets/showcase_realistic.png)
+📖 **Accurate Bilingual Text Rendering**: **Z-Image-Turbo** excels at accurately rendering complex Chinese and English text.
+![Showcase of Z-Image on Bilingual Text Rendering](assets/showcase_rendering.png)
+💡  **Prompt Enhancing & Reasoning**: Prompt Enhancer empowers the model with reasoning capabilities, enabling it to transcend surface-level descriptions and tap into underlying world knowledge.
+![reasoning.jpg](assets/reasoning.png)
+🧠 **Creative Image Editing**: **Z-Image-Edit** shows a strong understanding of bilingual editing instructions, enabling imaginative and flexible image transformations.
+![Showcase of Z-Image-Edit on Image Editing](assets/showcase_editing.png)
+### 🏗️ Model Architecture
+We adopt a **Scalable Single-Stream DiT** (S3-DiT) architecture. In this setup, text, visual semantic tokens, and image VAE tokens are concatenated at the sequence level to serve as a unified input stream, maximizing parameter efficiency compared to dual-stream approaches.
+![Architecture of Z-Image and Z-Image-Edit](assets/architecture.webp)
+### 📈 Performance
+According to the Elo-based Human Preference Evaluation (on [*Alibaba AI Arena*](https://aiarena.alibaba-inc.com/corpora/arena/leaderboard?arenaType=T2I)), Z-Image-Turbo shows highly competitive performance against other leading models, while achieving state-of-the-art results among open-source models.
+<p align="center">
+  <a href="https://aiarena.alibaba-inc.com/corpora/arena/leaderboard?arenaType=T2I">
+    <img src="assets/leaderboard.png" alt="Z-Image Elo Rating on AI Arena"/><br />
+    <span style="font-size:1.05em; cursor:pointer; text-decoration:underline;"> Click to view the full leaderboard</span>
+  </a>
+</p>
+### 🚀 Quick Start
+Install the latest version of diffusers, use the following command:
+<details>
+  <summary><sup>Click here for details for why you need to install diffusers from source</sup></summary>
+  We have submitted two pull requests ([#12703](https://github.com/huggingface/diffusers/pull/12703) and [#12715](https://github.com/huggingface/diffusers/pull/12715)) to the 🤗 diffusers repository to add support for Z-Image. Both PRs have been merged into the latest official diffusers release.
+  Therefore, you need to install diffusers from source for the latest features and Z-Image support.
+</details>
+```bash
+pip install git+https://github.com/huggingface/diffusers
+```
+```python
+import torch
+from diffusers import ZImagePipeline
+# 1. Load the pipeline
+# Use bfloat16 for optimal performance on supported GPUs
+pipe = ZImagePipeline.from_pretrained(
+    "Tongyi-MAI/Z-Image-Turbo",
+    torch_dtype=torch.bfloat16,
+    low_cpu_mem_usage=False,
+)
+pipe.to("cuda")
+# [Optional] Attention Backend
+# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
+# pipe.transformer.set_attention_backend("flash")    # Enable Flash-Attention-2
+# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3
+# [Optional] Model Compilation
+# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
+# pipe.transformer.compile()
+# [Optional] CPU Offloading
+# Enable CPU offloading for memory-constrained devices.
+# pipe.enable_model_cpu_offload()
+prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."
+# 2. Generate Image
+image = pipe(
+    prompt=prompt,
+    height=1024,
+    width=1024,
+    num_inference_steps=9,  # This actually results in 8 DiT forwards
+    guidance_scale=0.0,     # Guidance should be 0 for the Turbo models
+    generator=torch.Generator("cuda").manual_seed(42),
+).images[0]
+image.save("example.png")
+```
+## 🔬 Decoupled-DMD: The Acceleration Magic Behind Z-Image
+[![arXiv](https://img.shields.io/badge/arXiv-2511.22677-b31b1b.svg)](https://arxiv.org/abs/2511.22677)
+Decoupled-DMD is the core few-step distillation algorithm that empowers the 8-step Z-Image model.
+Our core insight in Decoupled-DMD  is that the success of existing DMD (Distributaion Matching Distillation) methods is the result of two independent, collaborating mechanisms:
+-   **CFG Augmentation (CA)**: The primary **engine** 🚀 driving the distillation process, a factor largely overlooked in previous work.
+-   **Distribution Matching (DM)**: Acts more as a **regularizer** ⚖️, ensuring the stability and quality of the generated output.
+By recognizing and decoupling these two mechanisms, we were able to study and optimize them in isolation. This ultimately motivated us to develop an improved distillation process that significantly enhances the performance of few-step generation.
+![Diagram of Decoupled-DMD](assets/decoupled-dmd.webp)
+## 🤖 DMDR: Fusing DMD with Reinforcement Learning
+[![arXiv](https://img.shields.io/badge/arXiv-2511.13649-b31b1b.svg)](https://arxiv.org/abs/2511.13649)
+Building upon the strong foundation of Decoupled-DMD, our 8-step Z-Image model has already demonstrated exceptional capabilities. To achieve further improvements in terms of semantic alignment, aesthetic quality, and structural coherence—while producing images with richer high-frequency details—we present **DMDR**.
+Our core insight behind DMDR is that Reinforcement Learning (RL) and Distribution Matching Distillation (DMD) can be synergistically integrated during the post-training of few-step models. We demonstrate that:
+-   **RL Unlocks the Performance of DMD** 🚀
+-   **DMD Effectively Regularizes RL** ⚖️
+![Diagram of DMDR](assets/DMDR.webp)
+## ⏬ Download
+```bash
+pip install -U huggingface_hub
+HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo
+```
+## 📜 Citation
+If you find our work useful in your research, please consider citing:
+```bibtex
+@article{team2025zimage,
+  title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
+  author={Z-Image Team},
+  journal={arXiv preprint arXiv:2511.22699},
+  year={2025}
+}
+@article{liu2025decoupled,
+  title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield},
+  author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi},
+  journal={arXiv preprint arXiv:2511.22677},
+  year={2025}
+}
+@article{jiang2025distribution,
+  title={Distribution Matching Distillation Meets Reinforcement Learning},
+  author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry},
+  journal={arXiv preprint arXiv:2511.13649},
+  year={2025}
+}
+```

training/Tongyi-MAI__Z-Image-Turbo/assets/DMDR.webp ADDED Viewed

Git LFS Details

SHA256: 2e6f3053b98d097f2aa11d3892bd9307326db41b65336bea54dc5825a0e03077
Pointer size: 131 Bytes
Size of remote file: 173 kB

training/Tongyi-MAI__Z-Image-Turbo/assets/Z-Image-Gallery.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f9895b3246d2547bac74bbe0be975da500eaae93f2cad4248ad3281786b1ac6
+size 15767436

training/Tongyi-MAI__Z-Image-Turbo/assets/architecture.webp ADDED Viewed

Git LFS Details

SHA256: 261af62ecc7e9749ae28e1d3a84e2f70a6c192d2017b7d8f020c7bff982ef59c
Pointer size: 131 Bytes
Size of remote file: 422 kB

training/Tongyi-MAI__Z-Image-Turbo/assets/decoupled-dmd.webp ADDED Viewed

Git LFS Details

SHA256: 4568ca559b997fc38f57dc1c3f5b1da3a3c144ae12419caa855ced972bf8c7aa
Pointer size: 131 Bytes
Size of remote file: 152 kB

training/Tongyi-MAI__Z-Image-Turbo/assets/leaderboard.png ADDED Viewed

Git LFS Details

SHA256: e9fd4aa185bb7bff2b5515f2001b4d80df330595e78d6a098142e5a232bb4e4e
Pointer size: 132 Bytes
Size of remote file: 2.03 MB

training/Tongyi-MAI__Z-Image-Turbo/assets/leaderboard.webp ADDED Viewed

training/Tongyi-MAI__Z-Image-Turbo/assets/reasoning.png ADDED Viewed

Git LFS Details

SHA256: 96c16b2c8d8dc67bb92ecc22d54b9955ab55136977f515bb76f4b2eb42eb3cdb
Pointer size: 132 Bytes
Size of remote file: 7.7 MB

training/Tongyi-MAI__Z-Image-Turbo/assets/showcase.jpg ADDED Viewed

Git LFS Details

SHA256: f6ee74e066e00596e429f5a08140aebae1678e5935ce1e11ca6c1c6cd72432ee
Pointer size: 132 Bytes
Size of remote file: 6.43 MB

training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_editing.png ADDED Viewed

Git LFS Details

SHA256: 7d720c3157fd0b0c1f07ac826c6d380b4bcb1b6933c64eb11bfe804ccf7c26f4
Pointer size: 132 Bytes
Size of remote file: 4.75 MB

training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_realistic.png ADDED Viewed

Git LFS Details

SHA256: 697e6f6857f619314173508df72a14314cbb43e67475de7494123bb8b4f4eb2c
Pointer size: 132 Bytes
Size of remote file: 6.26 MB

training/Tongyi-MAI__Z-Image-Turbo/assets/showcase_rendering.png ADDED Viewed

Git LFS Details

SHA256: 3556dd66be2200d53f957424e12ecf914ddf3eded151cde86c7353f8b231284f
Pointer size: 132 Bytes
Size of remote file: 7.6 MB

training/Tongyi-MAI__Z-Image-Turbo/model_index.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+    "_class_name": "ZImagePipeline",
+    "_diffusers_version": "0.36.0.dev0",
+    "scheduler": [
+        "diffusers",
+        "FlowMatchEulerDiscreteScheduler"
+    ],
+    "text_encoder": [
+        "transformers",
+        "Qwen3Model"
+    ],
+    "tokenizer": [
+        "transformers",
+        "Qwen2Tokenizer"
+    ],
+    "transformer": [
+        "diffusers",
+        "ZImageTransformer2DModel"
+    ],
+    "vae": [
+        "diffusers",
+        "AutoencoderKL"
+    ]
+}

training/Tongyi-MAI__Z-Image-Turbo/scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_class_name": "FlowMatchEulerDiscreteScheduler",
+  "_diffusers_version": "0.36.0.dev0",
+  "num_train_timesteps": 1000,
+  "use_dynamic_shifting": false,
+  "shift": 3.0
+}

training/Tongyi-MAI__Z-Image-Turbo/text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

training/Tongyi-MAI__Z-Image-Turbo/text_encoder/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "bos_token_id": 151643,
+    "do_sample": true,
+    "eos_token_id": [
+        151645,
+        151643
+    ],
+    "pad_token_id": 151643,
+    "temperature": 0.6,
+    "top_k": 20,
+    "top_p": 0.95,
+    "transformers_version": "4.51.0"
+}

training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:328a91d3122359d5547f9d79521205bc0a46e1f79a792dfe650e99fc2d651223
+size 3957900840

training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cd087b316306a68c562436b5492edbcf6e16c6dba3a1308279caa5a58e21ca5
+size 3987450520

training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ca841ee75b9c61267c0c6148fd8d096d3d21b6d3e161256a9b878154f91fc52
+size 99630640

training/Tongyi-MAI__Z-Image-Turbo/text_encoder/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,405 @@

+{
+  "metadata": {
+    "total_size": 8044936192
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

training/Tongyi-MAI__Z-Image-Turbo/tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training/Tongyi-MAI__Z-Image-Turbo/tokenizer/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

training/Tongyi-MAI__Z-Image-Turbo/tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if message.content is string %}\n        {%- set content = message.content %}\n    {%- else %}\n        {%- set content = '' %}\n    {%- endif %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

training/Tongyi-MAI__Z-Image-Turbo/tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training/Tongyi-MAI__Z-Image-Turbo/transformer/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_class_name": "ZImageTransformer2DModel",
+  "_diffusers_version": "0.36.0.dev0",
+  "all_f_patch_size": [
+    1
+  ],
+  "all_patch_size": [
+    2
+  ],
+  "axes_dims": [
+    32,
+    48,
+    48
+  ],
+  "axes_lens": [
+    1536,
+    512,
+    512
+  ],
+  "cap_feat_dim": 2560,
+  "dim": 3840,
+  "in_channels": 16,
+  "n_heads": 30,
+  "n_kv_heads": 30,
+  "n_layers": 30,
+  "n_refiner_layers": 2,
+  "norm_eps": 1e-05,
+  "qk_norm": true,
+  "rope_theta": 256.0,
+  "t_scale": 1000.0
+}

training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95facd593e2549e8252acb571c653d57f7ddb7f1060d4e81712f152555a88804
+size 9973693184

training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4bbe43ee184a1fb5af4b412d27555f532893bdc3165b1149e304ed82b5d7015
+size 9973714824

training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aba4e37a590e63210878160a718d916d80398f4e1f78ab6c9b2b2a00d92769fa
+size 4672282880

training/Tongyi-MAI__Z-Image-Turbo/transformer/diffusion_pytorch_model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,528 @@

+{
+  "metadata": {
+    "total_size": 24619634944
+  },
+  "weight_map": {
+    "all_final_layer.2-1.adaLN_modulation.1.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "all_final_layer.2-1.adaLN_modulation.1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "all_final_layer.2-1.linear.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "all_final_layer.2-1.linear.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "all_x_embedder.2-1.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "all_x_embedder.2-1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "cap_embedder.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "cap_embedder.1.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "cap_embedder.1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "cap_pad_token": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.0.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "context_refiner.1.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.0.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.1.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.10.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.10.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.11.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.12.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.13.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.14.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.15.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.16.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.17.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.18.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.19.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.2.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.2.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.20.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.20.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.21.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.22.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.23.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.23.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention.to_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention.to_out.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention.to_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention.to_v.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.24.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention.to_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention.to_out.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention.to_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention.to_v.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.25.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention.to_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention.to_out.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention.to_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention.to_v.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.26.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention.to_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention.to_out.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention.to_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention.to_v.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.27.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention.to_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention.to_out.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention.to_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention.to_v.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.28.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.adaLN_modulation.0.bias": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.adaLN_modulation.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention.to_k.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention.to_out.0.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention.to_q.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention.to_v.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.29.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00003.safetensors",
+    "layers.3.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.3.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.4.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.5.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.6.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.7.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.8.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.9.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.9.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.9.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.9.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "layers.9.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.9.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "layers.9.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00003.safetensors",
+    "noise_refiner.0.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.0.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "noise_refiner.1.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "t_embedder.mlp.0.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "t_embedder.mlp.0.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "t_embedder.mlp.2.bias": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "t_embedder.mlp.2.weight": "diffusion_pytorch_model-00001-of-00003.safetensors",
+    "x_pad_token": "diffusion_pytorch_model-00001-of-00003.safetensors"
+  }
+}

training/Tongyi-MAI__Z-Image-Turbo/vae/config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_class_name": "AutoencoderKL",
+  "_diffusers_version": "0.36.0.dev0",
+  "_name_or_path": "flux-dev",
+  "act_fn": "silu",
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "force_upcast": true,
+  "in_channels": 3,
+  "latent_channels": 16,
+  "latents_mean": null,
+  "latents_std": null,
+  "layers_per_block": 2,
+  "mid_block_add_attention": true,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "sample_size": 1024,
+  "scaling_factor": 0.3611,
+  "shift_factor": 0.1159,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ],
+  "use_post_quant_conv": false,
+  "use_quant_conv": false
+}

training/Tongyi-MAI__Z-Image-Turbo/vae/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5b59a26851551b67ae1fe58d32e76486e1e812def4696a4bea97f16604d40a3
+size 167666902

training/ostris__zimage_turbo_training_adapter/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

training/ostris__zimage_turbo_training_adapter/README.md ADDED Viewed

	@@ -0,0 +1,48 @@

+---
+tags:
+  - text-to-image
+  - lora
+  - diffusers
+  - template:diffusion-lora
+license: apache-2.0
+base_model:
+- Tongyi-MAI/Z-Image-Turbo
+---
+# Z-Image-Turbo Training Adapter
+This is a training adapter designed to be used for fine-tuning [Tongyi-MAI/Z-Image-Turbo](https://huggingface.co/Tongyi-MAI/Z-Image-Turbo).
+It was made for use with [AI Toolkit](https://github.com/ostris/ai-toolkit) but could potentially be used in other trainers as well.
+If you are implementing it into training code and have questions. I am always heppy to help. Just reach out. It can
+also be used as a general de-distillation LoRA for inference to remove the "Turbo" from "Z-Image-Turbo".
+### Why is it needed?
+When you train directly on a step distilled model, the distillation breaks down very quickly. This results in losing the step distillation
+in an unpredictable way. A de-distill training adapter slows this process down significantly allowing you to do short training runs while
+preserving the step distillation (speed).
+### What is the catch?
+This is really just a hack to significantly slow down the distillation when fine-tuning a distilled model. The distillation will
+still be broken down over time. What that means is, this adapter will work great for shorter runs such as styles, concepts, and
+characters. However, doing a long training run will likely lead to the distillation breaking down to a point where artifacts
+will be produced when the adapter is removed.
+### How was it made?
+I generated thousands of images at various sizes and aspect ratios using
+[Tongyi-MAI/Z-Image-Turbo](https://huggingface.co/Tongyi-MAI/Z-Image-Turbo). Then I simply trained a LoRA on those images at a low learning
+rate (1e-5). This allowed the distillation to break down while preserving the model's existing knowledge.
+### How does it work?
+Since this adapter has broken down the distillation, if you train a LoRA on top of it, the distillation will no longer break down in
+your new LoRA, since this adapter has de-distilled the model. Your LoRA will now only learn the subject you are training. When
+it comes time to run inference / sampling, we remove this training adapter which leaves your new information on the distilled model
+allowing your new information to run at distilled speeds. Attached, is an example of a short training run on a character with and without
+this adapter
+![zimage_adapter](https://cdn-uploads.huggingface.co/production/uploads/643cb43e6eeb746f5ad81c26/HF2PcFVl4haJzjrNGFHfC.jpeg)

training/ostris__zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21dc91596ed2159c3edc87c204403b94b9bdf28d6ab1ef2763badffd670eefb6
+size 170128256

training/ostris__zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20a541d3e016ab8de0da076321b48b6cd9b3ffd072d9df830a068220ab2265f6
+size 340194488