SSVAE

INSTADOC

ZHANGYUXUAN-zR commited on Feb 15

Commit

f6fdb20

0 Parent(s):

Duplicate from zai-org/SSVAE

Browse files

Co-authored-by: zR <ZHANGYUXUAN-zR@users.noreply.huggingface.co>

Files changed (3) hide show

.gitattributes +35 -0
README.md +53 -0
ch48_256p_15w_512p_5w.ckpt +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,53 @@

+---
+license: mit
+---
+# Delving into Latent Spectral Biasing of Video VAEs for Superior Diffusability
+[![Website](https://img.shields.io/badge/Website-Project%20Page-blue)](https://zhazhan.github.io/ssvae.github.io)
+[![arXiv](https://img.shields.io/badge/arXiv-2512.05394-b31b1b)](https://arxiv.org/abs/2512.05394)
+Most existing video VAEs prioritize reconstruction fidelity, often overlooking the latent structure's impact on
+downstream diffusion training. Our research identifies properties of video VAE latent spaces that facilitate diffusion
+training through statistical analysis of VAE latents. Our key finding is that biased, rather than uniform, spectra lead
+to improved diffusability. Motivated by this, we introduce **SSVAE (Spectral-Structured VAE)**, which optimizes the *
+*spectral properties** of the latent space to enhance its **"Diffusability"**.
+<div align="center">
+<img src="https://raw.githubusercontent.com/zai-org/SSVAE/refs/heads/main/assets/figs/teaser.png" alt="Figure 1" width="400">
+</div>
+## 🔥 Key Highlights
+* **Spectral Analysis of Latents**: We identify two statistical properties essential for efficient diffusion training: a
+  **low-frequency biased spatio-temporal spectrum** and a **few-mode biased channel eigenspectrum**.
+* **Local Correlation Regularization (LCR)**: A lightweight regularizer that explicitly enhances local spatio-temporal
+  correlations to induce low-frequency bias.
+* **Latent Masked Reconstruction (LMR)**: A mechanism that simultaneously promotes few-mode bias and improves decoder
+  robustness against noise.
+* **Superior Performance**:
+    * 🚀 **3× Faster Convergence**: Accelerates text-to-video generation convergence by 3× compared to strong baselines.
+    * 📈 **Higher Quality**: Achieves a **10% gain** in video reward scores (UnifiedReward).
+    * 🏆 **Outperforms SOTA**: Surpasses open-source VAEs (e.g., Wan 2.2, CogVideoX) in generation quality with fewer
+      parameters.
+## Using Model
+Please View our [Github](https://github.com/zai-org/SSVAE).
+## Citation
+If you find this work useful in your research, please consider citing:
+```bibtex
+@misc{liu2025delvinglatentspectralbiasing,
+      title={Delving into Latent Spectral Biasing of Video VAEs for Superior Diffusability},
+      author={Shizhan Liu and Xinran Deng and Zhuoyi Yang and Jiayan Teng and Xiaotao Gu and Jie Tang},
+      year={2025},
+      eprint={2512.05394},
+      archivePrefix={arXiv},
+      primaryClass={cs.CV},
+      url={https://arxiv.org/abs/2512.05394},
+}
+```

ch48_256p_15w_512p_5w.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49a354e836ac6124f7a1564a29def48bc7b938368aad53a52cc63ca45decba57
+size 1382929206