houyuanchen
/

UniVidX

@@ -1,26 +1,55 @@
 ---
 license: apache-2.0
 tags:
-  - video-generation
-  - multimodal
-  - diffusion
-arxiv: 2605.00658
 ---
 # UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
 UniVidX is a unified multimodal video diffusion framework for versatile video generation and perception. It supports omni-directional conditional generation across multiple modalities by training a single model to handle different input-output mappings rather than one fixed task.
 This repository hosts the released UniVidX checkpoints:
-- `univid_intrinsic.safetensors`: checkpoint for UniVid-Intrinsic, covering RGB, albedo, irradiance, and normal video modalities.
-- `univid_alpha.safetensors`: checkpoint for UniVid-Alpha, covering blended RGB video, alpha matte, foreground, and background modalities.
-## Links
-- Paper: [arXiv:2605.00658](https://arxiv.org/pdf/2605.00658)
-- Code: [github.com/houyuanchen111/UniVidX](https://github.com/houyuanchen111/UniVidX)
-- Project / Model Page: [huggingface.co/houyuanchen/UniVidX](https://huggingface.co/houyuanchen/UniVidX)
 ## Citation
@@ -39,4 +68,4 @@ If you find this work useful, please cite:
   doi       = {10.1145/3811304},
   url       = {https://doi.org/10.1145/3811304}
 }
-```

 ---
 license: apache-2.0
+pipeline_tag: any-to-any
 tags:
+- video-generation
+- multimodal
+- diffusion
 ---
 # UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
 UniVidX is a unified multimodal video diffusion framework for versatile video generation and perception. It supports omni-directional conditional generation across multiple modalities by training a single model to handle different input-output mappings rather than one fixed task.
+[**Project Page**](https://houyuanchen111.github.io/UniVidX.github.io/) | [**Paper**](https://huggingface.co/papers/2605.00658) | [**Code**](https://github.com/houyuanchen111/UniVidX)
 This repository hosts the released UniVidX checkpoints:
+- `univid_intrinsic.safetensors`: checkpoint for **UniVid-Intrinsic**, covering RGB, albedo, irradiance, and normal video modalities.
+- `univid_alpha.safetensors`: checkpoint for **UniVid-Alpha**, covering blended RGB video, alpha matte, foreground, and background modalities.
+## Sample Usage
+To use these models, you need to clone the official repository and set up the environment.
+### 1. Installation
+```bash
+# Clone the repository
+git clone https://github.com/houyuanchen111/UniVidX.git
+cd UniVidX
+# Create environment
+conda create -n unividx python=3.10
+conda activate unividx
+# Install dependencies
+pip install -r requirements.txt
+```
+### 2. Inference
+The framework uses YAML configuration files to manage tasks. After downloading the backbone weights and UniVidX checkpoints as described in the [GitHub README](https://github.com/houyuanchen111/UniVidX), you can run inference using:
+```bash
+# UniVid-Alpha inference
+python scripts/inference_univid_alpha.py --config configs/univid_alpha_inference.yaml
+# UniVid-Intrinsic inference
+python scripts/inference_univid_intrinsic.py --config configs/univid_intrinsic_inference.yaml
+```
+The framework supports 15 different task modes (e.g., `t2RAIN`, `R2PFB`) for various conditional generation scenarios.
 ## Citation
   doi       = {10.1145/3811304},
   url       = {https://doi.org/10.1145/3811304}
 }
+```