first commit

01a383f over 1 year ago

3.29 kB

	# Release note

	- Cosmos 1.0 was released with the [Cosmos paper](https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai).
	- 13 models were released in the [Hugging Face](https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6) as shown in the table below.
	- Inference scripts for the models were released in the [Cosmos repository](https://github.com/NVIDIA/Cosmos).

	## Released Models

	\| Item \| Model name \| Description \| Try it out \|
	\|--\|------------\|----------\|----------\|
	\|1\| [Cosmos-1.0-Diffusion-7B-Text2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-7B-Text2World) \| Text to visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|2\| [Cosmos-1.0-Diffusion-14B-Text2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-14B-Text2World) \| Text to visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|3\| [Cosmos-1.0-Diffusion-7B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-7B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|4\| [Cosmos-1.0-Diffusion-14B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-14B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|5\| [Cosmos-1.0-Autoregressive-4B](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-4B) \| Future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|6\| [Cosmos-1.0-Autoregressive-12B](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-12B) \| Future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|7\| [Cosmos-1.0-Autoregressive-5B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-5B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|8\| [Cosmos-1.0-Autoregressive-13B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-13B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|9\| [Cosmos-1.0-Tokenizer-CV8x8x8](https://huggingface.co/nvidia/Cosmos-1.0-Tokenizer-CV8x8x8) \| Continuous video tokenizer with 8x8x8 compression ratio \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|10\| [Cosmos-1.0-Tokenizer-DV8x16x16](https://huggingface.co/nvidia/Cosmos-1.0-Tokenizer-DV8x16x16) \| Discrete video tokenizer with 16x8x8 compression ratio \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|11\| [Cosmos-1.0-PromptUpsampler-12B-Text2World](https://huggingface.co/nvidia/Cosmos-1.0-Prompt-Upsampler-12B-Text2World) \| Prompt upsampler for Text2World \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|12\| [Cosmos-1.0-Diffusion-7B-Decoder-DV8x16x16ToCV8x8x8](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-7B-Decoder-DV8x16x16ToCV8x8x8) \| Diffusion decoder for enhancing Cosmos 1.0 autoregressive WFMs' outputs \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|13\| [Cosmos-1.0-Guardrail](https://huggingface.co/nvidia/Cosmos-1.0-Guardrail) \| Guardrail contains pre-Guard and post-Guard for safe use \| Embedded in model inference scripts \|

	# Release note

	- Cosmos 1.0 was released with the [Cosmos paper](https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai).
	- 13 models were released in the [Hugging Face](https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6) as shown in the table below.
	- Inference scripts for the models were released in the [Cosmos repository](https://github.com/NVIDIA/Cosmos).

	## Released Models

	\| Item \| Model name \| Description \| Try it out \|
	\|--\|------------\|----------\|----------\|
	\|1\| [Cosmos-1.0-Diffusion-7B-Text2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-7B-Text2World) \| Text to visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|2\| [Cosmos-1.0-Diffusion-14B-Text2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-14B-Text2World) \| Text to visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|3\| [Cosmos-1.0-Diffusion-7B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-7B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|4\| [Cosmos-1.0-Diffusion-14B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-14B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|5\| [Cosmos-1.0-Autoregressive-4B](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-4B) \| Future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|6\| [Cosmos-1.0-Autoregressive-12B](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-12B) \| Future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|7\| [Cosmos-1.0-Autoregressive-5B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-5B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|8\| [Cosmos-1.0-Autoregressive-13B-Video2World](https://huggingface.co/nvidia/Cosmos-1.0-Autoregressive-13B-Video2World) \| Video + Text based future visual world generation \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|9\| [Cosmos-1.0-Tokenizer-CV8x8x8](https://huggingface.co/nvidia/Cosmos-1.0-Tokenizer-CV8x8x8) \| Continuous video tokenizer with 8x8x8 compression ratio \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|10\| [Cosmos-1.0-Tokenizer-DV8x16x16](https://huggingface.co/nvidia/Cosmos-1.0-Tokenizer-DV8x16x16) \| Discrete video tokenizer with 16x8x8 compression ratio \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|11\| [Cosmos-1.0-PromptUpsampler-12B-Text2World](https://huggingface.co/nvidia/Cosmos-1.0-Prompt-Upsampler-12B-Text2World) \| Prompt upsampler for Text2World \| [Inference](cosmos1/models/diffusion/README.md) \|
	\|12\| [Cosmos-1.0-Diffusion-7B-Decoder-DV8x16x16ToCV8x8x8](https://huggingface.co/nvidia/Cosmos-1.0-Diffusion-7B-Decoder-DV8x16x16ToCV8x8x8) \| Diffusion decoder for enhancing Cosmos 1.0 autoregressive WFMs' outputs \| [Inference](cosmos1/models/autoregressive/README.md) \|
	\|13\| [Cosmos-1.0-Guardrail](https://huggingface.co/nvidia/Cosmos-1.0-Guardrail) \| Guardrail contains pre-Guard and post-Guard for safe use \| Embedded in model inference scripts \|