Synthetic Multimodal Datasets - a rosieyzh Collection

rosieyzh 's Collections

Synthetic Multimodal Datasets

Qwen2.5-1.5B SFT - Unstructured Code

Llama-3.2-1B Warmstart RLVR - Summarization

Llama-3.2-1B RLVR - Summarization

Llama-3.2-1B SFT - Summarization

Qwen2.5-1.5B Warmstart RLVR - GSM8K

Qwen2.5-1.5B RLVR - GSM8K

Llama-3.2-1B Warmstart RLVR - Translation

Llama-3.2-1B RLVR - Translation

Llama-3.2-1B SFT - Translation

Qwen2.5-1.5B Warmstart RLVR - Code

Qwen2.5-1.5B RLVR - Code

Qwen2.5-1.5B SFT - Code

OLMo-150M and OLMo-1B Pretrained Models

OLMo-1B-as_fm3_tg_omi1_omi2

OLMo-1B-as_fm3_tg_omi2

Synthetic Multimodal Datasets

updated Feb 19

Datasets used in "Understanding the Design Space and Cross-Modality Transfer for Vision-Language Models"