Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2506.07491

learning_from_papers

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

Paper • 2508.05748 • Published Aug 7, 2025 • 142
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Paper • 2508.03680 • Published Aug 5, 2025 • 140
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

Paper • 2508.14041 • Published Aug 19, 2025 • 59

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
RynnEC: Bringing MLLMs into Embodied World

Paper • 2508.14160 • Published Aug 19, 2025 • 20
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Paper • 2504.10479 • Published Apr 14, 2025 • 308

Thesis: Object Recognition

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Paper • 2407.16777 • Published Jul 23, 2024
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection

Paper • 2308.05991 • Published Aug 11, 2023
jxu124/objects365

Viewer • Updated May 20, 2023 • 1.82M • 260 • 6

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

Paper • 2506.16504 • Published Jun 19, 2025 • 32
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Paper • 2507.23478 • Published Jul 31, 2025 • 17

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

Paper • 2505.09568 • Published May 14, 2025 • 99
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 339
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Paper • 2505.11049 • Published May 16, 2025 • 61
Emerging Properties in Unified Multimodal Pretraining

Paper • 2505.14683 • Published May 20, 2025 • 134

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Paper • 2504.12626 • Published Apr 17, 2025 • 51
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 339
Qwen-Image Technical Report

Paper • 2508.02324 • Published Aug 4, 2025 • 274
DINOv3

Paper • 2508.10104 • Published Aug 13, 2025 • 305

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
Story2Board: A Training-Free Approach for Expressive Storyboard Generation

Paper • 2508.09983 • Published Aug 13, 2025 • 70
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

Paper • 2503.01710 • Published Mar 3, 2025 • 6
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Paper • 2507.21809 • Published Jul 29, 2025 • 142

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Paper • 2507.23478 • Published Jul 31, 2025 • 17
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51

3D vision and text

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51

Training Large Language Models for Structured Indoor Modeling

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
manycore-research/SpatialLM1.1-Qwen-0.5B

Text Generation • 0.6B • Updated Sep 23, 2025 • 2.92k • 27
manycore-research/SpatialLM1.1-Llama-1B

Text Generation • 1B • Updated Sep 23, 2025 • 392 • 15
manycore-research/SpatialLM-Qwen-0.5B

Text Generation • 0.5B • Updated Mar 21, 2025 • 563 • 93

learning_from_papers

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

Paper • 2508.05748 • Published Aug 7, 2025 • 142
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Paper • 2508.03680 • Published Aug 5, 2025 • 140
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

Paper • 2508.14041 • Published Aug 19, 2025 • 59

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Paper • 2504.12626 • Published Apr 17, 2025 • 51
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 339
Qwen-Image Technical Report

Paper • 2508.02324 • Published Aug 4, 2025 • 274
DINOv3

Paper • 2508.10104 • Published Aug 13, 2025 • 305

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
RynnEC: Bringing MLLMs into Embodied World

Paper • 2508.14160 • Published Aug 19, 2025 • 20
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Paper • 2504.10479 • Published Apr 14, 2025 • 308

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
Story2Board: A Training-Free Approach for Expressive Storyboard Generation

Paper • 2508.09983 • Published Aug 13, 2025 • 70
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

Paper • 2503.01710 • Published Mar 3, 2025 • 6
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Paper • 2507.21809 • Published Jul 29, 2025 • 142

Thesis: Object Recognition

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Paper • 2407.16777 • Published Jul 23, 2024
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection

Paper • 2308.05991 • Published Aug 11, 2023
jxu124/objects365

Viewer • Updated May 20, 2023 • 1.82M • 260 • 6

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Paper • 2507.23478 • Published Jul 31, 2025 • 17
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

Paper • 2506.16504 • Published Jun 19, 2025 • 32
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Paper • 2507.23478 • Published Jul 31, 2025 • 17

3D vision and text

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

Paper • 2505.09568 • Published May 14, 2025 • 99
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 339
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Paper • 2505.11049 • Published May 16, 2025 • 61
Emerging Properties in Unified Multimodal Pretraining

Paper • 2505.14683 • Published May 20, 2025 • 134

Training Large Language Models for Structured Indoor Modeling

SpatialLM: Training Large Language Models for Structured Indoor Modeling

Paper • 2506.07491 • Published Jun 9, 2025 • 51
manycore-research/SpatialLM1.1-Qwen-0.5B

Text Generation • 0.6B • Updated Sep 23, 2025 • 2.92k • 27
manycore-research/SpatialLM1.1-Llama-1B

Text Generation • 1B • Updated Sep 23, 2025 • 392 • 15
manycore-research/SpatialLM-Qwen-0.5B

Text Generation • 0.5B • Updated Mar 21, 2025 • 563 • 93

Previous
1
2
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs