Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2601.06487

[papers] Gameplay Optimization

Research papers that may contribute to a broader approach to teaching machines how to play complex strategy games beyond just Chess.

OptiMind: Teaching LLMs to Think Like Optimization Experts

Paper • 2509.22979 • Published Sep 26, 2025 • 4
LFM2 Technical Report

Paper • 2511.23404 • Published Nov 28, 2025 • 56
Zero-Overhead Introspection for Adaptive Test-Time Compute

Paper • 2512.01457 • Published Dec 1, 2025 • 2
Confidence Estimation for LLMs in Multi-turn Interactions

Paper • 2601.02179 • Published Jan 5 • 17

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

Paper • 2512.24618 • Published Dec 31, 2025 • 154
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Paper • 2512.24873 • Published Dec 31, 2025 • 108
AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

Paper • 2512.23343 • Published Dec 29, 2025 • 30
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

Paper • 2512.24297 • Published Dec 30, 2025 • 6

lusxvr/nanoVLM-222M

Image-Text-to-Text • 0.2B • Updated May 8, 2025 • 208 • 99
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Paper • 2503.09516 • Published Mar 12, 2025 • 39
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Paper • 2505.24863 • Published May 30, 2025 • 97
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Paper • 2505.17667 • Published May 23, 2025 • 88

Scaling RL for Open-Ended Agents via Tournamentbased Relative Ranking

Alibaba-NLP/Open-Travel

Preview • Updated Jan 16 • 92 • 1
Alibaba-NLP/Open-DeepResearch

Preview • Updated Jan 16 • 125 • 5
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Paper • 2601.06487 • Published Jan 10 • 54

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Paper • 2511.21087 • Published Nov 26, 2025 • 10
Nested Browser-Use Learning for Agentic Information Seeking

Paper • 2512.23647 • Published Dec 29, 2025 • 19
KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

Paper • 2601.01046 • Published Jan 3 • 14
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Paper • 2601.03193 • Published Jan 6 • 50

Reinforcement learning

about 21 hours ago

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Paper • 2407.20798 • Published Jul 30, 2024 • 24
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 38
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4, 2025 • 104
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper • 2502.18449 • Published Feb 25, 2025 • 75

[papers] Gameplay Optimization

Research papers that may contribute to a broader approach to teaching machines how to play complex strategy games beyond just Chess.

OptiMind: Teaching LLMs to Think Like Optimization Experts

Paper • 2509.22979 • Published Sep 26, 2025 • 4
LFM2 Technical Report

Paper • 2511.23404 • Published Nov 28, 2025 • 56
Zero-Overhead Introspection for Adaptive Test-Time Compute

Paper • 2512.01457 • Published Dec 1, 2025 • 2
Confidence Estimation for LLMs in Multi-turn Interactions

Paper • 2601.02179 • Published Jan 5 • 17

Scaling RL for Open-Ended Agents via Tournamentbased Relative Ranking

Alibaba-NLP/Open-Travel

Preview • Updated Jan 16 • 92 • 1
Alibaba-NLP/Open-DeepResearch

Preview • Updated Jan 16 • 125 • 5
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Paper • 2601.06487 • Published Jan 10 • 54

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

Paper • 2512.24618 • Published Dec 31, 2025 • 154
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Paper • 2512.24873 • Published Dec 31, 2025 • 108
AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

Paper • 2512.23343 • Published Dec 29, 2025 • 30
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

Paper • 2512.24297 • Published Dec 30, 2025 • 6

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Paper • 2511.21087 • Published Nov 26, 2025 • 10
Nested Browser-Use Learning for Agentic Information Seeking

Paper • 2512.23647 • Published Dec 29, 2025 • 19
KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

Paper • 2601.01046 • Published Jan 3 • 14
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Paper • 2601.03193 • Published Jan 6 • 50

lusxvr/nanoVLM-222M

Image-Text-to-Text • 0.2B • Updated May 8, 2025 • 208 • 99
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Paper • 2503.09516 • Published Mar 12, 2025 • 39
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Paper • 2505.24863 • Published May 30, 2025 • 97
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Paper • 2505.17667 • Published May 23, 2025 • 88

Reinforcement learning

about 21 hours ago

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Paper • 2407.20798 • Published Jul 30, 2024 • 24
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 38
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4, 2025 • 104
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper • 2502.18449 • Published Feb 25, 2025 • 75

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs