Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2306.03604

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Paper • 2511.14460 • Published Nov 18, 2025 • 22
EVOLvE: Evaluating and Optimizing LLMs For Exploration

Paper • 2410.06238 • Published Oct 8, 2024 • 1
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach

Paper • 2306.03604 • Published Jun 6, 2023 • 1
AGILE: A Novel Reinforcement Learning Framework of LLM Agents

Paper • 2405.14751 • Published May 23, 2024

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning

Paper • 2310.04484 • Published Oct 6, 2023 • 5
Diversity of Thought Improves Reasoning Abilities of Large Language Models

Paper • 2310.07088 • Published Oct 11, 2023 • 5
Adapting Large Language Models via Reading Comprehension

Paper • 2309.09530 • Published Sep 18, 2023 • 82
Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Paper • 2310.13332 • Published Oct 20, 2023 • 16

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 8
Diversity of Thought Improves Reasoning Abilities of Large Language Models

Paper • 2310.07088 • Published Oct 11, 2023 • 5
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

Paper • 2310.13227 • Published Oct 20, 2023 • 15
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

Paper • 2310.04406 • Published Oct 6, 2023 • 10

Moral Foundations of Large Language Models

Paper • 2310.15337 • Published Oct 23, 2023 • 1
Specific versus General Principles for Constitutional AI

Paper • 2310.13798 • Published Oct 20, 2023 • 3
Contrastive Prefence Learning: Learning from Human Feedback without RL

Paper • 2310.13639 • Published Oct 20, 2023 • 25
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Paper • 2309.00267 • Published Sep 1, 2023 • 53

agents_reflective

Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach

Paper • 2306.03604 • Published Jun 6, 2023 • 1

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 8
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

Paper • 2310.13227 • Published Oct 20, 2023 • 15
LASER: LLM Agent with State-Space Exploration for Web Navigation

Paper • 2309.08172 • Published Sep 15, 2023 • 14
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

Paper • 2310.04406 • Published Oct 6, 2023 • 10

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 8
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection

Paper • 2310.05035 • Published Oct 8, 2023 • 1
Chain-of-Thought Reasoning is a Policy Improvement Operator

Paper • 2309.08589 • Published Sep 15, 2023 • 2

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Paper • 2511.14460 • Published Nov 18, 2025 • 22
EVOLvE: Evaluating and Optimizing LLMs For Exploration

Paper • 2410.06238 • Published Oct 8, 2024 • 1
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach

Paper • 2306.03604 • Published Jun 6, 2023 • 1
AGILE: A Novel Reinforcement Learning Framework of LLM Agents

Paper • 2405.14751 • Published May 23, 2024

agents_reflective

Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach

Paper • 2306.03604 • Published Jun 6, 2023 • 1

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning

Paper • 2310.04484 • Published Oct 6, 2023 • 5
Diversity of Thought Improves Reasoning Abilities of Large Language Models

Paper • 2310.07088 • Published Oct 11, 2023 • 5
Adapting Large Language Models via Reading Comprehension

Paper • 2309.09530 • Published Sep 18, 2023 • 82
Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Paper • 2310.13332 • Published Oct 20, 2023 • 16

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 8
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

Paper • 2310.13227 • Published Oct 20, 2023 • 15
LASER: LLM Agent with State-Space Exploration for Web Navigation

Paper • 2309.08172 • Published Sep 15, 2023 • 14
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

Paper • 2310.04406 • Published Oct 6, 2023 • 10

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 8
Diversity of Thought Improves Reasoning Abilities of Large Language Models

Paper • 2310.07088 • Published Oct 11, 2023 • 5
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

Paper • 2310.13227 • Published Oct 20, 2023 • 15
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

Paper • 2310.04406 • Published Oct 6, 2023 • 10

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 8
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection

Paper • 2310.05035 • Published Oct 8, 2023 • 1
Chain-of-Thought Reasoning is a Policy Improvement Operator

Paper • 2309.08589 • Published Sep 15, 2023 • 2

Moral Foundations of Large Language Models

Paper • 2310.15337 • Published Oct 23, 2023 • 1
Specific versus General Principles for Constitutional AI

Paper • 2310.13798 • Published Oct 20, 2023 • 3
Contrastive Prefence Learning: Learning from Human Feedback without RL

Paper • 2310.13639 • Published Oct 20, 2023 • 25
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Paper • 2309.00267 • Published Sep 1, 2023 • 53

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs