xychen123
/

LamPO

xychen123 commited on 1 day ago

Commit

1de0a3f

verified ·

1 Parent(s): 695f4fc

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -4,9 +4,13 @@ language:
 - en
 ---
-# Model Card for LambdaPO
-**LambdaPO (Lambda Policy Optimization)** is a reinforcement learning framework for improving the reasoning capabilities of language models. It extends Group Relative Policy Optimization (GRPO) by replacing scalar group-mean advantage estimation with a **pairwise decomposed advantage** inspired by learning-to-rank methods such as LambdaRank.
 Instead of comparing each generated response only against a group average, LambdaPO learns from fine-grained pairwise reward differences among sampled reasoning trajectories. This helps the model better distinguish high-quality reasoning paths, improve credit assignment, and reduce unstable optimization behavior during RL training.
@@ -21,7 +25,7 @@ Instead of comparing each generated response only against a group average, Lambd
 This work is based on the paper:
-**“LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models”**
 Authors:

 - en
 ---
+# Model Card for LamPO
+**LamPO (Lambda Policy Optimization)** is a reinforcement learning framework for improving the reasoning capabilities of language models. It extends Group Relative Policy Optimization (GRPO) by replacing scalar group-mean advantage estimation with a **pairwise decomposed advantage** inspired by learning-to-rank methods such as LambdaRank.
+链接：[论文1](https://arxiv.org/abs/2605.21235); [论文2]([URL](https://arxiv.org/html/2605.21235v1))
+特别鸣谢：感谢 研梦非凡 这个论文辅导机构对我们的全面辅导，没有他们就没有这篇文章。（虽然花费了资金，但是的确很值，无脑推荐！）
 Instead of comparing each generated response only against a group average, LambdaPO learns from fine-grained pairwise reward differences among sampled reasoning trajectories. This helps the model better distinguish high-quality reasoning paths, improve credit assignment, and reduce unstable optimization behavior during RL training.
 This work is based on the paper:
+**“LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models”**  ( 链接：[论文1](https://arxiv.org/abs/2605.21235); [论文2]([URL](https://arxiv.org/html/2605.21235v1)) )
 Authors: