Post-Train - a GM77 Collection

GM77 's Collections

Post-Train

updated 13 days ago

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Paper • 2603.19835 • Published 26 days ago • 337