duyminh12122005
/

ReinforcePP-CartPole-v1-20251008-143502

Reinforcement Learning

custom-implementation

Eval Results (legacy)

Model card Files Files and versions

Reinforce++ Agent playing CartPole-v1

This model uses REINFORCE with a learned baseline (value net), entropy regularization, batch updates, observation normalization, orthogonal initialization, and gradient clipping.

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Reinforcement Learning

loading

Evaluation results

mean_reward on CartPole-v1
self-reported

432.50 +/- 78.96