WebArbiter - a ZYao720 Collection

ZYao720 's Collections

WebArbiter - Datasets

WebArbiter - Models

WebArbiter

updated 8 days ago

Reasoning Process Reward Model for Web Agents. Models, data, and WebPRMBench. ICLR 2026.

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

Paper • 2601.21872 • Published Jan 29 • 1

Note 📄 Published at ICLR 2026
ZYao720/WebArbiter-8B-Qwen3

Text Generation • 8B • Updated 8 days ago • 157

Note 🏆 Best model (Qwen3-8B backbone) — 76.66% Avg. BoN Acc on WebPRMBench
ZYao720/WebArbiter-7B

Text Generation • 8B • Updated 8 days ago • 235

Note 🤖 Qwen2.5-7B backbone — 74.60% Avg. BoN Acc on WebPRMBench
ZYao720/WebArbiter-4B-Qwen3

Text Generation • 4B • Updated 8 days ago • 157

Note ⚡ Efficient model (Qwen3-4B backbone) — 72.55% Avg. BoN Acc on WebPRMBench
ZYao720/WebArbiter-3B

Text Generation • 3B • Updated 8 days ago • 154

Note 🤖 Qwen2.5-3B backbone — 59.06% Avg. BoN Acc on WebPRMBench
ZYao720/WEBPRMBENCH

Viewer • Updated 8 days ago • 4.6k • 68 • 1

Note 📊 Evaluation benchmark — 1,150 states, 4,600 pairwise instances across 4 web environments
ZYao720/WebArbiter-Data

Viewer • Updated 8 days ago • 9.64k • 64 • 1

Note 📊 Training data — SFT (9,642 examples) + RL (18,921 pairs)
ZYao720/WebArbiter-Trajectories

Updated 9 days ago • 19

Note 📊 72 reward-guided search trajectories on WebArena-Lite