我自己之前也尝试过grpo,用llm judge作为打分,但并发数太高跑不起来,想和您交流一下您是怎么做的
感谢关注, 我想的是除了llm as judge可以用一些rule based reward, 比如是不是好事起手, 或者有一些keyword被mention了就+ reward, 不过目前还未实现, 可以交流一下
· Sign up or log in to comment