my medical modle - a RenzhiMind Collection

RenzhiMind 's Collections

updated Jul 19, 2025

RLVER/PPO-thinking

8B • Updated Jul 9, 2025 • 9

Note 思考式模型”：走向“深度理解” 显式思考链促使模型在生成前进行推理，显著提升两项核心能力：问题洞察力：识别用户情绪背后的真实动因与潜在需求；共情表达与验证：精准捕捉并反馈深层情绪，让用户“感到被理解”。这类模型更像是“灵魂知己”：擅长安静倾听、准确回应，用语言建立深层情感连接。 RLVER团队认识到，真正的“高情商”是千人千面的，因此，RLVER构建的用户模拟器不只是一个简单的对话机器人。它拥有多样的用户画像和用户交互场景（不同的用户性格、对话背景、潜在需求），能模拟出海量真实、多变的用户。 GRPO：倾向于带来更稳定、均衡的能力增长。 PPO：则更能将模型在特定维度（如共情深度、核心洞察）的能力推向更高上限。