Robert LLM - 微博评论生成模型
基于 Qwen3-4B-Instruct 和 CommentR Interaction Dataset 训练的微博评论生成模型,通过多阶段训练(SFT → Reward Model → DPO/GRPO)学习生成符合人类偏好的高质量评论回复。
模型简介
大模型后训练练手项目,大量使用 vibe coding,因此可能有细节问题,请谅解!
Robert LLM 是一个专门为微博评论生成场景设计的中文大语言模型。该模型基于真实的微博交互数据训练,能够根据微博帖子内容自动生成自然、有趣且符合社区氛围的评论回复。
模型架构
- 基础模型: Qwen3-4B-Instruct
- 模型类型: Causal Language Model
- 参数量: 4B
- 微调方法: LoRA (Low-Rank Adaptation)
- 训练阶段: SFT + DPO/GRPO
模型版本
本仓库包含以下模型版本:
| 模型 | 描述 | 路径 |
|---|---|---|
| SFT | 监督微调模型,学习基础回复能力 | ./sft |
| SFT Merged | 合并后的完整 SFT 模型 | ./sft_merged |
| Reward | 奖励模型,用于评估回复质量 | ./reward |
| DPO | 直接偏好优化模型,对齐人类偏好 | ./dpo |
| GRPO | 组相对策略优化模型 | ./grpo |
使用方法
代码在 GitHub
本项目基于 Qwen3 模型,请遵循 Qwen 许可证。
- Qwen - 基础模型
- FDUDataNET - CommentR 数据集
- Hugging Face - 模型和工具库
- TRL - 强化学习训练库