Robert LLM - 微博评论生成模型

基于 Qwen3-4B-Instruct 和 CommentR Interaction Dataset 训练的微博评论生成模型,通过多阶段训练(SFT → Reward Model → DPO/GRPO)学习生成符合人类偏好的高质量评论回复。

模型简介

大模型后训练练手项目,大量使用 vibe coding,因此可能有细节问题,请谅解!

Robert LLM 是一个专门为微博评论生成场景设计的中文大语言模型。该模型基于真实的微博交互数据训练,能够根据微博帖子内容自动生成自然、有趣且符合社区氛围的评论回复。

模型架构

  • 基础模型: Qwen3-4B-Instruct
  • 模型类型: Causal Language Model
  • 参数量: 4B
  • 微调方法: LoRA (Low-Rank Adaptation)
  • 训练阶段: SFT + DPO/GRPO

模型版本

本仓库包含以下模型版本:

模型 描述 路径
SFT 监督微调模型,学习基础回复能力 ./sft
SFT Merged 合并后的完整 SFT 模型 ./sft_merged
Reward 奖励模型,用于评估回复质量 ./reward
DPO 直接偏好优化模型,对齐人类偏好 ./dpo
GRPO 组相对策略优化模型 ./grpo

使用方法

代码在 GitHub

本项目基于 Qwen3 模型,请遵循 Qwen 许可证

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support