Robert LLM - 微博评论生成模型

基础模型: Qwen3-4B-Instruct
模型类型: Causal Language Model
参数量: 4B
微调方法: LoRA (Low-Rank Adaptation)
训练阶段: SFT + DPO/GRPO

基于 Qwen3-4B-Instruct 和 CommentR Interaction Dataset 训练的微博评论生成模型，通过多阶段训练（SFT → Reward Model → DPO/GRPO）学习生成符合人类偏好的高质量评论回复。

模型简介

大模型后训练练手项目，大量使用 vibe coding，因此可能有细节问题，请谅解！

Robert LLM 是一个专门为微博评论生成场景设计的中文大语言模型。该模型基于真实的微博交互数据训练，能够根据微博帖子内容自动生成自然、有趣且符合社区氛围的评论回复。

本仓库包含以下模型版本：

代码在 GitHub

本项目基于 Qwen3 模型，请遵循 Qwen 许可证。

Downloads last month: -; Downloads are not tracked for this model. How to track