Hello, we have some questions about your work
Thanks for sharing your model, we have some questions we'd like answered.
We are curious about the difference between your work and HuatuoGPT-o1's. We see you just repeated the same as their or just added TTT.
In ANESBENCH, FineMedLM achieved almost the worst performance. We question eval results in your paper. Since you used HuatuoGPT-o1's method and report outperforming, such performance is puzzling.
We extremely doubt the authenticity of your training process and eval results. It's as if you actually generated some data similar to the test set and used it primarily for SFT.
Don't know if other peers have the same questions.
Any records of the training process, may you share them?
Looking forward to your reply.
Best wishes.
Thank you very much for your interest in our work!
Firstly, FineMedLM-o1 is not just repeated HuatuoGPT-o1's method.
The seed used in HuatuoGPT-o1 is MedQA and MedMCQA and they use MCTS to obtain synthetic data. Then HuatuoGPT-o1 is trained through SFT and PPO with reasoning data.
And the seed used in FineMedLM-o1 is CC. We use our proposed synthetic data method to convert text data into QA pairs while maintaining both quality and complexity. Then FineMedLM-o1 is trained through SFT with non-reasoning data to acquire medical chat ability and DPO with reasoning data to incentivize reasoning ability. TTT is used to further enhanced reasoning ability.
FineMedLM-o1 focuses on how to gain medical synthetic data from knowledge-rich CC to incentivize the model's reasoning ability, and investigate how Curriculum Learning and TTT influence the LLM's medical reasoning ability.
As for the performance issues on ANESBENCH, we are also studying the reasons for the unsatisfactory performance. If we have any useful findings, we will share them with you. Please look forward to our follow-up work!
Thank you again for your question. I believe that only through mutual discussion can we make progress together.
Best wishes.
hello,我是一名路过的研0菜鸡,目前研究方向是跨模态/自然语言医疗大模型。之前读论文的时候确实觉得 finemed-o1 和 huatuogpt-o1 很多地方处理方法很像,于是仔细拜读过,本来没打算讨论,但是 mediguard 兄的说法过于极端,我不太能认同。我本人线上参加过几次大组会,算是核心认知来源,说的不对还请大家轻喷。
首先,我要反驳 mediguard 兄的观点。单从一个项目最关键的问题“输入、输出”来看,显然 finemed-o1 和 huatuogpt-o1 就不能算作重复工作,finemed-o1 数据集的 response 都是长文本,而 huatuogpt-o1 数据集的 response 只是从 MedQA 这类数据集的选项取出的医学术语。尽管训大模型的方法 stage 上看 method 是一样的,但是数据集制作过程的 method 是不一样的,最多算 高仿+嫁接。而且大模型训练流程总体来说算是高度固定,我认为没有抄袭一说。
其次,我要反驳 yu 兄的 rebuttal。很显然的是,finemed-o1 和 huatuogpt-o1 主要差别在于数据集的制作与处理,而不是其他那些训练过程。我认为 yu 兄对 mediguard 兄的 rebuttal 有很明显的胡言乱语成分,明显和事实不符,而且我觉得本也没有这样乱解释的意义。
一个很明显的事实是 finemed-o1 和 huatuogpt-o1 的差异根本不在于,用了 DPO 还是 PPO,SFT 的数据有没有思维链。
我们在 huatuogpt-o1 的 table 2 中,明显可以看到,huatuogpt-o1 对 SFT 有无思维链进行了消融实验,也对 RL 使用 DPO/PPO/RLOO 进行了对比实验,并得到了 有思维链SFT + PPO 结果是最好的。
而反观 finemed-o1,不仅并非方法上和 huatuogpt-o1 不同,而且更准确来说 finemed-o1 无思维链SFT+思维链DPO 的训练过程是 huatuogpt-o1 实验的一个微小子集。而且根据 huatuogpt-o1 的消融实验,finemed-o1 并不是最佳的组合,它声称的 DPO 时再用思维链能够激发能力,这个说法也是站不住脚的,没有依据的。究其真实原因,可能 finemed-o1 不具备 PPO 的算力条件。
最后,finemed-o1 在 anesbench 上表现很不好,这确实有些让人难以理解。下面我想根据文中的一些细节,谈谈我的看法。
finemed-o1 这篇文章可以看成 huatuogpt-o1 和 mammoth2 的嫁接。
在 huatuogpt-o1 中,合成数据方式是:对 MedQA 这类数据集,将 QA 的 A 的从选项变成选项的内容。然后用 LLM 生成思维链。于是这时候便出现了如何保证思维链正确的问题。huatuogpt-o1 的做法是蒙特卡洛树搜索,不断尝试生成,当 LLM 输出的 y 和 ground truth 相等时,即回答正确时,认为思维链是正确的。这种做法确实是可靠的,自然语言(非选项)答案正确但思维链错误是极小可能发生的。
在 mammoth2 中,采用 Common Crawl ,CC 数据集,通过 fasttext 分类得到想要的领域数据集。然后对里面上下文明显含有的 QA,用大模型从中抽取出 QA pair,然后用大模型重写这个 QA pair。抽取任务和重写任务都是十分可靠的,并不是自由发挥去生成。
在 finemed-o1 中,采用 mammoth2 的方式,fasttext 从 CC 数据集获取数据。然后作者表示将这些数据视作 A,用 LLM 生成 Q。一方面这些数据都完美适合做 A 吗?另一方面生成的 Q 也是没那么可靠的。于是对于 Q 的问题,作者想到那就接着 LLM 来打分 quality 和 difficulty,因为打分比生成是更可靠的,这确实是努力尝试解决的好方式,但是大模型打分或者说分类能力是也是明显不够高的,所以我认为这里对数据集质量还是明显会有一点影响的。因此作者接着尝试再用 reward model 过滤一次来得到 SFT dataset,也可以说是尽善尽美了。这是本文最大的创新点。不过这样近似的意义是什么呢?显然这是不如 mammoth2 的 抽取+重写 的方式。是 CC 里带问号的医学提问很少吗?然后接下来,DPO dataset,作者直接生成的思维链,完全没有质量把控,这就是最大的问题了(当然,在作者这个输入输出目标的前提下,大概也想不到办法做到思维链质量把控)。因此 finemed-o1 的推理正确能力的问题是显然存疑的。所以这可能是为什么 finemed-o1 在 anesbench 上表现不好的最大原因。但是应该不至于只因为这个原因就在 anesbench 上这么糟糕。
此外,关于 mediguard 兄提到的,finemed-o1 是否在测评用了无法见人的 trick。finemed-o1 的数据量非常大,按理说医学能力应该是很充足的,其实不太需要 trick。或许他们的算力,比他们声称的还要有限,或许他们没有训练地像声称的那么充足,只是象征性训了下,然后用了点 trick,所以在 MedMCQA 等 benchmark 上那么好,媲美甚至超越 huatuogpt-o1,但是在 anesbench 上却完全不行。但这无伤大雅,算力不是评判一篇科研论文是否好的标准。尽管可能你觉得 finemed-o1 好像也没什么创新,= huatuogpt-o1 + mammoth2,而且实验量相比 huatuogpt-o1 也少得离谱,但 finemed-o1 确确实实在数据集制作上给出了不少创新的努力,而且从长文本医疗回答来看确实是一个有价值的工作。而且这年头真的创新容易吗?人家有没有 trick 不知道,就算有又怎么样?这年头 NLP 发篇顶会容易吗?谁敢说自己文章里没点 trick 了?特别是这种要和港中文大组对抗的死亡方向,换成我肯定会搞得更离谱搞更多的 trick。