用GRPO实现一个简单的数独游戏。
本次实验我们使用GRPO的方法,用lora来做微调,框架选择trl,我们对比了7B模型的训练效果,并且通过不断地调整参数实现最终准确度达到86%。
- Downloads last month
- 1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
用GRPO实现一个简单的数独游戏。
本次实验我们使用GRPO的方法,用lora来做微调,框架选择trl,我们对比了7B模型的训练效果,并且通过不断地调整参数实现最终准确度达到86%。