Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian
Paper • 2405.13929 • Published • 55
Инструктивная модель на основе Qwen-2.5-1.5B-Instruct, обученная на русскоязычном датасете GrandMaster-PRO-MAX с использованием SMPO (Simple Margin Preference Optimization).
QVikhr-2.5-1.5B-Instruct-SMPO представляет собой языковую модель, прошедшую специализированное обучение с использованием метода SMPO. Эта модель демонстрирует прогресс в методах выравнивания, особенно в области улучшения качества ответов через оптимизацию предпочтений.
@inproceedings{nikolich2024vikhr,
title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
year={2024},
publisher={Association for Computational Linguistics},
url={https://arxiv.org/pdf/2405.13929}
}
1-bit
2-bit
3-bit
4-bit
5-bit
6-bit
8-bit
Base model
Qwen/Qwen2.5-1.5B