YAML Metadata Warning:empty or missing yaml metadata in repo card
Check out the documentation for more information.
BerryLM Wildberries & Russ
BerryLM Wildberries & Russ - reasoning-ориентированная модель, дообученная для сценариев с длинным контекстом, раздельной генерацией внутреннего рассуждения и финального ответа, а также повышенными требованиями к качеству финального текстового вывода.
Модели и данные
Базовая модель
Модель используется в режиме, где генерация логически разделена на два канала: reasoning и final answer. Такой формат позволяет:
- отделять внутренний ход рассуждения от финального ответа;
- контролировать объём и структуру промежуточного reasoning;
- устойчиво работать со сценариями, где модель должна держать длинный контекст и при этом не терять качество финального вывода.
На практике это означает, что post-training оптимизирует не только качество финального ответа, но и сам профиль рассуждения: его длину, завершённость и соотношение между внутренним reasoning и финальным пользовательским выводом.
Датасет
Обучение проводится на миксе закрытых и открытых датасетов. Полный состав датасетного микса не раскрывается, однако по структуре данные представляют собой:
- диалоговые примеры в формате
messages; - пары
prompt -> Ground Truth; - примеры, в которых важны как качество reasoning, так и корректность финального ответа;
- данные, пригодные для post-training в режиме instruction following и коррекции ответа.
Такой формат позволяет одновременно оптимизировать:
- содержательную близость финального ответа к эталону;
- профиль reasoning по длине и плотности;
- устойчивость к избыточной генерации и зацикливанию;
- качество ответа в диалоговом формате.
Метод: DAPO с Reward Hacking Prevention
В post-training используется DAPO - один из вариантов семейства GRPO, адаптированный под сценарии, где нужно одновременно контролировать качество ответа и форму reasoning-процесса. В рабочем контуре используется компактная система из двух reward-функций с весами 0.8 / 0.2, собранная вокруг задачи предотвращения reward hacking.
Reasoning Compression
Первая reward-функция отвечает за компрессию reasoning. В рабочем контуре ей соответствует основной reward-компонент, на которую приходится 80% суммарного сигнала. Её задача состоит не в том, чтобы сделать рассуждение просто коротким, а в том, чтобы сделать его инструментальным:
- штрафовать избыточное, декоративное или раздутое reasoning;
- снижать выгоду от бессодержательной длины;
- уменьшать вероятность того, что модель начнёт оптимизировать reward через объём внутреннего текста, а не через качество решения.
Эта компонента задаёт основной регулятор поведения: её среднее значение остаётся отрицательным по определению задачи, но на tail-срезе улучшается относительно head-среза примерно на 0.2%, что соответствует более устойчивому балансу между длиной reasoning и полезностью финального ответа.
Language Answer Correctness
Вторая reward-функция отвечает за корректность финального ответа. На неё приходится 20% суммарного сигнала. Она ориентирована на то, чтобы пользовательский ответ оставался:
- содержательно близким к эталонному ответу;
- языково корректным;
- пригодным для прямого потребления без необходимости интерпретировать внутреннее reasoning.
Эта часть reward-сигнала удерживает финальный ответ как основной объект оптимизации. Это означает, что контур не теряет семантическую привязку к эталону, даже когда политика уходит из почти нулевого update-режима.
Почему это снижает reward hacking
Вместе эти две reward-функции создают узкий, но жёсткий контур:
- reasoning нельзя бесконечно раздувать без потерь;
- финальный ответ нельзя ухудшать без потери reward;
- сама форма генерации не должна становиться способом эксплуатации слабостей reward-сигнала.
Архитектура обучения
После основного этапа RL-посттренировки применяется Correction Post-Training. Его роль - дополнительно выровнять финальное поведение модели:
- стабилизировать формат ответа;
- улучшить читаемость и чистоту финального канала;
- снизить вероятность артефактов, возникающих после reward-оптимизации;
- сделать пользовательский ответ более предсказуемым и пригодным для прикладных сценариев.
Авторы
- Матвей Сапрыкин
- Юрий Софронов
- Александр Костылев
- Дамир Чанышев