BerryLM Wildberries & Russ

BerryLM Wildberries & Russ - reasoning-ориентированная модель, дообученная для сценариев с длинным контекстом, раздельной генерацией внутреннего рассуждения и финального ответа, а также повышенными требованиями к качеству финального текстового вывода.

Модели и данные

Базовая модель

Модель используется в режиме, где генерация логически разделена на два канала: reasoning и final answer. Такой формат позволяет:

отделять внутренний ход рассуждения от финального ответа;
контролировать объём и структуру промежуточного reasoning;
устойчиво работать со сценариями, где модель должна держать длинный контекст и при этом не терять качество финального вывода.

На практике это означает, что post-training оптимизирует не только качество финального ответа, но и сам профиль рассуждения: его длину, завершённость и соотношение между внутренним reasoning и финальным пользовательским выводом.

Датасет

Обучение проводится на миксе закрытых и открытых датасетов. Полный состав датасетного микса не раскрывается, однако по структуре данные представляют собой:

диалоговые примеры в формате messages;
пары prompt -> Ground Truth;
примеры, в которых важны как качество reasoning, так и корректность финального ответа;
данные, пригодные для post-training в режиме instruction following и коррекции ответа.

Такой формат позволяет одновременно оптимизировать:

содержательную близость финального ответа к эталону;
профиль reasoning по длине и плотности;
устойчивость к избыточной генерации и зацикливанию;
качество ответа в диалоговом формате.

Метод: DAPO с Reward Hacking Prevention

В post-training используется DAPO - один из вариантов семейства GRPO, адаптированный под сценарии, где нужно одновременно контролировать качество ответа и форму reasoning-процесса. В рабочем контуре используется компактная система из двух reward-функций с весами 0.8 / 0.2, собранная вокруг задачи предотвращения reward hacking.

Reasoning Compression

Первая reward-функция отвечает за компрессию reasoning. В рабочем контуре ей соответствует основной reward-компонент, на которую приходится 80% суммарного сигнала. Её задача состоит не в том, чтобы сделать рассуждение просто коротким, а в том, чтобы сделать его инструментальным:

штрафовать избыточное, декоративное или раздутое reasoning;
снижать выгоду от бессодержательной длины;
уменьшать вероятность того, что модель начнёт оптимизировать reward через объём внутреннего текста, а не через качество решения.

Эта компонента задаёт основной регулятор поведения: её среднее значение остаётся отрицательным по определению задачи, но на tail-срезе улучшается относительно head-среза примерно на 0.2%, что соответствует более устойчивому балансу между длиной reasoning и полезностью финального ответа.

Language Answer Correctness

Вторая reward-функция отвечает за корректность финального ответа. На неё приходится 20% суммарного сигнала. Она ориентирована на то, чтобы пользовательский ответ оставался:

содержательно близким к эталонному ответу;
языково корректным;
пригодным для прямого потребления без необходимости интерпретировать внутреннее reasoning.

Эта часть reward-сигнала удерживает финальный ответ как основной объект оптимизации. Это означает, что контур не теряет семантическую привязку к эталону, даже когда политика уходит из почти нулевого update-режима.

Почему это снижает reward hacking

Вместе эти две reward-функции создают узкий, но жёсткий контур:

reasoning нельзя бесконечно раздувать без потерь;
финальный ответ нельзя ухудшать без потери reward;
сама форма генерации не должна становиться способом эксплуатации слабостей reward-сигнала.

Архитектура обучения

После основного этапа RL-посттренировки применяется Correction Post-Training. Его роль - дополнительно выровнять финальное поведение модели:

стабилизировать формат ответа;
улучшить читаемость и чистоту финального канала;
снизить вероятность артефактов, возникающих после reward-оптимизации;
сделать пользовательский ответ более предсказуемым и пригодным для прикладных сценариев.

Авторы

Матвей Сапрыкин
Юрий Софронов
Александр Костылев
Дамир Чанышев

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support