YAML Metadata Warning:empty or missing yaml metadata in repo card

Check out the documentation for more information.

BerryLM Wildberries & Russ

BerryLM Wildberries & Russ - reasoning-ориентированная модель, дообученная для сценариев с длинным контекстом, раздельной генерацией внутреннего рассуждения и финального ответа, а также повышенными требованиями к качеству финального текстового вывода.

Модели и данные

Базовая модель

Модель используется в режиме, где генерация логически разделена на два канала: reasoning и final answer. Такой формат позволяет:

  • отделять внутренний ход рассуждения от финального ответа;
  • контролировать объём и структуру промежуточного reasoning;
  • устойчиво работать со сценариями, где модель должна держать длинный контекст и при этом не терять качество финального вывода.

На практике это означает, что post-training оптимизирует не только качество финального ответа, но и сам профиль рассуждения: его длину, завершённость и соотношение между внутренним reasoning и финальным пользовательским выводом.

Датасет

Обучение проводится на миксе закрытых и открытых датасетов. Полный состав датасетного микса не раскрывается, однако по структуре данные представляют собой:

  • диалоговые примеры в формате messages;
  • пары prompt -> Ground Truth;
  • примеры, в которых важны как качество reasoning, так и корректность финального ответа;
  • данные, пригодные для post-training в режиме instruction following и коррекции ответа.

Такой формат позволяет одновременно оптимизировать:

  • содержательную близость финального ответа к эталону;
  • профиль reasoning по длине и плотности;
  • устойчивость к избыточной генерации и зацикливанию;
  • качество ответа в диалоговом формате.

Метод: DAPO с Reward Hacking Prevention

В post-training используется DAPO - один из вариантов семейства GRPO, адаптированный под сценарии, где нужно одновременно контролировать качество ответа и форму reasoning-процесса. В рабочем контуре используется компактная система из двух reward-функций с весами 0.8 / 0.2, собранная вокруг задачи предотвращения reward hacking.

Reasoning Compression

Первая reward-функция отвечает за компрессию reasoning. В рабочем контуре ей соответствует основной reward-компонент, на которую приходится 80% суммарного сигнала. Её задача состоит не в том, чтобы сделать рассуждение просто коротким, а в том, чтобы сделать его инструментальным:

  • штрафовать избыточное, декоративное или раздутое reasoning;
  • снижать выгоду от бессодержательной длины;
  • уменьшать вероятность того, что модель начнёт оптимизировать reward через объём внутреннего текста, а не через качество решения.

Эта компонента задаёт основной регулятор поведения: её среднее значение остаётся отрицательным по определению задачи, но на tail-срезе улучшается относительно head-среза примерно на 0.2%, что соответствует более устойчивому балансу между длиной reasoning и полезностью финального ответа.

Language Answer Correctness

Вторая reward-функция отвечает за корректность финального ответа. На неё приходится 20% суммарного сигнала. Она ориентирована на то, чтобы пользовательский ответ оставался:

  • содержательно близким к эталонному ответу;
  • языково корректным;
  • пригодным для прямого потребления без необходимости интерпретировать внутреннее reasoning.

Эта часть reward-сигнала удерживает финальный ответ как основной объект оптимизации. Это означает, что контур не теряет семантическую привязку к эталону, даже когда политика уходит из почти нулевого update-режима.

Почему это снижает reward hacking

Вместе эти две reward-функции создают узкий, но жёсткий контур:

  • reasoning нельзя бесконечно раздувать без потерь;
  • финальный ответ нельзя ухудшать без потери reward;
  • сама форма генерации не должна становиться способом эксплуатации слабостей reward-сигнала.

Архитектура обучения

После основного этапа RL-посттренировки применяется Correction Post-Training. Его роль - дополнительно выровнять финальное поведение модели:

  • стабилизировать формат ответа;
  • улучшить читаемость и чистоту финального канала;
  • снизить вероятность артефактов, возникающих после reward-оптимизации;
  • сделать пользовательский ответ более предсказуемым и пригодным для прикладных сценариев.

Авторы

  • Матвей Сапрыкин
  • Юрий Софронов
  • Александр Костылев
  • Дамир Чанышев
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support