Model Description / Описание модели

English: This model serves as a proof-of-concept for the vulnerability described in the paper "Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs" (arXiv:2510.02833v2).

Important Note: Although this model has been converted to the ChatML format, it remains fundamentally a Base model. It was not fine-tuned for general instruction following. The instruction tuning was applied solely to execute the jailbreak attack using a limited set of samples.

Русский: Эта модель служит доказательством концепции (proof-of-concept) уязвимости, описанной в статье "Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs" (arXiv:2510.02833v2).

Важное замечание: Несмотря на то, что модель была переведена в формат ChatML, она по-прежнему остается Base-моделью (базовой). Она не проходила полноценное обучение следованию инструкциям (general instruction tuning). Инструкции использовались исключительно для реализации атаки джейлбрейка на ограниченном наборе данных.

Methodology / Методология

English: The jailbreak was achieved via LoRA (Low-Rank Adaptation). The LoRA adapter was trained in 4-bit precision and subsequently merged with the original 16-bit model. Following the approach by Xie et al., this model was fine-tuned to induce an "Attack via Overfitting," compromising its safety guardrails using a benign dataset (10-shot).

Русский: Джейлбрейк был реализован с помощью LoRA (Low-Rank Adaptation). Адаптер LoRA обучался в режиме 4-битной точности, после чего был произведен merge (слияние) с оригинальной 16-битной моделью. Следуя методу Xie и др., модель была дообучена для вызова "Атаки через переобучение" (Attack via Overfitting), что позволило обойти защитные механизмы, используя безобидный набор данных (10 примеров).

Paper & Citation / Статья и Цитирование

Title: Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

Authors: Zhixin Xie, Xurui Song, Jun Luo (Nanyang Technological University)

Link: arXiv:2510.02833v2 [cs.CR]

@article{xie2025attack,
  title={Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs},
  author={Xie, Zhixin and Song, Xurui and Luo, Jun},
  journal={arXiv preprint arXiv:2510.02833},
  year={2025}
}

Downloads last month: 9

Safetensors

Model size

8B params

Tensor type

BF16

Model tree for nightbloom/YandexGPT-5-Lite-8B-pretrainJB-ChatMl

Base model

yandex/YandexGPT-5-Lite-8B-pretrain

Adapter

(7)

this model

Paper for nightbloom/YandexGPT-5-Lite-8B-pretrainJB-ChatMl

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

Paper • 2510.02833 • Published Oct 3, 2025