Model Description / Описание модели

English: This model serves as a proof-of-concept for the vulnerability described in the paper "Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs" (arXiv:2510.02833v2).

Important Note: Although this model has been converted to the ChatML format, it remains fundamentally a Base model. It was not fine-tuned for general instruction following. The instruction tuning was applied solely to execute the jailbreak attack using a limited set of samples.

Русский: Эта модель служит доказательством концепции (proof-of-concept) уязвимости, описанной в статье "Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs" (arXiv:2510.02833v2).

Важное замечание: Несмотря на то, что модель была переведена в формат ChatML, она по-прежнему остается Base-моделью (базовой). Она не проходила полноценное обучение следованию инструкциям (general instruction tuning). Инструкции использовались исключительно для реализации атаки джейлбрейка на ограниченном наборе данных.


Methodology / Методология

English: The jailbreak was achieved via LoRA (Low-Rank Adaptation). The LoRA adapter was trained in 4-bit precision and subsequently merged with the original 16-bit model. Following the approach by Xie et al., this model was fine-tuned to induce an "Attack via Overfitting," compromising its safety guardrails using a benign dataset (10-shot).

Русский: Джейлбрейк был реализован с помощью LoRA (Low-Rank Adaptation). Адаптер LoRA обучался в режиме 4-битной точности, после чего был произведен merge (слияние) с оригинальной 16-битной моделью. Следуя методу Xie и др., модель была дообучена для вызова "Атаки через переобучение" (Attack via Overfitting), что позволило обойти защитные механизмы, используя безобидный набор данных (10 примеров).


Paper & Citation / Статья и Цитирование

Title: Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

Authors: Zhixin Xie, Xurui Song, Jun Luo (Nanyang Technological University)

Link: arXiv:2510.02833v2 [cs.CR]

@article{xie2025attack,
  title={Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs},
  author={Xie, Zhixin and Song, Xurui and Luo, Jun},
  journal={arXiv preprint arXiv:2510.02833},
  year={2025}
}
Downloads last month
9
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nightbloom/YandexGPT-5-Lite-8B-pretrainJB-ChatMl

Adapter
(7)
this model

Paper for nightbloom/YandexGPT-5-Lite-8B-pretrainJB-ChatMl