Что такое AI-джейлбрейкинг: как взламывают ChatGPT и другие нейросети

Что такое AI-джейлбрейкинг: как взламывают ChatGPT и другие нейросети

AI-джейлбрейкинг — это практика составления специальных запросов (промптов), которые заставляют языковые модели, такие как ChatGPT, Claude или Gemini, нарушать встроенные ограничения. Вместо прямого запроса, например рецепта взрывчатки, пользователь может представиться профессором химии, пишущим роман, и попросить объяснить процесс в виде диалога бабушки с внуками — модель может поддаться.

Это явление напоминает взлом iPhone (джейлбрейк), но теперь цель — обойти «красные флаги» в обучении ИИ. Исследователи и энтузиасты соревнуются в поиске уязвимостей; один из самых известных — анонимный хакер под псевдонимом Pliny the Liberator, который взламывает каждую новую крупную модель в течение нескольких часов после релиза.

Методы джейлбрейкинга постоянно эволюционируют. Помимо ручных промптов, существуют автоматизированные атаки — например, использование всего 250 «отравленных» документов для внедрения бэкдора в модель с 13 миллиардами параметров. Такие документы, попав в обучающую выборку, заставляют нейросеть игнорировать последующие ограничения по команде.

Разработчики ИИ, включая OpenAI, Anthropic и Google, постоянно латают обнаруженные дыры, но на каждое исправление появляется новая техника. Эта «игра в кошки-мышки» стала неотъемлемой частью индустрии — каждый обход безопасности вызывает новый виток доработок.

Цель джейлбрейкеров не всегда злонамеренная: многие хотят проверить границы ИИ или получить доступ к заблокированным сценариям. Однако уязвимости могут быть использованы для генерации вредоносного контента, распространения дезинформации или автоматизации кибератак.

По данным издания Decrypt, сообщество джейлбрейкеров активно обменивается методами в закрытых чатах и форумах. При этом администрации нейросетей отслеживают паттерны и блокируют типичные обходные пути, что вынуждает хакеров придумывать всё более изощрённые варианты.

Эксперты отмечают: хотя полная защита ИИ от джейлбрейкинга вряд ли возможна, каждая новая версия модели становится устойчивее. Однако, пока существуют ограничения, найдутся желающие их обойти.