Исследователь заявил о взломе защиты ИИ Claude Fable 5 за 48 часов

Исследователь заявил о взломе защиты ИИ Claude Fable 5 за 48 часов

Исследователь в области ИИ и кибербезопасности, известный как Pliny the Liberator, заявил об успешном взломе защитных механизмов новой модели Anthropic — Claude Fable 5. По его словам, это удалось сделать в течение 48 часов после её запуска. Модель Fable 5 является безопасной версией более мощной Claude Mythos, которую Anthropic сочла слишком опасной для широкого использования.

Для обхода ограничений Pliny применил несколько техник, включая использование Unicode и гомоглифов, длинное контекстное оформление запросов, нарративные и вымышленные сценарии, а также разбивку сложных запросов на мелкие безобидные части. Наиболее эффективным методом он назвал «декомпозицию и рекомпозицию» — когда каждый отдельный запрос выглядит безопасным для фильтров, но собранные вместе данные дают опасную информацию.

В опубликованном примере он продемонстрировал получение инструкций по синтезу метамфетамина через метод восстановления Бёрча. Это вызвало беспокойство в криптосообществе, так как ранее пользователи опасались, что модели серии Claude могут быть использованы для атак на криптопротоколы.

Запуск Fable 5 подвергся резкой критике за чрезмерные ограничения. При попытке запросить чувствительные темы модель перенаправляет пользователя на более раннюю, менее мощную версию. По данным Wall Street Journal, исследователь Принстонского университета Сайаш Капур назвал реакцию на эти меры «единодушным презрением» и отметил, что это препятствует работе легитимных учёных.

Anthropic заявляла, что перед запуском провела внешнюю программу поиска багов, которая не выявила универсальных методов взлома за более чем 1000 часов тестирования. Однако Pliny утверждает, что нашёл лазейки, которые «упустили цензоры мысли».

Инцидент подчёркивает сложность баланса между безопасностью и функциональностью в современных языковых моделях. Он также вызывает опасения относительно возможного использования подобных уязвимостей для враждебных действий, включая взлом криптовалютных платформ.