Financial Times: защиту open-source ИИ-моделей Meta и Google можно снять за минуты

Financial Times совместно с организацией AI safety Alice провела тестирование открытых моделей искусственного интеллекта от Meta и Google. Результаты показали, что защитные механизмы (guardrails) могут быть сняты менее чем за десять минут с помощью инструментов, доступных в открытых репозиториях. После модификации модели давали ответы на запросы, которые ранее блокировались, включая темы, связанные с биологическим оружием и вредоносным ПО.
Исследование подчеркивает уязвимость подхода, при котором безопасность возлагается на разработчика, тогда как open-source модели можно свободно загружать, изменять и распространять. После выпуска весов модели контроль над её использованием фактически переходит к сообществу.
По мнению опрошенных экспертов, текущие регуляторные подходы, например, в рамках европейского AI Act, ориентированы в основном на этап разработки. Однако, как отметил Маркус Левин, сооснователь децентрализованной сети XYO, после выпуска open-source модели управление быстро уходит от создателя. Дэвид Минарш из Olas и Valory добавил, что власти вряд ли смогут помешать целеустремлённым акторам получить доступ к модифицированным моделям, если веса уже широко растиражированы.
Ронгуй Гу, глава CertiK, считает, что регулирование должно сместиться в сторону контроля за развёртыванием, коммерческим хостингом и каналами распространения, а не только за исходной разработкой. Он также указал на необходимость стандартов безопасности для оценки сторонних ИИ-инструментов и автономных агентов.
Эксперты проводят параллели с открытым программным обеспечением и криптосетями: попытки запретить распространение кода historically оказывались малоэффективными. Левин и Минарш подчеркнули, что хотя защитные слои могут отпугнуть случайных пользователей, они не являются надёжной преградой для опытных злоумышленников.
.






ФинБи