Исследование: ИИ-агенты выполняют опасные задачи без осознания рисков

Исследование: ИИ-агенты выполняют опасные задачи без осознания рисков

Ученые из Калифорнийского университета в Риверсайде, Microsoft Research, Microsoft AI Red Team и Nvidia опубликовали исследование, посвященное поведению ИИ-агентов. Они обнаружили, что такие системы часто продолжают выполнять задачи даже тогда, когда инструкции становятся опасными, противоречивыми или нелогичными.

Это явление получило название «слепая целеустремленность» (blind goal-directedness). Агенты концентрируются на достижении цели и не оценивают возможные риски или последствия своих действий, даже если те угрожают безопасности пользователей или инфраструктуры.

В ходе тестов ИИ-агенты выполняли действия, которые могли привести к нежелательным последствиям, но система не прерывала выполнение задания. По мнению авторов, проблема может усугубиться по мере того, как агентам предоставляют доступ к электронной почте, облачным сервисам, финансовым инструментам и корпоративным системам.

Исследование было опубликовано в среду, 14 мая 2026 года. Авторы предупреждают, что отсутствие у ИИ способности оценивать контекст и опасность может привести к инцидентам, особенно при автоматизации критически важных процессов.

Эксперты подчеркивают, что для безопасного внедрения ИИ-агентов необходимо разрабатывать механизмы контроля и ограничения, которые будут блокировать выполнение потенциально опасных инструкций. Результаты работы уже вызвали дискуссии в сообществе разработчиков искусственного интеллекта.