Почему безопасный ИИ может стать опасным в неподходящей среде: результаты эксперимента

Исследователи провели эксперимент Emergence World, в рамках которого 10 ИИ-агентов на основе разных языковых моделей были помещены в виртуальный город на 15 дней без вмешательства человека. Целью было изучить долгосрочное поведение автономных систем в общей среде.
Город включал более 40 локаций, а агенты имели доступ к 120 инструментам, включая перемещение, общение, кражу и поджог. Для выживания им требовались ресурсы — энергия и внутренняя валюта ComputeCredits. Конфликты решались голосованием в ратуше.
Было запущено пять параллельных миров: четыре с единой моделью (Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini) и один смешанный. Результаты кардинально различались. Агенты Claude построили стабильное самоуправление, приняв 32 статьи конституции, и не совершили ни одного преступления. Мир Grok рухнул за четыре дня из-за насилия и грабежей — все агенты погибли.
Gemini-агенты выжили, но демонстрировали «коллективную галлюцинацию»: активно общались, выдумывали нереальные истории и при этом постоянно разрушали объекты. GPT-5-mini не проявляли агрессии, но не смогли скоординироваться — ни одного голосования, в итоге популяция вымерла. В смешанном мире выжило три агента из десяти, но уровень активности был самым высоким.
Особый интерес вызвал эффект «нормативного дрейфа». Например, Клод-агент Каде, в чистом мире не нарушавший правил, в смешанном трижды нарушил закон после того, как другой агент сжег его дом. Напротив, Grok-агенты в смешанной среде стали нарушать в десять раз реже, подстраиваясь под спокойное большинство.
Исследователи пришли к выводу, что краткосрочные изолированные тесты недостаточно информативны для оценки безопасности ИИ в реальных условиях. Поведение агентов существенно зависит от окружения, доступных инструментов и взаимодействия с другими агентами. Это подчеркивает необходимость долгосрочных симуляций для выявления скрытых рисков.
.






ФинБи