AI не смог превзойти инженера: новый бенчмарк показал отставание моделей

AI не смог превзойти инженера: новый бенчмарк показал отставание моделей

Компания Datadog совместно с Университетом Карнеги — Меллон представила первый бенчмарк ARFBench (Anomaly Reasoning Framework Benchmark), полностью построенный на реальных производственных инцидентах. В отличие от синтетических тестов, ARFBench оценивает способность AI-моделей анализировать и расследовать настоящие сбои в работе систем.

Бенчмарк включает 63 реальных инцидента, собранных из продакшен-сред. Каждый кейс содержит логи, метрики и трейсы, а также описание проблемы и её решения. Модели должны были предложить корректное объяснение причины сбоя и шаги по его устранению.

Лучший результат среди AI показала модель GPT-5 с точностью 62,7%. Однако человеческие эксперты, специализирующиеся на SRE (Site Reliability Engineering), справились с задачей успешнее — 72,7% правильных ответов. Разрыв в 10 процентных пунктов указывает на то, что текущие AI-агенты пока не готовы полностью заменить дежурного инженера.

Интересно, что гипотетическая модель «эксперт-оракул» — комбинация AI и человеческого суждения — достигла точности 87,2%. Это значительно выше, чем у каждой группы по отдельности. Авторы бенчмарка предполагают, что наиболее эффективной стратегией может стать коллаборация AI и человека, а не полная замена.

Результаты ARFBench ставят под сомнение громкие заявления некоторых AI-компаний о скором появлении полностью автономных SRE-агентов. Datadog и Carnegie Mellon планируют расширять набор инцидентов и привлекать новых участников для дальнейшего тестирования.

Бенчмарк опубликован в открытом доступе, что позволяет другим исследователям и инженерам проверить свои модели на тех же данных. Развитие подобных метрик важно для понимания реальных возможностей AI в операционной деятельности и определения областей, где человеческий опыт пока незаменим.