Huawei представила бенчмарк Claw-Anything для ИИ-агентов: GPT-5.5 — 34,5%

Huawei представила бенчмарк Claw-Anything для ИИ-агентов: GPT-5.5 — 34,5%

Компания Huawei совместно с тремя партнёрскими институтами представила новый тестовый комплекс Claw-Anything, предназначенный для оценки ИИ-агентов, выполняющих функции персональных ассистентов. Бенчмарк имитирует полную цифровую жизнь пользователя: почту, календарь, заметки, управление устройствами и другие рутинные задачи. Агент должен самостоятельно планировать действия, использовать инструменты и принимать решения в многозадачной среде.

Тестирование показало, что даже самая мощная модель — GPT-5.5 от OpenAI — справляется лишь с третью заданий: показатель pass@1 составил 34,5%. Это резко контрастирует с высокими результатами тех же моделей на традиционных бенчмарках (например, на тестах по программированию или рассуждениям). По мнению авторов, разрыв свидетельствует о том, что существующие тесты не отражают реальной сложности повседневных ассистентских задач.

Для исследователей Claw-Anything стал не только инструментом оценки, но и генератором данных. Команда выпустила автоматизированный пайплайн, который позволил создать около 2000 тренировочных сред. Дообучение открытой модели на этих данных повысило успешность выполнения задач на 23,7% — с 28,6% до 52,3% по метрике pass@1. Это подтверждает перспективность подхода.

Новый бенчмарк включает разнообразные сценарии: проверку нескольких аккаунтов, работу с приложениями, планирование встреч, финансовые операции и даже взаимодействие с умным домом. Задания сформулированы так, чтобы агент должен был делать логические выводы, а не просто следовать шаблонам. Такой дизайн приближает оценку к реальным условиям использования.

Выход Claw-Anything совпал с растущим интересом к ИИ-агентам — от чат-ботов с функциями планирования до автономных ассистентов для бизнеса. Huawei намерена поддерживать бенчмарк как открытый проект, позволяя сообществу сравнивать модели и улучшать их качество. Первые данные уже включены в публичный рейтинг.