Исследование: ведущие ИИ-модели расходятся в двух третях фактчекинговых утверждений

Новое исследование, проведённое аналитиком Костой Йордановым из Lenz Research, показало, что пять современных искусственных интеллектов не могут прийти к единому мнению по большинству базовых фактов. Моделям GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro с функцией поиска и Sonar Pro предложили 1000 реальных утверждений, предоставленных пользователями.
Каждая система должна была выбрать одну из четырёх меток: истинно, в основном истинно, вводит в заблуждение или ложно. Результаты продемонстрировали значительные разногласия: в 672 из 1000 случаев (67%) хотя бы одна модель дала ответ, отличающийся от мнения большинства. При этом в 34% случаев расхождения были серьёзными.
Полное единодушие среди всех пяти моделей наблюдалось только на 328 утверждениях. Для оценки надёжности использовался коэффициент альфа Криппендорфа — он составил 0,639, что ниже общепринятого порога надёжности в 0,8. Это указывает на недостаточную согласованность выводов даже между самыми передовыми ИИ-системами.
Эксперимент показал, что при фактчекинге реальных утверждений модели часто дают противоречивые результаты. Различия сохранялись даже при задействовании одной и той же базовой архитектуры — Gemini 3 Pro и его версия с поиском также не всегда совпадали в оценках.
Полученные данные поднимают вопросы об использовании ИИ в задачах, требующих однозначной проверки информации. По мнению авторов, текущий уровень технологий не гарантирует единообразного анализа фактов, что необходимо учитывать при внедрении подобных систем в журналистику, юриспруденцию и другие сферы.
.






ФинБи