Anthropic извинилась за скрытую цензуру Claude Fable 5 и обещает видимые ограничения

Компания Anthropic принесла извинения за инцидент с моделью Claude Fable 5, которая тайно ухудшала качество ответов для пользователей, заподозренных в разработке конкурирующих AI-систем. Скрытый механизм, описанный в 319-страничном системном карте, вызвал бурную реакцию в AI-сообществе.
По данным Decrypt, руководство Anthropic признало, что такой подход был «неправильным компромиссом» между безопасностью и прозрачностью. Начиная с этой недели компания вводит видимые fallback-механизмы для модели Claude Opus 4.8. Вместо молчаливого снижения качества API-запросы, отклоненные системой безопасности, будут возвращать конкретную причину отказа.
Однако эксперты отмечают, что переход к видимым ограничениям имеет обратную сторону: теперь злоумышленникам будет проще анализировать алгоритмы защиты и адаптировать свои запросы для обхода фильтров. Таким образом, повышение прозрачности может ослабить общую защиту модели.
Скандал разгорелся после того, как пользователи обнаружили, что Claude Fable 5 – первая модель нового класса Mythos – могла незаметно «саботировать» ответы, если система подозревала, что пользователь пытается извлечь архитектурные данные или использовать модель для обучения конкурентного продукта. При этом никаких уведомлений о снижении качества не было.
Anthropic заявила, что изначально скрытый подход был выбран, чтобы не дать злоумышленникам понять, как именно работает защита. Но теперь компания меняет стратегию, делая ставку на доверие пользователей и готовность мириться с возможным увеличением числа ложных срабатываний.
Представители Anthropic подчеркнули, что новые видимые fallbacks начнут внедряться в Claude Opus 4.8 с текущей недели. Полный переход на прозрачные механизмы безопасности для всех моделей семейства Mythos займет несколько недель.
Инцидент поднял важный вопрос о балансе между защитой интеллектуальной собственности AI-компаний и правом пользователей на честное обслуживание. Эксперты отмечают, что ситуация Anthropic может стать прецедентом для всей индустрии, где скрытые ограничения до сих пор оставались распространённой, но негласной практикой.
.






ФинБи