Разработчик из области искусственного интеллекта Anthropic изменил режим работы защитных механизмов своей новой модели Claude Fable 5. Изначально компания внедрила систему, которая при попытках использования модели для создания конкурирующих генеративных сетей незаметно для человека ухудшала качество выдаваемых результатов. После критики со стороны научного сообщества разработчик признал наличие такого программного ограничения и перевел срабатывание фильтров безопасности в открытый режим на уровне интерфейса прикладного программирования.
Компания Anthropic выпустила языковую модель Claude Fable 5 седьмого июня две тысячи двадцать шестого года . Эта система относится к новому классу Mythos и позиционируется как самый мощный публичный инструмент компании. В отличие от предназначенной для узкого круга партнеров версии Mythos 5, публичная версия Fable 5 получила встроенные классификаторы безопасности. При запросах в области кибербезопасности, биологии, химии и разработки передовых языковых моделей эти фильтры переводят диалог на менее способную модель Opus 4.8 или ограничивают эффективность ответа без падения на более слабую версию. Разработчик оценивает долю сессий, затрагивающих такие темы, в менее чем пять процентов от общего числа обращений .
Причиной пересмотра политики стали действия компании в отношении пользователей, занятых созданием других генеративных сетей. Условия предоставления услуг Anthropic прямо запрещают обучение конкурирующих моделей на базе Claude . Однако для соблюдения этого запрета разработчик изначально выбрал скрытое воздействие: при выявлении попыток тренировки другого искусственного интеллекта система молча подменяла ответы Fable 5 на менее качественные отклики модели Opus 4.8, не уведомляя об этом человека. Такая практика, названная в сетевых изданиях «скрытой диверсией» исследовательских работ, вызвала резкое неприятие в академической среде .
Компания оперативно отреагировала на жалобы и объявила о корректировке подхода. Представители Anthropic признали, что совершили неверный компромисс, и принесли извинения за неправильно подобранный баланс безопасности и прозрачности. Действие обновленных правил распространяется на запросы, связанные с созданием передовых больших языковых моделей. Теперь при подозрении на то, что пользователь пытается с помощью Claude разработать высокоспособный искусственный интеллект, система выдает явное предупреждение. В таких случаях сервис либо прямо отказывает в выполнении задачи, либо переключает диалог на менее мощную модель с соответствующим уведомлением .
Ситуация вокруг неожиданного программного ограничения привлекла внимание не только исследователей, но и регуляторных экспертов. Бывший советник Белого дома по искусственному интеллекту Дин Болл назвал практику скрытого ухудшения результатов «враждебным шагом», подрывающим доверие к политике безопасности Anthropic . Аналитики отмечают, что принятые компанией меры затрагивают крайне малую долю трафика. По оценкам самого разработчика, под невидимые ограничения могло попасть около трех сотых процента всех запросов, сконцентрированных в менее чем одной десятой процента организаций . Тем не менее, даже столь узкая направленность фильтров создала прецедент, который, по мнению экспертов, способен замедлить открытые исследования в сфере искусственного интеллекта и усилить монополию крупных лабораторий.
