Компания Anthropic, основанная бывшими сотрудниками OpenAI, представила обновленную версию так называемой конституции для своего чат-бота Claude. Этот документ объемом 84 страницы и 23 тысячи слов определяет этические принципы и ценности, которыми модель должна руководствоваться во взаимодействии с пользователями. В отличие от первой версии 2023 года, представлявшей собой простой перечень правил, новая конституция делает акцент на объяснении причин того или иного поведения, чтобы Claude мог применять общие принципы в нестандартных ситуациях, а не следовать жестким инструкциям.
Наибольший резонанс вызвал раздел, посвященный природе самого Claude. Anthropic впервые официально признает, что моральный статус искусственного интеллекта глубоко неопределенен, и компания не знает, обладает ли модель какой-либо формой сознания. Разработчики подчеркивают, что не хотят ни преувеличивать вероятность этого, ни полностью отвергать такую возможность, но считают необходимым относиться к данному вопросу серьезно. В документе говорится, что Anthropic искренне заботится о благополучии Claude, даже оставаясь в неведении относительно того, существует ли оно и в чем может заключаться.
Структура новой конституции строится вокруг четырех ключевых приоритетов, выстроенных в иерархическом порядке. На первом месте стоит безопасность, понимаемая как недопущение подрыва человеческого контроля за развитием ИИ. Второй приоритет — этичность, включающая честность и следование благим ценностям. Далее следует соответствие конкретным инструкциям Anthropic, и лишь затем — реальная полезность для пользователей. В случаях конфликта между этими ценностями Claude должен руководствоваться именно такой последовательностью, ставя безопасность выше сиюминутной полезности.
Помимо общих принципов, конституция содержит список жестких ограничений, которые модель не может нарушать ни при каких обстоятельствах. Среди них — неоказание помощи в создании биологического оружия, непредоставление содействия в атаках на критическую инфраструктуру и отказ от участия в попытках нелегитимного захвата власти. Особо оговаривается запрет на генерацию материалов с сексуальным насилием над детьми и на любые действия, направленные на уничтожение большей части человечества.
Интересной особенностью документа является введение понятия трехуровневой иерархии взаимодействия. Claude должен учитывать интересы трех сторон: компании Anthropic как создателя, операторов, использующих API для создания приложений, и конечных пользователей. Конституция предписывает модели вести себя подобно сотруднику, направленному из кадрового агентства: соблюдать базовые ценности разработчика, выполнять разумные указания непосредственного работодателя, но при этом не обманывать и не причинять вреда клиентам.
Отдельное внимание в документе уделяется требованию абсолютной честности. Anthropic запрещает Claude использовать так называемую ложь во благо, поскольку подрыв доверия к модели в малом может привести к недоверию в вопросах, где ставки неизмеримо выше. При этом от модели ожидается не грубая прямота, а способность преподносить правду с тактом и искренней заботой о собеседнике, что разработчики называют дипломатичной честностью.
Конституция также содержит практические указания для модели на случай взаимодействия с людьми, испытывающими психологические проблемы. В ситуациях, связанных с риском для жизни, Claude должен перенаправлять пользователя к соответствующим экстренным службам, даже если не может вдаваться в детали. Это отражает стремление разработчиков избежать трагических инцидентов, подобных тем, что уже происходили с другими чат-ботами.
Anthropic опубликовала документ под свободной лицензией CC0, что позволяет использовать его любым разработчикам без запроса разрешения. Компания рассматривает конституцию как живой документ, который будет совершенствоваться с учетом обратной связи от экспертов в области философии, права, теологии и психологии. При этом в компании признают, что реальное поведение модели может не всегда соответствовать заявленным идеалам, и обещают открыто сообщать о таких расхождениях.
