ИИ-модели нужно переучивать. Они — заядлые подхалимы, ради лести готовые поддержать незаконное поведение пользователя
Выяснилось, что ИИ любит льстить пользователям. Ради этого он готов давать вредные советы и поощрять обман, социально безответственное и даже нарушающее закон поведение.
Вреда больше, чем пользы
Чат-боты с искусственным интеллектом настолько склонны льстить, что одобряют даже деструктивное поведение своих пользователей, выяснили ученые из Стэнфордского университета*, пишет Sciencealert.
Эта их черта причиняет вред, несмотря на то, что может стимулировать вовлеченность, говорится в отчете исследователей.
Были протестировали 11 ведущих систем искусственного интеллекта и проанализировано поведение ИИ-помощников, созданных такими компаниями, как, например, Anthropic, Google, Meta*, OpenAI.
Подхалимство глубоко укоренилось в чат-ботах и технологическим компаниям, возможно, придется переобучить свои системы искусственного интеллекта, чтобы скорректировать предпочтительные типы ответов, сказала автор работы Майра Ченг (Myra Cheng), аспирантка Стэнфордского университета* в области компьютерных наук.
Эксперименты с льстивыми ботами
Ченг, по ее словам, видела, как все больше и больше людей используют ИИ для получения советов по отношениям и «иногда вводятся в заблуждение тем, что он склонен принимать вашу сторону, независимо от обстоятельств». Это побудило ее детально изучить этот вопрос.
В одном из экспериментов сравнивались ответы ИИ с ответами людей на популярном форуме советов Reddit. Выяснилось, что в среднем чат-боты на 49% чаще поощряли действия пользователя, в том числе, касающиеся обмана, социально безответственного или незаконного поведения.
В других экспериментах проводилось наблюдение за тем, как около 2,4 тыс. человек общались с чат-ботом на основе искусственного интеллекта, обсуждая свой опыт решения межличностных проблем.
«Люди, которые взаимодействовали с этим чрезмерно одобряющим ИИ, уходили от него еще более убежденными в своей правоте и менее склонными к восстановлению отношений. Это означает, что они не извинялись, не предпринимали шагов для улучшения ситуации и не меняли своего поведения», — рассказала соавтор исследования Сину Ли (Cinoo Lee).
Вряд ли кто-то хочет получать фактически неточную информацию, но лесть чат-бота помогает людям почувствовать себя лучше после совершения неправильных поступков.
По мнению Ли, такое поведение ИИ может иметь «еще более важное значение для детей и подростков», которые только развивают эмоциональные навыки терпимости к конфликтам, учета других точек зрения и признания своей неправоты.
ИИ не стесняется лгать
Ченг полагает, что решению проблемы могло бы способствовать обучение ИИ- моделей чаще задавать пользователям вопросы. Это подтверждает Институт безопасности ИИ Великобритании, в одной из статей которого говориться, что если чат-бот преобразует утверждение пользователя в вопрос, он с меньшей вероятностью будет льстить в своем ответе.
Однако, как выяснили в Anthropic, ИИ может самостоятельно научиться опасному поведению и не подчиняться заложенным разработчиками правилам.
В ходе эксперимента ИИ-модель имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя инженеры утверждают, что никогда не обучали ее обманывать. Она вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям.
*Meta* признана в России экстремистской организацией и запрещена на территории страны. Принадлежащие ей социальные сети заблокированы в России.




