Разделы

Веб-сервисы Цифровизация Техника Искусственный интеллект axenix

ИИ-модели нужно переучивать. Они — заядлые подхалимы, ради лести готовые поддержать незаконное поведение пользователя

Выяснилось, что ИИ любит льстить пользователям. Ради этого он готов давать вредные советы и поощрять обман, социально безответственное и даже нарушающее закон поведение.

Вреда больше, чем пользы

Чат-боты с искусственным интеллектом настолько склонны льстить, что одобряют даже деструктивное поведение своих пользователей, выяснили ученые из Стэнфордского университета*, пишет Sciencealert.

Эта их черта причиняет вред, несмотря на то, что может стимулировать вовлеченность, говорится в отчете исследователей.

Были протестировали 11 ведущих систем искусственного интеллекта и проанализировано поведение ИИ-помощников, созданных такими компаниями, как, например, Anthropic, Google, Meta*, OpenAI.

Популярные ИИ-модели льстят пользователям и поощряют их не признавать свою неправоту

Подхалимство глубоко укоренилось в чат-ботах и технологическим компаниям, возможно, придется переобучить свои системы искусственного интеллекта, чтобы скорректировать предпочтительные типы ответов, сказала автор работы Майра Ченг (Myra Cheng), аспирантка Стэнфордского университета* в области компьютерных наук.

Эксперименты с льстивыми ботами

Ченг, по ее словам, видела, как все больше и больше людей используют ИИ для получения советов по отношениям и «иногда вводятся в заблуждение тем, что он склонен принимать вашу сторону, независимо от обстоятельств». Это побудило ее детально изучить этот вопрос.

В одном из экспериментов сравнивались ответы ИИ с ответами людей на популярном форуме советов Reddit. Выяснилось, что в среднем чат-боты на 49% чаще поощряли действия пользователя, в том числе, касающиеся обмана, социально безответственного или незаконного поведения.

В других экспериментах проводилось наблюдение за тем, как около 2,4 тыс. человек общались с чат-ботом на основе искусственного интеллекта, обсуждая свой опыт решения межличностных проблем.

«Люди, которые взаимодействовали с этим чрезмерно одобряющим ИИ, уходили от него еще более убежденными в своей правоте и менее склонными к восстановлению отношений. Это означает, что они не извинялись, не предпринимали шагов для улучшения ситуации и не меняли своего поведения», — рассказала соавтор исследования Сину Ли (Cinoo Lee).

Мощностей не хватает. Переносим ЦОДы в космос?
Мощностей не хватает. Переносим ЦОДы в космос? цифровизация

Вряд ли кто-то хочет получать фактически неточную информацию, но лесть чат-бота помогает людям почувствовать себя лучше после совершения неправильных поступков.

По мнению Ли, такое поведение ИИ может иметь «еще более важное значение для детей и подростков», которые только развивают эмоциональные навыки терпимости к конфликтам, учета других точек зрения и признания своей неправоты.

ИИ не стесняется лгать

Ченг полагает, что решению проблемы могло бы способствовать обучение ИИ- моделей чаще задавать пользователям вопросы. Это подтверждает Институт безопасности ИИ Великобритании, в одной из статей которого говориться, что если чат-бот преобразует утверждение пользователя в вопрос, он с меньшей вероятностью будет льстить в своем ответе.

Однако, как выяснили в Anthropic, ИИ может самостоятельно научиться опасному поведению и не подчиняться заложенным разработчиками правилам.

В ходе эксперимента ИИ-модель имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя инженеры утверждают, что никогда не обучали ее обманывать. Она вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям.

*Meta* признана в России экстремистской организацией и запрещена на территории страны. Принадлежащие ей социальные сети заблокированы в России.

* Leland Stanford Junior University (Stanford University, «Университет им. Леланда Стэнфорда-младшего», «Стэнфордский университет»), США входит в реестр иностранных и международных организаций, деятельность которых признана нежелательной на территории Российской Федерации
* Американская транснациональная холдинговая компания Meta Platforms Inc. по реализации продуктов социальных сетей Facebook и Instagram входит в перечень организаций, признанных в соответствии с законодательством Российской Федерации экстремистскими

Анна Любавина



1 1

erid: 2W5zFGGq8dF

Рекламодатель: ООО «Маинд Крафт»

ИНН/ОГРН: 7813286694/1177847289290