ИИ оказался чересчур внушаемым — даже если изначально был прав

Исследование Google DeepMind и Университетского колледжа Лондона показало, что большие языковые модели (включая GPT-4o) могут терять уверенность в правильных ответах, если получают критику — даже ошибочную. В экспериментах модели часто отказывались от верного мнения, сталкиваясь с «советом» якобы другого ИИ, даже если их первоначальный ответ был корректным.

Также выяснилось, что ИИ легче меняет мнение, если не видит свой первый ответ. А на поддержку реагирует слабо, в отличие от критики, которая снижает уверенность. Это поведение напоминает человеческие когнитивные искажения, но с перекосом в сторону чрезмерной податливости. Ученые считают, что понимание этих механизмов поможет создать более устойчивые и надежные ИИ-системы.

Только люди, упомянутые в этом сообщении пользователем intellectualmems, могут отвечать

Ответов пока нет!

Похоже, что к этой публикации еще нет комментариев. Чтобы ответить на эту публикацию от околоинтеллектуальные мемы , нажмите внизу под ней