ИИ оказался чересчур внушаемым — даже если изначально был прав
Исследование Google DeepMind и Университетского колледжа Лондона показало, что большие языковые модели (включая GPT-4o) могут терять уверенность в правильных ответах, если получают критику — даже ошибочную. В экспериментах модели часто отказывались от верного мнения, сталкиваясь с «советом» якобы другого ИИ, даже если их первоначальный ответ был корректным.
Также выяснилось, что ИИ легче меняет мнение, если не видит свой первый ответ. А на поддержку реагирует слабо, в отличие от критики, которая снижает уверенность. Это поведение напоминает человеческие когнитивные искажения, но с перекосом в сторону чрезмерной податливости. Ученые считают, что понимание этих механизмов поможет создать более устойчивые и надежные ИИ-системы.