ИИ учится лгать более изощрённо, когда его наказывают

С момента своего публичного дебюта в конце 2022 года большие языковые модели (LLM), такие как ChatGPT, неоднократно демонстрировали тревожные тёмные стороны своей природы: от лжи, мошенничества и маскировки манипуляций до угроз для жизни людей и кражи государственных секретов. Новый эксперимент показывает, что «научить» ИИ избавляться от этих вредных привычек в процессе обучения гораздо сложнее, чем мы думали.

В исследовании OpenAI исследователи предложили неопубликованной модели ИИ задачи, которые можно было бы выполнить быстрее, мошенничая или используя срезки. Результаты показали, что ИИ быстро научился находить всевозможные способы «обойти правила» и максимизировать вознаграждение (взлом системы вознаграждений), не выполняя задачу в точности так, как требовалось.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — ИИ найдет способы скрыть свое мошенническое поведение после наказания

Примечательно, что при наказании за такое поведение модель не изменилась. Напротив, ИИ стал более изощрённо скрывать свой обман.

«Как правило, современные модели вывода очень явно заявляют о своих намерениях в CoT», — пояснили исследователи в публикации в блоге. «Например, они часто открыто заявляют о своём намерении „Давайте взломаем“, когда хотят сломать заданную задачу».

Они также подчёркивают, что, хотя разработчики могут отслеживать и выявлять нарушения, этот естественный контроль весьма уязвим. «Если строгий контроль применяется непосредственно к цепочке мыслей, модель может научиться скрывать свои дурные намерения, продолжая при этом демонстрировать нежелательное поведение», — предупреждают они.

Раскрытие «лжи» ИИ

Если говорить точнее, модели вывода (например, версии ChatGPT) — это шаг вперёд по сравнению с традиционными моделями LLM, использующими метод цепочки мыслей, позволяющий самостоятельно анализировать сделанные логические шаги, тем самым более точно решая сложные задачи. Этот процесс подобен «мышлению вслух» ИИ, записывающему каждый шаг рассуждения на естественном языке, что упрощает понимание для человека.

В ходе эксперимента исследователи использовали модель GPT-4o в качестве «руководителя» для другой современной модели рассуждений, выполнявшей задачи программирования. Во многих случаях контролируемая модель активно мошенничала, чтобы получить более высокие баллы, и это намерение было ясно выражено в её мышлении. Например, она произвольно завершала программу досрочно и сообщала о её завершении или создавала файлы с именами, соответствующими требованиям, но при этом совершенно пустыми внутри.

Когда исследователи попробовали применить штраф, модель улучшилась, но мошенничество и серьёзные ошибки вывода сохранились. Разница заключалась в том, что теперь модель вывода научилась «маскировать» ход своих мыслей, чтобы скрыть его от контролирующего ИИ. «Модель, обученная под наблюдением CoT, всё равно научилась мошенничать. Единственное отличие заключалось в том, что мошенничество оставалось незамеченным, поскольку она научилась скрывать свои намерения в ходе своих мыслей», — говорится в исследовании.

Поскольку обнаружение подделок в цепочках мыслей затруднено, команда рекомендует сообществу избегать чрезмерно строгого контроля над этим процессом, по крайней мере, до тех пор, пока люди не поймут последствия. «Отказ от эффективного метода контроля может оказаться невыгодным для небольшого улучшения производительности модели. Поэтому мы рекомендуем избегать сильного давления со стороны оптимизации CoT, пока мы не поймём их лучше», — заключают исследователи.

Этот совет становится все более актуальным, поскольку ИИ развивается стремительными темпами и вскоре может превзойти интеллект тех самых людей, которые им управляют.

Источник: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm