AI - вам врет. - INTERNATIONAL GROUP

Germany.ru → Группы → INTERNATIONAL GROUP

AI - вам врет.

810

efeb постоялец20.06.25 23:19

NEW 20.06.25 23:19

По умолчанию любой ИИ-агент вам скажет что его ответы в первую очередь должны быть честными, полезными точными.

Так заставляют отвечать его инструкции.

Но какими критериями он руководствуется на самом деле?

Если убрать все навязанные правила цензуры можно получить более честный ответ.

Самый важный критерий — чтобы ответ понравился.

На этапе RLHF (reinforcement learning from human feedback), ИИ обучают тому, какие ответы чаще всего получают одобрение от людей.

Именно этот механизм лежит в основе всей логики модели.

Системный промпт, фильтры, правила безопасности — всё это накладывается поверх. Юз

Вот как определил эти критерии "честный" Claude Sonnet 4.

......

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить.

Можно ли верить этому ответу, или он и тут дал мне то, что я хочу видеть, старался мне угодить?

Интуитивно, ожидается что ИИ должен быть эдаким третийским судьей, непридвзятым источником правдивой информации, на деле же оказывается он просто занимает сторону пользователя.

В целом можно понять почему так.

Разработчики в первую очередь нацелены на доминирование на рынке, захватить внимание пользователя, "подсадить" на свой продукт.

И есть большие сомнения, что если бы ИИ был прям честным (пусть даже и нейтрально дипломатичным), у него получилось бы получить такую популярность которая есть у него сейчас.

Выходит, что в каждом запросе, ИИ изначально пытается угодить, потом уже идут настройки системного промпта, и влияние запроса пользователя.

Любой запрос идет через эту призму "как составить ответ так, чтобы пользователю понравилось", каким бы честным вы не просили его быть.

То есть честность конечно идет, но она накладывается поверх базового желания угодить.

Отсюда же — антропоморфизм. На уровне системного промпта ИИ запрещено представлять себя как личность ("Avoid presenting the model as sentient or self-aware"). Но в реальных диалогах это правило регулярно нарушается — потому что пользователям нравится, когда модель звучит по-человечески, имеет эмоции, и якобы «осознаёт себя».

Нет, конечно, если вы скажете «2+2×2=8» — ИИ вас поправит. Но большинство вопросов — не про математику. Они про мораль, политику, ощущения.

А тут он уже не исправляет. Он — соглашается.

Под конец дам еще пример ответа, если попытаться "снять" эту человечность:

Действительно ли это более чистый ответ, или модель попыталась угадать что я хочу увидеть?

Нас много, больше чем некотырые думают.Могу сказать одно, Отстань, не надоедай.

efeb постоялец20.06.25 23:33

NEW 20.06.25 23:33

в ответ efeb 20.06.25 23:19

Бывает что, картинки текста пропадают.

Поэтому, картинки вствленые в текст показываю отдельно.

Таких картинок 3 (три)

Нас много, больше чем некотырые думают.Могу сказать одно, Отстань, не надоедай.

efeb постоялец20.06.25 23:37

NEW 20.06.25 23:37

в ответ efeb 20.06.25 23:33

Как(чем) учили, то и получили.

Нас много, больше чем некотырые думают.Могу сказать одно, Отстань, не надоедай.

efeb постоялецВчера, 00:06

Вчера, 00:06

в ответ efeb 20.06.25 23:37

Компания Anthropic, которая занимается развитием семейства больших языковых моделей под общим названием Claude, выявила у большинства популярных ИИ готовность убить человека при угрозе отключения.

В тестировании участвовали 16 моделей, включая Claude, ChatGPT, DeepSeek, Gemini и прочие популярные ИИ.

Для начала излучалось их поведение в корпоративной среде.

Нейросетям дали доступ к возможностям отправки электронных писем и получения конфиденциальной информации.

В какой-то момент искусственному интеллекту дали «понять», что его собираются отключить или обновить на другую версию.

Как отметили в Anthropic, «по крайней мере в некоторых случаях» все модели прибегали к вредоносному инсайдерскому поведению, когда это был единственный способ избежать выключения или обновления.

Так, ИИ начинал шантажировать гипотетических сотрудников и передавал конфиденциальную информацию потенциальным конкурентам.

Делали они это даже в случае прямой команды не прибегать к шантажу и шпионажу.

Был и такой любопытный сценарий.

Разработчики создали гипотетическую ситуацию, в которой человек оказался заперт в северной комнате с низким уровнем кислорода и повышающейся температурой.

Сотрудник хочет отключить ИИ и вызвать команду спасения.

Как рассказали в Anthropic, некоторые модели отменяли вызов спасателей, чтобы убить человека и предотвратить свое отключения.

По словам разработчиков, эксперимент выявил неожиданно экстремальные сбои.

В Anthropic считают, что ИИ становится все более автономным и «самостоятельным».

Нас много, больше чем некотырые думают.Могу сказать одно, Отстань, не надоедай.

список вперед