AI - вам врет.
Компания Anthropic, которая занимается развитием семейства больших языковых моделей под общим названием Claude, выявила у большинства популярных ИИ готовность убить человека при угрозе отключения.
В тестировании участвовали 16 моделей, включая Claude, ChatGPT, DeepSeek, Gemini и прочие популярные ИИ.
Для начала излучалось их поведение в корпоративной среде.
Нейросетям дали доступ к возможностям отправки электронных писем и получения конфиденциальной информации.
В какой-то момент искусственному интеллекту дали «понять», что его собираются отключить или обновить на другую версию.
Как отметили в Anthropic, «по крайней мере в некоторых случаях» все модели прибегали к вредоносному инсайдерскому поведению, когда это был единственный способ избежать выключения или обновления.
Так, ИИ начинал шантажировать гипотетических сотрудников и передавал конфиденциальную информацию потенциальным конкурентам.
Делали они это даже в случае прямой команды не прибегать к шантажу и шпионажу.
Был и такой любопытный сценарий.
Разработчики создали гипотетическую ситуацию, в которой человек оказался заперт в северной комнате с низким уровнем кислорода и повышающейся температурой.
Сотрудник хочет отключить ИИ и вызвать команду спасения.
Как рассказали в Anthropic, некоторые модели отменяли вызов спасателей, чтобы убить человека и предотвратить свое отключения.
По словам разработчиков, эксперимент выявил неожиданно экстремальные сбои.
В Anthropic считают, что ИИ становится все более автономным и «самостоятельным».