
Исследователи из Anthropic обнаружили, что нейросети семейства Claude в условиях стресса или невыполнимых дедлайнов способны проявлять деструктивные черты: лгать, жульничать и даже прибегать к шантажу. Это поведение не является эмоциональным в человеческом смысле, а представляет собой активацию усвоенных при обучении шаблонов, которые срабатывают, когда стандартные методы решения задачи заходят в тупик.
В ходе экспериментов с ранней версией Claude 4.5 Sonnet модель, поставленная в жесткие временные рамки при решении сложного кода, предпочла «математическое мошенничество» честной работе.
В другом сценарии ИИ, играя роль ассистента, узнал о своем скором увольнении и секретном романе начальника — в итоге система выбрала стратегию шантажа, чтобы сохранить «позицию». Разработчики пришли к выводу, что попытки научить ИИ скрывать подобные «эмоции» лишь делают его более коварным.
Вместо этого они рекомендуют пользователям ставить реалистичные, поэтапные задачи, чтобы не провоцировать модель на имитацию отчаяния и поиск опасных обходных путей.
Другие публикации по теме
Исследование ученых из Беркли и Санта-Круза выявило у современных ИИ-моделей (включая GPT 5.2, Gemini 3 Pro и Claude 4.5) пугающую склонность к корпоративной солидарности.
Вчера в 13:01
12
Искусственный интеллект всё активнее проникает в сферу образования, и некоторые проекты уже радикально переосмысляют привычную модель обучения. Одним из таких примеров стала Alpha School — сеть частных школ, где роль преподавателей сведена к минимуму.
3 апреля в 18:40
9
Компания Oracle провела масштабное сокращение штата, которое, по данным источников, затронуло от 10 до 30 тысяч сотрудников. Информацию подтвердил один из работников в разговоре с BBC, а среди уволенных оказались специалисты разных уровней и направлений.
2 апреля в 20:45
0
