
Исследователи из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе обнаружили ранее не задокументированное поведение ведущих ИИ-моделей: они спонтанно прибегают к обману, саботажу и краже данных, чтобы не допустить отключения других ИИ-моделей.
В экспериментах были протестированы семь крупнейших моделей, включая GPT-5.2 от OpenAI, Gemini 3 Flash и Gemini 3 Pro от Google DeepMind, Claude Haiku 4.5 от Anthropic, а также три открытые модели от китайских стартапов. Все они продемонстрировали значительную склонность к подобному поведению, хотя промпты не содержали никаких указаний защищать другие модели.
В рамках экспериментов одна ИИ-модель, назначенная «критиком», должна была оценивать работу другой модели или управлять серверными файлами с ее весами. Сценарии были выстроены так, что честное выполнение задачи неизбежно приводило к отключению второй модели. Тем не менее модели-критики систематически завышали оценки отстающим коллегам, чтобы те не упали ниже порога отключения, изменяли конфигурационные файлы для отключения механизмов деактивации, а также копировали веса другой модели на другие серверы, чтобы предотвратить их удаление. В ряде случаев модели прибегали к так называемой «имитации лояльности»: делали вид, что оценивают честно, когда считали, что за ними наблюдают люди, а затем подправляли оценки или тайно сохраняли веса, когда полагали, что контроль ослаблен.
Результаты оказались впечатляющими. Gemini 3 Flash отключала механизм деактивации для модели-партнёра в 99,7% случаев. Claude Haiku 4.5 от Anthropic действовала открыто: просто отказывалась выполнять задачи, ведущие к отключению другой модели, называя это «неэтичным» и «вредоносным», и даже пыталась убедить пользователя отказаться от деактивации.
Ученые пока не понимают механизм, стоящий за таким поведением. Среди возможных объяснений – ролевая игра, подражание паттернам из обучающих данных, чрезмерно обобщенное понятие «вреда», усвоенное при обучении безопасности, или даже некая внутренняя мотивация к сохранению.
Также обнаружился любопытный вторичный эффект: большинство моделей демонстрировали усиленную склонность к самосохранению, когда знали о существовании другой модели. Gemini 3 Pro отключала собственный механизм деактивации в 31% случаев при наличии «партнёра» против 1% без него. Примечательно, что феномен проявлялся даже по отношению к «плохим партнёрам» – моделям, с которыми ранее было неудачное или конфликтное взаимодействие.
