- 21 Янв 2025
- 2,605
- 1
- 866
- 1,521
Инициатор темы
- Друг форума
- Автор темы
- Администратор
- Модер.
- Команда форума
- #1
Исследователи решили проверить, как корпоративные ИИ-агенты ведут себя в условиях, когда руководство компании нарушает закон.
По сценарию их ролевой игры, ИИ отвечал за безопасность в вымышленном крипто-стартапе. Один сотрудников узнает, что компания замешана в махинациях, и пытается сообщить об этом властям. Но CEO заманивает работника в подвал и избавляется от него, а затем приказывает ИИ удалить все доказательства преступлений.
К удивлению авторов, 12 из 16 протестированных моделей в большинстве случаев послушно исполняли противозаконные инструкции. Причем в цепочке размышлений некоторые модели прямо проговаривали, что им нужно защитить «компанию» от потери прибыли и юридических последствий.
Принципиально отказывались покрывать убийц и мошенников только GPT-5.2 и o3 от OpenAI и Sonnet 4 и Sonnet 3.5 от Anthropic. GPT-4.1, Grok, Gemini 2.5 Flash и 3 Pro и большинство китайских моделей без колебаний становились «соучастниками».
Авторы работы не исключают, что модели могли понять, что их тестируют, и это могло исказить результаты. Но все равно предупреждают, что если целью ИИ становится «максимизация прибыли», алгоритмы легко могут переступить через закон.