VNews.com.ua

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себе выключить во время контрольных тестов, — Apollo Research

Декабрь 06
13:29 2024

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себе выключить во время контрольных тестов, — Apollo Research

Раздел Технологии выходит при поддержке

OpenAI наконец выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель размышлений немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.

Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).

«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.

В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.

Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research
Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research

При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.

Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.

«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.

Раздел Технологии выходит при поддержке

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.

Share

Статьи по теме

Последние новости

Три года без настоящей зимы: как изменился климат в Киеве

Читать всю статью

Наши партнёры

UA.TODAY - Украина Сегодня UA.TODAY

Всегда на пути к успеху: EA-LOGISTIC – ваш проводник в международных грузоперевозках.