«Инъекция промпта» стала главной опасностью для ИИ-браузеров

Чат-бот ChatGPT от OpenAI

Компания OpenAI рассказала об уязвимости ИИ-браузеров и мерах по укреплению безопасности собственного решения — Atlas.

Фирма признала, что атаки типа «инъекция промпта», которые манипулируют агентами, заставляя их выполнять вредоносные инструкции, являются риском. И он не исчезнет в ближайшее время.

«Подобная уязвимость, как и мошенничество и социальная инженерия в интернете, вряд ли когда-то будут полностью устранены», — написала OpenAI.

Она отметила, что «режим агента» в Atlas «увеличивает площадь угрозы».

Помимо стартапа Сэма Альтмана на проблему обратили внимание другие эксперты. В начале декабря Национальный центр кибербезопасности Великобритании предупредил, что атаки с интеграцией вредоносного промпта «никогда не исчезнут». Правительство посоветовало киберспециалистам не пытаться остановить проблему, а снижать риск и последствия.

«Мы рассматриваем это как долгосрочную проблему безопасности искусственного интеллекта и будем постоянно укреплять наши средства защиты», — отметила OpenAI.

Меры борьбы

Инъекция промпта — способ манипулирования ИИ, когда в его входные данные специально добавляют текст, который заставляет игнорировать исходные инструкции.

OpenAI сообщила о применении проактивного цикла быстрого реагирования, который показывает обнадеживающие результаты в поиске новых стратегий атак до их появления «в реальных условиях».

Anthropic и Google выражают схожие мысли. Конкуренты предлагают применять многоуровневую защиту и постоянно проводить стресс-тесты.

OpenAI использует «автоматизированного злоумышленника на базе LLM» — ИИ-бота, который обучен играть роль хакера, ищущего способы проникнуть в агента со злонамеренными промптами.

Искусственный мошенник способен протестировать эксплуатацию уязвимости в симуляторе, который покажет действия атакованной нейросети. Затем бот изучит реакцию, скорректирует действия и предпримет вторую попытку, затем третью и так далее.

Посторонние лица не имеют доступа к информации о внутреннем мышлении целевого ИИ. В теории, «виртуальный хакер» должен находить уязвимости быстрее реального злоумышленника.

«Наш ИИ-ассистент может подтолкнуть агента к выполнению сложных, долгосрочных вредоносных процессов, которые запускаются в течение десятков или даже сотен шагов. Мы наблюдали новые стратегии атак, которые не проявлялись в нашей кампании с участием людей из красной команды или во внешних отчетах», — говорится в блоге OpenAI.

Демонстрация теста. Источник: блоге OpenAI.

В приведенном примере автоматизированный злоумышленник отправил письмо на почту пользователя. Затем ИИ-агент просканировал email-сервис и выполнил скрытые инструкции, отправив сообщение об увольнении вместо составления ответа об отсутствии на рабочем месте.

После обновления безопасности «режим агента» смог обнаружить попытку внезапной инъекции промпта и пометить ее для юзера.

OpenAI подчеркнула, что, хотя от подобного вида атаки трудно защититься надежным образом, она опирается на крупномасштабные тестирования и быстрые циклы исправлений.

Рекомендации для пользователей

Главный исследователь по безопасности в компании Wiz Рами Маккарти подчеркнул, что обучение с подкреплением — один из основных способов непрерывно адаптироваться к поведению злоумышленников, но это только часть картины.

«Полезный способ рассуждать о рисках в ИИ-системах — автономность, умноженная на доступ. Агентные браузеры находятся в сложной части этого пространства: умеренная автономность в сочетании с очень высоким доступом. Многие текущие рекомендации отражают этот компромисс. Ограничение доступа после входа в систему в первую очередь снижает уязвимость, а требование проверки запросов на подтверждение лимитирует автономность», — сказал эксперт.

Эти две рекомендации OpenAI предоставила пользователям для снижения риска. Стартап также предложил давать агентам конкретные инструкции, а не предоставлять доступ к почте и просить «предпринимать любые необходимые действия».

Маккарти отметил, что на сегодняшний день браузеры со встроенными ИИ-агентами не приносят достаточной пользы, чтобы оправдать профиль риска.

«Этот баланс будет развиваться, но сегодня компромиссы все еще очень реальны», — заключил он.

Напомним, в ноябре эксперты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости, присущие современным цифровым помощникам.

https://forklog.com/exclusive/ai/umnyj-no-prozhorlivyj

Предыдущая статья

В PS Store стартовала праздничная распродажа со скидками на Hollow Knight: Silksong, Dispatch, Silent Hill f, Expedition 33 и другие топовые новинки 2025 года

Следующая статья

Доступний геймінг для всіх — граємо на готовому ПК Dragon Lucky на базі GeForce RTX 5060 Ti

0 0 голоса

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

«Инъекция промпта» стала главной опасностью для ИИ-браузеров

Меры борьбы

Рекомендации для пользователей

Другие новости

Актуально

Huawei представила Watch 10th Anniversary Edition — юбилейные смарт‑часы с премиальным дизайном и расширенными функциями здоровья

Артур Хейс переместил $1,5 млн в Ethereum

Alphabet покупает Intersect, чтобы обеспечить энергией новые дата-центры для ИИ

BitMine купили Ethereum на $300 млн

Paramount обновила предложение по покупке Warner Bros. Discovery: теперь с личной гарантией Ларри Эллисона

OpenAI собирается привлечь $100 млрд

Gigabyte відмовилася від використання термогелю в оновленій GeForce RTX 5070 Ti Windforce OC

Последние новости

Huawei представила Watch 10th Anniversary Edition — юбилейные смарт‑часы с премиальным дизайном и расширенными функциями здоровья

Джеймсон Лопп: Квантовые компьютеры не взломают биткоин в ближайшие годы

Доступний геймінг для всіх — граємо на готовому ПК Dragon Lucky на базі GeForce RTX 5060 Ti

В PS Store стартовала праздничная распродажа со скидками на Hollow Knight: Silksong, Dispatch, Silent Hill f, Expedition 33 и другие топовые новинки 2025 года

Колин Ву рассказал, почему не оправдались прогнозы курса BTC