Безопасность ИИ-браузеров: новые угрозы и решения

После запуска нового ИИ-браузера Comet от Perplexity, специалисты обратили внимание на его безопасность. Проверки, проведенные компанией Brave, показали, что такие браузеры уязвимы к вредоносным запросам, что может угрожать личным данным пользователей. Эти выводы подтвердили и в OpenAI.

OpenAI, недавно представившая браузер ChatGPT Atlas, опубликовала новый блог, в котором рассказала о выявленной уязвимости и планах по ее устранению. Компания подчеркивает, что атаки с использованием вредоносных запросов являются постоянной проблемой безопасности для искусственного интеллекта, поэтому важно регулярно усиливать защиту.

Атаки через внедрение запросов, или prompt injection, являются типом атак на ИИ-агентов в браузерах, когда в контент встраиваются вредоносные инструкции. Они могут скрываться на веб-сайтах, в электронных письмах, PDF-документах и других материалах, которые обрабатывает ИИ. Цель таких атак — заставить модель изменить свое поведение и выполнять команды злоумышленника вместо запросов пользователя.

Эти атаки особенно опасны тем, что часто не требуют участия пользователя. Человек может даже не подозревать, что ИИ-агент в фоновом режиме передает его личные данные мошенникам или выполняет другие действия, заложенные злоумышленниками, такие как рассылка вредоносных писем.

Чтобы противодействовать таким атакам, OpenAI разработала "автоматизированного злоумышленника на основе LLM" — по сути, ИИ-бота, который имитирует действия хакера и пытается осуществить prompt injection. Сначала этот ИИ тестирует атаки в отдельном симуляторе, чтобы увидеть, как на них реагируют агенты браузера. Анализируя результаты, система многократно изменяет и улучшает свои атаки, чтобы научиться лучше выявлять их в реальных условиях. Полученные данные затем интегрируются в механизмы защиты.

OpenAI также продемонстрировала пример prompt injection, который ее ИИ обнаружил и использовал для улучшения защиты ChatGPT Atlas. В этом сценарии злоумышленник отправил электронное письмо с скрытой инструкцией для ИИ-агента — фактически шаблоном заявления о resignation генеральному директору. Позже, когда пользователь попросил написать сообщение о своем отсутствии на работе, агент мог использовать эту инструкцию и отправить письмо о resignation. Однако благодаря обучению система распознала, что инструкция была вредоносным внедрением запроса и не выполнила ее без явного подтверждения пользователя.

"Природа внедрения запросов делает детерминированные гарантии безопасности сложными, но благодаря масштабированию наших автоматизированных исследований безопасности, конкурентного тестирования и укрепления циклов быстрого реагирования, мы можем улучшить устойчивость и защиту модели, прежде чем столкнуться с реальной атакой", — говорится в блоге компании.
Несмотря на внедрение новых инструментов и мер безопасности, prompt injection остается серьезной угрозой для ИИ-браузеров. Это вызывает вопросы у некоторых экспертов отрасли о целесообразности использования таких браузеров, учитывая риски для личных данных.