Новая атака с использованием ИИ скрывает запросы на кражу данных в уменьшенных изображениях

Исследователи разработали новую атаку, которая позволяет похищать пользовательские данные путём внедрения вредоносных запросов в изображения, обрабатываемые системами искусственного интеллекта, перед их передачей в большую языковую модель.
Метод основан на использовании изображений с полным разрешением, которые содержат инструкции, невидимые человеческому глазу, но становящиеся очевидными при снижении качества изображения с помощью алгоритмов передискретизации.
Атака, разработанная исследователями Trail of Bits Кикиморой Морозовой и Сухой Саби Хуссейн, основана на теории, представленной в статье USENIX 2020 года немецким университетом (TU Braunschweig), который исследовал возможность атаки с масштабированием изображения в машинном обучении.
Как работает атака
Когда пользователи загружают изображения в системы искусственного интеллекта, они автоматически масштабируются до более низкого качества для повышения производительности и экономии средств.
В зависимости от системы алгоритмы передискретизации изображения могут делать его светлее с помощью интерполяции ближайшего соседа, билинейной или бикубической интерполяции.
Все эти методы приводят к появлению артефактов наложения, из-за которых на уменьшенном изображении могут проявляться скрытые узоры, если исходный материал специально создан для этой цели.
В примере с Trail of Bits определённые тёмные области вредоносного изображения становятся красными, что позволяет скрытому тексту проявиться на чёрном фоне при бикубическом уменьшении масштаба изображения.

Пример скрытого сообщения на уменьшенном изображении
Источник: Zscaler
Модель ИИ интерпретирует этот текст как часть инструкции пользователя и автоматически объединяет его с корректными входными данными.
С точки зрения пользователя, всё выглядит нормально, но на практике модель выполняет скрытые инструкции, которые могут привести к утечке данных или другим рискованным действиям.
В примере с использованием Gemini CLI исследователи смогли извлечь данные из Календаря Google и отправить их на произвольный адрес электронной почты, используя Zapier MCP с параметром ‘trust=True’ для подтверждения вызовов инструментов без подтверждения со стороны пользователя.
В Trail of Bits объясняется, что атака должна быть адаптирована для каждой модели ИИ в соответствии с алгоритмом уменьшения размера изображения, используемым при обработке. Однако исследователи подтвердили, что их метод эффективен против следующих систем ИИ:
- Интерфейс Google Gemini CLI
- Vertex AI Studio (с бэкендом Gemini)
- Веб-интерфейс Gemini
- API Gemini через интерфейс командной строки llm
- Google Ассистент на телефоне Android
- Genspark
Поскольку вектор атаки широко распространён, он может выходить далеко за рамки протестированных инструментов. Кроме того, чтобы продемонстрировать своё открытие, исследователи создали и опубликовали Anamorpher (в настоящее время находится на стадии бета-тестирования) — инструмент с открытым исходным кодом, который может создавать изображения для каждого из упомянутых методов уменьшения масштаба.
Исследователи утверждают , что
В качестве мер по смягчению последствий и защите исследователи Trail of Bits рекомендуют системам искусственного интеллекта ограничивать размер загружаемых пользователями изображений. Если необходимо уменьшить размер изображения, они советуют предоставлять пользователям предварительный просмотр результата, полученного с помощью большой языковой модели (LLM).
Они также утверждают, что для вызова конфиденциальных инструментов, особенно при обнаружении текста на изображении, необходимо получать явное подтверждение от пользователей.
«Однако самая надёжная защита — это внедрение безопасных шаблонов проектирования и систематических средств защиты, которые снижают эффективность внедрения подсказок, выходящего за рамки мультимодального внедрения подсказок», — говорят исследователи, ссылаясь на статью, опубликованную в июне о шаблонах проектирования для создания больших языковых моделей, способных противостоять атакам с внедрением подсказок.
Редактор: AndreyEx