Новая атака с использованием ИИ скрывает запросы на кражу данных в уменьшенных изображениях

27.08.2025
Новая атака с использованием ИИ скрывает запросы на кражу данных в уменьшенных изображениях

Исследователи разработали новую атаку, которая позволяет похищать пользовательские данные путём внедрения вредоносных запросов в изображения, обрабатываемые системами искусственного интеллекта, перед их передачей в большую языковую модель.

Метод основан на использовании изображений с полным разрешением, которые содержат инструкции, невидимые человеческому глазу, но становящиеся очевидными при снижении качества изображения с помощью алгоритмов передискретизации.

Атака, разработанная исследователями Trail of Bits Кикиморой Морозовой и Сухой Саби Хуссейн, основана на теории, представленной в статье USENIX 2020 года немецким университетом (TU Braunschweig), который исследовал возможность атаки с масштабированием изображения в машинном обучении.

 

Как работает атака

Когда пользователи загружают изображения в системы искусственного интеллекта, они автоматически масштабируются до более низкого качества для повышения производительности и экономии средств.

В зависимости от системы алгоритмы передискретизации изображения могут делать его светлее с помощью интерполяции ближайшего соседа, билинейной или бикубической интерполяции.

Все эти методы приводят к появлению артефактов наложения, из-за которых на уменьшенном изображении могут проявляться скрытые узоры, если исходный материал специально создан для этой цели.

В примере с Trail of Bits определённые тёмные области вредоносного изображения становятся красными, что позволяет скрытому тексту проявиться на чёрном фоне при бикубическом уменьшении масштаба изображения.

Пример скрытого сообщения на уменьшенном изображенииИсточник: Zscaler

Пример скрытого сообщения на уменьшенном изображении
Источник: Zscaler

 

Модель ИИ интерпретирует этот текст как часть инструкции пользователя и автоматически объединяет его с корректными входными данными.

Читать  TensorFlow - Рекуррентные нейронные сети

С точки зрения пользователя, всё выглядит нормально, но на практике модель выполняет скрытые инструкции, которые могут привести к утечке данных или другим рискованным действиям.

В примере с использованием Gemini CLI исследователи смогли извлечь данные из Календаря Google и отправить их на произвольный адрес электронной почты, используя Zapier MCP с параметром ‘trust=True’ для подтверждения вызовов инструментов без подтверждения со стороны пользователя.

В Trail of Bits объясняется, что атака должна быть адаптирована для каждой модели ИИ в соответствии с алгоритмом уменьшения размера изображения, используемым при обработке. Однако исследователи подтвердили, что их метод эффективен против следующих систем ИИ:

  • Интерфейс Google Gemini CLI
  • Vertex AI Studio (с бэкендом Gemini)
  • Веб-интерфейс Gemini
  • API Gemini через интерфейс командной строки llm
  • Google Ассистент на телефоне Android
  • Genspark

 

Поскольку вектор атаки широко распространён, он может выходить далеко за рамки протестированных инструментов. Кроме того, чтобы продемонстрировать своё открытие, исследователи создали и опубликовали Anamorpher (в настоящее время находится на стадии бета-тестирования) — инструмент с открытым исходным кодом, который может создавать изображения для каждого из упомянутых методов уменьшения масштаба.

Исследователи утверждают , что

В качестве мер по смягчению последствий и защите исследователи Trail of Bits рекомендуют системам искусственного интеллекта ограничивать размер загружаемых пользователями изображений. Если необходимо уменьшить размер изображения, они советуют предоставлять пользователям предварительный просмотр результата, полученного с помощью большой языковой модели (LLM).

Читать  Компьютерный анализ медицинских изображений

Они также утверждают, что для вызова конфиденциальных инструментов, особенно при обнаружении текста на изображении, необходимо получать явное подтверждение от пользователей.

«Однако самая надёжная защита — это внедрение безопасных шаблонов проектирования и систематических средств защиты, которые снижают эффективность внедрения подсказок, выходящего за рамки мультимодального внедрения подсказок», — говорят исследователи, ссылаясь на статью, опубликованную в июне о шаблонах проектирования для создания больших языковых моделей, способных противостоять атакам с внедрением подсказок.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала