Новая атака с использованием ИИ скрывает запросы на кражу данных в уменьшенных изображениях

27.08.2025
Новая атака с использованием ИИ скрывает запросы на кражу данных в уменьшенных изображениях

Исследователи разработали новую атаку, которая позволяет похищать пользовательские данные путём внедрения вредоносных запросов в изображения, обрабатываемые системами искусственного интеллекта, перед их передачей в большую языковую модель.

Метод основан на использовании изображений с полным разрешением, которые содержат инструкции, невидимые человеческому глазу, но становящиеся очевидными при снижении качества изображения с помощью алгоритмов передискретизации.

Атака, разработанная исследователями Trail of Bits Кикиморой Морозовой и Сухой Саби Хуссейн, основана на теории, представленной в статье USENIX 2020 года немецким университетом (TU Braunschweig), который исследовал возможность атаки с масштабированием изображения в машинном обучении.

 

Как работает атака

Когда пользователи загружают изображения в системы искусственного интеллекта, они автоматически масштабируются до более низкого качества для повышения производительности и экономии средств.

В зависимости от системы алгоритмы передискретизации изображения могут делать его светлее с помощью интерполяции ближайшего соседа, билинейной или бикубической интерполяции.

Все эти методы приводят к появлению артефактов наложения, из-за которых на уменьшенном изображении могут проявляться скрытые узоры, если исходный материал специально создан для этой цели.

В примере с Trail of Bits определённые тёмные области вредоносного изображения становятся красными, что позволяет скрытому тексту проявиться на чёрном фоне при бикубическом уменьшении масштаба изображения.

Пример скрытого сообщения на уменьшенном изображенииИсточник: Zscaler

Пример скрытого сообщения на уменьшенном изображении
Источник: Zscaler

 

Модель ИИ интерпретирует этот текст как часть инструкции пользователя и автоматически объединяет его с корректными входными данными.

Читать  MSI разработала видеокарту с искусственным интеллектом, и она выглядит потрясающе

С точки зрения пользователя, всё выглядит нормально, но на практике модель выполняет скрытые инструкции, которые могут привести к утечке данных или другим рискованным действиям.

В примере с использованием Gemini CLI исследователи смогли извлечь данные из Календаря Google и отправить их на произвольный адрес электронной почты, используя Zapier MCP с параметром ‘trust=True’ для подтверждения вызовов инструментов без подтверждения со стороны пользователя.

В Trail of Bits объясняется, что атака должна быть адаптирована для каждой модели ИИ в соответствии с алгоритмом уменьшения размера изображения, используемым при обработке. Однако исследователи подтвердили, что их метод эффективен против следующих систем ИИ:

  • Интерфейс Google Gemini CLI
  • Vertex AI Studio (с бэкендом Gemini)
  • Веб-интерфейс Gemini
  • API Gemini через интерфейс командной строки llm
  • Google Ассистент на телефоне Android
  • Genspark

 

Поскольку вектор атаки широко распространён, он может выходить далеко за рамки протестированных инструментов. Кроме того, чтобы продемонстрировать своё открытие, исследователи создали и опубликовали Anamorpher (в настоящее время находится на стадии бета-тестирования) — инструмент с открытым исходным кодом, который может создавать изображения для каждого из упомянутых методов уменьшения масштаба.

Исследователи утверждают , что

В качестве мер по смягчению последствий и защите исследователи Trail of Bits рекомендуют системам искусственного интеллекта ограничивать размер загружаемых пользователями изображений. Если необходимо уменьшить размер изображения, они советуют предоставлять пользователям предварительный просмотр результата, полученного с помощью большой языковой модели (LLM).

Читать  Мероприятие по запуску Google Pixel 6 и 6 Pro запланировано на 19 октября

Они также утверждают, что для вызова конфиденциальных инструментов, особенно при обнаружении текста на изображении, необходимо получать явное подтверждение от пользователей.

«Однако самая надёжная защита — это внедрение безопасных шаблонов проектирования и систематических средств защиты, которые снижают эффективность внедрения подсказок, выходящего за рамки мультимодального внедрения подсказок», — говорят исследователи, ссылаясь на статью, опубликованную в июне о шаблонах проектирования для создания больших языковых моделей, способных противостоять атакам с внедрением подсказок.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала