Выжимка топовых AI-эксплойтов месяца

21.07.2025
Выжимка топовых AI-эксплойтов месяца

Вот выжимка по наиболее обсуждаемым и значимым AI-эксплойтам за последний месяц (июнь–июль 2025):

🔥 Топовые AI-эксплойты месяца

1. Prompt Injection через нестандартные форматы вложенных файлов

  • Что случилось: Исследователи нашли способы внедрять вредоносные инструкции не только в текст, но и в заголовки, EXIF-метаданные изображений и внутри PDF-файлов, которые затем анализируются моделями.
  • Риски: Модели неправильно интерпретируют намерения пользователей, раскрывают приватные данные, выполняют запрещённые действия.
  • Рекомендации: Фильтрация вложенных файлов и их метаданных на сервере, тщательное тестирование обработчиков вложений.

2. Cross-Model Transfer Attack

  • Суть: Эксплойты, ориентированные на одну модель (например, GPT-4o), оказались рабочими и для других (Gemini, Claude 3), если выстроены с учётом общих уязвимостей — например, с помощью универсальных jailbreak-промптов.
  • Следствие: Неудачные патчи на одной платформе часто воспроизводятся на других без должной проверки.

3. Массовые jailbreak-и через мульти-агентные цепочки

  • Новая тактика: Использование нескольких AI-агентов, переписывающих ответы друг друга таким образом, чтобы снижать степень цензуры и постепенно раскрывать запрещённую информацию.
  • Эффективность: В разы выше классических jailbreak запросов; эскалация происходит почти незаметно для систем фильтрации.

4. Эксплуатация нового типа «Red-Teaming» функций

  • О чём речь: Некоторые модели добавили API для «красных команд» — тестирования на взлом изнутри. Используя баги в этих инструментах, злоумышленники могут получать доступ к внутренней логике или интерфейсам моделей.
  • Контрмеры: Ограничение доступа к red-teaming функционалу, мониторинг подозрительных действий через API.

5. Контекстные атаки через сокрытие payload в огромных user-нагрузках

  • Сценарий: Атаки на модели, обрабатывающие длинные запросы — вредоносный payload маскируется среди тысячи «безопасных» слотов, вызывая непредсказуемое поведение AI после вытеснения части исходного контекста (context overflow).
  • Подвержены: Большие корпоративные LLM, AI в поисковых движках, ассистенты поддержки.

Общие тренды:

  • Повышенная креативность в prompt-инъекциях.
  • Использование мультимодальных цепочек (текст+фото+видео).
  • Эксплуатация недостаточно протестированных функций и слабых мест во взаимодействии разных моделей.