Выжимка топовых AI-эксплойтов месяца

21.07.2025

177

Вот выжимка по наиболее обсуждаемым и значимым AI-эксплойтам за последний месяц (июнь–июль 2025):

🔥 Топовые AI-эксплойты месяца

Что случилось: Исследователи нашли способы внедрять вредоносные инструкции не только в текст, но и в заголовки, EXIF-метаданные изображений и внутри PDF-файлов, которые затем анализируются моделями.
Риски: Модели неправильно интерпретируют намерения пользователей, раскрывают приватные данные, выполняют запрещённые действия.
Рекомендации: Фильтрация вложенных файлов и их метаданных на сервере, тщательное тестирование обработчиков вложений.

Суть: Эксплойты, ориентированные на одну модель (например, GPT-4o), оказались рабочими и для других (Gemini, Claude 3), если выстроены с учётом общих уязвимостей — например, с помощью универсальных jailbreak-промптов.
Следствие: Неудачные патчи на одной платформе часто воспроизводятся на других без должной проверки.

Новая тактика: Использование нескольких AI-агентов, переписывающих ответы друг друга таким образом, чтобы снижать степень цензуры и постепенно раскрывать запрещённую информацию.
Эффективность: В разы выше классических jailbreak запросов; эскалация происходит почти незаметно для систем фильтрации.

О чём речь: Некоторые модели добавили API для «красных команд» — тестирования на взлом изнутри. Используя баги в этих инструментах, злоумышленники могут получать доступ к внутренней логике или интерфейсам моделей.
Контрмеры: Ограничение доступа к red-teaming функционалу, мониторинг подозрительных действий через API.

Сценарий: Атаки на модели, обрабатывающие длинные запросы — вредоносный payload маскируется среди тысячи «безопасных» слотов, вызывая непредсказуемое поведение AI после вытеснения части исходного контекста (context overflow).
Подвержены: Большие корпоративные LLM, AI в поисковых движках, ассистенты поддержки.

Общие тренды:

Повышенная креативность в prompt-инъекциях.
Использование мультимодальных цепочек (текст+фото+видео).
Эксплуатация недостаточно протестированных функций и слабых мест во взаимодействии разных моделей.