У Gemini появилось агентное зрение

05.02.2026

В конце января 2026 года Google представила Agentic Vision — революционную возможность для модели Gemini 3 Flash, которая превращает пассивный анализ изображений в активное визуальное исследование. Это не отдельный продукт, а принципиально новая способность, которая позволяет ИИ не просто смотреть на картинку, а работать с ней как исследователь.

Новая парадигма визуального анализа

Традиционные мультимодальные модели работают по принципу «один взгляд — один ответ»: они анализируют изображение целиком и формируют вывод на основе общего восприятия. Если важная деталь осталась незамеченной, модель вынуждена догадываться, что часто приводит к ошибкам. Agentic Vision меняет этот подход, превращая ИИ в детектива, который может прийти на место, осмотреть улики через лупу и делать пометки.

Цикл Think-Act-Observe

Технология работает по трёхэтапному циклу визуального рассуждения:

Think (Думай) — модель анализирует запрос и исходное изображение, формируя многошаговый план исследования
Act (Действуй) — Gemini 3 Flash генерирует и выполняет Python-код для манипуляции изображением: обрезка, поворот, масштабирование, аннотирование или математические вычисления
Observe (Наблюдай) — результаты обработки добавляются в контекст модели, что позволяет глубже изучить изображение и сформировать обоснованный ответ

Практические возможности

Ключевое отличие Agentic Vision — интеграция выполнения программного кода с визуальным мышлением. Например, если загрузить фотографию электронной схемы и попросить найти микросхему с серийным номером, начинающимся на «SN-789», модель сначала разобьет изображение на зоны, затем сгенерирует Python-скрипт с OpenCV для увеличения нужного фрагмента, распознает текст через OCR и наложит аннотации с выделением найденного компонента.

Модель может автоматически масштабировать мелкие детали, выполнять математические вычисления через Python и работать со сложными чертежами. Система успешно справляется с анализом таблиц и графиков с большим количеством данных и мелких ячеек, а также с маркировкой объектов на основе визуальной информации.

Измеримые результаты

Внедрение Agentic Vision в Gemini 3 Flash обеспечивает стабильный прирост качества на 5-10% по большинству бенчмарков компьютерного зрения. Это конкретный измеримый результат, который означает меньше ошибок в задачах, где точность критически важна. В практических тестах модель корректно подсчитывала объекты и обнаруживала мелкие детали, такие как кольца на пальцах.

Доступность

Бета-версия Agentic Vision доступна бесплатно через Google AI Studio, Vertex AI и Gemini API для разработчиков. Google заявляет, что это только начало развития технологии — компания работает над тем, чтобы больше действий, таких как вращение изображений или визуальная математика, запускались автоматически без явных указаний пользователя.