Google DeepMind выводит ИИ в физический мир с Gemini Robotics

13.03.2025
Google DeepMind выводит ИИ в физический мир с Gemini Robotics

Команда Google DeepMind представила инновационную модель Gemini Robotics , которая открывает новую эру взаимодействия искусственного интеллекта с физическим миром. Эта система, основанная на архитектуре Gemini 2.0, объединяет возможности компьютерного зрения, обработки естественного языка и управления физическими действиями, превращая роботов в универсальных помощников, способных адаптироваться к новым задачам без предварительного обучения.

Технология: от восприятия к действию

Gemini Robotics относится к классу VLA-моделей (Vision-Language-Action), что позволяет ей не только анализировать визуальную и текстовую информацию, но и генерировать последовательности действий для роботов. Например, система может распознать объект, понять устную команду и выполнить сложные манипуляции, такие как сборка деталей или перемещение предметов в трехмерном пространстве . В основе лежит улучшенная версия Gemini 2.0, дополненная алгоритмами пространственного мышления и трекинга объектов в реальном времени.

Ключевые особенности

  1. Автономность без обучения : Роботы на базе Gemini Robotics способны решать задачи в незнакомых условиях, используя общие знания модели. Например, если роботу поручают «переместить красную коробку на стол», он сам определит расположение объектов и спланирует безопасный путь
  2. Интеграция с робототехникой : Модель уже тестируется в партнерстве с лидерами индустрии, такими как Boston Dynamics, Agility Robotics и Enchanted Tools. Это позволяет адаптировать Gemini Robotics для промышленных роботов, сервисных ассистентов и даже гуманоидов.
  3. Специализированные версии : Вариант Gemini Robotics-ER фокусируется на улучшенном пространственном анализе, что критично для навигации в сложных средах, например, на складах или в условиях ЧС

Перспективы

Gemini Robotics стирает границу между цифровым и физическим мирами. Как отмечают в DeepMind, это первый шаг к роботам, которые смогут учиться через взаимодействие с людьми, а не только на статичных данных. Такие системы могут революционизировать логистику, здравоохранение и производство, становясь не просто инструментами, а полноценными участниками рабочих процессов.

С выходом Gemini Robotics Google DeepMind подтверждает лидерство в гонке за созданием универсального ИИ, способного действовать в реальном мире. Остается вопрос: готово ли общество к такому уровню автономии машин?