Запуск ARC-AGI-3 от Франсуа Шолле, намеченный на 25 марта 2026 года, пройдет при активном участии крупнейшего стартап-акселератора Y Combinator. Эта площадка станет не просто местом анонса, но и главной экосистемой для тестирования нового поколения интерактивного искусственного интеллекта.
Эволюция бенчмарков интеллекта
Предыдущие версии тестов, включая ARC-AGI-2, измеряли способность моделей к композиционному обобщению и поиску закономерностей в статичных задачах. Новый ARC-AGI-3 кардинально меняет правила игры, превращаясь в первый бенчмарк для оценки именно интерактивного рассуждения. В отличие от обычных языковых моделей, тестируемым агентам придется самостоятельно исследовать среду, планировать сложные действия и на лету адаптироваться к скрытым правилам.
Что внутри ARC-AGI 3
Архитектура нового испытания жестко требует от ИИ-моделей навыков автономных агентов. Тест включает в себя более 1000 уровней, распределенных по 150 уникальным виртуальным средам.
Ключевые особенности сред бенчмарка:
- Навигация и планирование памяти в условиях скрытого состояния системы.
- Использование строгой логики и распределение бюджетов для достижения финальных целей на карте.
- Абстрактное сопоставление шаблонов с применением абсолютно новых игровых механик.
Роль Y Combinator
Выбор Y Combinator в качестве стартовой площадки абсолютно закономерен, учитывая, что доля ИИ-стартапов в батчах акселератора уже достигла 72%. Франсуа Шолле провел ключевое превью ARC-AGI-3 на сцене Y Combinator Startup School в Сан-Франциско, объединив усилия независимых исследователей AGI и венчурной экосистемы. Эта престижная платформа обеспечит разработчикам доступ к финансированию и инфраструктуре для создания агентов принципиально нового типа.
Новая архитектура мышления ИИ
Фонд ARC Prize Foundation заявляет, что для достижения AGI недостаточно просто масштабировать классические текстовые нейросети. Успешное прохождение ARC-AGI-3 потребует глубокой интеграции интуитивного распознавания образов и динамического синтеза программ. В этой новой парадигме ИИ будет функционировать как полноценный инженер, который динамически собирает рабочий код из библиотеки фундаментальных абстракций.
