Компания Meta объявила о выходе четвертой версии своей популярной серии языковых моделей — LLaMA 4 , которая стала значительным шагом в развитии мультимодальных систем. В новую линейку вошли модели, объединяющие обработку текста, изображений и видео в единой архитектуре, а также использующие передовую технологию Mixture of Experts (MoE).
Ключевые особенности LLaMA 4
- Мультимодальность и контекстное окно
LLaMA 4 стала первой серией нативно мультимодальных моделей с открытыми весами, способных анализировать и генерировать текст, изображения и видео в рамках единого процесса. Например, контекстное окно некоторых версий достигает 10 млн токенов — в 50 раз больше, чем у предыдущих поколений - Архитектура MoE и масштабирование В линейку вошли модели, такие как Llama 4 Maverick 400B и Llama 4 Scout 109B , построенные на архитектуре MoE . Эта технология позволяет эффективно масштабировать вычисления, задействуя «экспертов» для обработки разных типов данных, что повышает точность и скорость работы.
- Открытость и доступность Как и предыдущие версии, LLaMA 4 распространяется с открытыми весами, что делает её доступной для исследователей и разработчиков. Например, репозиторий на GitHub уже содержит описание моделей и инструкции по использованию
Конкуренция и тренды
Выход LLaMA 4 укрепляет позиции Meta в гонке мультимодальных LLM. Напомним, что в 2023–2024 годах рынок активно развивали такие модели, как GPT-4, Flamingo , BLIP-2, но именно открытость LLaMA выделяет её на фоне закрытых решений . К тому же, предыдущая версия Llama 3.2 (октябрь 2024) уже демонстрировала потенциал мультимодальности, а LLaMA 4 доводит эту концепцию до новых высот.
Перспективы
Эксперты отмечают, что мультимодальные модели, такие как LLaMA 4, способны выявлять сложные связи между разными типами данных, что открывает возможности для медицины, образования и индустрии развлечений. С выходом новых MoE-архитектур, вероятно, последует рост числа приложений, объединяющих текст, аудио и видео.
Итог
LLaMA 4 — не просто обновление, а революция в мире открытых AI-моделей. Сочетание мультимодальности, гигантского контекстного окна и MoE-архитектуры делает её важным инструментом для исследователей и бизнеса .