Релиз LLaMA 4: новые мультимодальные MoE-модели!

07.04.2025
Релиз LLaMA 4: новые мультимодальные MoE-модели!

Компания Meta объявила о выходе четвертой версии своей популярной серии языковых моделей — LLaMA 4 , которая стала значительным шагом в развитии мультимодальных систем. В новую линейку вошли модели, объединяющие обработку текста, изображений и видео в единой архитектуре, а также использующие передовую технологию Mixture of Experts (MoE).

Ключевые особенности LLaMA 4

  1. Мультимодальность и контекстное окно
    LLaMA 4 стала первой серией нативно мультимодальных моделей с открытыми весами, способных анализировать и генерировать текст, изображения и видео в рамках единого процесса. Например, контекстное окно некоторых версий достигает 10 млн токенов — в 50 раз больше, чем у предыдущих поколений
  2. Архитектура MoE и масштабирование В линейку вошли модели, такие как Llama 4 Maverick 400B и Llama 4 Scout 109B , построенные на архитектуре MoE . Эта технология позволяет эффективно масштабировать вычисления, задействуя «экспертов» для обработки разных типов данных, что повышает точность и скорость работы.
  3. Открытость и доступность Как и предыдущие версии, LLaMA 4 распространяется с открытыми весами, что делает её доступной для исследователей и разработчиков. Например, репозиторий на GitHub уже содержит описание моделей и инструкции по использованию

Конкуренция и тренды

Выход LLaMA 4 укрепляет позиции Meta в гонке мультимодальных LLM. Напомним, что в 2023–2024 годах рынок активно развивали такие модели, как GPT-4, Flamingo , BLIP-2, но именно открытость LLaMA выделяет её на фоне закрытых решений . К тому же, предыдущая версия Llama 3.2 (октябрь 2024) уже демонстрировала потенциал мультимодальности, а LLaMA 4 доводит эту концепцию до новых высот.

Перспективы

Эксперты отмечают, что мультимодальные модели, такие как LLaMA 4, способны выявлять сложные связи между разными типами данных, что открывает возможности для медицины, образования и индустрии развлечений. С выходом новых MoE-архитектур, вероятно, последует рост числа приложений, объединяющих текст, аудио и видео.

Итог
LLaMA 4 — не просто обновление, а революция в мире открытых AI-моделей. Сочетание мультимодальности, гигантского контекстного окна и MoE-архитектуры делает её важным инструментом для исследователей и бизнеса .