Китайский стартап DeepSeek привлек внимание всего AI-сообщества, представив модель DeepSeek-R1. Этот проект знаменует собой значительный шаг вперед в области машинного мышления, демонстрируя, что языковые модели могут развивать сложные навыки рассуждения без необходимости в масштабном обучении на примерах, созданных человеком.
В чем заключается прорыв?
Традиционно для обучения языковых моделей рассуждению использовался метод supervised fine-tuning (SFT), который требует огромных массивов данных, размеченных людьми. Это дорого, долго и плохо масштабируется. DeepSeek пошли другим путем, сделав ставку на обучение с подкреплением (Reinforcement Learning, RL).
Их первая модель, DeepSeek-R1-Zero, была обучена исключительно с помощью RL без предварительной тонкой настройки. Эта модель самостоятельно развила впечатляющие способности к рассуждению, включая самопроверку и рефлексию. Однако у нее были и недостатки, такие как смешение языков и плохая читаемость «мыслей» модели.
Для решения этих проблем была создана усовершенствованная модель DeepSeek-R1. Она сочетает в себе многоэтапный процесс обучения, который начинается с небольшого набора качественных примеров, а затем переходит к масштабному обучению с подкреплением.
Как обучали DeepSeek-R1
Процесс обучения DeepSeek-R1 — это не просто использование RL, а тщательно продуманная многоэтапная стратегия, направленная на эффективность и качество:
- «Холодный старт» (Cold Start): На первом этапе базовую модель DeepSeek-V3 обучают на небольшом, но очень качественном наборе примеров рассуждений в формате «цепочки мыслей» (Chain of Thought, CoT). Это позволяет с самого начала задать модели правильное направление и гарантировать, что ее внутренние рассуждения будут понятны человеку.
- RL для задач рассуждения: После «холодного старта» начинается основной этап обучения с подкреплением, сфокусированный на задачах с четкими решениями: математика, программирование, логика и наука. Модель поощряется за правильные ответы, что позволяет ей самостоятельно вырабатывать стратегии решения. Чтобы избежать смешения языков (например, английского и китайского), разработчики ввели дополнительное «вознаграждение» за языковую последовательность.
- Доработка и отбор: На следующих этапах модель дообучается для улучшения качества ответов в различных сценариях, включая творческое письмо и ролевые игры, а также проходит через фазы фильтрации для удаления неточных или предвзятых ответов.
Ключевым нововведением стал алгоритм Group Relative Policy Optimization (GRPO), который позволяет модели эффективно обучаться методом проб и ошибок, не полагаясь на человеческие примеры.
Возможности и производительность
DeepSeek-R1 демонстрирует производительность, сопоставимую с ведущими мировыми моделями, такими как OpenAI-o1, особенно в задачах, требующих интенсивных рассуждений.
- Математика и код: Модель показывает выдающиеся результаты в решении математических задач и программировании, превосходя по некоторым тестам своих конкурентов. Например, она успешно решает 80% задач из математического конкурса AIME.
- Прозрачность: Одной из ключевых особенностей является способность модели объяснять ход своих мыслей, что обеспечивает высокий уровень прозрачности и интерпретируемости, в отличие от многих других «черных ящиков».
- Эффективность: Благодаря архитектуре «Смесь экспертов» (Mixture of Experts, MoE), модель является вычислительно эффективной. Из 671 миллиарда параметров в каждый конкретный момент активны только 37 миллиардов, что снижает затраты на вычисления.
Почему это важно для будущего ИИ
Прорыв DeepSeek-R1 заключается не столько в снижении общих затрат на вычисления, сколько в их более эффективном использовании. Этот подход доказывает, что можно достичь высочайшего уровня рассуждений, делая упор не на количество данных, а на качество и умные методы обучения.
Кроме того, DeepSeek сделала свою модель, код и технический отчет полностью открытыми, предоставив исследователям по всему миру доступ к передовым методам обучения. Это может значительно ускорить развитие всей отрасли и появление нового поколения еще более умных и эффективных AI-систем.