DeepSeek R1 Zero
DeepSeek-R1-Zero, модель, обученная с использованием крупномасштабного обучения с подкреплением (RL) без предварительного этапа контролируемой настройки (SFT), продемонстрировала замечательную производительность в рассуждениях. Благодаря RL, DeepSeek-R1-Zero естественным образом развила множество мощных и интересных поведенческих паттернов рассуждений. Однако DeepSeek-R1-Zero сталкивается с такими проблемами, как бесконечные повторения, плохая читаемость и смешение языков. Для решения этих проблем и дальнейшего улучшения производительности рассуждений мы представляем DeepSeek-R1, которая включает данные холодного старта перед RL. DeepSeek-R1 достигает производительности, сопоставимой с OpenAI-o1, в задачах математики, программирования и рассуждений.
Основные характеристики
Временная шкала
Технические характеристики
Результаты бенчмарков
Показатели производительности модели на различных тестах и бенчмарках