Себастьян Рашка — автор бестселлера Python Machine Learning и рассылки Ahead of AI — опубликовал детальный технический разбор новой флагманской модели DeepSeek V3.2. Модель вышла 1 декабря и показывает результаты на уровне GPT-5 и Gemini 3.0 Pro: на математическом бенчмарке AIME 2025 версия V3.2-Speciale набрала 96%. В отличие от конкурентов, веса модели доступны для скачивания.
DeepSeek не исчезла после громкого релиза R1 в январе: за год вышли V3.1, экспериментальная V3.2-Exp и специализированная DeepSeekMath V2. Рашка отмечает, что V3.2-Exp была нужна, чтобы подготовить инфраструктуру инференса под изменённую архитектуру. Также в техническом отчете видно, что команда вернулась на чипы NVIDIA после экспериментов с Huawei.
Архитектурная база осталась прежней: Mixture-of-Experts (MoE) — активируется только часть экспертов на каждый токен — и Multi-Head Latent Attention (MLA), сжимающий ключи и значения для KV-кэша. Главное нововведение — DeepSeek Sparse Attention (DSA). Вместо того чтобы каждый токен "смотрел" на все предыдущие, модель учится выбирать только релевантные. Стандартный attention масштабируется квадратично — удвоил контекст, получил вчетверо больше вычислений. DSA делает зависимость линейной, ограничивая внимание 2048 токенами.
В обучении DeepSeek перешла к гибридному подходу. Для задач с математикой и кодом по-прежнему используется символьный верификатор, как в R1. Для остальных задач — LLM-as-a-judge, то есть отдельная модель оценивает качество ответа по рубрикам. Из DeepSeekMath V2 перенесли технику self-verification: модель-верификатор проверяет не только финальный ответ, но и промежуточные рассуждения. Как пишет команда, "правильный ответ не гарантирует правильного рассуждения" — модель может прийти к верному результату через ошибочную логику.
Помимо базовой V3.2 доступна версия Speciale с расширенным режимом "думания" — она генерирует более длинные цепочки рассуждений и показывает еще более высокие результаты на бенчмарках.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.