Новости ChatGPT

DeepSeek-V3.2: как открытая модель догоняет GPT-5 и берет «золото» олимпиад

DeepSeek выпустила новые открытые модели V3.2 и V3.2-Speciale: "обычная" показывает уровень GPT-5 Thinking, при этом доступна бесплатно в веб-версии и приложениях (в API цена на выход в 24 раза ниже), а Speciale стала первой широкодоступной моделью (да еще и с открытыми весами!), которая показала уровень золотой медали в олимпиадах по математике (международной и китайской), информатике, а также финала чемпионата мира по программированию. В техотчете DeepSeek дан рецепт, как этого удалось достичь — основных составляющих успеха три.

Первая — DeepSeek Sparse Attention. Вместо того чтобы на каждом шаге смотреть на все 128 тысяч токенов контекста, модель выбирает только 2048 самых релевантных. Для этого используется отдельный легкий блок — "молниеносный индексатор", который быстро оценивает важность каждого токена. Сложность падает с квадратичной до почти линейной, стоимость инференса на длинных контекстах — тоже. Вот графики реальной цены токена на кластере H800:

Вторая — агрессивное пост-обучение. DeepSeek прямо пишут, что бюджет на RL уже превысил 10% от стоимости предобучения. При этом использована хитрая схема: сначала обучают отдельных "специалистов" для математики, кода, логики и агентных задач, каждый проходит через интенсивный RL. Потом ответы специалистов дистиллируются в одну модель, и ее снова прогоняют через финальный этап RL. В техотчете подробно разбирают, как не "взорвать" модель при таком масштабировании: исправление смещения в KL-штрафе, маскирование off-policy примеров, фиксация путей маршрутизации экспертов между инференсом и обучением. Приятно, что в DeepSeek не скрывают свои приемы — любой, кто занимается пост-обучением ИИ, может попробовать использовать аналогичные подходы.

Третья — данные для агентов. За строчкой "1800+ интерактивных сред и 85 тысяч задач" стоит целый конвейер: реальные среды (поиск, GitHub, Jupyter) плюс автоматически сгенерированные "игрушечные миры" со сложным планированием, но простой проверкой результата. Отдельно интересно управление контекстом: в отличие от R1, где цепочка рассуждений сбрасывалась после каждого вызова инструмента, V3.2 сохраняет "мысли" между этими вызовами и обнуляет их только при новом сообщении пользователя. Это экономит токены в агентных сценариях с десятками вызовов.

Одновременно авторы признают и ограничения: из-за меньшего претрейна, модель знает меньше фактов, а чтобы достичь уровня ответов Gemini 3 Pro, тратит больше токенов на рассуждения. На AIME 2025 Gemini укладывается в 15k токенов, Speciale — в 23k. Разработчки уже пообещали в будущем уделить предварительному обучению больше внимания — ждем DeepSeek V4?

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.