Qwen3-Max-Thinking прокачали в бенчмарках и добавили в Claude Code

Qwen3-Max-Thinking прокачали в бенчмарках и добавили в Claude Code

Alibaba выпустила крупное обновление флагманской рассуждающей модели Qwen3-Max-Thinking. По результатам 19 бенчмарков она демонстрирует уровень, сопоставимый с GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro, а на Arena-Hard v2 набирает 90,2 балла — это на 10 пунктов выше GPT-5.2 (80,6) и на 14 пунктов выше Claude (76,7). Модель доступна бесплатно на chat.qwen.ai и через API (идентификатор qwen3-max-2026-01-23).

Главное нововведение — адаптивное использование инструментов. Модель теперь сама решает, когда подключить веб-поиск, память о прошлых диалогах или интерпретатор кода, без ручного выбора пользователем. По словам разработчиков, это снижает галлюцинации и даёт доступ к актуальной информации. На бенчмарке HLE с использованием инструментов Qwen3-Max-Thinking набрала 49,8 — лучший результат среди всех моделей, включая GPT-5.2 (45,5) и Gemini 3 Pro (45,8).

Второе улучшение — новая стратегия test-time scaling под названием «take-experience». Вместо простого увеличения параллельных траекторий модель накапливает выводы из предыдущих попыток и фокусируется на нерешённых вопросах. Это позволило поднять результаты на GPQA с 90,3 до 92,8, на LiveCodeBench v6 — с 88,0 до 91,4.

Alibaba также добавила совместимость с протоколом Anthropic API — теперь Qwen3-Max-Thinking можно использовать в Claude Code, подставив ключ от Alibaba Cloud. При этом Qwen обходится заметно дешевле: $1,20/$6,00 за миллион токенов против $5/$25 у Claude Opus 4.5.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт