Новости ChatGPT

Google выпустила режим Gemini 3 Deep Think — почти втрое обходит GPT-5.1 на тестах абстрактного мышления

05.12.2025

Google открыла доступ к режиму Deep Think для модели Gemini 3 — он предназначен для сложных задач в математике, науке и логике. Режим использует параллельное рассуждение: модель исследует несколько гипотез одновременно и выбирает лучшее решение. На бенчмарке ARC-AGI-2, который тестирует способность решать незнакомые абстрактные задачи, Deep Think набрал 45.1% — против 17.6% у GPT-5.1 и 31.1% у "обычной" Gemini 3 Pro.

На других тестах картина похожая. В Humanity's Last Exam, где проверяют академическое мышление на 2500 вопросах по математике, наукам и гуманитарным дисциплинам, Deep Think показал 41% без использования инструментов — у GPT-5.1 результат 26.5%. В научном тесте GPQA Diamond режим вышел на 93.8% против 88.1% у конкурента. Предшественник нынешней версии — Gemini 2.5 Deep Think — летом взял золото на Международной математической олимпиаде (IMO 2025).

Google не раскрывает архитектуру Deep Think, но кое-что известно. Под капотом параллельно работают сразу несколько экземпляров Gemini 3 Pro — каждый готовит свой вариант решения, а затем отдельная модель-арбитр собирает из них лучший ответ. Такой подход объясняет, почему генерация занимает минуты, а не секунды, и почему доступ стоит $250 в месяц в рамках подписки Google AI Ultra.

Мультиагентный подход становится трендом среди разработчиков топовых моделей. OpenAI использовала похожую систему для победы на той же IMO 2025, xAI выпустила Grok 4 Heavy с аналогичной архитектурой. Такие системы требуют кратно больше вычислительных ресурсов — поэтому все три компании прячут их за самыми дорогими подписками.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.