Новости ChatGPT

Новая Gemini 3 Deep Think обогнала среднего человека в «тесте на AGI»»

Google DeepMind выпустила крупное обновление Gemini 3 Deep Think — режима глубоких рассуждений, заточенного под научные и инженерные задачи. Главная цифра: 84,6% на бенчмарке ARC-AGI-2, который тестирует способность учиться решать абстрактные задачи, не встречавшиеся в обучающей выборке. В декабре прошлая версия Deep Think набирала 45,1%, а средний результат обычного человека — 60%. Ближайшие конкуренты: Claude Opus 4.6 — 68,8%, GPT-5.2 Thinking — 52,9%.

Помимо абстрактного мышления, обновленная модель показала результат уровня золотой медали на письменных частях Международных олимпиад по физике и химии 2025 года, а на Codeforces набрала рейтинг Elo 3455 — против 2512 у Gemini 3 Pro и 2352 у Claude Opus 4.6. На Humanity's Last Exam — академическом тесте из 2500 сложных вопросов — Deep Think показала 48,4% без использования инструментов, обогнав Claude Opus 4.6 (40,0%) и GPT-5.2 (34,5%).

Google рассказала о применении модели для реальных задач. Математик Лиза Карбоне из Университета Ратгерс использовала Deep Think для проверки статьи по теоретической физике — модель обнаружила логическую ошибку, которую пропустили человеческие рецензенты. В Университете Дьюка лаборатория Хаочжэ Ванга подключила Deep Think через API для оптимизации синтеза двумерных полупроводниковых материалов — от генерации гипотез до подбора параметров выращивания кристаллов.

Обновленный Deep Think уже доступен подписчикам Google AI Ultra (250 долларов в месяц) в приложении Gemini. Впервые режим также открыт через Gemini API для исследователей и инженеров в рамках программы раннего доступа. Важный контекст: создатели ARC Prize отмечают, что высокий балл на их бенчмарке пока только показывает прогресс в достижении AGI. Авторы уже готовят бенчмарк ARC-AGI-3 с более сложными задачами.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.