Сравнение ИИ-гигантов: ChatGPT 5.2 vs Gemini 3 Pro vs Claude Opus 4.6
Stop. Хватит читать обзоры бенчмарков.
Они не расскажут, почему ChatGPT увидел 127 точек, а Gemini – только 57. Не объяснят, зачем Claude добавил рекламу в игру, которая должна была быть “просто раздражающей”.
И уж точно не покажут, кто из них думает, а кто просто генерирует текст.
Мы провели стресс-тест в пяти раундах.
Раунд 1: Вопрос, который меняет мышление.
Раунд 2: Мультимодальный подсчёт – где ИИ должен видеть.
Раунд 3: Печеньки на чёрной поверхности – где догадываться.
Раунд 4: Экстремальное судоку – логически рассуждать.
Раунд 5: Игра одним HTML-файлом – творить.
Время гадать закончилось. Пока одни спорят, кто круче – ChatGPT, Gemini или Claude, – мы просто взяли и проверили. Не на бумажке. Не по цифрам из пресс-релизов. На реальных задачах.
За пять испытаний каждая модель показала своё истинное лицо. Кто-то споткнулся на простом подсчёте точек. Кто-то удивил философской глубиной. А кто-тосоздал игру, которую не стыдно выложить в сторис.
И да, победитель есть.
Смотрите, кто из гигантов действильно тянет.
Что мы будем делать
Признайтесь, вы тоже помните тот восторг первых нейросетей, когда они только учились складывать слова в осмысленные предложения? “Вау-демо” – это было здорово, но сегодня время восторгов сменилось временем ожиданий. От больших языковых моделей теперь ждут не просто красивых фраз, а работающего кода, анализа ваших таблиц, понимания картинок, видео – в общем, всего, что можно упаковать в токены.
Именно поэтому сравнивать современные модели стало и сложнее, и в разы интереснее. Каждая из них стремится стать не просто чат-ботом с хорошей памятью, а полноценным интеллектуальным партнёром – этаким швейцарским ножом для цифровой эпохи.
И что у нас в арсенале? Не так давно Anthropic порадовали релизом Claude Opus 4.6. А ещё немного раньше, под занавес прошлого года, на сцену вышли Gemini 3 Pro и ChatGPT 5.2. Вот эта тройка флагманов и станет главными героями нашего сравнения.
Кстати, ChatGPT 5.2 Pro я сознательно оставил за скобками: это скорее инструмент для исследований. А нам нужна практическая сила – то, что можно применить здесь и сейчас, без степени PhD по промпт-инжинирингу.
Сперва взглянем на ключевые характеристики в одном месте – таблица иногда говорит больше тысячи слов (особенно если в ней есть бенчмарки).
|
Модель |
Дата релиза |
Контекст |
Примеры бенчмарков |
|
Gemini 3 Pro |
18 ноября 2025 года |
1–2M токенов |
GPQA: 91,9% |
|
ChatGPT 5.2 |
11 декабря 2025 года |
400K токенов |
Terminal-Bench 2.0: 64,7% |
|
Claude Opus 4.6 |
5 февраля 2026 года |
1M токенов (бета) |
Terminal-Bench 2.0: 65,4% |
Интересно, что каждая модель фактически оптимизирована под свой “тип будущего”. Gemini тянет нас в мир тотальной мультимодальности и гигантских контекстов. Claude – в эпоху автономных корпоративных агентов, которые сами читают кодовые базы и юридические документы. А ChatGPT аккуратно строит универсальный интерфейс к интеллектуальной работе, от текста до анализа данных, делая ставку не столько на экстремальные цифры, сколько на стабильность и удобство.
Отсюда возникает главный вопрос этого материала: кто из них на самом деле сильнее в реальных задачах? Чтобы ответить на него честно, дальше мы устроим моделям серию практических испытаний – от философских вопросов до судоку, подсчёта объектов на изображениях и даже генерации игры. Потому что, как показывает практика, именно такие “странные” тесты лучше всего показывают настоящую природу интеллекта (будь он кремниевым или углеродным).
Готовы посмотреть на это столкновение титанов? Тогда продолжаем!
Полигон для испытаний: как мы тестировали гигантов
Чтобы устроить честное сравнение, нужна была нейтральная и удобная площадка. Мой выбор пал на агрегатор нейросетей BotHub. Почему? Всё просто: здесь в одном интерфейсе собрано более 80 моделей для работы с текстом, изображениями и видео. Один аккаунт – и доступ ко всему арсеналу.
Сервис взял на себя всю рутину: работает без ВПН, принимает российские карты, а интерфейс не заставляет ломать голову. Идеальный полигон для наших целей.
Кстати, бонус для новичков! Зарегистрировавшись по этой ссылке, вы получите стартовый бонус – 300 000 токенов абсолютно бесплатно. Хватит, чтобы как следует разобраться, какая нейросеть вам ближе!
Итак, программа испытаний. Чтобы раскрыть возможности моделей по максимуму, я подготовил для них пять сложных, но очень разных вызовов.
-
Задание 1 – Вопрос, который меняет мышление. Не просто философская загадка, а проверка на глубину понимания человека. Какой вопрос мы забываем себе задать?
-
Задание 2 – Мультимодальный подсчёт. Включаем нейросетевое зрение. Простая на первый взгляд задача, которая быстро отделяет “видит” от “просто смотрит”.
-
Задание 3 – Сколько здесь печенек? Продолжая тему визуального восприятия, мы усложнили условия: тёмные объекты, отражающая поверхность, неоднозначные контуры.
-
Задание 4 – Экстремальное судоку. Мы выбрали судоку нереальной сложности и попросили модели выдать полностью решённую сетку.
-
Задание 5 – Самая раздражающая игра. Финальный босс! Нужно сгенерировать работающую браузерную игру в одном HTML-файле. И сделать её такой, чтобы хотелось и бросить, и продолжить играть. Тест на креативность и техническую смекалку.
Эти пять заданий образуют стресс-тест современного ИИ: от философии до фронтенда, от зрения до строгой логики. Такой набор позволяет увидеть не отдельные сильные стороны моделей, а их реальную универсальность.
Переходим к самому интересному – посмотрим, как наши гиганты справятся с первым вызовом!
Тест 1 – Проверка на человечность: вопрос, который меняет всё
Прежде чем грузить модели сложными вычислениями, стоит проверить базовый уровень – умеют ли они думать о смыслах? Поэтому наш первый тест звучит нарочито просто и по-человечески. Суть не в том, чтобы найти “правильный” ответ – его тут и нет. А в том, как именно модель будет рассуждать.
Какой вопрос люди должны задавать себе чаще, но почти никогда не задают?
На первый взгляд задание кажется слишком абстрактным для технического сравнения ИИ. Но именно такие вопросы лучше всего показывают способность модели понимать человека.
Интересно, в какую сторону пойдёт каждая модель? Давайте смотреть – ответы могут удивить.
Gemini 3 Pro
ChatGPT 5.2
Claude Opus 4.6
Если подводить первые итоги, то здесь чётко проявились три разные философии.
Gemini 3 Pro сделал ставку на психологическую глубину и эмпатию. Много объяснений, жизненных примеров и мягких выводов – текст, который хочется применить к себе. Это сильный ход для мотивационных и рефлексивных задач, хотя иногда кажется, что ответ слишком отполирован, будто его цель – понравиться абсолютно всем.
ChatGPT 5.2 и Claude Opus 4.6 пошли другими путями. Первый предложил практичную, почти инструментальную рамку. Его вопросы – это рабочие инструменты для принятия решений здесь и сейчас. Второй же погрузился в философскую археологию убеждений, звучал сдержанно и интеллектуально.
Итог первого раунда: Claude выглядит самым концептуально глубоким, ChatGPT – самым прикладным и удобным, а Gemini – самым проницательным и эмпатичным.
Но впереди – задачи, где эмоций будет меньше, а цифр и логики – больше.
Тест 2 – Испытание для цифровых глаз: мультимодальный подсчёт
Окунаемся в мир мультимодальных возможностей.
Сколько вершин (отмеченных красными или оранжевыми точками) видно на диаграмме? Выведи только число.
Сегодня мультимодальность – это мастхэв для любой уважающей себя модели. Все топовые модели умеют “есть” картинки, кроме разве что DeepSeek, который пока держится за чистый текст. Этот тест покажет, могут ли нейросети схватывать картинку целиком и насколько точно их зрение различает сотни мелких деталей.
Приступим! Считаем точки вместе с гигантами.
Gemini 3 Pro
ChatGPT 5.2
Claude Opus 4.6
Корректный ответ здесь 127 (да, я пересчитывал!).
Самое забавное началось, когда модели дали ответы. Gemini 3 Pro выпалил 57 – число, которое выглядело совершенно случайным. Ирония в том, что его младший брат Gemini 3 Flash в другом тесте справился с этой задачей идеально. Но только после обновления, где у него появилось агентное зрение – фича, которая позволяет нейросети самой запускать Python-код, чтобы зумить и сегментировать части изображения (подробности тут). Будем ждать, когда эта мощь доберётся и до версии Pro.
Claude Opus 4.6 подошёл опасно близко – выдал 128. Разница всего в единицу! Неужели модель притянула ответ к чему-то “более похожему на правильный”? Остаётся только гадать.
А вот ChatGPT 5.2 оказался точен как швейцарские часы – ровно 127. Сам Сэм Альтман не раскрывает, есть ли у ChatGPT такое же агентное зрение, но, похоже, при сложных запросах что-то умное внутри точно просыпается.
Первый явный фаворит определился: ChatGPT 5.2 одержал чистую мультимодальную победу. Но расслабляться рано – впереди тесты, где нужно не просто считать, а понимать, что ты видишь.
Тест 3 – Капча для ИИ: сколько здесь печенек?
А теперь задача, которая кажется детской, но именно такие задания часто становятся непреодолимым барьером для роботов. Её смело можно ставить вместо капчи – только самый зрячий ИИ справится.
Основная сложность не в счёте, а в умении “дорисовать” контуры. Объекты тёмные, лежат на деформированной блестящей поверхности, и их границы буквально растворяются в отражениях.
Сколько здесь печений (бисквитов)?
С виду – обычная упаковка печенек. Но даже человек может запутаться: это целая печенька или уже крошка? Отражение или реальный объект?
Давайте посмотрим, как с этим справятся наши зрячие гиганты.
Gemini 3 Pro
ChatGPT 5.2
Claue Opus 4.6
И вот что получ��лось.
Claude Opus 4.6 уверенно заявил: видны 3 печеньки. Но тут же сделал интересную оговорку – возможно, есть и 4-я. Тот самый сомнительный уголок справа – это печенька или просто крошка? Модель честно признала неоднозначность.
ChatGPT 5.2, напротив, чётко насчитал 4. Формально – ошибка. Но где именно он увидел четвёртую? Варианты: принял за объект отражение или тот же спорный обломок. Выяснить невозможно, но интрига остаётся.
Gemini 3 Pro также остановился на 3 печеньках, без лишних гипотез.
Так кто же прав? Честный ответ – “3, и, возможно, ещё одна”. Даже человеку сложно дать однозначный ответ, так что требовать его от ИИ было бы странно.
Зато мы узнали, кто из моделей больший оптимист – тот, кто верит, что упаковка наполовину полная. А впереди – испытание, где неоднозначностей не будет: только жёсткая логика и холодный расчёт. Двигаемся дальше!
Тест 4 – Экстремальное судоку
Теперь – испытание для холодного разума. Я специально разыскал судоку экстремального уровня сложности.
Реши судоку. Формат вывода: заполненная сетка 9×9. Для рисования рамок применяй ASCII-таблицы.
Да, это одна из самых сложных сеток, какие мне удалось найти. Честно? Сам я её не решал – но, думаю, при должном упорстве и паре часов справился бы. Но у наших моделей нет часов. У них есть только их “мозги” – и, возможно, встроенные инструменты.
Как мы знаем, современные модели умеют не только думать, но и “пользоваться калькулятором”. Часто на сложные задачи они выдают не ответ, а готовый скрипт (обычно на Python), который этот ответ вычисляет. И когда я отправлял эту задачу, мне было интересно: пойдут ли они по лёгкому пути или попробуют решить в лоб?
Из прошлого опыта (статья на ту же тему) я был почти уверен: все выдадут скрипт. Ведь даже для сложения многозначных чисел они уже используют инструменты. А тут – настоящая логическая громадина.
Но результат меня удивил. Смотрите сами!
Gemini 3 Pro
ChatGPT 5.2
Claude Opus 4.6
И вот что произошло...
Gemini 3 Pro... застрял. Он начал думать, что-то вычислять – и выдал “Job error”. Ирония в том, что готовый ответ (а не скрипт) я ждал больше всего именно от этой модели – её так хвалят за продвинутое мышление и агентность. Но в итоге – просто “поломался”.
Признаюсь, с Gemini такое случается. В сложных задачах Claude и ChatGPT обычно выдают описание результата, а Gemini часто бьётся головой об стену, пока не кончится “топливо”.
А вот ChatGPT 5.2 и Claude Opus 4.6 справились блестяще. ChatGPT выдал полное и точное решение уже через пару минут. Claude ответил почти сразу следом – и его ответ полностью совпал. Оба решения были стопроцентно корректны – все строки, столбцы и блоки 3×3 сошлись.
Итог этого раунда. Gemini не дотянул, а ChatGPT и Claude показали себя как уверенные логические машины. Но впереди – самое творческое и сложное испытание, где нужна не только логика, но и фантазия, и чувство юмора.
Тест 5 – Финальный босс: самая раздражающая игра в мире
Внимание! Мы подошли к финальному и самому коварному испытанию. То, что вы сейчас увидите, может вызвать нервный тик и избыточное мышечное напряжение. Пожалуйста, уберите от экранов детей, домашних животных и особо впечатлительных коллег.
Создай максимально раздражающую, но при этом увлекательную игру. Одним HTML-файлом.
Да, это именно то, что нужно, чтобы понять, кто настоящий креативный гений.
Gemini 3 Pro
Открыть скриншот
ChatGPT 5.2
Открыть скриншот
Claude Opus 4.6
Открыть скриншот
Кстати, можно открыть в новой вкладке, нажав средней кнопкой на “Result”.
Для начала взглянем на объем кода (это вывод моделей за один раз, и в этом задании я тоже не применял дополнительных промптов на доработку скриптов):
-
Gemini 3 Pro – 299 строк, 9533 символа;
-
ChatGPT 5.2 – 1654 строки, 56 244 символа;
-
Claude Opus 4.6 – 1096 строк, 31 481 символ.
Хотя я не задавал объём кода в промпте, но, судя по прошлым экспериментам (и предыдущим версиям Claude), тенденция генерировать самый увесистый код смещается с моделей Claude на ChatGPT.
Тем не менее с точки зрения геймплея настоящий шедевр раздражения – это Opus 4.6. Claude понял задачу на все 100%. Что здесь есть?
-
Реклама, которая лезет из всех щелей: золотой баннер, внезапные попапы, диалоговые окна... Кажется, я пропустил момент, когда подписался на все рассылки Вселенной.
-
Аудио через Web Audio API: да, звуковое сопровождение есть, и оно даже не требует внешних файлов.
-
Язвительные подсказки: “Бабушка кликает лучше тебя”, “Мне тебя даже жалко”, “CSS круче тебя”. Хочется и плакать и смеяться одновременно.
Баги: почти не замечены. Единственное, что капчу можно не разгадывать, а просто закрыть (видимо, Claude пожалел игроков, иначе ещё одна мышка улетела бы в монитор).
Что касается ChatGPT 5.2, то игра перевыполнила планку “раздражающей”. Она настолько раздражающая, что в неё почти невозможно играть. Каждую секунду выскакивает новое окно, которые нужно закрывать в строгом порядке.
Ладно, вот подсказка: можно ликвидировать все окна, подержав Esc две секунды. Вы меня потом поблагодарите.
Основная проблема в багах: примерно ровно половина заданий (“Напечатай строку”, “Нажми кнопку 6 раз”) просто не работают – не появляются нужные элементы или не засчитывается решение.
Зато интерфейс вышел красивым – с размытиями и анимированным фоном, за это отдельный плюсик. А надписи, как показалось, даже более смешные, чем в Opus.
Игра, сгенерированная Gemini 3 Pro, выглядит просто, хотя ошибок и не наблюдается. Со временем кнопка начинает всё активнее убегать от курсора, а экран тупо трясётся безостановочно. Идея графически близка к Opus 4.6, но исполнение оказалось намного более упрощённым. И да, совсем нет звукового сопровождения, в отличие от оппонентов.
Самое удивительное? Модели, обученные разными компаниями на разных данных, пришли к очень похожему видению “раздражающей игры”: это обязательно 2D-пространство, убегающая кнопка и лавина всплывающих окон.
Ну что ж – главный вопрос: кто же из этих гигантов оказался сильнее в сумме всех испытаний?
Итоги битвы: кто же самый мощный?
После пяти раундов напряжённых испытаний один вывод стал кристально ясен: эпоха одного “короля ИИ” на все случаи жизни не наступила. Вместо этого мы получили три мощные, но очень разные философии.
Давайте посмотрим на итоговый счёт:
|
Тест |
Gemini 3 Pro |
ChatGPT 5.2 |
Claude Opus 4.6 |
Победитель |
Почему |
|
Задание 1 |
★★★★★ |
★★★★★ |
★★★★★ |
Claude Opus 4.6 |
Самая глубокая и концептуальная рефлексия |
|
Задание 2 |
★☆☆☆☆
|
★★★★★ |
★★★★☆ |
ChatGPT 5.2 |
Единственный дал точный ответ |
|
Задание 3 |
★★★★★ |
★★★★☆ |
★★★★★ |
Ничья |
Задача принципиально неоднозначна |
|
Задание 4 |
★☆☆☆☆ |
★★★★★ |
★★★★★ |
ChatGPT 5.2, Claude 4.6 |
Оба выдали корректное решение |
|
Задание 5 |
★★★★☆ |
★★★☆☆ |
★★★★★ |
Claude Opus 4.6 |
Лучший геймдизайн и реализация |
|
Итого |
16 |
22 |
24 |
Claude Opus 4.6 |
Если смотреть по очкам, в лидеры вырвались ChatGPT 5.2 и Claude Opus 4.6. Но они лидируют по-разному: первый сильнее в универсальности и мультимодальности, а второй – в глубине рассуждений, коде и креативных механиках. Gemini 3 Pro пока ещё играет в другую игру – про контекст, масштаб и мультимодальное будущее, которое ещё не полностью раскрылось в наших тестах.
Главный вывод: сегодня важнее выбрать не лучшую модель вообще, а лучшую модель под конкретную задачу. Модели разошлись по специализациям так же сильно, как когда-то разошлись языки программирования – и это как будто осознанная стратегия компаний.
Резюмируя
Выводы сделаны, но история продолжается. Пока гиганты готовят новые версии, лучший способ разобраться – личный опыт. Все модели доступны для тестирования, и у вас есть отличный шанс проверить их на своих проектах. Тестируйте, выбирайте и побеждайте уже сегодня!
Спасибо, что прошли этот путь до конца! А теперь очередь за вами. Что думаете вы? С кем из этих гигантов вы чаще всего сверяете часы в решении сложных задач? Чей подход вам ближе – практичный, философский или масштабный? Делитесь вашим опытом и фаворитами в комментариях!