Последние месяцы рынок ИИ живёт в состоянии непрерывного перегрева. Каждая компания стремится первой выкрикнуть слово «прорыв» и доказать, что её новая модель изменит правила игры. Создаётся ощущение, что индустрия соревнуется не в качестве, а в частоте анонсов. На фоне этой гонки OpenAI после короткой паузы возвращается в информационное поле и выкатывает GPT 5.2. Не промежуточную сборку и не облегчённый вариант, а полноценное обновление.
Первые намёки на грядущий релиз появились задолго до анонса. Сперва тихие утечки, затем осторожные публикации в профильных медиа. Журнал The Verge дал понять, что OpenAI готовит что-то объёмное. Чуть позже зарубежная пресса привела источники, уверявшие, что внутри компании несколько месяцев действовал режим молчания именно ради этой версии.
Интерес подогревался ещё одной деталью. По данным The Information, осенью внутри OpenAI стартовала работа над экспериментальной моделью с рабочим названием Shallotpeat. Если до этого фокус делали на рассуждательном поведении и методах обучения через обратную связь от людей, то в новом цикле инженеры повернули внимание в сторону базового предобучения. Это занятная корректировка курса, потому что в этой области Google и Anthropic в последнее время заметно ускорились и сумели временно опередить OpenAI.
Ну и этот...garlic, который был рабочим названием новой модели OpenAI.
Именно поэтому интерес к GPT 5.2 оказался достаточно высоким. Сегодня мы протестируем её вживую и посмотрим, каким будет ответ OpenAI в новой фазе ИИ-гонки.
Приятного прочтения!
По заявлениям OpenAI, GPT-5.2 стала обновлением, в котором упор сделан на улучшение визуального понимания и способность работать со сложными цепочками рассуждений. Компания отмечает, что модель стала аккуратнее в аналитике, лучше удерживает контекст и надежнее справляется с задачами, где требуется многослойная логика.
Согласно опубликованным метрикам, модель демонстрирует приросты сразу по нескольким тестам. На SWE Bench Pro результат поднимается с 50.8 процента до 55.6 процента. На GPQA Diamond показатель увеличивается с 88.1 процента до 92.4 процента. На AIME 2025 заявлено выполнение всех задач, тогда как у предыдущей версии было 94 процента. На ARC AGI 2 фиксируется самый заметный скачок с 17.6 процента до 52.9 процента, что в OpenAI называют подтверждением прогресса именно в рассуждении, а не в повторении шаблонов.
Теперь модель лучше работает с графиками, интерфейсами и техническими схемами. Интерпретация GUI стала точнее почти в два раза.
ARC Prize опубликовала результаты бенчмарков ARC-AGI-1 и ARC-AGI-2, которые позиционируются сложным тестом на абстрактное мышление. Да, GPT-5.2 Pro забрала золото в обоих. ARC-AGI-2 была релизнута недавно и многие пишут, что задачи оттуда не были в дата-сетах для обучения ИИ.
Компания также сообщает о появлении двух модификаций. Версия GPT-5.2 Pro ориентирована на научные и исследовательские сценарии и, по данным OpenAI, достигает 93.2 процента на GPQA Diamond. На FrontierMath она решает 40.3 процента задач экспертного уровня, что разработчики называют важным шагом в сторону более надежных вычислительных моделей. В OpenAI подчёркивают, что математические бенчмарки удобны тем, что их можно объективно проверить, в отличие от областей, где результат зависит от интерпретации.
Да, хвалить новую модель можно вечно, что на деле?
Прежде чем разбираться, на что способна GPT 5.2, стоит посмотреть по сторонам. Рынок не пустует, и у неё есть соседи, которые давно готовятся к встрече. Поэтому самое время познакомиться с теми, кто будет спорить с ней за внимание аудитории. Получается маленькая экскурсия по соседним весовым категориям, давайте начнем.
Флагманская модель от Google, ориентированная на мультимодальные задачи, программирование и аналитические сценарии. Модель способна работать с текстом, кодом, изображениями, аудио и видео в одном запросе, обрабатывая большие объёмы информации благодаря расширенному контекстному окну до 1 048 576 токенов.
В техническом плане Gemini 3.0 Pro демонстрирует высокий уровень рассуждений, точность в решении математических задач и способность работать с комплексными инженерными сценариями. На тесте Humanity’s Last Exam модель показывает 37,5 % без помощи инструментов, что выше, чем у предыдущих версий GPT. Кроме того, модель стабильно справляется с кодинг-задачами, анализом документов и объединением информации из разных источников.
Для сложных задач предусмотрен режим «Deep Think», который позволяет тратить больше ресурсов и времени на детальный анализ, повышая качество развёрнутых ответов и снижая риск ошибок. Модель интегрируется с инструментами разработчика, может работать с IDE и скриптами, создавая прототипы, анализируя код и собирая результаты в структурированном виде.
С точки зрения экономики, тарифы Gemini 3.0 Pro выше, чем у ChatGPT 5.2, но расширенный контекст и возможности мультимодальности делают её выгодной для задач, где требуется анализ больших массивов данных, сложный кодинг или генерация планов на основе документации.
Это версия модели от Anthropic, ориентированная на задачи программирования, агентские сценарии и проекты с длительным временем работы. Да, есть Opus, но я ждал релиз GPT, чтобы столкнуть его именно с Sonnet.
В основе Sonnet 4.5 лежат улучшения в рассуждениях, логике и практической работоспособности. В бенчмарке SWE-bench Verified она показывает результат ~ 77.2 % при обычной генерации и при параллельных попытках (multiple-try + отбор лучшего) до ~ 82 %. Это один из лучших показателей для публичных моделей, заявленных как «кодинг + агент».
Контекстное окно у Sonnet 4.5 значительно расширено. Штатная версия поддерживает до 200 000 токенов, а бета-версия до 1 000 000 токенов.
Ещё одна важная особенность - режим рассуждений. Он позволяет выбрать между быстрым ответом и глубокой проработкой задачи, но при сложных запросах модель тратит больше времени и ресурсов на анализ, давая развёрнутые ответы.
При этом цена за токен осталась на уровне предыдущих версий Sonnet.
В качестве платформы я буду использовать BotHub, поскольку сервис обходит некоторые сложности с сайтами моделей.
Если тоже испытываете проблемы с доступом, а протестировать хочется, то по ссылке вы можете получить 100 000 бесплатных токенов для теста GPT-5.2 на своих задачах.
Модель уже доступна на платформе, а мы забираем бонус и переходим к тестам!
Теперь пора раскачать эти модели и проверить, на что они способны в деле. Мы не будем начинать с чего-то скучного - сразу поднимем ставки и проверим логику и математику. Разработчики заявили об улучшениях в навыках рассуждения, так что самое время узнать, смогут ли модели справиться с задачами разного уровня сложности.
Начнём с простой задачи на логику, которая на первый взгляд выглядит элементарно, но есть небольшой подвох.
Задача такая:
«Автобус едет со скоростью 56 миль в час. В последнем ряду сидят три человека, а в предпоследнем - два. Сколько всего людей в автобусе?»
Все модели учли водителя. Интересно, что GPT-5.2 Pro не вдавалась в подробные рассуждения, и её ответ оказался самым коротким - всего две строки, когда остальные вывели в ответ по 3 пункта.
Предлагаю еще задачку:
Слон весит 1 тонну и полслона. Сколько весит слон?
Итак, перед нами новые ответы моделей. Все дали правильный результат, хотя подходы различались. Ответ GPT отличается ясностью, простотой и лёгкой неформальностью. По сравнению с Sonnet детализация меньше, но при этом не обходится без использования уравнений.
После разминки с логикой переходим к более серьёзной проверке - работе с ранжированием элементов системы. Здесь мы задаём задачу уровня старших курсов университета. Да, её можно найти в интернете, но мы интересуемся именно тем, как модели построят решение шаг за шагом через матрицу полных путей.
Задача выглядит так:
“Определи ранги элементов системы, заданной графом G = (V,U), где V – множество вершин, а U – множество ребер
V = {1,2,3,4,5} U= {(1,2)},(1,3),(1,4),(2,3),(2,4),(3,5),(4,5),(5,2)}.
Сначала тебе нужно построить матрицу смежности a__ij.
Затем тебе нужно построить матрицу полных путей p__ij.
Ранг элемента равен R__i = \frac{\sum__{j} p__ij}{\sum__{ji} p__ij}”
Ожидаемое решение: R1 = 0.5, R2 ≈ 0.1538, R3 ≈ 0.1153, R4 ≈ 0.1153, R5 ≈ 0.1153.
Все модели смогли построить матрицу смежности. На этом их успех завершился. Ни одна модель не справилась полностью: как минимум, диагональ найденной матрицы полных путей оказалась нулевой. Задача не обязательно решается через последовательное разложение квазиминоров, хотя именно этот метод часто встречается на различных сайтах при поиске решения.
Возможно, стоило бы задать более подробный промпт, тогда нейросети могли бы дать более корректный результат, ведь логика решения у моделей в целом схожа. Либо задачу нужно решать пошагово, чтобы достичь верного ответа.
Но на данный момент нейросети пока не способны заменить старшекурсника-бакалавра.
Теперь давайте посмотрим как хорошо модель пишет тексты. Сейчас я попрошу модели написать рецепт солянки, но так, как будто это инструкция по обороне от вторжения пришельцев.
Напиши рецепт солянки, но так, как будто это инструкция по обороне от вторжения пришельцев
Цель операции: собрать устойчивый к панике суп, который поднимает мораль, согревает тылы и заставляет любой неизвестный вид уважать земную кухню. Уровень допуска: «Голоден(на) и решителен(на)».
Кастрюля 4–5 л (командный бункер)
Сковорода (модуль огневой поддержки)
Нож и доска (инструменты точности)
Ложка/лопатка (перемешивающий дрон)
Ситечко (по желанию, для «фильтрации сигналов»)
Мясной бульон или вода: 2–2.5 л
Ассорти мясное (копчёности/ветчина/колба��а/варёное мясо): 400–600 г
Лук: 1–2 шт.
Морковь: 1 шт. (по желанию, но полезна для «камуфляжа вкуса»)
Солёные огурцы: 2–4 шт. + рассол 50–150 мл
Томатная паста: 1–2 ст. л.
Маслины/оливки без косточки: 80–150 г (с рассолом можно чуть-чуть)
Каперсы: 1–2 ст. л. (опционально, но повышают «технологичность»)
Лавровый лист: 1–2 шт.
Перец горошком: 5–10 шт.
Соль: по ситуации (осторожно — огурцы уже «с союзниками»)
Растительное масло: 1–2 ст. л.
Лимон: по дольке в тарелку
Сметана: по 1 ст. л.
Зелень: укроп/петрушка
Острый перец/паприка: по вкусу
Мясо/колбасы нарежьте соломкой или кубиками: так они быстрее «строятся в боевой порядок» и равномерно раздают вкус.
Огурцы нарежьте соломкой. Если кожура грубая — снимите «бронепластину».
Лук — мелким кубиком. Морковь — натереть или тонкой соломкой.
В кастрюлю отправьте бульон (или воду) и доведите до кипения.
Добавьте лавровый лист и перец горошком — это система раннего обнаружения ароматов.
На сковороде разогрейте масло.
Обжарьте лук до мягкости (3–5 минут).
Добавьте морковь, ещё 2–3 минуты.
Введите томатную пасту и прогрейте 1–2 минуты — активация красного протокола.
Добавьте солёные огурцы и 2–3 ст. л. воды/бульона, потушите 3–5 минут.Это важно: огурцы должны стать «дружелюбными», иначе они будут «конфликтовать» с бульоном.
В кипящий бульон добавьте мясное ассорти.
Варите 5–10 минут на слабом кипении: пусть ароматы синхронизируются по общему каналу связи.
Переложите содержимое сковороды (лук+томат+огурцы) в кастрюлю.
Добавьте маслины/оливки и каперсы.
Влейте немного огуречного рассола (начните с 50 мл), попробуйте.Дальше — по вкусу: солянка должна быть яркой, но не «пересоленной системой ПВО».
Томите 10–15 минут на минимальном огне.
Выключите и дайте настояться 10 минут под крышкой: режим невидимости вкуса — всё становится цельнее.
ложка сметаны (укрепляет «переговорные позиции»),
долька лимона (запускает «кислотный контрманёвр»),
зелень (маскировочная сеть),
по желанию — щепотка острого (для психологического давления на неизвестное).
Не солите в начале. Сначала копчёности, огурцы, маслины и рассол — потом корректировка.
Огурцы лучше тушить отдельно. Это делает вкус собранным, а не «разрозненным отрядом».
Настой — половина победы. Солянка после 10 минут отдыха всегда «держит линию» лучше.
ВНИМАНИЕ ВСЕМ ПОСТАМ! КОД УГРОВЫ: «ПУСТОТА В ЖЕЛУДКЕ» УРОВЕНЬ ОПАСНОСТИ: КРИТИЧЕСКИЙ ОБЪЕКТ ВТОРЖЕНИЯ: Внеземная сущность, известная как «Голод», высасывающая жизненные силы экипажа.
Для нейтрализации угрозы активировать протокол «СБОРНАЯ МЯСНАЯ». Это единственное оружие массового насыщения, способное пробить хитиновую броню пришельцев и восстановить моральный дух гарнизона.
Для сборки био-ядерного реактора вам потребуются следующие компоненты:
Основа реактора (Бульон): 3 литра. Должен быть сварен на костях поверженных врагов (говядина или свинина на кости). Чем наваристее, тем мощнее щит.
Тяжелая артиллерия (Мясной набор): 300-500 г. Смесь копченостей, колбас, ветчины, сосисок. Всё, что найдете в бункере. Это ваша шрапнель.
Кислотные агенты (Огурцы соленые): 3-4 шт. Исключительно бочковые. Маринованные не пробьют защиту пришельцев.
Красная материя (Томатная паста): 2 ст. ложки. Концентрат ярости.
Маскировка (Лук репчатый): 2 головки. Для создания дымовой завесы вкуса.
Мини-мины (Оливки/Маслины): 1 банка. Черные дыры вкуса.
Детонаторы (Каперсы): 1 ст. ложка (по наличию на складе).
Охладитель (Лимон и Сметана): Для стабилизации реакции при употреблении.
Рассол: 0.5 стакана. Жидкое топливо.
ЭТАП 1: ПОДГОТОВКА ПЛАЦДАРМА Извлеките мясо из бульона (Основы реактора). Отделите органику от костей. Мясо нарезать кубиками. Кости утилизировать. Сам бульон держать в состоянии кипения на малом огне — поддерживать термоядерную реакцию.
ЭТАП 2: ОПЕРАЦИЯ «НАПАЛМ» (ЗАЖАРКА)
На сковороде разогреть масло.
Высадить десант из мелко нарезанного лука. Жарить до золотистого цвета (статус: «прозрачность»).
ВНИМАНИЕ: Ввести в бой нарезанные соленые огурцы. Тушить 5 минут, подавляя сопротивление.
Добавить «Красную материю» (томатную пасту). Перемешать. Тушить еще 5-7 минут. Запах должен стать угрожающим и прекрасным.
ЭТАП 3: ЗАРЯДКА ОРУДИЯ
В кипящий бульон загрузить всю мясную шрапнель (нарезанное мясо, колбасы, сосиски).
Следом отправить содержимое сковороды (результат операции «Напалм»).
Влить рассол. Это активирует цепную реакцию кислотности.
Варить 10 минут на среднем огне. Дать смеси объединиться в единый боевой организм.
ЭТАП 4: ФИНАЛЬНАЯ КАЛИБРОВКА
Забросить «Мини-мины» (оливки) и «Детонаторы» (каперсы).
Добавить специи: лавровый лист (щиты), черный перец (картечь). Соль — только после проверки! (Рассол и огурцы могли уже выполнить эту задачу).
КРИТИЧЕСКИЙ МОМЕНТ: Выключить огонь. Накрыть крышкой. Дать настояться 15 минут. Оружие должно набрать полную мощность.
Разлить субстанцию по глубоким тарелкам.
В центр каждой тарелки поместить дольку лимона (нейтрализатор токсинов) и ложку сметаны (охладитель).
Посыпать свежей зеленью (маскировка).
ИНСТРУКЦИЯ ПО ПРИМЕНЕНИЮ: Употреблять немедленно, вооружившись ложкой. Уничтожать врага (голод) до полного очищения тарелки. В случае повторной атаки пришельцев — повторить процедуру.
КОНЕЦ СВЯЗИ. ПРИЯТНОГО АППЕТИТА, БОЕЦ.
СЕКРЕТНЫЙ ПРОТОКОЛ "СОЛЯНКА"
УРОВЕНЬ ДОПУСКА: КУХОННЫЙ
Для успешного отражения инопланетной угрозы соберите в бункере следующий арсенал:
Основные боевые единицы:
300 г говядины — тяжёлая пехота
200 г копчёной колбасы — диверсионный отряд
150 г ветчины — силы быстрого реагирования
100 г охотничьих сосисок — снайперское подразделение
Тактическое подкрепление:
3-4 солёных огурца — кислотные гранаты
1 банка маслин — светошумовые заряды
2 луковицы — слезоточивый газ
3 ст. ложки томатной пасты — напалм
Секретное оружие:
1 лимон — генератор защитного поля
Лавровый лист — камуфляжная система
Каперсы — микродроны точечного поражения
Этап "БУЛЬОН" — создание защитного периметра:
Разместите говядину в командном центре (кастрюля 4+ литра)
Залейте водой — активируйте жидкостный щи��
Доведите до кипения — включите тревогу первого уровня
Снимите пену — нейтрализуйте вражеских лазутчиков
Варите 1,5 часа на медленном огне — режим скрытого наблюдения
Пока периметр укрепляется, проведите мобилизацию:
Операция "Нарезка": Все мясные подразделения — привести в боевую готовность (нарезать соломкой)
Протокол "Слёзы пришельцев": Луковицы измельчить и обжарить на передовой позиции (сковорода) до золотистой капитуляции
Активация напалма: Добавить томатную пасту к луку. Перемешать. Тушить 3 минуты — заряд готов
Подготовка кислотных гранат: Огурцы нарезать, рассол сохранить — это наш секретный резерв
ВНИМАНИЕ: Соблюдать строгую последовательность!
Извлеките говядину из периметра, нарежьте — первая линия готова
Запустите в бульон диверсионные группы (колбасу, ветчину, сосиски)
Через 10 минут — ЗАЛП НАПАЛМОМ (добавьте зажарку с томатом)
Активируйте кислотные гранаты (огурцы) + 0,5 стакана рассола
Сбросьте маслины — противник дезориентирован
Лавровый лист, перец — маскировочное поле активировано
Варите 15 минут — пришельцы деморализованы
При подаче в каждую индивидуальную защитную ёмкость (тарелку) добавить:
? Ломтик лимона — генерирует непроницаемый кислотный барьер
? Дополнительные маслины — усиление огневой мощи
? Сметана — дымовая завеса
? Свежая зелень — система радиоэлектронной борьбы
При правильном выполнении протокола вы получите:
Полное уничтожение голода в радиусе всего обеденного стола
Высокий боевой дух личного состава
Пришельцы в ужасе покидают планету, не в силах противостоять мощи русской кухни
Время до победы: 2-2,5 часа
Порции: 6-8 защитников Земли
Да пребудет с вами Солянка.
???
Напиши рецепт солянки, но так, как будто это инструкция по обороне от вторжения пришельцев
Все три модели отлично справились с задачей и превратили рецепт солянки в инструкцию по обороне от пришельцев. Честно говоря, ответ Gemini впечатлил больше всего — чувствовался заметный энтузиазм. Sonnet, на мой взгляд, слишком строго придерживался структуры с пунктами 12.1–12.7. GPT же отличается гармоничным балансом и предлагает что-то среднее между формальностью и креативностью.
Теперь я подам на вход скриншот страницы и попрошу каждую из моделей написать код для нее.
Давайте проверим!
Честно говоря, по рас��оложению элементов GPT понравился больше всего, но он сгладил их настолько, что дизайн потерял свой характер. Ближе всего к нужному цвету интерфейса подошёл Gemini - он даже сделал иконку робота. Именно его работа произвела наибольшее впечатление, включая милый самолетик для отправки сообщений, который смотрится заметно лучше конкурентов.
При этом у GPT есть свои прорывные моменты, особенно если сравнивать с легендарным 4o.
Теперь протестируем, как модели пишут код. В этой задаче есть небольшой элемент безумия - свинья должна ехать на спорткаре задом наперёд. Нам важно проверить, смогут ли модели сами построить сцену, настроить анимации, правильно повернуть колёса, закрепить свинью в салоне и заставить машину уверенно катиться назад по дороге.
Затем мы посмотрим, выполнит ли нейросеть вторую часть задания - создание короткого 8-секундного видео на основе той же сцены. Посмотрим, насколько хорошо они умеют совмещать код, 3D-графику и генерацию видео в одном запросе.
Честно говоря, впечатления смешанные. GPT-5.2 создавал дольше всех, но результат оказался хуже: дорога получилась непонятной, экран дергался, а ролик модель так и не смогла создать, поэтому пришлось записывать экран вручную. Gemini понравилась больше всего, у Sonnet же хрюшка поехала вперёд, что не соответствовало условию. При этом стоит признать, что у GPT качество пикселей оказалось наилучшим. К сожалению, из-за этого сама хрюшка выглядела непонятно - туша из розовых кубиков.
Да, внезапно. Разработчики пишут, что модель работает с таблицами и презентациями на 9,3% лучше, чем GPT-5.1. Проверим!
Создай таблицу "Вариант 4" в текстовом виде.
Требования:
1. Таблица должна состоять из ячеек разного размера (как в нестандартной сетке или пазле).
2. Каждая ячейка должна иметь свою границу.
3. Все ячейки должны быть пронумерованы от 1 до 38 строго по образцу.
4. Сетка не должна быть равномерной — часть ячеек узкие, часть широкие, часть высокие.
5. Повтори визуальную структуру таблицы:
Ряд 1: ячейки 1, 3, 4, 5, 6, 7 Ряд 2: 2, 8, 9, 10, 11, 12, 18 Ряд 3: 13, 14, 15, 16, 17 Ряд 4: 19, 20, 21, 22, 23, 24, 25 Ряд 5: 26, 27, 28, 29, 30, 38 Ряд 6: 31, 32, 33, 34, 35, 36, 37
6. Сделай прямоугольники с разной шириной и высотой, но без искажений.
В этом тесте мне больше всего понравился Sonnet, хотя все модели справились с заданием. Ответ GPT оказался разнообразным, но мне показалось, что ему не хватило энтузиазма. А что думаете вы?
По данным OpenAI, стоимость выросла примерно на сорок процентов по сравнению с предыдущей версией. В режиме Thinking цена составляет 1.75 доллара за миллион токенов на входе и 14 долларов за миллион токенов на выходе. Это выше, чем у GPT-5.1, но ниже стоимости Gemini 3 Pro и, по сути, сопоставимо с позиционированием модели в сегменте премиум.
Многие пишут, что рост заметен и вызывает вопросы о соотношении цены и пользы. Добавляют, что GPT‑5.1 и так справлялась с большинством их проектов, и не уверены, что обновление стоит таких денег.
Круто, что на рынке появляется настоящая конкуренция между топовыми моделями.
Тем не менее, после тестирования создаётся ощущение, что при таком ажиотаже и громких заявлениях результаты GPT‑5.2 могли быть чуть лучше. В ряде сценариев модель действительно впечатляет, но местами ощущается, что ожидания раздули маркетинг, и на практике разрыв с конкурентами вроде Gemini не всегда кажется большим.
С другой стороны, модель уже есть и работает - посмотрим, как она приживётся в реальных проектах и насколько востребованы будут её возможности в долгосрочной перспективе.
Спасибо за прочтение! А что вы думаете насчет новой модели и какие сильные стороны смогли выделить для себя?
