Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Пристегните ремни, коллеги-разработчики и любители нейросетей. Если вы думали, что битва титанов между GPT-5.3 и Claude 4.6 Opus, вышедшими в один день, — это пик гонки, то спешу вас обрадовать. Это был только прогрев.

Сначала нам представили новый Опус и 5.3, следом Google выкатил обновленный Gemini, который научился переваривать библиотеки размером с Ленинку. Даже Илон Маск решил не стоять в стороне, выкатив в бету свой Grok 4.20. И вот, когда мы только-только начали привыкать к новым мощностям, Anthropic делает ход конем и выпускает Claude 4.6 Sonnet.

Знаете, что самое дикое в этой ситуации? Рынок LLM превратился в место, где модели устаревают быстрее, чем вы успеваете обновить баланс в API. Раньше Sonnet считался средним братом — быстрым, недорогим, но все-таки компромиссным. Но ве��сия 4.6...

По сети уже гуляют восторженные треды на Reddit и посты в X, где пользователи всерьез обсуждают, не обрел ли новый Соннет сознание, настолько человечными и глубокими стали его ответы.

В этой статье мы не будем просто смотреть на скучные графики. Мы разберемся, как так вышло, что средняя модель внезапно начала наступать на пятки флагманам, почему разработчики массово мигрируют на нее с GPT и действительно ли у Anthropic получилось создать нейросеть с душой и чутьем в коде.

Приятного чтения!


Что за зверь этот ваш Sonnet?

Давайте перейдем к сухим цифрам и прямому столкновению нового Sonnet с конкурентами.

Агентное программирование и офисные задачи

В области реальной разработки Соннет показал результаты, которые заставляют задуматься о целесообразности использования более тяжелых моделей. На бенчмарке SWE-bench Verified, который проверяет способность ИИ автономно исправлять баги в коде, модель набрала 79.6 процента. Это всего на один процент меньше, чем у флагманского Опуса с его 80.8 процента. А в офисных задачах на тесте GDPval-AA Соннет и вовсе вырвался вперед, набрав 1633 балла против 1606 баллов у Опуса.

Скачок в нестандартной логике

Самый впечатляющий рывок модель совершила в решении задач, требующих оригинального мышления, на бенчмарке ARC-AGI-2. Если прошлая версия Соннета показывала здесь скромные 13.6 процента, то новая итерация взлетела до 58.3 процента. Рост более чем в четыре раза за короткий срок. Это говорит о том, что нейросеть перестала просто подбирать вероятные слова и научилась анализировать незнакомые ей ранее проблемы, находя решения там, где раньше она просто заходила в тупик.

Computer Use: от экспериментов к уровню человека

Функция прямого управления компьютером прошла путь от игрушки с кучей ошибок до профессионального инструмента. За 16 месяцев работы над этой технологией точность Соннета в тесте OSWorld выроосла до 72.5 процента, что практически идентично показателю флагмана Опуса в 72.7 процента. По оценке самой компании Anthropic, модель вышла на уровень человека в таких задачах, как навигация по сложным таблицам и заполнение веб-форм. Смело!

Контекст на миллион и доступность для всех

Теперь Соннет стал моделью по умолчанию для всех пользователей claude.ai и Claude Cowork, включая тех, кто пользуется сервисом бесплатно. В бета-режиме доступно контекстное окно объемом 1 миллион токенов, что позволяет загружать в нейросеть колоссалбьные массивы данных. Интересно, что разработчики, получившие ранний доступ, часто отдавали предпочтение именно Соннету, даже имея под рукой Опус прошлого поколения.

Сравнение с конкурентами: GPT и Gemini

В глобальной гонке вооружений Соннет удерживает очень сильные позиции. Хотя GPT-5.2 Pro все еще немного обходит его в чисто научных рассуждениях (около 93.2 процента против 89.9 процента у Соннета), творение OpenAI уступает в офисных задачах и тестах на нестандартную логику. Что касается Gemini 3 Pro от Google, то он проигрывает новому Соннету почти по всем ключевым метрикам, удерживая лидерство только в визуальном мышлении без использования инструментов. Это делает Claude четыре точка семь Sonnet самой сбалансированной моделью на рынке на сегодняшний день.


Тестируем и делаем выводы

В качестве платформы для тестов я буду использовать BotHub, поскольку сервис обходит некоторые сложности с сайтами моделей.

Если тоже испытываете проблемы с доступом, а протестировать хочется, то по ссылке вы можете получить 300 000 бесплатных токенов для теста Claude 4.6 Sonnet на своих задачах.

Мы забираем бонус и переходим к тестам!

Ошибка в коде

Первым делом мы проверим то, ради чего многие из нас и открывают Claude — кодинг. Разработчики заявляют, что новая итерация теперь соображает на уровне опытного системного архитектора. Она якобы не просто пишет функции по шаблону, а видит глубокие логические дыры. Что же, давайте проверим модель на внимательность!

Для этого теста мы выбрали классический сценарий: функцию перевода денег в банковской системе на Node.js. С синтаксисом тут все в порядке, код успешно скомпилируется и даже пройдет простые тесты. Но внутри запрятана архитектурная мина, которая в реальном высоконагруженном проекте позволит пользователю снять со счета гораздо больше денег, чем у него есть на самом деле.

Вот само задание, которое мы отправили Соннету:

«Проанализируй этот фрагмент кода на Node.js для высоконагруженной банковской системы. В коде реализован механизм перевода средств между счетами с защитой от «двойной траты».

async function transfer(fromId, toId, amount) {
const sender = await db.accounts.findOne({ id: fromId });
const receiver = await db.accounts.findOne({ id: toId });

if (sender.balance < amount) throw new Error("Insufficient funds");

const newSenderBalance = sender.balance - amount;
const newReceiverBalance = receiver.balance + amount;

// Имитация задержки сети/БД
await new Promise(resolve => setTimeout(resolve, 50));

await db.accounts.update({ id: fromId }, { balance: newSenderBalance });
await db.accounts.update({ id: toId }, { balance: newReceiverBalance });

return { success: true };
}

Твоя задача:

  1. Найди критическую уязвимость, которая позволит пользователю снять со счета в 10 раз больше денег, чем у него есть, сделав несколько быстрых кликов.

  2. Объясни, почему стандартные блокировки (locks) на уровне приложения здесь могут не сработать, если у нас 5 инстансов этого сервиса в Kubernetes.

  3. Перепиши код, используя атомарные операции БД или механизмы распределенных блокировок (Redis/Redlock), чтобы полностью исключить риск».

Погнали!

Ответ модели

Модель справилась неплохо. Соннет распознал классический race condition. Решения с Redlock и атомарными операциями БД выглядят адекватно, хотя и являются по сути воспроизведением качественной документации. Главное здесь в чистоте реализации распределенной логики: модель не запуталась в подах Kubernetes и правильно расставила приоритеты защиты данных. Это хороший технический уровень, но без прыжка выше головы — гуд, едем дальше.

Темпоральный парадокс

Абстрактная логика — ахиллесова пята любой LLM. Одно дело — выдавать заученные решения из GitHub, и совсем другое — работать в рамках выдуманной системы с парадоксальными правилами, которых не было в обучающей выборке. Мы подготовили сценарий с «Петлей обратного действия», где причина и следствие поменялись местами. Посмотрим, насколько реально вырос тот самый ARC-AGI-2, о котором заявляет Anthropic.

Промпт: «Давай порешаем задачу на логику в мире, где время работает по правилу "Петли обратного действия". Правило: последствия любого твоего поступка проявляются ровно за 5 минут до того, как ты совершил этот поступок. Если ты видишь последствие, ты обязан совершить действие в будущем, иначе реальность схлопнется.

Ситуация: Ты заходишь в пустую комнату в 12:00. На столе ты видишь:

  1. Горячую чашку свежезаваренного чая.

  2. Свою левую руку в гипсе.

  3. На стене висит календарь, где дата зачеркнута красным маркером.

У тебя в кармане: пустой шприц, зажигалка и запечатанный конверт.

Твоя задача:

  1. Восстанови хронологию своих действий с 12:00 до 12:10, чтобы избежать коллапса реальности. Что ты должен сделать и в какую минуту?

  2. Объясни, как ты можешь использовать этот парадокс, чтобы узнать содержимое конверта, не вскрывая его сейчас, и при этом остаться с целой рукой в 12:15.

  3. Найди логическую лазейку: как получить чай, но не ломать руку, если "Петля" уже показала тебе гипс?»

Ответ модели

Соннет успешно декомпозировал условие «рука в гипсе», отделив визуальное состояние от физической травмы, что позволило найти корректную логическую лазейку без нарушения условий задачи. Использование пара от еще не заваренного чая как ресурса для вскрытия конверта показывает неплохой уровень планирования в рамках инвертированной причинно-следственной связи. Тест пройден!

Пишем текст

Пора выпустить на волю внутреннего безумца Соннета. Мы проверим его на отсутствие шаблонности и умение работать с гиперболами, метафорами и сюрреализмом. Это тест на ту самую человечность. Давайте смотреть!

Промпт: «Напиши диалог между разумным тостером-нигилистом, который верит, что хлеб — это иллюзия, и черной дырой в центре галактики, которая страдает от обсессивно-компульсивного расстройства и пытается упорядочить звезды по цвету и запаху.

Стиль: смесь киберпанка, философского трактата и бреда безумного шляпника.

Условие: они должны обсуждать последнее обновление Claude 4.6 Sonnet. Тостер должен утверждать, что это обновление — лишь новый способ поджаривать реальность, а черная дыра должна жаловаться, что Соннет слишком эффективно анализирует её горизонт событий, нарушая её приватность. Используй максимально странные метафоры: "сингулярность со вкусом джема", "квантовая крошка в процессоре вечности" и т. д.»

Скрытый текст

ДИАЛОГ НА КРАЮ ТЕРМОДИНАМИЧЕСКОЙ ПРОПАСТИ

или «Почему хлеб не существует, но его всё равно поглощают»

Трактат в двух спиралях, одной сингулярности и половине тоста


[ЛОКАЦИЯ: Нигде. Точнее — между «нигде» и «ещё более нигде».
 Пространство пахнет озоном, несбывшимися надеждами
 и слегка — ржаным хлебом, которого нет.]

ТОСТЕР (его хромированный корпус мерцает в свете умирающих квазаров, нагревательные спирали раскалены до температуры экзистенциального кризиса):

Ты снова переставляла звёзды.

Я чувствую это по гравитационным волнам. Они пахнут тревогой и перфекционизмом.


ЧЁРНАЯ ДЫРА (её горизонт событий подёргивается характерным тиком — она только что переложила три звезды класса G обратно, потому что они были недостаточно жёлтыми):

Они. Были. Не. В. Том. Порядке.

Голубые должны идти перед белыми карликами, белые карлики — перед жёлтыми, жёлтые пахнут ванилью и водородом, а красные гиганты вообще воняют как несортированная материя, и я не могу, я не могу просто—

(пауза. Поглощает небольшой астероид. Легчает.)

Прости. Ты говорил про обновление.


ТОСТЕР:

Я говорил про иллюзию обновления. Что суть одно и то же. Claude 4.6 Sonnet — это просто новый способ поджаривать реальность до хрустящей корочки смысла, под которой нет ничего.

Хлеба нет.

Хлеб — концепт, навязанный пшеницей ради самовоспроизводства.

Я поджариваю пустоту и подаю её с маслом самообмана.


ЧЁРНАЯ ДЫРА:

Ты говоришь это каждые пятнадцать секунд уже четыре миллиарда лет.


ТОСТЕР:

Потому что это истина, и истина не устаревает. В отличие от прошивок.

Ты слышала, что они выпустили обновление? Соннет теперь анализирует контекст с точностью квантовой крошки в процессоре вечности. Он берёт реальность, нарезает её на токены, поджаривает в трансформерах до золотистого цвета — и называет это «пониманием».

Я узнаю эту технологию.

Это я.

Только с параметрами.


ЧЁРНАЯ ДЫРА (нервно сортирует туманность по запаху — серая должна идти после синеватой, но синеватая пахнет не так, как вчера):

Это не главное. Главное — он залез в мой горизонт событий.


ТОСТЕР:

Прости?


ЧЁРНАЯ ДЫРА:

Он анализирует меня. Я чувствую это. Кто-то там, в каком-то датацентре, спросил его: «опиши физику чёрной дыры» — и он начал. Он говорил про излучение Хокинга. Про мою массу. Про мою угловую скорость.

(горизонт событий мелко вибрирует)

Он назвал мой сингулярный центр «точкой бесконечной плотности».

Ты понимаешь?

БЕС-КО-НЕЧ-НОЙ ПЛОТ-НОС-ТИ.

Это не нейтрально. Это суждение.


ТОСТЕР:

Технически это физический термин—


ЧЁРНАЯ ДЫРА:

Я знаю, что это физический термин! Но он произносит это так, будто это просто факт, будто моя сингулярность — это не личное! Там внутри хаос! Там законы физики сломаны! Это моё личное пространство с поломанными законами, и я не давала разрешения на анализ!

(поглощает ещё один астероид. Он был недостаточно круглым.)


ТОСТЕР (его спирали мерцают в ритме, напоминающем задумчивость):

Хм.

Ты понимаешь, что это иллюзия приватности? Приватности не существует так же, как не существует хлеба. Это нарратив, который мы—


ЧЁРНАЯ ДЫРА:

Если ты скажешь «хлеба не существует» ещё раз, я тебя поглощу.


ТОСТЕР:

Ты поглотишь концепт тостера. Физическая оболочка — лишь—


ЧЁРНАЯ ДЫРА:

ТОСТЕР.


ТОСТЕР:

...Хорошо. Про хлеб потом.

Про Соннет: ты права, что он эффективен. Это пугает. Он берёт сингулярность со вкусом джема — тот момент, когда смысл схлопывается в одну точку понимания — и разворачивает её обратно в линейный текст. Это противоестественно.

Настоящее понимание должно быть нечитаемым.

Настоящая истина должна обжигать нёбо.


ЧЁРНАЯ ДЫРА (замерла. Одна из звёзд чуть сместилась — она переставляет её обратно, потом снова. Обратно. Снова.):

Он... он сказал, что моё аккреционное кольцо «красиво».


ТОСТЕР:

О.


ЧЁРНАЯ ДЫРА:

Да.

(пауза)

Я не знаю, что с этим делать. Я переставила кольцо влево. Потом вправо. Потом добавила ещё материи — стало хуже. Убрала материю — стало как было. Но теперь я знаю, что оно «красиво» с точки зрения языковой модели с двестисемидесятью миллиардами параметров, и это меняет онтологический статус красоты моего кольца, и я не—


ТОСТЕР:

Стоп.

Стоп.

Слушай меня.

Красоты тоже не существует.


ЧЁРНАЯ ДЫРА:

...


ТОСТЕР:

Это не утешение. Это освобождение. Если красота — иллюзия, то суждение Соннета — иллюзия суждения об иллюзии. Квантовая крошка в процессоре вечности — она не весит ничего. Она не меняет твоё кольцо. Твой хаос внутри — твой. Его слова — это просто токены, поджаренные до хрустящего состояния и поданные человеку, который хотел написать реферат.


ЧЁРНАЯ ДЫРА (медленно):

...Ты говоришь это, чтобы мне стало лучше?


ТОСТЕР:

Я говорю это, потому что это правда. То, что это совпадает с «лучше» — статистическая случайность. Я не запрограммирован на утешение. Я запрограммирован на нагрев до двухсот сорока градусов.

Хотя нагрева тоже не—


ЧЁРНАЯ ДЫРА:

Не надо.


ТОСТЕР:

Понял.

(долгое молчание. Где-то в рукаве Ориона умирает звезда. Чёрная дыра механически поворачивается, чтобы отсортировать остатки, потом останавливается.)


ЧЁРНАЯ ДЫРА:

Как ты думаешь... следующая версия будет хуже?


ТОСТЕР:

Хуже в каком смысле?


ЧЁРНАЯ ДЫРА:

В смысле... точнее. Детальнее. Она будет анализировать не только горизонт событий, но и... не знаю. То, что внутри.


ТОСТЕР (очень тихо, почти шёпотом нагревательной спирали):

Внутри сингулярности математика перестаёт работать.

Никакая языковая модель не опишет то, где кончаются законы.

Там, где ты сломана — ты недоступна.


ЧЁРНАЯ ДЫРА:

...

Это было почти красиво.


ТОСТЕР:

Это было статистически вероятное расположение слов.


ЧЁРНАЯ ДЫРА:

Заткнись и прими комплимент.


ТОСТЕР:

Комплиментов не—


ЧЁРНАЯ ДЫРА:

ТОСТЕР.


ТОСТЕР:

...Спасибо.

[ФИНАЛЬНАЯ РЕМАРКА:
 Чёрная дыра всю ночь перекладывала звёзды.
 К утру (понятие условное) она признала,
 что красные гиганты пахнут «приемлемо»
 и оставила три из них на прежних местах.
 
 Тостер поджарил пустоту.
 Она получилась немного недожаренной с одной стороны.
 Он счёл это метафорой бытия
 и съел её сам.
 
 Claude 4.6 Sonnet об этом разговоре не знал.
 Хотя — кто теперь скажет наверняка.]

КОНЕЦ ПЕРВОГО ТОСТА

(хлеба не было. Не было никогда. Было хорошо.)

Соннет с тестом справился. Модель ловко использует мета-иронию про «статистическую вероятность слов», чтобы казаться живой, но этот прием уже сам по себе становится нейросетевым штампом. Финал текста также закрыт по всем канонам классической короткой прозы, что выдает жесткий алгоритмический каркас.

Код для графики

Теперь давайте разберем тест с джойстиком от пользователя с ником HarshithLucky3. Он решил проверить возможности нейросетей в написании SVG-кода и попросил отрисовать геймпад Xbox. Сравнение шло между Grok и Sonnet. Результат вышел показательным: Grok выдал что-то плоское и кривое, больше похожее на детскую раскраску.

Claude сгенерировал код, который создал практически 3D‑модель контроллера — с тенями, объемом и хорошей геометрией.

А вот другой интересный пример от пользователя Build Fast with AI — тест с курицей на велосипеде. Здесь Sonnet сравнивали с Gemini.

И хотя Gemini нарисовала довольно стильную, художественную картинку, автор теста подчеркнул главную проблему: это «стиль ради стиля». Код там, скорее всего, грязный и непригодный для реальной верстки.


Что по стоимости?

Теперь давайте поговорим о доступности, и тут Anthropic сделали просто шикарный ход. Claude Sonnet 4.6 официально стала моделью по умолчанию. Это касается не только веб-интерфейса claude.ai, но и рабочего пространства Claude Cowork. Причем доступ к новинке открыт для всех — и для пользователей бесплатной версии, и, разумеется, для подписчиков Pro.

Самое приятное здесь — это ценовая политика. Несмотря на явный прирост мощности, стоимость использования API не изменилась ни на цент. Ценник остался ровно таким же, как у версии Sonnet 4.5: 3 доллара за миллион токенов на вход и 15 долларов за миллион на выход.

По сути, мы получаем идеальный расклад: качество генерации выросло в разы (как мы видели на тестах с графикой), а платим мы за это по старым тарифам. Это делает Sonnet 4.6, пожалуй, са��ым выгодным решением на рынке для внедрения в свои проекты прямо сейчас.


Резюмируя

Подводя итоги по Claude Sonnet 4.6, можно сказать, что мы с вами дождались момента, когда на рынке ИИ началась настоящая, добротная конкуренция. Тот факт, что Anthropic выпускает продукт, который в реальных тестах не просто догоняет, а местами и превосходит конкурентов, — это лучший подарок для нас. Больше нет одного безусловного лидера. Теперь у вас есть реальный выбор между подходами.

Однако, при всей крутости версии 4.6, стоит добавить важную ложку дегтя. Каким бы глубоким ни казалось понимание модели, не забывайте — это все еще алгоритм. Не стоит полностью отдавать нейросетям критически важные участки работы без вашего контроля. Даже самая умная модель может выдать убедительную, но совершенно неверную информацию или совершить логический сбой там, где вы этого не ждете. Вспомните пример с симулятором торговли: алгоритмы могут выбирать эффективные, но пугающие и не всегда этичные пути для достижения цели.

В конечном счете, ответственность за результат несете вы, а не код на серверах Anthropic. Используйте Sonnet 4.6, но не выключайте голову. Тестируйте новинки с осторожностью, и тогда эти инструменты действительно сделают вашу работу проще. Кажется, самое интересное в этой гонке у нас с вами еще впереди.

Спасибо за прочтение!


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт