Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5
Claude Opus 4.6 занял два первых места на Design Arena — бенчмарке, где пользователи вслепую сравнивают фронтенд, сгенерированный разными ИИ-моделями. Интересно, что лидером оказалась модель без режима рассуждений, которая набрала 1385 баллов Elo. Версия с режимом рассуждений (Thinking) пришла второй с 1377 — интересный кейс, который показывает, что в случае с моделями Claude "дороже" не всегда знеачит "лучше". На пятом месте расположился предшественник Claude Opus 4.5 с 1338 баллами. Между ними вклинились Kimi K2.5 и Gemini 3 Pro Preview — обе с 1344 баллами.
Design Arena работает по принципу "нравится или нет": платформа показывает два анонимных варианта сайта, UI-компонента или визуализации данных, созданных по одному и тому же промпту, — и пользователь голосует за лучший. На момент публикации результатов набрано более 806 тысяч голосов. Бенчмарк запустил стартап Arcada Labs из акселератора Y Combinator — его основали выпускники Гарварда Грейс Ли, Камрин Оули и Джейден Персоннат.
Распределение результатов Claude Opus 4.6 по 145 турнирам показывает устойчивое доминирование: модель финишировала первой в 72 случаях, второй — в 38, третьей — в 19 и четвертой — в 16. GPT-5.2 от OpenAI в общем рейтинге оказалась только на 11-м месте (1277 баллов в варианте XHigh), а GPT-5 (High) — на 19-м с 1263 баллами.
Результат особенно показателен на фоне того, что ещё год назад именно слабый дизайн считался ахиллесовой пятой языковых моделей: код работал, но результат выглядел так, что пользователи узнавали "руку ИИ" с первого взгляда. Основатели Design Arena признавались, что именно это наблюдение подтолкнуло их создать бенчмарк — модели застряли в "зловещей долине" дизайна, штампуя одинаковые фиолетовые градиенты и скругленные углы. Судя по текущему лидерборду, как минимум Claude из этой долины выбрался.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.