Новости ChatGPT

Kimi K2.5 вошла в тройку лучших ИИ для дизайна — первая открытая модель на этом уровне

Китайская Kimi K2.5 от Moonshot AI вошла в топ-3 общего рейтинга Design Arena — краудсорсингового бенчмарка, где пользователи вслепую сравнивают результаты генерации интерфейсов. Модель набрала 1349 Elo, оказавшись на уровне с Gemini 3 Pro (1349) и Claude Opus 4.5 (1344). Это первый случай, когда открытая модель поднялась на уровень флагманов Google и Anthropic в этом рейтинге.

Design Arena работает по принципу слепого голосования: пользователи выбирают лучший дизайн из нескольких вариантов, не зная, какая модель их сгенерировала. За время существования бенчмарка накоплено более 743 000 голосов.

Впрочем, у результата Kimi K2.5 есть оговорка: модель участвовала всего в 1 208 сравнениях с погрешностью ±2,7%, тогда как у Gemini — 15 722 сравнения (±0,7%), у Claude — 10 551 (±0,9%). При таком разрыве в данных разница в несколько пунктов Elo может оказаться статистическим шумом.

Moonshot AI — пекинский стартап с оценкой $4,8 млрд, среди инвесторов — Alibaba и Tencent. K2.5 вышла 27 января и позиционируется как мультимодальная модель с фокусом на генерацию кода по изображениям и видео. Модель распространяется не только онлайн и через API, но и в виде открытых весов, доступных для скачивания.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.