Qwen3-Omni-Flash: китайская модель догнала Gemini 2.5 Pro по аудио — и стоит в 3 раза дешевле

Alibaba выпустила обновленную версию Qwen3-Omni-Flash — мультимодальную модель, которая понимает текст, изображения, аудио и видео, а также отвечает голосом в реальном времени. По ключевым аудио-бенчмаркам она догоняет Gemini 2.5 Pro и обгоняет GPT-4o (до сих пор используется как основной голосовой ассистент в ChatGPT).

На распознавании речи (ASR) Qwen3-Omni-Flash показывает ошибку 2,74% на английском и 2,19% на китайском — это лучше, чем у Gemini 2.5 Pro (2,94% и 2,71%) и GPT-4o (3,32% и 2,44%). На сложных задачах вроде распознавания вокала в песнях разрыв ещё заметнее: 5,85% у Qwen против 9,85% у Gemini и 11,87% у GPT-4o. По мультиязычному бенчмарку Fleurs (19 языков) GPT-4o пока впереди (4,48%), но Qwen (5,31%) обходит Gemini (5,55%). На видео-задачах картина похожая: по длинным видео (MLVU) Qwen набирает 75,7 против 64,6 у GPT-4o, а на аудиовизуальных бенчмарках вроде WorldSense и VideoHolmes обгоняет Gemini 2.5 Flash.

Число поддерживаемых голосов в обновлении выросло с 17 до 49 — это не просто разные тембры, а полноценные "персонажи" с разным характером, возрастом и манерой речи. Языков озвучки теперь 10: английский, китайский, французский, немецкий, русский, итальянский, испанский, португальский, японский и корейский. Для распознавания речи поддерживаются 19 языков, включая арабский, турецкий, вьетнамский и кантонский. Также Alibaba отмечает "значительное улучшение способности следовать инструкциям" — модель лучше понимает промпты и системные настройки.

По цене Qwen3-Omni-Flash заметно выгоднее конкурентов: $0,43 за миллион входных токенов и $2 за миллион выходных. Для сравнения: GPT-4o стоит $2,50 и $10, Gemini 2.5 Pro — от $1,25 до $2,50 на входе и $10–15 на выходе. Получается разница в 3–5 раз. При этом контекстное окно — около 65 тысяч токенов в режиме рассуждений и 49 тысяч в обычном. В отличие от многих других моделей, эта версия доступна только через Qwen API и сервисы Alibaba Cloud, а вот открытые веса не выпущены.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

---
2025-12-11

Что такое Gemini

Регистрация Gemini в России: Полное Руководство

Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Как я решил вкатиться в Android разработку через вайбкодинг. Часть 2. Ну или разработка мобильного приложения через ИИ

Open Source-джентльмены 2026: Обзор самых ярких GitHub-проектов, определивших начало года

Пользователи Google TV столкнулись с проблемой после внедрения голосового помощника Gemini

Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

Как за сутки обойти миллиард веб-страниц

Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю

Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт

Кому принадлежит Gemini?
Как работает Gemini?
Является ли Gemini точным?
Может ли Gemini помочь с конкретными задачами или вопросами?
Является ли Gemini бесплатным сервисом?
Можно ли использовать Gemini на мобильных устройствах?
Доступен ли Gemini на разных языках?
Как начать работу с Gemini?

Обновления new

Войти в Gemini: быстрый и безопасный доступ к вашему ИИ-помощнику ^2025-09-08
Исследуйте возможности Gemini, передового ИИ от Google, созданного для преобразования вашей работы и творчества.

Что такое Gemini ^2025-08-31
Gemini — это революционная разработка в области искусственного интеллекта, созданная компанией Google. Этот многофункциональный ИИ-помощник

Регистрация Gemini в России: Полное Руководство ^2025-08-31
Gemini — это многофункциональный искусственный интеллект, способный генерировать тексты, переводить языки, писать код, анализировать данные и многое