Alibaba выпустила обновленную версию Qwen3-Omni-Flash — мультимодальную модель, которая понимает текст, изображения, аудио и видео, а также отвечает голосом в реальном времени. По ключевым аудио-бенчмаркам она догоняет Gemini 2.5 Pro и обгоняет GPT-4o (до сих пор используется как основной голосовой ассистент в ChatGPT).
На распознавании речи (ASR) Qwen3-Omni-Flash показывает ошибку 2,74% на английском и 2,19% на китайском — это лучше, чем у Gemini 2.5 Pro (2,94% и 2,71%) и GPT-4o (3,32% и 2,44%). На сложных задачах вроде распознавания вокала в песнях разрыв ещё заметнее: 5,85% у Qwen против 9,85% у Gemini и 11,87% у GPT-4o. По мультиязычному бенчмарку Fleurs (19 языков) GPT-4o пока впереди (4,48%), но Qwen (5,31%) обходит Gemini (5,55%). На видео-задачах картина похожая: по длинным видео (MLVU) Qwen набирает 75,7 против 64,6 у GPT-4o, а на аудиовизуальных бенчмарках вроде WorldSense и VideoHolmes обгоняет Gemini 2.5 Flash.
Число поддерживаемых голосов в обновлении выросло с 17 до 49 — это не просто разные тембры, а полноценные "персонажи" с разным характером, возрастом и манерой речи. Языков озвучки теперь 10: английский, китайский, французский, немецкий, русский, итальянский, испанский, португальский, японский и корейский. Для распознавания речи поддерживаются 19 языков, включая арабский, турецкий, вьетнамский и кантонский. Также Alibaba отмечает "значительное улучшение способности следовать инструкциям" — модель лучше понимает промпты и системные настройки.
По цене Qwen3-Omni-Flash заметно выгоднее конкурентов: $0,43 за миллион входных токенов и $2 за миллион выходных. Для сравнения: GPT-4o стоит $2,50 и $10, Gemini 2.5 Pro — от $1,25 до $2,50 на входе и $10–15 на выходе. Получается разница в 3–5 раз. При этом контекстное окно — около 65 тысяч токенов в режиме рассуждений и 49 тысяч в обычном. В отличие от многих других моделей, эта версия доступна только через Qwen API и сервисы Alibaba Cloud, а вот открытые веса не выпущены.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.