Alibaba анонсировала Qwen3-TTS-VD-Flash и Qwen3-TTS-VC-Flash: модели для синтеза и клонирования голоса

Alibaba представила две новые модели: Qwen3-TTS‑VD‑Flash (VoiceDesign) и Qwen3-TTS‑VC‑Flash (VoiceClone). Первая — это конструктор речи «из ничего» по текстовому описанию, а вторая — инструмент для клонирования любого голоса по крошечному аудиообразцу.

Модель Qwen3-TTS‑VC‑Flash претендует на то, чтобы серьёзно упростить жизнь. Ей требуется всего 3 секунды аудиозаписи целевого голоса, чтобы начать воспроизводить речь с его тембром. Модел делает это на десяти языках, что открывает двери для мультиязычного контента и локализаций.

Alibaba уверяет, что VC‑Flash демонстрирует более низкий процент ошибок в мультиязычных тестах по сравнению с такими известными конкурентами, как ElevenLabs и MiniMax. А ещё она умеет обрабатывать сложные тексты и, что довольно забавно, имитировать звуки животных.

Если же вам нужен синтез новой речи, в дело вступает Qwen3-TTS‑VD‑Flash. Разработчики утверждают, что по некоторым тестам модель превосходит API GPT-4o mini‑tts, а также Gemini 2.5 Pro.

Как и в случае GPT-4o mini‑tts, в модели VD‑Flash вместо выбора из предустановленных голосов вы проектируете уникальный вокальный идентификатор с нуля. Например, промпт, описывающий характер голоса, может быть таким: Male, middle-aged, booming baritone - hyper-energetic infomercial voice with rapid-fire delivery and exaggerated pitch rises, dripping with salesmanship..

Поддерживаемые языки моделей VD‑Flash и VC‑Flash: китайский, русский, английский, немецкий, итальянский, португальский, испанский, японский, корейский, французский.

Ссылки по теме:

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

---
2025-12-23

Что такое Gemini

Регистрация Gemini в России: Полное Руководство

Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Как я решил вкатиться в Android разработку через вайбкодинг. Часть 2. Ну или разработка мобильного приложения через ИИ

Open Source-джентльмены 2026: Обзор самых ярких GitHub-проектов, определивших начало года

Пользователи Google TV столкнулись с проблемой после внедрения голосового помощника Gemini

Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

Как за сутки обойти миллиард веб-страниц

Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю

Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт

Кому принадлежит Gemini?
Как работает Gemini?
Является ли Gemini точным?
Может ли Gemini помочь с конкретными задачами или вопросами?
Является ли Gemini бесплатным сервисом?
Можно ли использовать Gemini на мобильных устройствах?
Доступен ли Gemini на разных языках?
Как начать работу с Gemini?

Обновления new

Войти в Gemini: быстрый и безопасный доступ к вашему ИИ-помощнику ^2025-09-08
Исследуйте возможности Gemini, передового ИИ от Google, созданного для преобразования вашей работы и творчества.

Что такое Gemini ^2025-08-31
Gemini — это революционная разработка в области искусственного интеллекта, созданная компанией Google. Этот многофункциональный ИИ-помощник

Регистрация Gemini в России: Полное Руководство ^2025-08-31
Gemini — это многофункциональный искусственный интеллект, способный генерировать тексты, переводить языки, писать код, анализировать данные и многое