Alibaba представила две новые модели: Qwen3-TTS‑VD‑Flash (VoiceDesign) и Qwen3-TTS‑VC‑Flash (VoiceClone). Первая — это конструктор речи «из ничего» по текстовому описанию, а вторая — инструмент для клонирования любого голоса по крошечному аудиообразцу.
Модель Qwen3-TTS‑VC‑Flash претендует на то, чтобы серьёзно упростить жизнь. Ей требуется всего 3 секунды аудиозаписи целевого голоса, чтобы начать воспроизводить речь с его тембром. Модел делает это на десяти языках, что открывает двери для мультиязычного контента и локализаций.
Alibaba уверяет, что VC‑Flash демонстрирует более низкий процент ошибок в мультиязычных тестах по сравнению с такими известными конкурентами, как ElevenLabs и MiniMax. А ещё она умеет обрабатывать сложные тексты и, что довольно забавно, имитировать звуки животных.
Если же вам нужен синтез новой речи, в дело вступает Qwen3-TTS‑VD‑Flash. Разработчики утверждают, что по некоторым тестам модель превосходит API GPT-4o mini‑tts, а также Gemini 2.5 Pro.
Как и в случае GPT-4o mini‑tts, в модели VD‑Flash вместо выбора из предустановленных голосов вы проектируете уникальный вокальный идентификатор с нуля. Например, промпт, описывающий характер голоса, может быть таким: Male, middle-aged, booming baritone - hyper-energetic infomercial voice with rapid-fire delivery and exaggerated pitch rises, dripping with salesmanship..
Поддерживаемые языки моделей VD‑Flash и VC‑Flash: китайский, русский, английский, немецкий, итальянский, португальский, испанский, японский, корейский, французский.
Ссылки по теме:
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!