Google официально расширил функциональность своего Gemini API, добавив полноценную генерацию речи на основе искусственного интеллекта. Теперь разработчики могут превращать текстовые ответы моделей Gemini в реалистичный голос, который звучит естественно и близко к человеческой речи. Это важное обновление, потому что раньше такие возможности требовали подключения отдельных TTS‑сервисов или внешних библиотек. С новым API разработчики получают готовый голосовой интерфейс, который можно использовать прямо в своих приложениях, сервисах и устройствах.
Новая система синтеза речи поддерживает множество языков и акцентов. Это позволяет создавать голосовые интерфейсы не только на английском, но и на других международных языках. В настройках можно выбирать параметры озвучивания, такие как стиль голоса, тембр, скорость и выразительность, чтобы адаптировать звучание под конкретные задачи. Например, голосовой помощник для навигации может звучать энергично и ясно, а образовательное приложение может использовать более спокойный и мягкий голос для объяснений.
Работа с генерацией звука осуществляется через стандартные REST‑вызовы к Gemini API. Разработчик передаёт текст и параметры желаемого голоса, а сервис возвращает готовый аудиофайл. Это значительно упрощает интеграцию, поскольку нет необходимости вручную настраивать аудио‑движки или конвертировать форматы. Полученный звуковой файл можно сразу воспроизводить пользователю в веб‑ или мобильном приложении, умном устройстве или любой платформе с поддержкой аудио.
Google в документации отмечает, что синтез речи ориентирован на понятность и естественное звучание, но при работе с очень специфическими терминами или узкоспециальной лексикой возможны ошибки в произношении. Для таких случаев предусмотрены инструменты тонкой настройки, которые позволяют корректировать результат на уровне фонетики. Это важно для медицинских приложений, обучения или других профессиональных сфер, где точность звукового вывода имеет значение.
Добавление речь‑генерации в Gemini API делает платформу ещё более универсальной. Теперь разработчики могут создавать мультимодальные ИИ‑приложения, где ИИ не только отвечает на вопросы текстом, но и произносит ответы вслух. Это особенно полезно для голосовых ассистентов, умных устройств, образовательных продуктов, навигационных систем, игр и приложений для людей с ограниченными возможностями, которым важно слышать, а не только читать ответ.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!