Google выпустила новый голосовой ИИ на Gemini: в тестах он помог оформить 14 000 ипотечных кредитов

Google выпустила новый голосовой ИИ на Gemini: в тестах он помог оформить 14 000 ипотечных кредитов

Google выпустила Gemini 2.5 Flash Native Audio — обновленную модель для голосовых агентов, которая обходит OpenAI gpt-realtime в бенчмарке сложных функциональных вызовов. Модель уже работает в продуктах компании и доступна разработчикам.

На тесте ComplexFuncBench Audio, который измеряет способность модели выполнять многошаговые вызовы функций с ограничениями, Gemini 2.5 Flash Native Audio набрала 71,5% — против 66,5% у gpt-realtime от OpenAI. Google также заявляет о 90% точности следования инструкциям разработчика (было 84%) и улучшенном удержании контекста в многоходовых диалогах. По словам компании, модель лучше понимает, когда нужно вызвать внешнюю функцию, и встраивает результаты обратно в разговор без потери естественности.

Модель уже развернута в голосовом режиме приложения Gemini и Search Live — поиск Google впервые получил нативное аудио вместо каскадной архитектуры «распознавание → LLM → синтез». Для разработчиков Gemini 2.5 Flash Native Audio доступна в Google AI Studio и Vertex AI (GA), а также в Gemini API в режиме preview.

Среди первых клиентов — United Wholesale Mortgage, крупнейший ипотечный брокер США. По словам технического директора компании Джейсона Бресслера, голосовой ассистент Mia на базе Gemini помог оформить более 14 000 кредитов для брокеров-партнеров с момента запуска в мае 2025 года. Shopify отмечает, что пользователи их голосового помощника Sidekick "забывают, что говорят с ИИ, в течение минуты".

Вместе с обновлением голосовой модели Google запустила бета-версию синхронного перевода речи в приложении Google Translate. Функция работает с любыми наушниками и поддерживает более 70 языков в 2000 языковых парах. Перевод сохраняет интонацию, темп и тембр говорящего. Доступно два режима: непрерывное прослушивание (для лекций, фильмов, разговоров вокруг) и двусторонний разговор, где система автоматически переключает направление перевода в зависимости от того, кто говорит. Пока бета доступна на Android в США, Мексике и Индии; iOS и другие регионы — в 2026 году.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт