Google выпустила новый голосовой ИИ на Gemini: в тестах он помог оформить 14 000 ипотечных кредитов

Google выпустила Gemini 2.5 Flash Native Audio — обновленную модель для голосовых агентов, которая обходит OpenAI gpt-realtime в бенчмарке сложных функциональных вызовов. Модель уже работает в продуктах компании и доступна разработчикам.

На тесте ComplexFuncBench Audio, который измеряет способность модели выполнять многошаговые вызовы функций с ограничениями, Gemini 2.5 Flash Native Audio набрала 71,5% — против 66,5% у gpt-realtime от OpenAI. Google также заявляет о 90% точности следования инструкциям разработчика (было 84%) и улучшенном удержании контекста в многоходовых диалогах. По словам компании, модель лучше понимает, когда нужно вызвать внешнюю функцию, и встраивает результаты обратно в разговор без потери естественности.

Модель уже развернута в голосовом режиме приложения Gemini и Search Live — поиск Google впервые получил нативное аудио вместо каскадной архитектуры «распознавание → LLM → синтез». Для разработчиков Gemini 2.5 Flash Native Audio доступна в Google AI Studio и Vertex AI (GA), а также в Gemini API в режиме preview.

Среди первых клиентов — United Wholesale Mortgage, крупнейший ипотечный брокер США. По словам технического директора компании Джейсона Бресслера, голосовой ассистент Mia на базе Gemini помог оформить более 14 000 кредитов для брокеров-партнеров с момента запуска в мае 2025 года. Shopify отмечает, что пользователи их голосового помощника Sidekick "забывают, что говорят с ИИ, в течение минуты".

Вместе с обновлением голосовой модели Google запустила бета-версию синхронного перевода речи в приложении Google Translate. Функция работает с любыми наушниками и поддерживает более 70 языков в 2000 языковых парах. Перевод сохраняет интонацию, темп и тембр говорящего. Доступно два режима: непрерывное прослушивание (для лекций, фильмов, разговоров вокруг) и двусторонний разговор, где система автоматически переключает направление перевода в зависимости от того, кто говорит. Пока бета доступна на Android в США, Мексике и Индии; iOS и другие регионы — в 2026 году.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

---
2025-12-13

Что такое Gemini

Регистрация Gemini в России: Полное Руководство

Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Как я решил вкатиться в Android разработку через вайбкодинг. Часть 2. Ну или разработка мобильного приложения через ИИ

Open Source-джентльмены 2026: Обзор самых ярких GitHub-проектов, определивших начало года

Пользователи Google TV столкнулись с проблемой после внедрения голосового помощника Gemini

Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

Как за сутки обойти миллиард веб-страниц

Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю

Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт

Кому принадлежит Gemini?
Как работает Gemini?
Является ли Gemini точным?
Может ли Gemini помочь с конкретными задачами или вопросами?
Является ли Gemini бесплатным сервисом?
Можно ли использовать Gemini на мобильных устройствах?
Доступен ли Gemini на разных языках?
Как начать работу с Gemini?

Обновления new

Войти в Gemini: быстрый и безопасный доступ к вашему ИИ-помощнику ^2025-09-08
Исследуйте возможности Gemini, передового ИИ от Google, созданного для преобразования вашей работы и творчества.

Что такое Gemini ^2025-08-31
Gemini — это революционная разработка в области искусственного интеллекта, созданная компанией Google. Этот многофункциональный ИИ-помощник

Регистрация Gemini в России: Полное Руководство ^2025-08-31
Gemini — это многофункциональный искусственный интеллект, способный генерировать тексты, переводить языки, писать код, анализировать данные и многое