Новости ChatGPT

Как Gemini 3 Pro разбирает рукописи XVIII века и находит ошибки в тетрадях школьников

Google опубликовала рассказ о визуальных возможностях Gemini 3 Pro — и показала их на двух неожиданных примерах. Первый: рукописный журнал американского купца XVIII века из Олбани, который модель превратила в аккуратную структурированную таблицу. Второй: сфотографированная тетрадь школьника с решением задачи — Gemini 3 Pro не просто нашла ошибки, но визуально разметила их прямо поверх рукописного текста, показав, где именно ученик сбился. Компания называет это "скачком от распознавания к рассуждению [внутри изображений и видео]).

За этими примерами стоит технология, которую Google называет derendering — способность модели восстановить из изображения документа структурированный код (HTML, LaTeX или Markdown), который этот документ описывает. По сути, обратная разработка визуала: диаграмма Флоренс Найтингейл из XIX века превращается в интерактивный график с переключателями, картинка с математическими формулами — в точный LaTeX-код. Это работает с рукописным текстом, вложенными таблицами, нелинейной версткой и смешанным контентом.

Google подкрепляет заявления бенчмарками: на CharXiv Reasoning, который измеряет способность рассуждать по графикам и таблицам, Gemini 3 Pro показала 81,4% — выше среднего человеческого уровня (80,5%). В качестве демонстрации компания взяла 62-страничный отчет Бюро переписи США "Income in the United States: 2022" и попросила модель сравнить изменения индекса Джини по разным типам дохода, объяснить расхождения и определить динамику доли нижнего квинтиля. Модель нашла нужные данные в нескольких таблицах и графиках, связала их с текстовым анализом в отчете и корректно вывела, что расхождение связано с окончанием программ ARPA и стимулирующих выплат.

Те же принципы Google распространяет на другие модальности. Пространственное понимание: модель возвращает пиксельные координаты объектов и понимает их назначение — это подается как фундамент для робототехники и AR/XR-приложений. Понимание экранов: Gemini 3 Pro достаточно точно распознает элементы интерфейсов десктопных и мобильных ОС, чтобы служить основой для computer use-агентов. Видео: модель оптимизирована под высокий фреймрейт (демо показывает анализ удара в гольфе на 10 кадрах в секунду), а рассуждающий режим позволяет модели понимать, что именно происходит в ролике: кто и как выглядит, с кем взаимодействует и так далее.

В качестве примера новых визуальных возможностей можно привести модель Nano Banana Pro — в ней Gemini 3 Pro подает детальные инструкции, а затем "смотрит" на черновик картинки и при необходимости вносит исправления и доработки.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.