Новости ChatGPT

Думай как человек, считай как Python: Google наделяет Gemini 3 Flash “агентным зрением”

Команда Google представила Agentic Vision – новую способность для модели Gemini 3 Flash, которая меняет подход ИИ к анализу изображений. Если раньше мультимодальные модели делали что-то вроде беглого статичного взгляда на картинку, то теперь процесс превратился в активное расследование с циклом “думай, действуй, наблюдай”.

Суть нововведения в комбинации визуального мышления с выполнением кода, что позволяет модели обосновывать свои ответы не предположениями, а визуальными доказательствами. Проще говоря, если Gemini Flash нужно рассмотреть мелкую деталь – например, серийный номер на микросхеме или удаленный дорожный знак, – она не станет гадать. Вместо этого модель может сгенерировать и выполнить Python-код, чтобы приблизить нужный участок, проаннотировать его или провести вычисления прямо на основе визуальных данных. Google заявляет, что включение выполнения кода дает стабильный прирост качества на 5–10% на большинстве бенчмарков для компьютерного зрения.

Как работает этот визуальный агент?

  • Модель анализирует запрос пользователя и исходное изображение, составляя многошаговый план действий.

  • Модель генерирует и выполняет код (например, на Python) для работы с изображением – обрезки, поворота, аннотирования или анализа.

  • Преобразованное изображение добавляется в контекстное окно модели. Это позволяет ИИ изучить новые данные в лучшем контексте, прежде чем дать окончательный ответ.

В Google уже продемонстрировали несколько наглядных примеров.

  • Приближение и детальный осмотр: Модель обучена неявно приближать мелкие детали. Например, платформа для проверки строительных планов Plan Check Solver повысила точность на 5%, используя эту функцию для итеративного анализа высокодетализированных чертежей.

  • Аннотирование изображений: Вместо простого описания Gemini Flash может рисовать прямо на изображении. Чтобы, скажем, точно посчитать пальцы на руке, модель нарисует bounding boxes и пронумерует их, используя код как “визуальный черновик” для проверки.

  • Визуальная математика и построение графиков: Модель может парсить сложные таблицы на изображениях и выполнять код для визуализации результатов. Это избавляет от ошибок и галлюцинаций при многошаговых арифметических операциях.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!