GeoVista выводит геолокацию на уровень ИИ, практически сопоставимый с ведущими коммерческими моделями

GeoVista выводит геолокацию на уровень ИИ, практически сопоставимый с ведущими коммерческими моделями

Исследователи из Китая представили GeoVista - модель искусственного интеллекта с открытым исходным кодом, которая находит изображения, сочетая визуальный анализ с поиском в интернете в режиме реального времени. Система стремится соответствовать показателям коммерческих лидеров, таких как Gemini 2.5 Flash.

Модель, разработанная Tencent и несколькими китайскими университетами, опирается на два основных инструмента. Функция масштабирования позволяет увеличить определенные области для детального изучения, а инструмент поиска извлекает до десяти релевантных источников с таких платформ, как Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia. GeoVista автоматически решает, когда использовать каждый инструмент.

Поиск в реальном времени улучшает результаты

Команда называет интеграцию с веб-поиском ключевым преимуществом GeoVista по сравнению с существующими методами. В то время как такие модели, как Mini-o3 или DeepEyes от ByteDance, ориентированы на обработку изображений, GeoVista активно использует внешние данные. В статье не уточняется, какой поисковой сервис использует система.

Команда создала GeoVista на основе Qwen2.5-VL-7B-Instruct, используя двухэтапный процесс. Сначала, в ходе контролируемого обучения, модель обучалась базовым рассуждениям и использованию инструментов на основе 2000 тщательно отобранных примеров. Коммерческие модели ИИ генерировали примеры вызовов и обоснований инструментов, которые команда объединяла в многоуровневые мыслительные процессы.

На втором этапе обучение с подкреплением отточило эти навыки на 12 000 примерах. Специальная система вознаграждений делает акцент на географической точности: правильные ответы на уровне города приносят более высокие награды, чем ответы на уровне провинции или страны.

Технологии с открытым исходным кодом догоняют проприетарные технологии

На собственном наборе данных GeoBench, разработанном командой GeoVista, точность составила 92,64% на уровне страны, 79,60% на уровне провинции и 72,68% на уровне города. Модель лучше всего работает на панорамах (точность для города 79,49%) и стандартных фотографиях (72,27%), в то время как спутниковые снимки остаются самыми сложными - 44,92%.

Тесты на абляцию подтвердили необходимость обеих фаз обучения. Без начального контролируемого обучения производительность резко падала, поскольку модель генерировала слишком короткие ответы и не использовала инструменты. Пропуск обучения с подкреплением приводил к аналогичным провалам. Многоуровневая система вознаграждений оказалась незаменимой для использования многоуровневых географических данных.

Новый бенчмарк отфильтровывает легкие цели

Вместе с моделью исследователи опубликовали GeoBench - набор данных, содержащий 1142 изображения высокого разрешения из 66 стран и 108 городов. В набор входят 512 стандартных фотографий, 512 панорам и 108 спутниковых снимков, все с разрешением не менее миллиона пикселей.

Более строгая фильтрация отличает GeoBench от существующих наборов данных, таких как OpenStreetView-5M или GeoComp. Команда удалила нелокализируемые изображения, такие как крупные планы еды или типовые ландшафты, а также легко узнаваемые достопримечательности, утверждая, что интернет-изображения сильно различаются по степени простоты их локализации.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт