ИИ, который решит хоть 1 задачу, войдет в историю: представлен бенчмарк FrontierMath: Open Problems

Исследователи Epoch AI запустили новый тип бенчмарка — FrontierMath: Open Problems. В отличие от стандартных тестов, здесь собраны задачи, которые пока не решил никто: ни люди, ни нейросети. Пилотная версия включает 14 проблем из разных областей математики — от теории чисел до топологии.

Задачи составляли профессиональные математики на основе собственных исследований. Над некоторыми из них безуспешно бились от 2 до 100 специалистов. По оценкам авторов, даже лучшему эксперту потребовалось бы от нескольких недель до нескольких лет работы, чтобы иметь хотя бы 50%-ный шанс на решение.

GPT-5.2 Pro и Gemini 3 Deep Think уже протестировали на этих задачах через веб-интерфейс. Модели справляются с "разминочными" вариантами, где решения известны, но на реальных открытых проблемах пасуют — иногда пытаются применить перебор вместо концептуального подхода, иногда распознают задачу как нерешённую и просто сдаются.

Главная особенность бенчмарка — автоматическая верификация. Несмотря на то что решения неизвестны, их можно проверить программно: например, если задача требует найти многочлен с определенными свойствами, валидатор способен подтвердить корректность ответа. Доступ к верификаторам Epoch AI предоставляет платно — вырученные средства пойдут на расширение набора задач.

Если какая-либо модель решит хотя бы одну проблему, это станет реальным вкладом в математику. Авторы заранее оценили значимость каждой задачи — от "умеренно интересного результата" до "крупного прорыва". Решенные задачи будут публиковаться и удаляться из бенчмарка, чтобы будущие модели не могли просто найти ответ в интернете.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

---
2026-01-28

Что такое Gemini

Регистрация Gemini в России: Полное Руководство

Claude Sonnet 4.6: обзор, бенчмарки, сравнение

Как я решил вкатиться в Android разработку через вайбкодинг. Часть 2. Ну или разработка мобильного приложения через ИИ

Open Source-джентльмены 2026: Обзор самых ярких GitHub-проектов, определивших начало года

Пользователи Google TV столкнулись с проблемой после внедрения голосового помощника Gemini

Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

Как за сутки обойти миллиард веб-страниц

Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю

Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт

Кому принадлежит Gemini?
Как работает Gemini?
Является ли Gemini точным?
Может ли Gemini помочь с конкретными задачами или вопросами?
Является ли Gemini бесплатным сервисом?
Можно ли использовать Gemini на мобильных устройствах?
Доступен ли Gemini на разных языках?
Как начать работу с Gemini?

Обновления new

Войти в Gemini: быстрый и безопасный доступ к вашему ИИ-помощнику ^2025-09-08
Исследуйте возможности Gemini, передового ИИ от Google, созданного для преобразования вашей работы и творчества.

Что такое Gemini ^2025-08-31
Gemini — это революционная разработка в области искусственного интеллекта, созданная компанией Google. Этот многофункциональный ИИ-помощник

Регистрация Gemini в России: Полное Руководство ^2025-08-31
Gemini — это многофункциональный искусственный интеллект, способный генерировать тексты, переводить языки, писать код, анализировать данные и многое