Исследователи Epoch AI запустили новый тип бенчмарка — FrontierMath: Open Problems. В отличие от стандартных тестов, здесь собраны задачи, которые пока не решил никто: ни люди, ни нейросети. Пилотная версия включает 14 проблем из разных областей математики — от теории чисел до топологии.
Задачи составляли профессиональные математики на основе собственных исследований. Над некоторыми из них безуспешно бились от 2 до 100 специалистов. По оценкам авторов, даже лучшему эксперту потребовалось бы от нескольких недель до нескольких лет работы, чтобы иметь хотя бы 50%-ный шанс на решение.
GPT-5.2 Pro и Gemini 3 Deep Think уже протестировали на этих задачах через веб-интерфейс. Модели справляются с "разминочными" вариантами, где решения известны, но на реальных открытых проблемах пасуют — иногда пытаются применить перебор вместо концептуального подхода, иногда распознают задачу как нерешённую и просто сдаются.
Главная особенность бенчмарка — автоматическая верификация. Несмотря на то что решения неизвестны, их можно проверить программно: например, если задача требует найти многочлен с определенными свойствами, валидатор способен подтвердить корректность ответа. Доступ к верификаторам Epoch AI предоставляет платно — вырученные средства пойдут на расширение набора задач.
Если какая-либо модель решит хотя бы одну проблему, это станет реальным вкладом в математику. Авторы заранее оценили значимость каждой задачи — от "умеренно интересного результата" до "крупного прорыва". Решенные задачи будут публиковаться и удаляться из бенчмарка, чтобы будущие модели не могли просто найти ответ в интернете.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.