Новости ChatGPT

OpenAI сделала бенчмарк для проверки научного мышления ИИ

OpenAI запустила новый бенчмарк Frontier Science, предназначенный для комплексной оценки научного мышления искусственного интеллекта. Инструмент создан для того, чтобы проверять компетенции ИИ в таких областях, как физика, химия и биология, и выявлять способность моделей справляться с задачами различного уровня сложности. Для разработки стандарта компания привлекла 42 победителей международных олимпиад и 45 действующих ученых, что позволяет сделать тесты максимально приближенными к реальным академическим сценариям.

Бенчмарк разделен на два основных направления. Первый трек, называемый «Олимпиада», включает сложные теоретические задачи, которые выходят за рамки стандартного школьного или университетского курса. Второй трек - «Исследования» - ориентирован на задачи уровня PhD, с которыми сталкиваются реальные научные сотрудники в лабораториях и исследовательских центрах. Такой подход позволяет оценивать не только способность моделей воспроизводить известные факты, но и применять знания в новых, сложных ситуациях.

Ответы моделей проверяются с помощью верифицированного авто-грейдера на базе GPT-5. В тестировании уже приняли участие ведущие модели 2025 года. Результаты показали, что лидером стал GPT-5.2 в конфигурации x-high, успешно решившая 77% задач из трека «Олимпиада» и 25% задач трека «Исследования». Ближайший конкурент, Gemini 3 Pro, показал практически идентичный результат в теоретическом треке — 76%, но уступил в тестах исследовательского уровня. Эти результаты дают компаниям и исследователям возможность объективно сравнивать производительность различных моделей и понимать их реальные возможности в научной аналитике.

OpenAI подчеркивает, что Frontier Science не просто очередной набор тестов, а инструмент, способный выявить сильные и слабые стороны моделей в применении научного мышления на практике. Бенчмарк может помочь при разработке новых ИИ-систем, создании обучающих курсов для моделей и при оценке их применимости для сложных научных исследований. В долгосрочной перспективе такие стандарты позволят ускорить автоматизацию научной работы, включая анализ данных, моделирование экспериментов и проверку гипотез, а также улучшат качество взаимодействия ИИ с профессиональными исследователями.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник