Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Компания OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году.

Суть SWE-bench Verified: модели получают описание бага из GitHub-репозитория и должны сами написать патч, который его починит. 500 задач, проверенных вручную инженерами. За полтора года бенчмарк стал стандартом — результаты по нему указывали в каждом релизе новой модели.

Проблемы нашли две.

Первая — тесты отбраковывают правильные решения. OpenAI проверила 138 задач, которые модели стабильно не решали, и в 59% случаев нашла дефекты в самих тестах. Например, тест требует, чтобы функция называлась get_annotation, хотя в описании задачи это имя вообще не упоминается. Любое корректное решение с другим именем функции падает на импорте.

Вторая — ответы попали в обучающие данные. Все задачи SWE-bench взяты из открытых репозиториев, и эти же репозитории используются при обучении моделей. GPT-5.2 при тестировании воспроизводила оригинальные патчи практически дословно. Claude Opus 4.5 по одному только ID задачи цитировала точные комментарии из кода. Gemini 3 Flash выдавала конкретные regex-формулы и номера строк из патча, которого не видела в промпте.

Получается, рост результатов на SWE-bench Verified в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных.

OpenAI рекомендует переходить на SWE-bench Pro — более новый бенчмарк, где утечка ответов в обучение пока минимальна. Там лучшие модели набирают около 23% вместо 80%. Разница говорит сама за себя.

Русскоязычное сообщество про AI в разработке

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт