Падение бенчмарка ARC стало очередной жертвой неустанной оптимизации ИИ

Падение бенчмарка ARC стало очередной жертвой неустанной оптимизации ИИ

Годами тест ARC считался практически непреодолимым препятствием для нейросетей, настоящим испытанием гибкого интеллекта, а не простого запоминания. Но новые результаты показывают, что даже этот барьер рушится под неустанной оптимизационной работой современных лабораторий искусственного интеллекта.

«Корпус абстракции и рассуждений», позже переименованный в ARC-AGI, изначально был разработан для отделения истинного обучения от статистического повторения. Теперь его постигла та же участь, что и многие предыдущие бенчмарки: новые методы его просто подавляют.

Новые результаты компании Poetiq, занимающейся разработкой ИИ, свидетельствуют об успешном решении исходного бенчмарка ARC-AGI-1. В недавнем заявлении компания утверждает, что её системы, построенные на моделях OpenAI и Google, достигли максимальной производительности на первом наборе данных. Более того, сообщается, что система превзошла средний человеческий результат в 60% на значительно более сложном наборе данных ARC-AGI-2.

Подход Poetiq сочетает в себе передовые языковые модели, включая Gemini 3 и GPT-5.1, с моделями с открытым исходным кодом, интегрированными в специализированную архитектуру. Согласно Poetiq , система работает по итеративному циклу: генерирует предлагаемые решения, оценивает обратную связь и уточняет ответы посредством самопроверки перед отправкой финального результата.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт