Годами тест ARC считался практически непреодолимым препятствием для нейросетей, настоящим испытанием гибкого интеллекта, а не простого запоминания. Но новые результаты показывают, что даже этот барьер рушится под неустанной оптимизационной работой современных лабораторий искусственного интеллекта.
«Корпус абстракции и рассуждений», позже переименованный в ARC-AGI, изначально был разработан для отделения истинного обучения от статистического повторения. Теперь его постигла та же участь, что и многие предыдущие бенчмарки: новые методы его просто подавляют.
Новые результаты компании Poetiq, занимающейся разработкой ИИ, свидетельствуют об успешном решении исходного бенчмарка ARC-AGI-1. В недавнем заявлении компания утверждает, что её системы, построенные на моделях OpenAI и Google, достигли максимальной производительности на первом наборе данных. Более того, сообщается, что система превзошла средний человеческий результат в 60% на значительно более сложном наборе данных ARC-AGI-2.
Подход Poetiq сочетает в себе передовые языковые модели, включая Gemini 3 и GPT-5.1, с моделями с открытым исходным кодом, интегрированными в специализированную архитектуру. Согласно Poetiq , система работает по итеративному циклу: генерирует предлагаемые решения, оценивает обратную связь и уточняет ответы посредством самопроверки перед отправкой финального результата.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
