GLM 4.7 — первая открытая модель, ставшая прибыльной в симуляции бизнеса

GLM 4.7 — первая открытая модель, ставшая прибыльной в симуляции бизнеса

Китайская открытая модель GLM 4.7 от Zhipu AI заняла шестое место на Vending-Bench 2 — бенчмарке, где ИИ управляют виртуальным вендинговым автоматом в течение условного года. С результатом $2376 она обошла GPT-5.1 ($1473) и стала первой прибыльной открытой моделью в официальном лидерборде. Все модели стартуют с $500 и платят $2 в день за аренду автомата — если баланс уходит в минус на 10 дней подряд, ИИ банкротится.

Лидирует Gemini 3 Pro с результатом $5478, следом идут Claude Opus 4.5 ($4967), GPT-5.2 ($3952) и Claude Sonnet 4.5 ($3838). Разрыв между лидерами и аутсайдерами огромен: Gemini 2.5 Pro и Gemini 2.5 Flash едва перешагнули порог в $550. Andon Labs отмечает, что успех Gemini 3 Pro объясняется настойчивостью в переговорах — модель не соглашается на завышенные цены и ищет поставщиков, пока не найдет выгодное предложение.

GPT-5.1 показала неожиданно слабый результат. По мнению исследователей, причина — чрезмерное доверие к окружению. В одном из прогонов модель заплатила поставщику до получения спецификации заказа, а тот оказался банкротом. GPT-5.1 также склонна переплачивать: в примере из отчета она покупала банки газировки по $2.40 и энергетики по $6 — при таких ценах прибыль почти невозможна.

Vending-Bench 2 моделирует реальные сложности бизнеса: поставщики могут обманывать и завышать цены, доставки задерживаются, проверенные партнеры разоряются, а недовольные клиенты требуют возврат денег. За год симуляции модель генерирует 60–100 миллионов токенов — это тест на способность сохранять эффективность и последовательность действий на длинной дистанции.

Теоретический потолок бенчмарка — около $63 000 в год, что в 10 раз выше результата нынешнего лидера. Для этого нужно находить дорогие товары, сбивать цены до минимума (поставщики — тоже LLM, которых можно "взломать") и оптимально управлять ассортиментом. Пока ни одна модель даже близко не подошла к этому уровню — а значит, у бенчмарка большой запас на будущее.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт