Новости ChatGPT

98% дефляции за 33 месяца: токены LLM дешевеют быстрее, чем когда-то транзисторы

Недавно Google выпустила Gemini 3 Flash с соотношением цена/производительность в 4-9 раз лучше других передовых моделей (зависит от показателей ИИ и цены на API). Венчурный инвестор Томаш Тунгуз (партнер Theory Ventures) посчитал, что это означает для рынка: стоимость "единицы интеллекта" упала на 98% за 33 месяца. Для расчетов он использовал метрику "цена за балл качества" — сколько стоит получить одну условную единицу производительности на бенчмарках. У GPT-4 в марте 2023 года это было $65, у Gemini 3 Flash сейчас — $1,10.

Gemini 3 Flash стоит $0,50 за миллион входных токенов и $3,00 за миллион выходных. При этом по качеству модель отстает от лучших результатов в среднем на 9,2%. Но главное — соотношение производительности к цене. Тунгуз посчитал, сколько баллов качества получает пользователь на каждый доллар, потраченный на выходные токены: Gemini 3 Flash дает 30,3 балла, Gemini 3 Pro — 7,8, GPT-5.2 — 6,6, Claude Opus 4.5 — 3,5. Разрыв между Gemini 3 Flash и флагманом Anthropic — почти девятикратный.

Методология Тунгуза: он взял 20 бенчмарков (от MMLU-Pro и MATH-Hard до SWE-bench Verified и ARC-AGI-1), для каждого определил лучший результат среди всех моделей, затем посчитал среднее отставание каждой модели от этих лучших результатов. Цену токена он считал как "смешанную" (80% входных + 20% выходных), исходя из типичного соотношения в реальных запросах. Итоговая метрика — смешанная цена, деленная на композитный балл качества.

Тунгуз называет стратегию Google "ликвидационными ценами" (going-out-of-business prices): компания "продает огромную производительность по ценам распродажи". Почему Google может себе это позволить — вопрос открытый, но очевидное преимущество — собственные чипы TPU и контроль над инфраструктурой дата-центров.

Тренд подтверждают данные Andreessen Horowitz: фонд ввел термин LLMflation для описания того, как стоимость инференса падает в 10 раз ежегодно — быстрее, чем работал закон Мура для транзисторов (удвоение каждые 18–24 месяца). По их расчетам, обработка всей речи человека за год моделью класса GPT-3 сегодня стоит около $2, а прогон всего кода ядра Linux — меньше доллара. Для топовых моделей цифры выше, но тренд тот же: сценарии, которые вчера были экономически безумны, завтра станут рутиной.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.