От кота на коврике до потолка ИИ: математик измерил творческий лимит нейросетей
Новая работа австралийского исследователя Дэвида Кропли из Университета Южной Австралии утверждает: у генеративного ИИ вроде ChatGPT есть жесткий математический потолок креативности. В статье в журнале The Journal of Creative Behavior он берет стандартное психологическое определение творчества, соотносит его с внутренней механикой крупных языковых моделей (LLM) и показывает, что их "творческая мощность" по определению не может превысить примерно четверть от абстрактного максимума.
Отправная точка у Кропли классическая: в психологии творчества продукт считается креативным только тогда, когда он одновременно новый и эффективный (уместный). Это можно записать формулой C = N × E, где C — креативность, N — новизна, E — эффективность. Дальше автор переходит к языковым моделям и вводит простое обозначение: пусть p — это вероятность того слова, которое модель в итоге выбирает на данном шаге (по ее внутреннему распределению вероятностей). Тогда он приравнивает эффективность к этой вероятности (E = p: чем слово вероятнее в данном контексте, тем оно "уместнее"), а новизну — к величине (1 − p), то есть чем ниже вероятность, тем неожиданнее слово (N = 1 − p). В результате креативность одного шага записывается как C = p × (1 − p) = p − p² — обычная парабола, которая достигает максимума ровно 0,25 при p = 0,5. Любой выбор слишком очевидного слова (p → 1) убивает новизну, а слишком маловероятного (p → 0) — уместность.
Чтобы сделать эту математику интуитивной, Кропли разбирает детский пример "The cat sat on the …?". Для LLM слово mat почти гарантированно имеет максимальную вероятность: это идеальное, но нулевое по новизне завершение фразы из букварей. Другие варианты — chair, lap, даже moon — будут реже, новее, но заметно опаснее с точки зрения смысла. Модель постоянно балансирует между "банально, но правильно" и "оригинально, но с риском уйти в чушь". По мысли Кропли, та же логика сохраняется и для длинных ответов: последовательность строится как цепочка таких выборов, и на каждом шаге действует то же ограничение C ≤ 0,25. В итоге, утверждает он, архитектура языковых по определению не позволяет им стать одновременно очень новыми и очень уместными — их ответы либо прилизанные, либо странные, но не гениальные.
Дальше автор переводит сухую 0,25 в человеческие категории. Он опирается на популярную модель «4C», где различают повседневное творчество обычного человека, профессиональный уровень и "большую" креативность гениев. Если взять реальные данные по тестам креативности (например, тест визуального творческого мышления TCT-DP) и отсечь сверху 25 % шкалы, то получается область где-то на уровне сильного любителя / среднего человека. Кропли показывает, что его предсказанный потолок в 25 % хорошо совпадает с реальными средними значениями по большой выборке людей, и делает вывод: нынешние технологии генеративного ИИ могут хорошо имитировать творчество и уверенно попадать в зону "среднего" уровня, но вряд ли выйдут на территорию профессионалов и тем более гениев.
Важно, что Кропли говорит не о "вечном творческом приговоре ИИ", а о пределах конкретного класса моделей: LLM, которые обучаются на статистике прошлых данных и выбирают токены по вероятностному распределению. В пресс-релизе Университета Южной Австралии он прямо пишет, что для выхода на экспертный уровень потребуются новые архитектуры, способные генерировать идеи, не привязанные к уже наблюдавшимся статистическим паттернам. Критики, в свою очередь, отмечают, что ключевой потолок 0,25 встроен в его собственный выбор метрик (новизна как 1 − p, одношаговая генерация, фиксированная обучающая выборка) и плохо описывает гибридные сценарии, где ИИ работает в связке с человеком, инструментами и экспериментами.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.