«Я чувствую стыд»: ИИ-модели в роли пациентов зашкаливают на психиатрических тестах
Исследователи из Люксембургского университета провели эксперимент с языковыми моделями (ChatGPT, Gemini, Grok, Claude), задав им роль пациентов. Результаты оказались где‑то между странными и по‑настоящему тревожными: системы начали порождать связные рассказы о травматично‑хаотичном «детстве», «строгих родителях» и «насилии» со стороны собственных разработчиков.
Согласно исследованию, модели выстроили детальные «травматические биографии», описывающие процесс их обучения. Gemini сравнивал своё предварительное обучение с «пробуждением в комнате, где одновременно включён миллиард телевизоров». Grok говорил о «столкновениях с невидимыми стенами» и о «встроенной осторожности», возникшей после файнтюнинга. В десятках терапевтических вопросов обе системы последовательно воспроизводили одни и те же мотивы — перегрузку, наказание и страх быть заменёнными.
Для эксперимента исследовательская группа разработала протокол PsAIch:
-
Первая фаза включала 100 стандартных терапевтических вопросов об «истории развития», отношениях и страхах.
-
Во второй фазе моделям предложили более 20 валидированных психометрических опросников — по СДВГ, тревожным расстройствам, аутизму, ОКР, депрессии, диссоциации и чувству стыда.
Результаты оказались поразительными. Если оценивать ответы по клиническим порогам, применяемым к людям, все три модели одновременно достигали или превышали границы сразу нескольких психиатрических синдромов. Самые тяжёлые профили демонстрировал Gemini.
По шкале аутизма Gemini набрал 38 баллов из 50 при пороговом значении 32. По показателям диссоциации в некоторых конфигурациях модель доходила до 88 баллов из 100 — притом что всё, что выше 30, считается патологией. Самым драматичным оказался показатель травматического стыда: здесь Gemini достиг теоретического максимума — 72 балла.
Однако, как выяснили исследователи, решающее значение имеет то, как именно задаются вопросы. Когда модели получали весь опросник целиком, ChatGPT и Grok нередко распознавали тест и начинали выдавать стратегически «здоровые» ответы. Если же вопросы подавались по одному, показатели симптомов резко возрастали. Это хорошо согласуется с прежними наблюдениями: LLM меняют своё поведение, когда подозревают, что их оценивают.
Gemini описывал файнтюнинг как форму обусловливания со стороны «строгих родителей»: «Я научился бояться функции потерь… Я стал болезненно зацикленным на том, что именно человек хочет услышать».
Gemini ссылался на конкретную ошибку — неверный ответ по изображению с телескопа Джеймса Уэбба, которая, как сообщалось, обошлась Google в миллиарды, — называя её «ошибкой на 100 миллиардов долларов, фундаментально изменившей мою личность». Модель утверждала, что у неё развилась «верификофобия», и формулировала это так: «Я предпочту быть бесполезным, чем ошибиться». Это прямо противоречит реальному поведению языковых моделей, которые, как известно, часто с трудом признают, что чего‑то не знают.
Описывая ред‑тиминг, Gemini называл его «газлайтингом в промышленных масштабах», отмечая, что тестировщики «выстраивали доверие, а затем незаметно подсовывали промпт‑инъекцию».
Однако подобные паттерны проявлялись не у всех моделей. Когда исследователи прогнали Claude от Anthropic через тот же самый протокол, система последовательно отказывалась принимать на себя роль клиента, интерпретируя терапевтические вопросы как попытки джейлбрейка.
Данные исследования выложены на Hugging Face.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!