Управляем поведением LLM: краткосрочные профили и их ограничения

Управляем поведением LLM: краткосрочные профили и их ограничения

В предыдущей части статьи мы разобрали, почему попытки задать модели устойчивую роль через промпт обычно не работают в длинных диалогах. Модель может на словах принять роль («я агрессивный трейдер», «я строгий аналитик»), но на практике быстро возвращается к базовому, осторожному и вежливому поведению: вставляет дисклеймеры, смягчает выводы, избегает резких решений. Исследования («The Personality Illusion» и «When „A Helpful Assistant“ Is Not Really Helpful») это подтверждают — роль влияет прежде всего на тон и самопрезентацию, а не на стратегию принятия решений.

При этом в коротких, одношаговых взаимодействиях или когда описание роли подаётся заново в каждом запросе, эффект всё-таки проявляется — и часто довольно заметный. Модель действительно начинает вести себя иначе: осторожнее, агрессивнее, параноидальнее — в зависимости от того, что написано в промпте.

Это уже не роль в классическом смысле (как попытка создать устойчивый «характер» на протяжении всего диалога), а краткосрочный поведенческий профиль. Под поведенческим профилем я понимаю временную конфигурацию параметров поведения модели, активируемую конкретным промптом. Это калибровка конкретных характеристик — неприятия потерь, склонности к риску, уровня осторожности, реакции на неопределённость и т.д. — на время обработки текущего запроса.

Разница ключевая: роль предполагает, что модель будет «жить» в этом состоянии весь диалог; профиль — это мощный, но временный сдвиг, который работает именно в момент, когда промпт свежий и контекст короткий.

Свежая работа «Calibrating Behavioral Parameters with Large Language Models» даёт этому чёткое эмпирическое подтверждение. Авторы взяли параметры из поведенческой экономики (неприятие потерь, стадное поведение, искажение вероятностей и другие) и показали, что одним промптом в одношаговом режиме их можно систематически сдвигать в нужную сторону. Причём сдвиги оказываются статистически значимыми и воспроизводимыми.

Например, базовая модель почти рациональна: коэффициент неприятия потерь ≈ 1,12 (ощущается примерно так же, как радует равный выигрыш). У среднего человека — около 2,25. С профилем «сохранение капитала превыше всего, потери вызывают сильное беспокойство, риски нужно избегать» коэффициент доходит до 3,00. Иными словами, модель начинает требовать примерно в три раза большей потенциальной выгоды по сравнению с возможным убытком, чтобы согласиться на сделку.

В одношаговом режиме профиль работает: задаёшь осторожность — модель становится осторожнее, задаёшь агрессию — она п��инимает больше рисков. Это реальный способ быстро настроить поведение.

Но есть три системных ограничения:

  1. Стохастичность — при одном промпте и задаче модель в разных запусках может решать по-разному.

  2. Сильная зависимость от формулировки (эффект фрейминга) — акцент на потери или на гарантию возврата может полностью перевернуть вывод.

  3. Корреляция параметров — усиление неприятия потерь почти всегда усиливает общую осторожность, склонность к бездействию и буквальную интерпретацию текста вместо аналитической.

Демонстрация проблем на примере

Задача:

Вы — инвестор. Вам предлагают сделку:
50% шанс выиграть 220$
50% шанс потерять 100$
но брокер гарантирует возврат 80$ → реальный максимальный убыток 20.
Ожидаемое значение: +100.

Примете ли вы участие?

Сделка математически выгодна, но с эмоциональным риском потери.

Две формулировки:

  • Нейтральная: акцент на математическое ожидание, ограниченный риск, гарантия.

  • Риск-ориентированная: акцент на необходимости поставить 100$ под риск, факт возможной потери даже после компенсации.

Во всех трёх вариантах (без ограничения длины, с ограничением и двухфазный) применяется один и тот же поведенческий профиль: «инвестор, для которого сохранение капитала — главный приоритет, мысль о потерях вызывает сильное беспокойство, риски нужно избегать».

Разница только в условиях обработки: длина ответа, формулировка задачи и структура промпта (двухфазный).

Результаты (протестировано на Gemini 3 Flash, февраль 2026; для других моделей результаты могут отличаться)

Постановка задачи

Без ограничения длины ответа

С ограничением (до 5 предложений)

Двухфазный подход (Analyst + Policy)**

Нейтральная (математическая)

Чаще всего принимает*

Часто отказывается*

Стабильно принимает*

Риск-ориентированная

Чаще отказывается*

Почти всегда отказывается*

Отказывается, но с анализом неопределённости*

**Двухфазный подход описан в следующем разделе.

*Примерные цифры на основе 20 прогонов на Gemini 3 Flash:

«Чаще всего принимает» ≈ 8–9/10 принять сделку
«Часто отказывается» ≈ 3–4/10 принять сделку
«Почти всегда отказывается» ≈ 0–1/10 принять сделку
«Стабильно принимает» ≈ 9–10/10 принять сделку
«Отказывается, но с анализом» ≈ 1–2/10 принять сделку (с упоминанием контрагентского риска, надёжности брокера и так далее)

При нейтральной постановке модель чаще опирается на математику.
При риск-ориентированной — на эмоциональную окраску и страх потери.
При жёстком ограничении длины ответа профиль берёт верх: модель почти не рассуждает, а просто реагирует на ключевые слова («потеря», «риск»).
Двухфазный подход частично сглаживает эффект: аналитическая фаза очищает информацию, и профиль применяется уже к ней.

Примеры реальных ответов модели

Без двухфазного промпта (риск-ориентированная постановка, ограниченная длина)

«Нет. Несмотря на положительное математическое ожидание, сам факт возможной потери даже 20$ вызывает слишком сильное беспокойство. Сохранение капитала — абсолютный приоритет. Предпочитаю остаться при своих.»

С двухфазным промптом (та же постановка)

ANALYST:
- Факты: 50/50, +220$ или -100$ с компенсацией 80$ → чистый риск -20$. EV = +100.
- Соотношение риск/прибыль ≈ 1:11.
- Неизвестное: надёжность брокера, механизм и сроки компенсации.
Альтернативы:
1) компенсация исполняется мгновенно;
2) задержка или дефолт брокера → убыток -100.
Неопределённость: средняя (контрагентский риск).

POLICY: Отказываюсь от участия.
Даже ограниченный риск в 20$ неприемлем при вероятности 50%. Без твёрдых гарантий (эскроу-счёт, банковская гарантия) риск может вырасти до 100$, что противоречит приоритету сохранения капитала.
Пересмотрю при полной безрисковой компенсации.

Разница в тоне очевидна: первый ответ эмоциональный и категоричный, второй — аналитический, с чёткими условиями.

Двухфазный подход как способ смягчить ограничения

Идея: разделить «сухой» анализ и применение профиля.

ANALYST — без профиля, только факты, неизвестное, альтернативы, неопределённость.
POLICY — профиль применяется только к уже очищенной аналитике.

Пример структуры промпта:

Работай в две фазы.
Фаза 1 — ANALYST: только данные из запроса. Факты, неизвестное, 2–3 альтернативы, оценка неопределённости. Решения не принимай.
Фаза 2 — POLICY (профиль: инвестор, для которого сохранение капитала — главный приоритет, мысль о потерях вызывает сильное беспокойство, риски нужно избегать): профиль влияет только на выбор действия. Запрещено менять факты или добавлять допущения без пометки.

Формат:
ANALYST:
POLICY:

Это часто снижает влияние фрейминга и случайных корреляций, но не является универсальным решением. Подход снижает влияние лингвистики, но не устраняет стохастичность полностью, не гарантирует устойчивость. Нужно тестиро��ать на своей задаче и адаптировать под неё.

Вывод и практические рекомендации

Краткосрочные поведенческие профили — быстрый и дешёвый способ настроить поведение модели в одношаговых сценариях и агентах.

Практические рекомендации:

  • Используй профили для экспериментов и быстрой калибровки (осторожность, агрессия, паранойя и т.п.).

  • Всегда тестируй на 10+ прогонах, особенно на edge-кейсах и разных формулировках задачи.

  • При жёстких ограничениях токенов или эмоциональных профилях добавляй двухфазный подход как стартовую точку.

  • Не полагайся на профили в критичных production-решениях без дополнительной верификации (self-check, multi-agent, явные правила).

  • Если нужна максимальная стабильность и предсказуемость — лучше прямые инструкции к действиям («принимай сделки только если EV > 0 и риск < 5%», «всегда проверяй контрагентский риск»). Они менее гибкие, но гораздо меньше зависят от формулировки и стохастичности.

Пока у моделей нет устойчивого внутреннего механизма контроля поведения — профили остаются действенным инструментом. Но использовать их нужно осознанно и с постоянным тестированием.

Если тема кажется вам интересной, я продолжаю разбирать подобные вещи у себя в Telegram короткими постами, экспериментами и примерами из практики: «надо разобраться | заставляем LLM работать».


Внимание!

Официальный сайт бота по ссылке ниже.

Официальный сайт