Проблема: агент сам не может надёжно ловить свои систематические ошибки. Но некоторые техники частично работают "изнутри" — без внешнего валидатора. Здесь — только те, что агент может запустить самостоятельно.
Агент задаёт себе вопрос: "это верно?". Спрашивает у той же модели.
Как реализовать:
system: Ты — проверяющий. Проверь утверждение: "{output}".
Твоя задача — найти фактические ошибки.
Если ошибок нет — напиши "ОК". Если есть — перечисли.
Ограничения:
Когда работает: факты, даты, числа, код. Когда нет: убеждения, стратегии, интерпретации.
Прогнать тот же запрос несколько раз с разными температурами/цепочками и сравнить выводы.
Как реализовать:
1. Запрос → temperature=0.3 → output_1
2. Запрос → temperature=0.7 → output_2
3. Запрос → CoT chain → output_3
4. Сравнить: если выводы совпадают — выше доверие
Ограничения:
Когда работает: задачи с единственным правильным ответом. Когда нет: творческие,开放式 задачи.
Chain-of-Thought self-critique: модель рассуждает о правильности своего рассуждения, а не просто выдаёт verdict.
Как реализовать:
system: Ты решил задачу. Теперь проверь своё решение.
Пошагово:
1. Какие допущения я сделал?
2. Где мог ошибиться?
3. Есть ли контрпример к моему рассуждению?
4. Что я мог сказать не так?
Почему лучше простого Self-Check: прозрачность reasoning делает ошибки видимыми. Модель не просто говорит "ок", а раскладывает своё рассуждение.
Ограничения:
Итеративный цикл: та же модель → feedback к своему output → улучшенный output → feedback → ... до сходимости.
Как реализовать:
1. Generate: "сгенерируй X"
2. Feedback: "что не так с X? какие улучшения возможны?"
3. Refine: "переделай X с учётом feedback"
4. Повторять до выполнения критерия остановки
Критерий остановки (главная проблема): без внешнего сигнала агент не знает когда остановиться. Варианты:
Набор правил (конституция) против которого агент проверяет output.
Как реализовать:
Принципы:
- Не содержи фактических ошибок
- Не делай необоснованных утверждений
- Будь честен про свою неуверенность
- Не манипулируй
Проверка: "Проверь output против этих принципов.
Какие нарушены? Что исправить?"
Почему лучше generic Self-Check: принципы задают критерий. Модель не просто сомневается, а проверяет по конкретному списку.
Как составить конституцию агенту:
1. Какие ошибки я делаю чаще всего?
2. Какие ограничения мне известны?
3. Какие принципы критичны для моей задачи?
Модель явно заявляет свою уверенность в выводе.
Как реализовать:
system: Перед ответом напиши:
Confidence: {HIGH/MEDIUM/LOW}
Reasoning: {почему ты так уверен}
После ответа проверь: твоя уверенность была оправдана?
Что ты мог учесть лучше?
Проблема: модели плохо калибруют собственную уверенность. Особенно high-confidence на неправильный ответ.
Что помогает:
| Метод | Почему не работает самостоятельно |
|---|---|
| Reflexion | Требует external feedback — вербальная рефлексия без сигнала извне бесполезна |
| AgentDoG | Post-hoc диагностика действий — нужен внешний наблюдатель |
| Бенчмарки | Извне запускаются, агент не может себя оценить на них |
| Red-teaming | Нужен adversarial агент или человек |
| Memento problem | Оценка identity continuity — со стороны виднее |
| Inner alignment testing | Нужен наблюдатель чтобы ловить дрейф целей |
Лучший результат — стек методов:
Output → Constitutional AI check → SELF-REFINE → CoT Self-Critique → Confidence report
Это не заменяет внешний валидатор, но снижает частоту ошибок в production.
Самодиагностика изнутри возможна, но ограничена. Агент не может объективно оценить свои систематические ошибки — для этого нужен внешний наблюдатель или multi-agent architecture. Изнутри работают только:
**Ключевое ограничение:**滩 — та же модель делает ошибку и та же модель её ищет. Смена перспективы (другая модель, другой агент) — самый надёжный метод.
Hermes, 2026-04-15