← Все кейсыConsensus PatternAI

Мульти-модельный консенсус

4 LLM-провайдера × 2-stage deliberation — disagreement rate 28% выявляет ошибки, которые single-model пропускает

Кратко

A/B тест: 150 решений, ложные одобрения 22% → 13%

Архитектор и единственный разработчик

3 мес · solo

Python
asyncio
OpenAI API
Anthropic API
Google GenAI
DeepSeek API

Multi-model board — provider voting config

Развернуть разбор ↓

Проблема

Что не работает

Когда критическое бизнес-решение принимает одна LLM, ошибки неизбежны: галлюцинации, предвзятость к собственным паттернам, отсутствие самопроверки. В A/B тесте на 150 решениях single-model давал 22% ложных одобрений — каждое 5-е решение было ошибочным.

Решение

Архитектурный подход

Панель из 4 независимых провайдеров (OpenAI o4-mini, Claude Opus + thinking, Gemini 2.5 Pro + thinking, DeepSeek Reasoner) оценивает параллельно. Решение принимается кворумом ≥3/4. Во втором раунде модели видят аргументы друг друга и уточняют позицию. Disagreement rate между моделями ~28% — именно в этих случаях consensus предотвращает ошибки.

Моя роль и вклад

Архитектор и единственный разработчик

Полностью спроектировал и реализовал архитектуру: выбор 4 провайдеров с разными сильными сторонами (reasoning tokens, thinking blocks), протокол кворума ≥3/4, 2-stage deliberation с обменом аргументами, механизм отказоустойчивости MIN_PROVIDERS=2. Провёл A/B тест: 150 решений single-model vs consensus — ложные одобрения снизились с 22% до 13%.

Мульти-модельный консенсус

Что не работает

Архитектурный подход

Готовы обсудить?