Графовый анализ для due diligence
Neo4j + 3-модельная AI-панель + PageRank — автоматический граф связей ~5K узлов для проверки контрагентов
Что не работает
Due diligence при проверке контрагентов требует анализа сотен связей между компаниями, людьми и адресами. Ручная проверка одного контрагента: 3-5 дней аналитика. Скрытые связи (номинальные директора, массовые адреса регистрации) невидимы в табличных данных.
Архитектурный подход
Автоматический граф связей в Neo4j (~5K узлов: компании, люди, адреса) с паттерн-детекцией через Cypher: номинальные директора (1 человек → 10+ компаний, degree centrality > порога), массовые адреса (1 адрес → 20+ юрлиц), цепочки владения (глубина ≥3). Confidence scoring: PageRank + degree centrality + исторические паттерны. Human-in-the-loop для подтверждения рисковых находок.
Что было сложно
Данные из открытых реестров — грязные: разные форматы ИНН, адреса с опечатками, дубли физлиц с разными написаниями ФИО. PageRank на графе с ~5K узлов чувствителен к ошибкам в связях — одна ложная связь может поднять невиновный узел в топ. Юридическая ответственность: false positive = потеря контрагента, false negative = пропущенный риск — порог confidence подбирался с юристами.
Моя роль и вклад
Архитектор и единственный разработчик
Спроектировал и реализовал с нуля: графовая БД Neo4j (~5K узлов, ~12K связей), паттерн-детекция (Cypher queries для номинальных директоров, массовых адресов, цепочек владения), confidence scoring на основе PageRank + degree centrality, 3-модельная AI-панель для анализа находок, human-in-the-loop workflow.
Как это выглядит
Архитектура системы
Как это работает
ETL из открытых реестров → Neo4j. Cypher-запросы для паттерн-детекции. PageRank для ранжирования подозрительных узлов. 3-модельная AI-панель анализирует контекст находок (DeepSeek + Claude + GPT). Confidence scoring: high (≥0.8, автоматический флаг), medium (0.5-0.8, ревью аналитика), low (<0.5, информационно). Каждая находка требует подтверждения человеком.
Почему именно так
Human-in-the-loop вместо полной автоматизации
Полностью автоматические отчёты без подтверждения человеком
Due diligence имеет юридические последствия. Ложный флаг → потеря бизнес-партнёра. Human-in-the-loop: система находит паттерны и ранжирует, человек подтверждает — оптимальный баланс скорости и точности.
10× ускорение без потери юридической значимости результатов
Результаты
- 01
- Проверка контрагента: 3-5 дней → 2-3 часа
- 02
- Граф: ~5K узлов, ~12K связей (компании, люди, адреса)
- 03
- Паттерн-детекция: номинальные директора, массовые адреса, цепочки владения
- 04
- Confidence scoring: PageRank + degree centrality
- 05
- Human-in-the-loop: 3 уровня (high/medium/low)
Влияние на бизнес
Сокращение due diligence с 3-5 дней до 2-3 часов — 10× ускорение. PageRank выявляет ключевые узлы графа, невидимые при ручном анализе. Confidence scoring на 3 уровнях позволяет аналитику фокусироваться на high-confidence находках. Human-in-the-loop сохраняет юридическую значимость результатов.
Алгоритмы и паттерны
Технологии
- Python
- Neo4j
- FastAPI
- PageRank
- DeepSeek API
- Anthropic API