Графовый анализ для due diligence

Neo4j + 3-модельная AI-панель + PageRank — автоматический граф связей ~5K узлов для проверки контрагентов

Проблема

Что не работает

Due diligence при проверке контрагентов требует анализа сотен связей между компаниями, людьми и адресами. Ручная проверка одного контрагента: 3-5 дней аналитика. Скрытые связи (номинальные директора, массовые адреса регистрации) невидимы в табличных данных.

Решение

Архитектурный подход

Автоматический граф связей в Neo4j (~5K узлов: компании, люди, адреса) с паттерн-детекцией через Cypher: номинальные директора (1 человек → 10+ компаний, degree centrality > порога), массовые адреса (1 адрес → 20+ юрлиц), цепочки владения (глубина ≥3). Confidence scoring: PageRank + degree centrality + исторические паттерны. Human-in-the-loop для подтверждения рисковых находок.

Вызовы

Что было сложно

Данные из открытых реестров — грязные: разные форматы ИНН, адреса с опечатками, дубли физлиц с разными написаниями ФИО. PageRank на графе с ~5K узлов чувствителен к ошибкам в связях — одна ложная связь может поднять невиновный узел в топ. Юридическая ответственность: false positive = потеря контрагента, false negative = пропущенный риск — порог confidence подбирался с юристами.

Роль

Моя роль и вклад

Архитектор и единственный разработчик

Спроектировал и реализовал с нуля: графовая БД Neo4j (~5K узлов, ~12K связей), паттерн-детекция (Cypher queries для номинальных директоров, массовых адресов, цепочек владения), confidence scoring на основе PageRank + degree centrality, 3-модельная AI-панель для анализа находок, human-in-the-loop workflow.

Демо

Как это выглядит

Архитектура

Архитектура системы

Реализация

Как это работает

ETL из открытых реестров → Neo4j. Cypher-запросы для паттерн-детекции. PageRank для ранжирования подозрительных узлов. 3-модельная AI-панель анализирует контекст находок (DeepSeek + Claude + GPT). Confidence scoring: high (≥0.8, автоматический флаг), medium (0.5-0.8, ревью аналитика), low (<0.5, информационно). Каждая находка требует подтверждения человеком.

Архитектурное решение

Почему именно так

Human-in-the-loop вместо полной автоматизации

Альтернатива

Полностью автоматические отчёты без подтверждения человеком

Почему не подошла

Due diligence имеет юридические последствия. Ложный флаг → потеря бизнес-партнёра. Human-in-the-loop: система находит паттерны и ранжирует, человек подтверждает — оптимальный баланс скорости и точности.

Результат

10× ускорение без потери юридической значимости результатов

Метрики

Результаты

01: Проверка контрагента: 3-5 дней → 2-3 часа
02: Граф: ~5K узлов, ~12K связей (компании, люди, адреса)
03: Паттерн-детекция: номинальные директора, массовые адреса, цепочки владения
04: Confidence scoring: PageRank + degree centrality
05: Human-in-the-loop: 3 уровня (high/medium/low)

Бизнес-импакт

Влияние на бизнес

Сокращение due diligence с 3-5 дней до 2-3 часов — 10× ускорение. PageRank выявляет ключевые узлы графа, невидимые при ручном анализе. Confidence scoring на 3 уровнях позволяет аналитику фокусироваться на high-confidence находках. Human-in-the-loop сохраняет юридическую значимость результатов.

Методы

Алгоритмы и паттерны

Graph traversal (Cypher)PageRankConfidence scoringEntity Resolution3-model AI panelHuman-in-the-loopNeo4j

Стек

Технологии

Python
Neo4j
FastAPI
PageRank
DeepSeek API
Anthropic API