Платформа данных ПГК
DWH + Data Lake + Delta Lake — 8+ продуктов-потребителей, Oracle TCO $19.8M → $0, vendor selection по 6 классам
Что не работает
Данные компании разрознены по 5+ хранилищам: SAP BW, Oracle ИБД, Vertica, Cognos TM1, десятки баз продуктов. Продуктовые команды тратили недели на поиск данных. Oracle DB развёрнуты на нелицензированных гипервизорах — штраф при аудите $19.8M (833 нелицензированных ядра CPU). Отсутствовал единый бизнес-глоссарий и каталог данных.
Архитектурный подход
Корпоративная платформа данных в 4 стадии: DWH → Data Lake → Delta Lake → Data Gateway. Vendor selection по 6 классам инструментов (DWH, ETL, Data Catalog, Business Glossary, MDM, Data Quality). Единый каталог данных с бизнес-глоссарием. MDM/RDM для мастер-данных и НСИ. Миграция с Oracle на лицензионно-чистый стек.
Что было сложно
Обнаружение лицензионного риска $19.8M — 833 нелицензированных ядра Oracle CPU на VMware — требовало немедленных действий, при этом 8+ продуктов зависели от этих баз. Vendor selection по 6 классам инструментов: каждый вендор обещал «всё из коробки», реальная проверка требовала POC на живых данных. Миграция с SAP BW без остановки бизнес-отчётности — данные должны течь непрерывно.
Моя роль и вклад
CTO / Технический директор
Инициировал и возглавил миграцию с Oracle. Лично провёл vendor selection по 6 классам инструментов (DWH, ETL, Data Catalog, Business Glossary, MDM, Data Quality). Спроектировал 4-стадийную архитектуру миграции. Выявил лицензионный риск $19.8M (833 нелицензированных ядра CPU) и разработал план устранения.
Как это выглядит
Реальные скриншоты
Архитектура системы
Как это работает
Стадия 0: прототипирование бизнес-глоссария, каталога данных, ETL и DWH. Vendor selection: сравнение DWH (Vertica vs Greenplum vs ClickHouse), ETL (Informatica vs NiFi vs AirFlow), MDM (Gartner MQ 2021). Стадия 1: консолидация источников, витрины для 8+ продуктов (Оптимизатор, Навигатор, Предиктивный ремонт, Прогнозирование спроса, Планирование продаж, PM). Стадия 2: Data Quality и безопасность. Стадия 3: Data Lake (Hadoop/Cloudera), Delta Lake.
Почему именно так
4-стадийная миграция вместо big bang
Единовременная замена всех хранилищ на новый стек (big bang migration)
Big bang: 8+ продуктов зависят от данных — одновременная миграция парализует бизнес. Поэтапный подход: каждая стадия даёт измеримый результат, продукты мигрируют по готовности.
Непрерывная работа продуктов во время миграции. Каждая стадия — отдельный бизнес-кейс с ROI
Результаты
- 01
- Oracle TCO $19.8M → $0 (833 нелицензированных ядер CPU)
- 02
- 8+ продуктов на едином DWH
- 03
- 4 стадии реализации (0–3)
- 04
- Vendor selection по 6 классам инструментов
- 05
- Единый Data Gateway для всех потребителей
- 06
- Бизнес-глоссарий + каталог данных + MDM/RDM
Влияние на бизнес
Устранение лицензионного риска $19.8M — критически важно для компании с оборотом в десятки миллиардов. Vendor selection по 6 классам предотвращает ошибку выбора платформы. Сокращение подключения данных для новых продуктов с недель до дней. Фундамент для всех data-driven продуктов (IBP, Предиктивный ремонт, Навигатор).
Алгоритмы и паттерны
Технологии
- SAP BW
- Oracle
- Vertica
- Hadoop/Cloudera
- Apache Kafka
- AirFlow
- NiFi
- Informatica
- Delta Lake
- MDM/RDM
- Data Gateway