Цифровая платформа ПГК
Бюджет 93.4M₽, экономия 397M₽ за 5 лет — 26 продуктов, 21 инфраструктурный инструмент, DevOps с 1.75 до 5 продуктов на инженера
Что не работает
Крупнейший частный оператор грузовых вагонов РФ (140K+ вагонов) страдал от дублирования: 45 из 83 сервисов имели функциональный клон в других продуктах. DevOps-инженер обслуживал 1.75 продукта. Time-to-Market нового продукта — 16 недель. Отсутствовали переиспользуемые сервисы, единые стандарты и DSML-инфраструктура для Data Science.
Архитектурный подход
Спроектирована и запущена единая цифровая платформа из 26 продуктов: переиспользуемые сервисы (service mesh), единые стандарты разработки, 21 инфраструктурный инструмент, DSML-платформа для Data Science (JupyterHub, MLFlow, AirFlow, DVC). Архитектурный контроль дублирования — каждый новый сервис проверяется на существующие аналоги.
Что было сложно
Политическое сопротивление: каждая продуктовая команда считала свой стек уникальным и не хотела мигрировать на платформу. Пришлось доказывать экономию на цифрах TCO перед Советом директоров. Аудит 83 сервисов выявил, что 45 — дубли, но владельцы каждого утверждали, что «их версия лучше». Параллельный запуск 26 продуктов при ограниченной команде DevOps — приоритизация через утилизацию, а не через громкость руководителя.
Моя роль и вклад
CTO / Технический директор
Лично провёл аудит 83 сервисов и выявил 45 дублей. Определил стек 21 инфраструктурного инструмента. Спроектировал DSML-платформу (JupyterHub, MLFlow, AirFlow, DVC). Разработал TCO-модель на 5 лет. Руководил командой архитекторов. Представлял результаты на Совете директоров.
Как это выглядит
Реальные скриншоты
Архитектура системы
Как это работает
Аудит 83 сервисов → выявление 45 дублей → целевой процесс переиспользования. Унификация 21 инфраструктурного инструмента (Zabbix, ELK, Prometheus, Grafana, ArgoCD, Vault, Rancher, Nexus, Kafka, PostgreSQL PRO, Ansible, Terraform, GitLab CI/CD, Sentry). DSML-платформа: JupyterHub + MLFlow + AirFlow + DVC + Gurobi. DevSecOps: CheckMarx (SAST), SIEM, Infowatch. Тестирование: JMeter, Selenium, Loadrunner, TestIT. 4 фазы: прототипирование → MVP → развитие → масштабирование.
Почему именно так
Платформенный подход вместо продуктовой автономии
Каждая продуктовая команда выбирает свой стек и инфраструктуру самостоятельно
Автономия: 45 из 83 сервисов оказались дублями. DevOps тратил время на уникальные конфигурации вместо масштабирования. Инфраструктурные затраты росли линейно с каждым продуктом.
26 продуктов на единой платформе с 21 унифицированным инструментом. T2M с 16 до 4 недель. DevOps с 1.75 до 5.0 продуктов на инженера
Результаты
- 01
- 397M₽ экономия за 5 лет TCO (2022→2026)
- 02
- 26 продуктов на платформе, 21 инфраструктурный инструмент
- 03
- DevOps: 1.75 → 2.1 → 5.0 продуктов на инженера
- 04
- Time-to-Market: 16 → 14 → 4 недели
- 05
- 172M₽ экономия на инфраструктуре, 65M₽ от переиспользования
- 06
- 80.5M₽ экономия DevOps, 38M₽ от DSML-централизации
- 07
- 41.5M₽ прочие эффекты (TTM acceleration, quality, risk reduction)
Влияние на бизнес
Бюджет 93.4M₽ при TCO-экономии 397M₽ за 5 лет (2022→2026). DevOps-утилизация выросла с 1.75 до 5.0 продуктов на инженера (экономия 80.5M₽). T2M сократился с 16 до 4 недель. 45 из 83 сервисов-дублей ликвидированы. DSML-платформа (JupyterHub, MLFlow, AirFlow) сэкономила 38M₽ на централизации DS-инфраструктуры.
Алгоритмы и паттерны
Технологии
- Python
- TypeScript
- NodeJS
- FastAPI
- Angular
- Vue.js
- PostgreSQL PRO
- Apache Kafka
- S3 Minio
- AirFlow
- MLFlow
- JupyterHub
- DVC
- Gurobi
- Docker
- Rancher
- ArgoCD
- Ansible
- GitLab CI/CD
- Nexus
- Zabbix
- Grafana
- Prometheus
- ELK
- Sentry
- Hashicorp Vault
- CheckMarx
- JMeter
- Selenium
- TestIT