FinOps: оптимизация ИТ-инфраструктуры
145→114 ВМ, нормы CPU 70-90% P98 / RAM 70-80% P95 / HDD 65-80% P100, 5 категорий экономии
Что не работает
ИТ-инфраструктура из 900+ серверов росла стихийно: каждый продукт запрашивал выделенные ресурсы с запасом, утилизация серверов была низкой (CPU <30%, RAM <40%). Затраты росли линейно. Отсутствовали нормы утилизации: 145 виртуальных машин, многие загружены на 10–20%.
Архитектурный подход
Внедрение FinOps-подхода с конкретными нормами утилизации: CPU 70–90% (P98), RAM 70–80% (P95), HDD 65–80% (P100). Консолидация ВМ: 145→114. Пять категорий экономии: оптимизация ВМ, консолидация серверов, оптимизация лицензий, вывод из эксплуатации, переход на open-source. Посистемный анализ каждого продукта.
Что было сложно
Владельцы систем завышали потребности «на всякий случай» — каждый боялся деградации при консолидации. Пришлось перейти с средних значений на перцентили (P95/P98/P100), чтобы доказать реальные пики нагрузки и безопасный запас. Посистемный анализ 145 ВМ — ручная работа, автоматизации метрик утилизации не было, собирал данные из Zabbix/Prometheus вручную.
Моя роль и вклад
CTO / Технический директор
Разработал методологию перцентильных норм утилизации (P95/P98/P100 вместо средних). Лично провёл посистемный анализ 145 ВМ. Определил 5 категорий экономии и план консолидации 145→114 ВМ. Внедрил ежемесячный FinOps-отчёт с бюджетным ревью.
Как это выглядит
Как это работает
Инвентаризация 900+ серверов → замер утилизации по CPU/RAM/HDD → установка норм по перцентилям (P95/P98/P100) → посистемный план оптимизации. Консолидация 145→114 ВМ. Интеграция с Zabbix/Prometheus/Grafana. Ежемесячный FinOps-отчёт: текущая утилизация vs нормы, отклонения, план действий. Budget review для каждого нового запроса.
Почему именно так
Перцентильные нормы вместо средних значений
Средняя утилизация как метрика (avg CPU < 50% = недозагружен)
Средняя утилизация скрывает пики: сервер с avg 30% может иметь P98 = 95%. Перцентильные нормы (P95/P98/P100) показывают реальную нагрузку и безопасный порог консолидации.
145→114 ВМ без деградации. Каждая система проанализирована по 3 метрикам × 3 перцентиля
Результаты
- 01
- ВМ: 145 → 114 (−21%)
- 02
- Нормы: CPU 70–90% P98, RAM 70–80% P95, HDD 65–80% P100
- 03
- 5 категорий экономии (ВМ, серверы, лицензии, вывод, open-source)
- 04
- 172M₽ экономия на инфраструктуре (в составе ЦП)
- 05
- Посистемный анализ каждого продукта
Влияние на бизнес
Сокращение ВМ на 21% (145→114) без потери производительности. Нормы утилизации по перцентилям (P95/P98/P100) — научный подход вместо «средних». 5 направлений экономии покрывают полный стек от железа до лицензий. Высвобождённые ресурсы переиспользуются для новых продуктов без закупок.
Алгоритмы и паттерны
Технологии
- Prometheus
- Grafana
- Zabbix
- VMware
- ELK
- FinOps Framework