Перейти к содержимому
← Все кейсыFinOpsEnterprise

FinOps: оптимизация ИТ-инфраструктуры

145→114 ВМ, нормы CPU 70-90% P98 / RAM 70-80% P95 / HDD 65-80% P100, 5 категорий экономии

Проблема

Что не работает

ИТ-инфраструктура из 900+ серверов росла стихийно: каждый продукт запрашивал выделенные ресурсы с запасом, утилизация серверов была низкой (CPU <30%, RAM <40%). Затраты росли линейно. Отсутствовали нормы утилизации: 145 виртуальных машин, многие загружены на 10–20%.

Решение

Архитектурный подход

Внедрение FinOps-подхода с конкретными нормами утилизации: CPU 70–90% (P98), RAM 70–80% (P95), HDD 65–80% (P100). Консолидация ВМ: 145→114. Пять категорий экономии: оптимизация ВМ, консолидация серверов, оптимизация лицензий, вывод из эксплуатации, переход на open-source. Посистемный анализ каждого продукта.

Вызовы

Что было сложно

Владельцы систем завышали потребности «на всякий случай» — каждый боялся деградации при консолидации. Пришлось перейти с средних значений на перцентили (P95/P98/P100), чтобы доказать реальные пики нагрузки и безопасный запас. Посистемный анализ 145 ВМ — ручная работа, автоматизации метрик утилизации не было, собирал данные из Zabbix/Prometheus вручную.

Роль

Моя роль и вклад

CTO / Технический директор

Разработал методологию перцентильных норм утилизации (P95/P98/P100 вместо средних). Лично провёл посистемный анализ 145 ВМ. Определил 5 категорий экономии и план консолидации 145→114 ВМ. Внедрил ежемесячный FinOps-отчёт с бюджетным ревью.

Демо

Как это выглядит

Реализация

Как это работает

Инвентаризация 900+ серверов → замер утилизации по CPU/RAM/HDD → установка норм по перцентилям (P95/P98/P100) → посистемный план оптимизации. Консолидация 145→114 ВМ. Интеграция с Zabbix/Prometheus/Grafana. Ежемесячный FinOps-отчёт: текущая утилизация vs нормы, отклонения, план действий. Budget review для каждого нового запроса.

Архитектурное решение

Почему именно так

Перцентильные нормы вместо средних значений

Альтернатива

Средняя утилизация как метрика (avg CPU < 50% = недозагружен)

Почему не подошла

Средняя утилизация скрывает пики: сервер с avg 30% может иметь P98 = 95%. Перцентильные нормы (P95/P98/P100) показывают реальную нагрузку и безопасный порог консолидации.

Результат

145→114 ВМ без деградации. Каждая система проанализирована по 3 метрикам × 3 перцентиля

Метрики

Результаты

01
ВМ: 145 → 114 (−21%)
02
Нормы: CPU 70–90% P98, RAM 70–80% P95, HDD 65–80% P100
03
5 категорий экономии (ВМ, серверы, лицензии, вывод, open-source)
04
172M₽ экономия на инфраструктуре (в составе ЦП)
05
Посистемный анализ каждого продукта
Бизнес-импакт

Влияние на бизнес

Сокращение ВМ на 21% (145→114) без потери производительности. Нормы утилизации по перцентилям (P95/P98/P100) — научный подход вместо «средних». 5 направлений экономии покрывают полный стек от железа до лицензий. Высвобождённые ресурсы переиспользуются для новых продуктов без закупок.

Методы

Алгоритмы и паттерны

FinOps (Cloud Economics)Capacity PlanningPercentile-based Utilization NormsInfrastructure AuditPer-system Cost Analysis
Стек

Технологии

  • Prometheus
  • Grafana
  • Zabbix
  • VMware
  • ELK
  • FinOps Framework

Готовы обсудить?

Если вам нужен архитектор, который строит автономные AI-системы — напишите.

Сербия (Белград) · CET/CEST · рабочие часы совпадают с EU · Опыт международных контрактов