Olá. Hoje gostaríamos de falar sobre a detecção de anomalias em um ambiente de microsserviço. Esta postagem é um breve resumo do nosso relatório de 40 minutos que fizemos na conferência online DevOps Live 2020 e, para não escrever uma longa leitura, decidimos focar em uma visão geral das ferramentas para detectar anomalias na distribuição de valores métricos para automatizar o monitoramento de microsserviços, que podem ser usados rapidamente por qualquer equipe ...
O tema detecção de anomalias agora é muito relevante, pois com a transição para microsserviços para SRE e DevOps, a prioridade das tarefas relacionadas à conversão de alertas em um sinal significativo, reduzindo MTTD e simplificando a configuração de alertas no monitoramento de ambientes distribuídos aumentou significativamente.
, , , .
"" .
, , .
?
?
, :
- latency ;
- ;
- .
"" , - , .
, :
- ;
- , ;
- «» , .
, , , ?
:
- c ;
- APM ;
- as a Service.
.
Prometheus , time series .
recording rules, , .
, , , ( " ").
, , z- (z-score) — , , .
http_requests_total, :
# - record: job:http_requests:rate5m expr: sum by (app) (rate(http_requests_total[5m]))
:
# average - - record: job:http_requests:rate5m:avg_over_time_1w expr: avg_over_time(job:http_requests:rate5m[1w]) # stddev - - record: job:http_requests:rate5m:stddev_over_time_1w expr: stddev_over_time(job:http_requests:rate5m[1w]) # z- (job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w ) / job:http_requests:rate5m:stddev_over_time_1w
( , latency) — , , .
— .
, .
.
, — z-.
Prometheus — PAD
Prometheus Anomaly Detector (PAD), Red Hat, , .
PAD Prometeheus , PAD recording rules, , , Prophet, .
PAD Grafana .
, proof of concept.
APM
(Application Performance Monitoring) AIOps — , , .
, .
New Relic
New Relic baseline ( ) — , EUM, .
— baseline, ( , , ).
, , , , baseline.
, .
2020 — New Relic Applied Intelligence (AI).
New Relic AI KPI .
/ .
AppDynamics
AppDynamics APM baseline KPI- .
baseline , , (, ) , baseline.
, , health rule .
, baseline health rule.
Dynatrace
Dynatrace " " , .
:
- KPI
.
Instana
Instana " " 230 "" , KPI .
latecy, error rate, traffic ( ).
E-Divisive with Medians (EDM).
, , baseline.
"" "" , .
baseline — .
EUM.
as a Service
APM , Prometheus , , SaaS .
Azure Metric Advisor
Microsoft — Azure Metric Advisor .
, , e-commerce.
(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .
Anodot
— Prometheues -.
-, SRE .
e-commerce, gaming .
AnomalyIO
, , , , InfluxDB.
, InfluxDB, , .
- .
- – , .
- Prometheus — .
- APM AIOps, .
.