Site Reliability Engineering (SRE) Ă© uma forma de implementação de DevOps. A abordagem SRE se originou no Google e se tornou popular entre as empresas de TI do setor alimentĂcio depois que o livro de mesmo nome foi publicado em 2016.
Neste artigo, descreveremos como a abordagem SRE se relaciona com DevOps, quais tarefas um engenheiro de SRE resolve e quais métricas ele cuida.
De DevOps para SRE
Em muitas empresas de TI, o desenvolvimento e as operações sĂŁo realizados por equipes diferentes com objetivos diferentes. O objetivo da equipe de desenvolvimento Ă© lançar novos recursos. O objetivo da equipe de operações Ă© manter recursos novos e antigos funcionando na produção. Os desenvolvedores se esforçam para entregar o máximo de cĂłdigo possĂvel, os administradores de sistema se esforçam para manter o sistema confiável.
Os objetivos das equipes sĂŁo conflitantes. Para resolver essas contradições, a metodologia DevOps foi criada. Envolve reduzir silos, aceitar erros, confiar na automação e outros princĂpios.
, , DevOps . « DevOps?». , , .
2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.
DevOps — . SRE — . DevOps — , SRE — , DevOps.
SRE-
SRE , DevOps .
, , SRE . , - . , SRE .
SRE — . , , — .
, SRE , , . - : « — ». , . SRE . , , . , .
. , , . , .
SRE . , SRE : «OK, , , ». , , , .
- — , .
- — , . , .
SRE , -, . SRE ( , ).
SRE , - .
, SRE . , -. — .
: SLA, SLI, SLO
. — , .
SRE , . , (, . .) , .
- — Service-Level Objective (SLO). , .
SRE , . « , . , , SLO», Google. — , , .
, — Service Level Indicator (SLI). , , , — .
SLO SLI — , . Service Level Agreement (SLA). .
SLA: 99,95% ; 99 ; 85% 1,5 .
100%
SRE , . , .
, «»:
- — 99%,
- — 99,9%,
- — 99,99%,
- — 99,999%.
— 5 , — 3,5 .
, 100%, . - ROI — .
, . ! 47 . . .
. 99,99% 99,999%, 99%. , 10 8 . , .
— MTBF MTTR
, SRE : MTBF MTTR.
MTBF (Mean Time Between Failures) — .
MTBF . SRE «!». , SRE - , , .
MTTR (Mean Time To Recovery)— ( ).
MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .
13 — , . 7-8 , — . MTTR , .
SRE , MTTR, SLO , , .
, . , , :
, SRE. , SRE , , , , . , , .
, 100% , , , — , - «» .
SLO. SLO (Error budget).
SRE.
43 , 40 , : SLO, . , -.
, . SRE Error budget :
- , ,
- ,
- ,
- .
, Error budget . .
«» : SRE, . , , . SRE .
— SRE . Netflix Chaos Engineering.
Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .
Chaos Engineering :
- , , ( ).
- , . — : , .
- , , , CI/CD- .
Post mortem
SRE blameless postmortem, , .
, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .
, , SLO. SRE — . , , .
:
- — (« !»);
- — (« - , , »);
- — , («, , , »).
SRE , , , , . .
(Observability). , , , .
: , , . : , - Kubernetes, , .
Observability MTTR. Observability , , , MTTR.
SRE
SRE , , , . SRE , . , . , .
SRE , , . . — (, ). , , , .
SRE : SLO, SLI, SLA . , SLA SLO. . , , .
, , — , . Error budget, , .
SRE. , .
SRE Google:
Site Reliability Engineering
The Site Reliability Workbook
Building Secure & Reliable Systems
:
SRE
SLA, SLI, SLO
Chaos Engineering Chaos Community Netflix
200 SRE
SRE ():
Keys to SRE
SRE
SRE
SRE
, — . , - SRE . 11–13 2020.
SLO, SLI, SLA, , , .
SLO: , , , DoS-. , Error budget, , .