Vamos decompô-lo para que não tenhamos nada para isso - não apenas seremos elogiados por esse ultraje. E então reconstruiremos tudo - tanto que será uma ordem de magnitude melhor, mais tolerante a falhas e mais rápido.
E vamos quebrá-lo novamente.
Você acha que esta é uma competição para o uso do instrumento mais secreto de toda a nossa astronáutica - o Big Russian Space Hammer?
Não, este é um SRE online intensivo. Acontece que todo curso Slurm SREnunca e por nada diferente do anterior. Simplesmente porque você nunca vai adivinhar que, em um sistema enorme e complexo, ao qual milhares e milhares de usuários se conectam a cada segundo, e o público em si é de vários milhões, ele pode cair, quebrar, entorpecer, falhar e de centenas de outras maneiras para arruinar o clima do turno de trabalho dos engenheiros SRE.
Em dezembro realizaremos mais um SRE intensivo .

Vamos fazer uma pequena retrospectiva. Considere como, apenas alguns anos atrás, o RH fez uma corrida para encontrar mais engenheiros de DevOps em sua empresa. O prêmio mudou. Agora eles, como um sistema de rastreamento "Pantsir-C1", inspecionam a área circundante, em busca de engenheiros do SRE. Eu disse no artigo “ Eugene Varavva, desenvolvedor do Google. Como descrever o Google em 5 palavras ”, como um engenheiro de SRE vive no Google e como essa empresa está enfrentando uma escassez de especialistas em SRE.
No Slurm SRE intensivo online em dezembro, em três dias, das 10h00 às 19h00, você aprenderá como garantir a velocidade, tolerância a falhas e disponibilidade de sites em condições de recursos limitados, eliminar incidentes de TI e conduzir debriefing para que os problemas não se repitam.
Palestrantes do curso:
Ivan Kruglov . Engenheiro de software da equipe da Databricks. Tem experiência em empresas corporativas em entrega distribuída e processamento de mensagens, BigData e web-stack, pesquisa, construção de nuvem interna, malha de serviço.
Pavel Selivanov . Engenheiro DevOps Sênior na Mail.ru Cloud Solutions. Por conta de dezenas de infraestruturas construídas e centenas de pipelines de CI / CD escritos. Administrador certificado do Kubernetes. Autor de vários cursos de Kubernetes e DevOps. Palestrante regular em conferências de TI russas e internacionais.
Tudo será difícil, imprevisível e na prática. Você vai construir, quebrar e reparar - e às vezes em uma variedade de sequências.
Construir:Você deve formular indicadores de SLO, SLI, SLA para um site que consiste em vários microsserviços; desenvolver uma arquitetura e infraestrutura que os apoiará; construir, testar e implantar o site; configurar monitoramento e alertas.
Pausa: você levará em consideração os fatores internos e externos de deterioração do SLO: erros de desenvolvedor, falhas de infraestrutura, influxo de visitantes, ataques DoS. Aprenda a entender resiliência, orçamento de erro, prática de teste, gerenciamento de interrupção e carga operacional.
Correção: você será treinado para organizar de forma rápida e eficaz o trabalho da equipe de resposta a emergências no menor tempo possível: conectar colegas, notificar as partes interessadas e definir prioridades.
Estude:Você poderá analisar a abordagem do site em termos de SRE. Analise incidentes. Determine como evitá-los no futuro: melhorar o monitoramento, mudar a arquitetura, abordagens de desenvolvimento e operação, regulamentações. Automatize processos.
O SRE intensivo online simula condições reais - o tempo para restaurar o desempenho do serviço será extremamente limitado. Como na vida real, como em uma situação real de trabalho.
Você pode conhecer os termos do curso SRE, bem como estudar o programa completo, aqui .
O intensivo online está programado para dezembro de 2020. Para quem paga a participação com antecedência, preparamos um desconto.
Você está pronto para um treinamento intenso, desafios desafiadores e acidentes repentinos?
Simplesmente não vai. Haverá crescimento profissional.