O que causou o acidente em 30 de agosto, durante o qual o tráfego global caiu 3,5%

O mau funcionamento global da Internet ocorreu devido à falha do provedor americano CenturyLink. Devido à configuração incorreta do firewall, usuários em todo o mundo tiveram problemas para acessar o Google, serviços da Microsoft, serviços em nuvem da Amazon, serviço de microblog do Twitter, Discord, serviços da Electronic Arts, Blizzard, Steam, site do Reddit e muito mais.







O motivo da falha foi que a CenturyLink, sendo um provedor de Nível 3, formulou incorretamente a regra do BGPFlowspec no protocolo de segurança. O BGP Flowspec é usado para redirecionar o tráfego, então esse erro levou a sérios problemas de roteamento na rede do provedor, o que também afetou a estabilidade da Internet global. Obviamente, os usuários nos Estados Unidos foram os mais atingidos, mas os ecos dos problemas foram sentidos em todo o mundo.



É importante observar que a CenturyLink é a terceira maior empresa de telecomunicações da América, atrás apenas da AT&T e da Verizon.



BGP Flowspec por IETF é RFC 5575 e é descrito como uma extensão multiprotocolo para BGP MP-BGP que contém acessibilidade de informação de alcance de camada de rede (NLRI) . O BGP FlowSpec é um método alternativo de despejo de tráfego de ataque DDoS de uma rota, que é considerada uma forma mais sutil de evitar um ataque do que RTBH (filtragem de buraco negro acionado remotamente) , quando todo o tráfego do endereço de ataque, ou tráfego para o endereço de destino, é bloqueado. Em geral, RTBH é uma "arma do juízo final" e é o último recurso para interromper um ataque, já que seu uso muitas vezes permite que um atacante alcance o que deseja, ou seja, isolar um dos endereços.



O BGP FlowSpec é mais sutil e é essencialmente um filtro de firewall inserido no BGP para filtrar portas e protocolos específicos e determinar qual tráfego deve passar por qual rota. Assim, o tráfego "branco" vai para o endereço de destino e, definido como DDoS, é descartado da rota. O tráfego é analisado por pelo menos 12 parâmetros NLRI:



  1. Prefixo de destino. Especifica o prefixo de destino para a correspondência.
  2. Prefixo da fonte. Especifica o prefixo original.
  3. Protocolo IP. Contém um conjunto de pares {operador, valor} que são usados ​​para mapear o byte de valor IP em pacotes IP.
  4. Porta. Determina se os pacotes serão processados ​​por TCP, UDP ou ambos.
  5. . , FlowSpec.
  6. . , FlowSpec.
  7. ICMP.
  8. ICMP.
  9. TCP.
  10. . IP- ( 2, IP-).
  11. DSCP. Class Of Service flag.
  12. Fragment Encoding


Não há relatórios de falhas completos da CenturyLink, eles apenas mencionam seu data center perto de Ontário. No entanto, a falha de roteamento foi séria o suficiente para ser notada não apenas por usuários comuns, mas também por engenheiros da CloudFlare, que também usam os serviços da CenturyLink como um grande provedor.



Tudo começou com um pico de erros 522 às 10h03 GMT em 30 de agosto, de acordo com um relatório da CloudFlare .







Por exemplo, o sistema de redirecionamento automático de falha foi capaz de reduzir o número de erros e reduzi-los a 25% do valor de pico, mas os problemas com conectividade de rede e disponibilidade de recursos ainda eram persistentes e de natureza global. Tudo isso foi feito em uma janela entre 10h03 no início da falha e até 10h11 UTC. Durante esses oito minutos, a automação e os engenheiros desconectaram sua infraestrutura da CenturyLink em 48 (!) Cidades norte-americanas e redirecionaram o tráfego para canais de backup de outros provedores.



Obviamente, isso não foi feito apenas na CloudFlare. No entanto, isso não resolveu completamente o problema. Para maior clareza, que influência o provedor problemático tem no mercado de telecomunicações dos Estados Unidos e Canadá, os engenheiros da empresa forneceram um mapa oficial da disponibilidade dos serviços CenturyLink:







Nos EUA, o provedor é usado por 49 milhões de pessoas, o que significa que, para alguns clientes, se falarmos sobre o relatório CloudFlare, e até mesmo data centers inteiros, a CenturyLink é o único provedor disponível.



Como resultado, devido à queda quase total da CenturyLink, os especialistas da CloudFlare registraram uma redução de 3,5% no tráfego global da Internet. Aqui está o que parecia no gráfico para os seis principais fornecedores com os quais a empresa trabalha. CenturyLink está vermelho nele.







O fato de a falha ser global, e não apenas "um problema no data center fora de Ontário", como disse o próprio provedor, é evidenciado pelo tamanho das atualizações das regras do Flowspec. Normalmente, o tamanho das atualizações de configuração do BGP Flowspec é de cerca de 2 megabytes, mas os especialistas da CloudFlare registraram atualizações de configuração do BGP de até 26 MB (!).







Essas atualizações, que são distribuídas a cada 15 minutos, compartilham informações com os hosts sobre as alterações na integridade da rota. Isso permite que você responda com flexibilidade a alguns problemas locais. Atualizações 10-15 vezes maiores que o normal indicam que quase toda a rede do provedor está inativa ou que há problemas de conectividade extremamente sérios.



A CloudFlare acredita que a falha foi causada por uma regra BGP Flowspec global incorreta, que foi recebida pela grande maioria dos roteadores, que então entraram em uma reinicialização reversa na tentativa de restaurar a conexão. Isso se encaixa na imagem de um acidente que durou mais de 4 horas. Foi quando a sobrecarga de memória e CPU dos roteadores pode fazer com que os engenheiros percam o acesso remoto a vários nós e interfaces de controle.



A propósito, essa história está longe de ser única. Há pouco mais de um ano, a Internet em todo o mundo "parou" devido à falha da própria CloudFlare e à falha de seu DNS , além disso, a mesma empresa menciona honestamente problemas semelhantes com o Flowspec há sete anos , após o qual abandonou seu uso.



All Articles