Como Uma.Tech desenvolveu a infraestrutura

Lançamos novos serviços, o tráfego cresceu, substituímos servidores, conectamos novos sites e redesenhamos data centers - e agora contaremos essa história, cujo início apresentamos a vocês cinco anos atrás .



Cinco anos é um tempo característico para somar os resultados intermediários. Portanto, decidimos falar sobre o desenvolvimento da nossa infraestrutura, que percorreu um caminho de desenvolvimento incrivelmente interessante ao longo dos cinco anos, da qual nos orgulhamos. As mudanças quantitativas que implementamos se transformaram em qualitativas, agora a infraestrutura pode operar em modalidades que pareciam fantásticas em meados da década passada.



Prestamos serviços para os projetos mais complexos com os mais rígidos requisitos de confiabilidade e cargas, incluindo PREMIER e Match TV. Em transmissões de esportes e na estreia de séries populares de TV, é necessário retornar o tráfego em terabits / s, implementamos isso facilmente, e com tanta frequência que trabalhar nessas velocidades há muito se tornou comum para nós. E há cinco anos, o projeto mais difícil que funcionava em nossos sistemas era o Rutube, que desde então vem se desenvolvendo, aumentando os volumes e o tráfego, o que teve que ser levado em consideração no planejamento das cargas.



Falamos sobre como desenvolvemos o hardware de nossa infraestrutura ( “Rutube 2009-2015: a história de nosso hardware” ) e desenvolvemos um sistema responsável pelo envio de vídeo ( “De zero a 700 gigabits por segundo - como um dos maiores sites de hospedagem de vídeo na Rússia envia vídeos "), mas muito tempo se passou desde a redação destes textos, muitas outras soluções foram criadas e implementadas, cujos resultados nos permitem atender aos requisitos modernos e ser flexíveis o suficiente para reconstruir para novas tarefas.







Estamos constantemente desenvolvendo o núcleo da rede . Mudamos para equipamentos Cisco em 2015, conforme mencionado no último artigo. Então era tudo o mesmo 10 / 40G, mas por razões óbvias, depois de alguns anos eles atualizaram o chassi existente e agora estamos usando ativamente 25 / 100G também.







Os links 100G há muito não são um luxo (ao contrário, são uma necessidade urgente da época em nosso segmento), nem uma raridade (cada vez mais operadoras fornecem conexão nessas velocidades). No entanto, o 10 / 40G continua relevante: através destes links, continuamos a conectar operadoras com um pequeno volume de tráfego, através do qual atualmente é inviável utilizar uma porta maior.



O núcleo da rede que criamos merece uma consideração separada e se tornará o tópico de um artigo separado um pouco mais tarde. Lá vamos nos aprofundar nos detalhes técnicos e considerar a lógica de nossas ações ao criá-lo. Mas agora continuaremos desenhando a infraestrutura de forma mais esquemática, já que sua atenção, caros leitores, não é ilimitada.



Servidores de veiculação de vídeoevoluir rapidamente, para o qual oferecemos muito esforço. Se antes usávamos principalmente servidores 2U com 4-5 placas de rede com duas portas 10G cada, agora a maior parte do tráfego é enviada de servidores 1U, nos quais há 2-3 placas com duas portas 25G cada. Os cartões com 10G e 25G têm quase o mesmo valor e soluções mais rápidas permitem que você ofereça 10G e 25G. O resultado é uma economia clara: menos componentes de servidor e cabos para conectar - menos custo (e mais confiabilidade), componentes ocupam menos espaço em rack - mais servidores podem ser acomodados por unidade de espaço físico e, portanto, menores custos de aluguel.



Mas o mais importante é o ganho de velocidade! Agora com 1U podemos dar mais de 100G! E isso tem como pano de fundo uma situação em que alguns grandes projetos russos chamam de "realização" o retorno de 40G com 2U. Teríamos seus problemas!







Observe que a geração de placas de rede que só funcionam em 10G, ainda usamos. Este equipamento funciona de forma estável e é perfeitamente familiar para nós, então não o jogamos fora, mas encontramos um novo aplicativo para ele. Instalamos esses componentes em servidores de armazenamento de vídeo, para os quais uma ou duas interfaces 1G claramente não são suficientes para uma operação eficaz, aqui as placas 10G se mostraram relevantes.



Sistemas de armazenamentocrescer também. Nos últimos cinco anos, eles mudaram de unidades de doze discos (12x HDD 2U) para trinta e seis unidades de disco (36x HDD 4U). Algumas pessoas têm medo de usar "carcaças" tão espaçosas, porque no caso de falha de um desses chassis, pode haver uma ameaça à produtividade - e mesmo à capacidade de trabalho! - para todo o sistema. Mas isso não vai acontecer conosco: fornecemos redundância no nível de cópias geodistribuídas de dados. Distribuímos o chassi por diferentes data centers - usamos três no total - e isso elimina a ocorrência de problemas tanto no caso de falha do chassi quanto na queda da plataforma.







Claro, essa abordagem tornou redundante o RAID de hardware, que abandonamos. Ao eliminar a redundância, aumentamos simultaneamente a confiabilidade do sistema, simplificando a solução e removendo um dos potenciais pontos de falha. Lembre-se de que nossos sistemas de armazenamento são "feitos por nós mesmos". Fizemos isso de forma totalmente deliberada e o resultado foi completamente satisfatório para nós. Mudamos de



data center várias vezes nos últimos cinco anos. Desde a redação do artigo anterior, não alteramos apenas um data center - DataLine - o restante exigia a substituição à medida que nossa infraestrutura se desenvolvia. Todas as transferências entre locais foram planejadas.



Dois anos atrás, migramos dentro do MMTS-9, mudando-nos para um local com um reparo de alta qualidade, um bom sistema de refrigeração, uma fonte de alimentação estável e sem poeira, que costumava se acumular em camadas espessas em todas as superfícies, e também obstruir abundantemente o interior do nosso equipamento. Opte por um serviço de qualidade - e livre de poeira! - tornou-se o motivo da nossa mudança.







Quase sempre, "um cruzamento é igual a dois fogos", mas os problemas de migração são diferentes a cada vez. Desta vez, a principal dificuldade de se mover dentro de um data center era "fornecida" por conexões cruzadas ópticas - sua abundância entre andares sem ser combinada em uma única conexão cruzada pelas operadoras de telecomunicações. O processo de atualização e redirecionamento de cruzamentos (com o qual os engenheiros do MMTS-9 nos ajudaram) foi talvez o estágio mais difícil da migração.



A segunda migração ocorreu há um ano, em 2019 mudamos de um data center não muito bom para o O2xygen. As razões para a mudança foram semelhantes às discutidas acima, mas foram complementadas pelo problema com a falta de atratividade do data center original para operadoras de telecomunicações - muitos provedores tiveram que "alcançar" este ponto por conta própria.







A migração de 13 racks para um site de alta qualidade no MMTS-9 permitiu desenvolver este local não só como operador (alguns racks e operadores de “forwarding”), mas também utilizá-lo como um dos principais. Isso simplificou um pouco a migração de um data center não muito bom - movemos a maior parte do equipamento dele para outro local, e a O2xygen assumiu a função de desenvolver, enviando 5 racks de equipamentos para lá também.



Hoje, o O2xygen já é uma plataforma completa, onde os operadores de que precisamos “vieram” e novos continuam a se conectar. Para as operadoras, o O2xygen também foi atraente em termos de desenvolvimento estratégico.



Definitivamente, passamos a fase principal da mudança durante a noite e, ao migrar dentro do MMTS-9 e para o O2xygen, aderimos a essa regra. Ressaltamos que seguimos estritamente a regra "mover-se durante a noite", independentemente do número de racks! Houve até um precedente quando movemos 20 racks e o fizemos em uma noite também. A migração é um processo bastante simples que requer precisão e consistência, mas existem alguns truques aqui, tanto no processo de preparação, quanto na movimentação e ao implantar em um novo local. Estamos prontos para informá-lo sobre a migração em detalhes se você estiver interessado.



resultadosGostamos de planos de desenvolvimento de cinco anos. Concluímos a construção de uma nova infraestrutura resiliente em três data centers. Aumentamos drasticamente a densidade de entrega de tráfego - se recentemente nos alegramos com 40-80G com 2U, agora é normal doarmos 100G com 1U. Agora, um terabit de tráfego é percebido por nós como comum. Estamos prontos para desenvolver ainda mais nossa infraestrutura, que se revelou flexível e escalonável.



Questão:o que contar para vocês nos textos a seguir, caros leitores? Por que começamos a construir sistemas de armazenamento caseiros? Sobre o núcleo da rede e seus recursos? Sobre os truques e complexidades da migração entre data centers? Sobre como otimizar as decisões de emissão selecionando componentes e parâmetros de ajuste fino? Sobre a criação de soluções sustentáveis ​​graças à redundância múltipla e escalabilidade horizontal dentro do data center, que são implementadas em uma estrutura de três data centers?



Autor: Petr Vinogradov - Diretor Técnico da Uma.TechHamsters



All Articles