Rede como serviço para uma grande empresa: um caso não padrão



Como atualizar o equipamento de rede em uma grande empresa sem parar a produção ? Oleg Fedorov, Gerente de Gerenciamento de Projeto do Linxdatacenter, fala sobre um projeto de grande escala no modo de cirurgia cardíaca aberta



Nos últimos anos, vimos uma crescente demanda dos clientes por serviços relacionados ao componente de rede da infraestrutura de TI. A necessidade de conectividade de sistemas de TI, serviços, aplicativos, monitoramento e gestão operacional de negócios em quase todas as áreas estão obrigando as empresas hoje a prestar mais atenção às redes.  



A gama de solicitações - desde o fornecimento de resiliência de rede até a criação e gerenciamento de um sistema autônomo cliente com a compra de um bloco de endereços IP, configuração de protocolos de roteamento e gerenciamento de tráfego de acordo com as políticas das organizações.



Há também uma demanda crescente por soluções integradas para a construção e manutenção de infraestrutura de rede, principalmente de clientes, cuja infraestrutura de rede é criada do zero ou está moralmente desatualizada, exigindo sérias modificações. 



Essa tendência coincidiu com o desenvolvimento e a complicação da própria infraestrutura de rede do Linxdatacenter. Expandimos a geografia de nossa presença na Europa conectando-nos a sites remotos, o que por sua vez exigiu a melhoria da infraestrutura de rede. 



A empresa lançou um novo serviço para clientes, Network-as-a-Service: nós cuidamos de todas as tarefas de rede de nossos clientes, permitindo que eles se concentrem em seu core business.



No verão de 2020, foi concluído o primeiro grande projeto nessa direção, sobre o qual gostaria de falar. 



No começo 



Um grande complexo industrial nos procurou para a modernização da rede que compõe a infraestrutura de um de seus empreendimentos. Foi necessário substituir os equipamentos antigos por novos, incluindo o núcleo da rede.



A última modernização dos equipamentos do empreendimento ocorreu há cerca de 10 anos. A nova gestão da empresa decidiu melhorar a conectividade, começando com atualizações de infraestrutura no nível físico mais básico. 



O projeto foi dividido em duas partes: uma atualização do parque de servidores e equipamentos de rede. Fomos responsáveis ​​pela segunda parte. 



Os requisitos básicos para a obra incluíam a minimização do tempo de inatividade das linhas de produção do empreendimento durante a execução da obra (e em algumas áreas, a eliminação completa do tempo de inatividade). Qualquer parada - perda financeira direta do cliente, que não deveria ter acontecido em hipótese alguma Em relação ao modo de funcionamento da unidade 24x7x365, além de ter em consideração a ausência total de períodos de paragem programada na prática do empreendimento, fomos incumbidos, de facto, de realizar cirurgia cardíaca a céu aberto. Este se tornou o principal diferencial do projeto.



Ir



O trabalho foi planejado de acordo com o princípio do movimento dos nós da rede distantes do núcleo para os mais próximos, bem como daqueles que menos afetam o funcionamento das linhas de produção para aqueles que influenciam diretamente este trabalho. 



Por exemplo, se você pegar um nó da rede em um departamento de vendas, uma interrupção na comunicação como resultado do trabalho neste departamento não afetará a produção de forma alguma. Ao mesmo tempo, tal incidente irá ajudar-nos, como empreiteiros, a verificar a correcção da abordagem escolhida para trabalhar nesses nós e, depois de ajustadas as acções, trabalhar nas próximas fases do projecto. 



É necessário não só substituir os nós e fios da rede, mas também configurar corretamente todos os componentes para o correto funcionamento da solução como um todo. Foram as configurações que foram testadas desta forma: iniciando o trabalho à distância do kernel, a gente meio que nos deu o “direito de errar” sem comprometer áreas críticas para o funcionamento do empreendimento. 



Identificamos áreas que não afetam o processo de produção, bem como áreas críticas - oficinas, bloco de carga e descarga, armazéns, etc. Em áreas-chave, o cliente concordou com o tempo de inatividade permitido para cada nó da rede separadamente: de 1 a 15 minutos ... Era impossível evitar completamente a desconexão de nós individuais da rede, já que o cabo deve ser trocado fisicamente do equipamento antigo para o novo, e no processo de troca também é necessário desembaraçar a "barba" dos fios, que se formou durante vários anos de operação sem os devidos cuidados (uma das consequências da terceirização do trabalho sobre a instalação de linhas de cabos).



O trabalho foi dividido em várias etapas.



Estágio 1- Auditoria. Elaboração e aprovação da abordagem de planejamento do trabalho e avaliação da prontidão das equipes: cliente, empreiteira que realiza a instalação e nossa equipe.



Etapa 2 - Elaboração de formato para execução dos trabalhos, com análise e planejamento detalhados e detalhados. Escolhemos um formato de checklist com uma indicação exata da ordem e sequência de ações, até a sequência de troca de patch cords por portas.



Etapa 3 - Execução de trabalhos em armários que não afetem a produção. Estimativa e ajuste de downtime para as etapas subsequentes da obra.



Etapa 4 - Execução de trabalhos em armários que afetam diretamente a produção. Estimativa e ajuste de paradas para a etapa final da obra.



Etapa 5- Realização de trabalhos na sala dos servidores para troca dos demais equipamentos. Rodando em roteamento em um novo kernel.



Etapa 6 - comutação sequencial do núcleo do sistema de configurações de rede antigas para novas para uma transição suave de todo o complexo do sistema (VLAN, roteamento, etc.). Nesta etapa, conectamos todos os usuários e transferimos todos os serviços para novos equipamentos, verificamos a exatidão da conexão, garantimos que nenhum dos serviços da empresa parasse, garantimos que em caso de problemas eles seriam conectados diretamente ao kernel, o que facilitou a eliminação de possíveis solução de problemas e configuração final. 



Penteado barba



O projeto também foi desafiador devido às difíceis condições iniciais. 



Em primeiro lugar, é um grande número de nós e seções da rede, com uma topologia intrincada e classificação de fios de acordo com sua finalidade. Essas "barbas" tinham que ser retiradas dos armários e meticulosamente "penteadas", descobrindo que fio sai de onde e de onde. 



Parecia algo assim:





Então:





ou assim: 





Em segundo lugar, para cada uma dessas tarefas foi necessário preparar um arquivo que descreve o processo. "Pegamos o fio X da porta 1 do equipamento antigo e o conectamos à porta 18 do novo equipamento." Parece simples, mas quando você tem 48 portas completamente obstruídas nos dados iniciais e não há opção ociosa (lembramos de 24x7x365), a única saída é trabalhar em blocos. Quanto mais fios podem ser retirados de equipamentos antigos por vez, mais rapidamente eles podem ser escovados e inseridos em um novo hardware de rede, evitando interrupções na rede e tempo de inatividade. 



Portanto, na fase preparatória, dividimos a rede em blocos - cada um deles pertencia a uma VLAN específica. Cada porta (ou um subconjunto delas) no equipamento antigo é uma das VLANs na nova topologia de rede. Nós os agrupamos da seguinte forma: as primeiras portas do switch abrigam as redes de usuários, as do meio - as redes de produção e as últimas - os pontos de acesso e uplinks. 



Essa abordagem tornou possível retirar e pentear do equipamento antigo não 1 fio, mas 10-15 fios por vez. Isso acelerou o fluxo de trabalho várias vezes.  



A propósito, aqui está a aparência dos fios nos armários depois de penteados: 





ou, por exemplo, assim: 





Após a conclusão da 2ª etapa, fizemos uma pausa para analisar os erros e a dinâmica do projeto. Por exemplo, pequenas falhas surgiram imediatamente devido a imprecisões nos diagramas de rede que nos foram fornecidos (um conector incorreto no diagrama é um patch cord adquirido incorreto e a necessidade de substituí-lo). 



A pausa foi necessária, pois mesmo uma pequena falha no processo era inaceitável ao trabalhar do lado direito do servidor. Se a meta era garantir que o tempo de inatividade na seção da rede não fosse superior a 5 minutos, ele não poderia ser excedido. Qualquer possível desvio do cronograma teve que ser acordado com o cliente. 



No entanto, o planejamento preliminar e a divisão do projeto em blocos possibilitaram atender ao tempo de inatividade planejado em todas as áreas e, na maioria dos casos, dispensá-lo totalmente. 



Desafio de tempo - projeto sob COVID 



No entanto, houve algumas complicações adicionais. Claro, o coronavírus foi um dos obstáculos. 



O trabalho foi complicado pelo fato de ter começado uma pandemia, sendo impossível que todos os especialistas envolvidos no processo estivessem presentes durante o trabalho no local do cliente. Apenas a equipe de instalação foi admitida no local, e o controle foi realizado através da sala em Zoom - havia um engenheiro de rede da Linxdatacenter, eu, como gerente de projeto, um engenheiro de rede do lado do cliente responsável pela produção da obra e a equipe que executava o trabalho de instalação.



Durante a obra surgiram problemas não contabilizados e foi necessário fazer ajustes na hora. Assim, foi possível prevenir rapidamente a influência do fator humano (erros no esquema, erros na determinação do status da atividade da interface, etc.).



Embora o formato de trabalho remoto parecesse incomum no início do projeto, rapidamente nos adaptamos às novas condições e entramos na fase final de trabalho. 



Executamos uma configuração de rede temporária para executar dois núcleos de rede em paralelo, o antigo e o novo, para garantir uma transição suave. No entanto, descobriu-se que uma linha extra não foi removida do arquivo de configuração do novo kernel e a transição não ocorreu. Isso nos fez perder algum tempo procurando o problema. 



Acontece que o tráfego principal foi transmitido corretamente, e o tráfego de controle não atingiu o nó através do novo núcleo. Graças à clara divisão do projeto em etapas, foi possível identificar rapidamente o trecho da rede onde a dificuldade surgiu, identificar o problema e corrigi-lo. 



Como um resultado



Resultados técnicos do projeto 



Em primeiro lugar, foi criado um novo núcleo da nova rede empresarial, para o qual construímos anéis físicos / lógicos. Isso é feito de forma que cada switch na rede tenha um "segundo ombro". Na rede antiga, muitos switches eram conectados ao núcleo por meio de uma rota, um ombro (uplink). Se foi rasgado, o switch ficou completamente inacessível. E se vários switches estivessem conectados por meio de um uplink, o acidente deixaria todo um departamento ou linha de produção fora de serviço da empresa. 



Em uma nova rede, mesmo um incidente de rede bastante grave, em nenhum cenário, será capaz de "matar" toda a rede ou uma parte significativa dela. 



90% de todos os equipamentos de rede foram atualizados, conversores de mídia (conversores de mídia de propagação de sinal) foram desativados e a necessidade de linhas de energia dedicadas para alimentar equipamentos foi eliminada conectando-se a switches PoE, onde a energia é fornecida por cabos Ethernet. 



Além disso, todas as conexões ópticas na sala do servidor e nos gabinetes no campo são marcadas - em todos os principais centros de comunicação. Isso possibilitou a elaboração de um diagrama topológico dos equipamentos e conexões da rede, refletindo seu estado atual. 



Diagrama de rede



O resultado mais importante do ponto de vista técnico: as obras de infraestrutura em larga escala foram realizadas rapidamente, sem criar qualquer interferência no funcionamento do empreendimento e quase invisíveis para o seu pessoal. 



Resultados comerciais do projeto



Na minha opinião, este projeto é interessante principalmente não do ponto de vista técnico, mas do ponto de vista organizacional. A dificuldade estava principalmente em planejar e pensar nas etapas para implementar as tarefas do projeto. 



O sucesso do projeto permite-nos dizer que a nossa iniciativa de desenvolver o direcionamento da rede dentro do portfólio de serviços da Linxdatacenter é a escolha certa do vetor para o desenvolvimento da empresa. Uma abordagem responsável da gestão de projetos, uma estratégia competente e um planejamento claro nos permitiram realizar o trabalho no nível adequado. 






All Articles