Inteligência Artificial na Rede de Data Center: Experiência Huawei

No rastro de minha palestra na conferência AI Journey em 4 de dezembro, quero dizer como a aplicação correta de sistemas de IA no gerenciamento de rede permite construir centros de dados modernos baseados em soluções Huawei sem gargalos e sem perda de pacotes. Os benefícios de tais soluções são especialmente evidentes quando armazenamentos All-Flash são usados ​​no data center, redes neurais são treinadas ou computação de GPU de alto desempenho é executada.











Transformação de data center



Os data centers estão mudando conceitualmente e dramaticamente. A tendência tornou-se relativamente generalizada há cerca de dez anos, no entanto, digamos, no setor bancário, ela começou muito antes. Independentemente do caminho escolhido, os objetivos das transformações são mais ou menos semelhantes - a unificação e consolidação de recursos.



Esta é a primeira etapa, seguida por melhorias adicionais na eficiência do data center por meio de automação, orquestração e transição para o modo de nuvem híbrida. E o limite máximo de transformação alcançável hoje é a introdução de sistemas de inteligência artificial.







Soluções Huawei para todos os estágios de transformação



Em cada etapa, dependendo da “maturidade de TI” do cliente, a Huawei oferece soluções próprias projetadas para proporcionar o melhor resultado de modernização sem gastos desnecessários. Hoje, gostaria de falar com mais detalhes sobre a “cereja do bolo” - sistemas de IA em data centers modernos.







Para fazer uma analogia com o corpo humano, os comutadores de rede do data center agem como o sistema circulatório, fornecendo conectividade entre vários componentes: nós de computação, sistemas de armazenamento de dados, etc.



Há apenas alguns anos, a tecnologia de armazenamento SSD tornou-se amplamente disponível e o desempenho da CPU continua crescendo. Com isso, os nós de armazenamento e computação não são mais as principais causas da latência. Mas a rede do data center há muito permanece na estrutura dos data centers como uma espécie de "irmão mais novo".



Os fabricantes tentaram resolver o problema de maneiras diferentes. Alguém escolheu as tecnologias licenciadas InfiniBand (IB) para construir uma rede . A rede acabou sendo especializada e capaz de resolver apenas tarefas de perfil restrito. Alguém preferiu construir fábricas de rede usando protocolos Fibre Channel(FC). Ambas as abordagens tinham suas limitações: ou a largura de banda da rede acabou sendo relativamente modesta ou o custo total da solução limitado, o que foi agravado ainda mais pela dependência de um fornecedor.



Nossa empresa passou pelo uso de tecnologias abertas. As soluções da Huawei são baseadas na segunda versão do RoCE , cujas capacidades foram expandidas por meio do uso de algoritmos licenciados adicionais em nossos switches. Isso nos permitiu otimizar seriamente as capacidades das redes.







Por que não vemos o futuro por trás das soluções clássicas de FC? A questão é que eles funcionam com base no princípio da alocação de crédito estática, que requer a configuração da malha de rede de acordo com as necessidades de seus aplicativos por um período limitado.



Recentemente, o FC deu um passo à frente em direção às redes de armazenamento independentes, mas continua a apresentar limitações de desempenho. Agora que o mainstream - a sexta geração da tecnologia, permitindo atingir um throughput de 32 Gb / s, as soluções de 64 Gb / s estão começando a ser implementadas. Ao mesmo tempo, com a ajuda da Ethernet, hoje, usando tabelas de prioridade, podemos obter 100, 200 e até 400 Gbit / s para o servidor.







O valor agregado da rede do data center é de particular importância em um mundo onde drives de estado sólido com interfaces de alta velocidade estão ganhando cada vez mais participação no mercado, substituindo drives de fuso clássicos. A Huawei está empenhada em permitir que o armazenamento SSD alcance todo o seu potencial.







Rede de data center de última geração



Um pequeno exemplo de como o fazemos. No diagrama mostra um de nossos sistemas de armazenamento, reconhecido como o mais rápido do mundo. Aqui são mostrados nossos servidores baseados em x86 ou ARM, oferecendo desempenho que atende às expectativas de clientes extremamente exigentes. Nos data centers, com base nessas soluções, conseguimos atingir uma latência de ponta a ponta de no máximo 0,1 ms. O uso de novas tecnologias de aplicação nos ajuda a obter esse resultado.



As tecnologias clássicas usadas no armazenamento eram limitadas, em particular, pelas latências bastante altas causadas pelo barramento SAS. Mudar para novos protocolos como o NVMe melhorou significativamente esse parâmetro e, ao mesmo tempo, a própria rede se tornou um fator limitante no desempenho.







Considere, no mesmo exemplo, o uso de redes com algoritmos licenciados adicionais. Eles otimizam a latência de ponta a ponta, aumentam drasticamente o rendimento da rede e aumentam as operações de I / O por unidade de tempo. Esta abordagem ajuda a evitar a "compra dupla", às vezes necessária para atingir os parâmetros de desempenho exigidos, e a economia total (em termos de TCO) ao introduzir uma nova rede chega a 18-40%, dependendo do equipamento utilizado.







Quais são esses algoritmos wow?



As tecnologias convencionais trouxeram consigo os problemas usuais, uma vez que trabalhavam com limiares estáticos da fila. Esse limite significava que havia alguma relação básica entre velocidade e latência para todos os aplicativos. O modo de controle manual não permitiu o ajuste dinâmico dos parâmetros de rede.



Usando chipsets de aprendizado de máquina adicionais nos switches, ensinamos a rede a operar em um modo que permite construir redes de data center inteligentes sem perda de pacotes (chamamos de iDCN ).







Como a otimização inteligente é alcançada? Aqueles que estão envolvidos em redes neurais encontrarão facilmente elementos familiares e mecanismos de treinamento / inferência no diagrama. Nossas soluções combinam modelos incorporados com a capacidade de aprender em uma rede específica.







O sistema de IA acumula uma certa quantidade de conhecimento sobre a rede, que é então aproximado e usado na configuração dinâmica da rede. Dispositivos baseados em nossas próprias soluções de hardware usam um chip AI especial. Modelos construídos em chipsets licenciados de fabricantes americanos usam um módulo complementar e um barramento de software.







Sobre os modelos usados. Usamos uma abordagem que se baseia em um modelo de aprendizagem por reforço. O sistema analisa 100% dos dados que passam pelo dispositivo de rede e seleciona a linha de base. Se, por exemplo, você conhece a largura de banda e os atrasos que são críticos para um determinado aplicativo, não é difícil determinar a linha de base. Com um grande número de aplicativos, é possível realizar cálculos de “mediana” e fazer ajustes no modo automático, melhorando significativamente o desempenho.







O diagrama mostra o processo em mais detalhes. No início da otimização da rede, calculamos os valores de limite - mínimo e máximo. Em seguida, vem a rede neural convolucional(CNN). Assim, é possível equalizar as taxas de largura de banda e latência para cada aplicação, bem como determinar seu "peso" total nos serviços de rede. Usando essa abordagem estratificada, obtemos alguns insights realmente interessantes.







Quando o aplicativo é desconhecido, um algoritmo de busca heurística é usado em conjunto com uma " máquina de estado ". Com a ajuda dele, começamos a nos mover no sentido anti-horário ao longo do diagrama de blocos mostrado acima, identificando valores de limite e construindo um modelo. É um processo automático que pode ser manipulado conforme necessário. Se isso não for necessário, é mais fácil contar com o switch e seus serviços.







Da teoria à prática



Aplicando esses algoritmos e trabalhando no nível de toda a rede, e não em suas fatias individuais, resolvemos todos os principais problemas de desempenho. Já existem casos interessantes de implementação e utilização de tais tecnologias no setor bancário. Esses mecanismos também estão em demanda em outras indústrias, por exemplo, entre as operadoras de telecomunicações.







Vejamos os resultados dos testes abertos. O laboratório independente do Tolly Group testou nossa solução e a comparou com soluções Ethernet e IB de outros fabricantes. Os testes mostraram que o desempenho do produto da Huawei é equivalente ao do IB e 27% melhor do que outros produtos Ethernet importantes.







A rede de data center sem perdas demonstra eficiência máxima em vários cenários, como:



  • Treinamento de IA;
  • armazenamento centralizado;
  • armazenamento distribuído;
  • computação GPU de alto desempenho.








Concluindo, vamos considerar um dos cenários de uso de uma rede de data center inteligente. Muitos clientes usam sistemas de armazenamento distribuído (SDS). Ao integrar sistemas de armazenamento de software de diferentes fabricantes com a ajuda de nossa solução, você pode obter um desempenho 40% maior do que sem ele. Isso significa que quando você conhece o nível de desempenho necessário para o seu SDS, ele pode ser alcançado usando 40% menos servidores.



***



A propósito, não se esqueça dos nossos inúmeros webinars realizados não apenas no segmento de língua russa, mas também em nível global. A lista de webinars de dezembro está disponível aqui .



All Articles