Huawei CloudFabric 2.0: como devem ser as soluções de rede de data center em um banco digital inteligente

Na Huawei FSI Week 2020 online, o CTO da linha de produtos de dados da Huawei, Daniel Tang, falou em uma linguagem acessível sobre as mais recentes conquistas da empresa em soluções de rede para data centers que permitem a transformação de um data center de "apenas uma nuvem" para verdadeiramente inteligente. E, ao mesmo tempo, ele fez uma breve excursão ao pano de fundo dessa transformação.







O que mudou no banco de consumidor



Na China, até uns cinco anos atrás, conseguir um empréstimo não era uma questão rápida - para um mero mortal, com certeza. Era preciso preencher muitos papéis, mandar ou levar a uma agência bancária, talvez até mesmo na fila, e voltar para casa, para aguardar uma decisão. Quanto esperar? E como fica, de uma semana a vários meses.



Em 2020, esse procedimento foi simplificado drasticamente. Recentemente, conduzi um pequeno experimento - tentei conseguir um empréstimo usando o aplicativo móvel do meu banco. Vários toques na tela do smartphone - e o sistema promete me dar uma resposta no máximo em um quarto de hora. Mas, em menos de cinco minutos, recebo uma notificação push indicando com qual montante de empréstimo posso contar. Concordo, um progresso impressionante em comparação com a situação de cinco anos atrás. Curiosamente, demorou dias e semanas inteiros no passado recente.







Portanto, antes, a maior parte do tempo era gasta em verificação de dados e pontuação manual. Todas as informações de questionários e outros papéis tiveram que ser inseridas no sistema de TI do banco. Mas este foi apenas o começo da provação: os funcionários do banco verificaram pessoalmente seu histórico de crédito, depois do qual tomaram a decisão final. Saíam do escritório às 17h ou 18h, descansavam nos finais de semana e o processo, com isso, podia se arrastar por muito tempo.



As coisas são diferentes hoje em dia. O fator humano em muitas tarefas de banco digital é geralmente retirado dos colchetes. A avaliação, incluindo verificações antifraude e AML, é realizada automaticamente usando algoritmos inteligentes. Os carros não precisam de descanso, por isso operam sete dias por semana e 24 horas por dia. Além disso, uma boa quantidade de informações necessárias para a tomada de decisões já está armazenada em bancos de dados bancários. Isso significa que o veredicto é passado em um período muito mais curto do que na "antiguidade italiana".



Em geral, anteriormente, o data center bancário era usado antes para resolver problemas do tipo "registro". Por muito tempo permaneceu apenas um centro de contabilidade e não produzia nada por si só. Hoje, há cada vez mais data centers "inteligentes" onde um produto é criado... Eles são usados ​​para cálculos complexos e ajudam a derivar inteligência de dados brutos - na verdade, conhecimento com alto valor agregado. Além disso, a mineração contínua de dados - se preparada corretamente, é claro - acaba aumentando ainda mais a eficiência dos processos.







Essas transformações estão ocorrendo não apenas em finanças, mas em praticamente todos os setores de negócios. Para empresas dos mais diversos perfis (e para nós, como fabricantes de soluções), os data centers são hoje o principal suporte do mundo, onde a competição entre desenvolvimentos inteligentes é mais intensa do que nunca. Até cinco anos atrás, era comum argumentar em consonância com o fato de que o data center está inscrito no mundo das tecnologias de nuvem, e isso implicava na capacidade de escalar com flexibilidade o pool total de recursos distribuídos para computação e armazenamento de dados. Mas esta é a era das soluções inteligentes, e no data center podemos realizar mineração de dados de forma contínua, convertendo os resultados obtidos em ganhos de desempenho extraordinários. No setor financeiro, essas mudanças estão levando - entre muitos outros resultados - ao fato de queque a avaliação dos pedidos de empréstimo está radicalmente acelerando. Ou, por exemplo, permitem recomendar instantaneamente os produtos financeiros mais adequados para um determinado cliente bancário.



No setor público, nas telecomunicações, no setor de energia, o trabalho inteligente com dados hoje contribui para a transformação digital com um aumento dramático na produtividade da organização. Naturalmente, novas circunstâncias formarão uma nova demanda, não só em relação aos recursos computacionais e sistemas de armazenamento de dados, mas também em relação às soluções de rede para data centers.



O que deveria ser um "data center inteligente"









Na Huawei, identificamos três grandes desafios de data center na era de data center inteligente.



Primeiro, uma largura de banda extraordinária é necessária para lidar com os fluxos intermináveis ​​de novos dados.... De acordo com nossas observações, nos últimos cinco anos, o volume de dados armazenados em data centers aumentou dez vezes. Mas o que é ainda mais impressionante é a quantidade de tráfego gerado ao acessar esses dados. Em data centers de "tipo de registro", todas essas informações eram usadas para resolver problemas contábeis e muitas vezes representavam peso morto, e em data centers de um novo tipo, ela "funciona" - precisamos fornecer mineração de dados constante. Como resultado, de 10 a 1000 vezes mais iterações são realizadas ao acessar uma unidade de dados armazenados do que antes. Por exemplo, ao treinar modelos de IA, as tarefas computacionais são realizadas quase ininterruptamente em segundo plano, com o funcionamento constante de algoritmos de rede neural para aumentar a "inteligência" do sistema. Assim, não só os volumes de dados armazenados estão crescendo, mas também o tráfego que é gerado ao acessá-los.Portanto, não é por capricho dos fornecedores de telecomunicações que existam cada vez mais cento e duzentas portas gigabit em novos modelos de servidores de armazenamento de dados.



Em segundo lugar, sem perda de pacotes de dadosem 2020, o absoluto deve. Em qualquer caso, do nosso ponto de vista. Anteriormente, tais perdas não eram uma dor de cabeça para engenheiros em data centers bancários. Os gargalos eram o poder de processamento e a eficiência de armazenamento. Mas os valores médios da indústria de ambos os indicadores aumentaram significativamente nos últimos cinco anos em uma escala global. Naturalmente, a eficiência da infraestrutura de rede acabou sendo o gargalo no trabalho dos data centers. Trabalhando com um de nossos principais clientes, descobrimos que cada porcentagem adicionada à taxa de perda de pacotes ameaça reduzir pela metade a eficiência de treinamento dos modelos de IA. Daí o grande impacto na produtividade e eficiência do uso de recursos computacionais e sistemas de armazenamento de dados. Isso é o que precisa ser superadopara apoiar a transformação de um data center simples em um data center para a era inteligente.



Terceiro, é importante fornecer o serviço de maneira integrada e contínua . O banco digital moderno ensinou, e muito acertadamente, as pessoas sobre o fato de que os serviços das instituições financeiras podem, ou melhor, até mesmo estar disponíveis 24 horas por dia, 7 dias por semana. Situação comum: um empresário esgotado, com uma rotina diária desordenada, com extrema necessidade de recursos adicionais, acorda perto da meia-noite e quer saber com qual linha de crédito pode contar. Os caminhos de volta estão cortados: o banco não tem mais a oportunidade de suspender o trabalho do DC para consertar ou atualizar algo.



Nossa solução CloudFabric 2.0 é precisamente projetada para lidar com esses desafios. Ele suporta o mais alto rendimento, gerenciamento de rede de data center inteligente e funcionamento perfeito de redes de direção autônoma (ADN).



O que há no CloudFabric 2.0 para data centers inteligentes









Com relação ao alto rendimento, não contamos apenas com a escalabilidade de nossas soluções de rede, mas também com a flexibilidade de trabalhar com elas. Por exemplo, os switches de data center da Huawei da linha CloudEngine se tornaram os primeiros dispositivos desta classe na indústria com um processador embutido para computação de rede neural em tempo real, ajudando, entre outras coisas, a resolver problemas dentro da infraestrutura de rede e prevenir a perda de pacotes de dados (isso é conseguido usando o algoritmo iLossless, em incluindo para o cenário iNOF RoCE). Mas, é claro, a largura de banda real também é importante. Incluir suporte para interfaces de 400 Gb / s é importante, bem como a compatibilidade com versões anteriores com conexões de dez, quarenta e cem gigabits atualmente difundidas.



Os nós de suporte da infraestrutura também devem ser capazes de trabalhar com alta densidade de conexões (os chamados cenários de alta densidade), com possibilidade de escalabilidade significativa da solução. Nosso modelo principal de data center, CloudEngine 16800, suporta até 48 portas a 400 Gbps por slot - três vezes mais do que seu concorrente mais próximo.



Quanto ao sistema como um todo, as possibilidades de expandir a taxa de transferência por escalabilidade de chassi também são impressionantes - 768 portas de 400 Gbps por chassi , ou seis vezes mais do que as soluções de outros participantes do mercado permitem. Isso nos dá motivos para chamar o CloudEngine 16800 de o switch de data center mais poderoso na era da IA ​​vencedora.







O componente intelectual da solução de rede também vem à tona. Em particular, também é necessário para garantir um nível zero de perda de pacotes de dados. Para alcançar este resultado, usamos nossos avanços tecnológicos mais avançados, incluindo um processador AI integrado para computação em "rede neural", bem como o algoritmo iLossless mencionado anteriormente. Ao fazer projetos para nossos clientes líderes, estávamos convencidos de que essas soluções podem melhorar significativamente o desempenho do sistema em pelo menos dois cenários comuns.



O primeiro é o treinamento de modelos de IA. Ele requer acesso constante a dados e cálculos em matrizes enormes ou operações "pesadas" com o TensorFlow. Nosso iLossless é capaz de aumentar a produtividade dos modelos de IA de treinamento em 27% - comprovado em casos reais e verificado pelo teste de laboratório do Tolly Group. O segundo cenário é melhorar a eficiência dos sistemas de armazenamento. Por sua vez, a utilização dos nossos empreendimentos pode elevá-lo em cerca de 30%.



Entre outras coisas, em conjunto com os nossos clientes, procuramos experimentar as novas oportunidades que os nossos desenvolvimentos abrem. Estamos confiantes de que, ao melhorar a estrutura de comutação baseada em Ethernet para o data center, podemos transformar a estrutura do data center de alto desempenho com a rede de armazenamento em uma infraestrutura única e coerente baseada em Ethernet. Portanto, não apenas para aumentar a produtividade dos processos de treinamento para modelos de IA e melhorar o acesso a data warehouses definidos por software, mas também para otimizar significativamente o custo total de propriedade de um data center por meio da integração mútua e fusão de redes verticais que são independentes nos níveis físicos.







Muitos de nossos clientes gostam de lançar esses novos recursos. E um desses clientes é a própria Huawei. Em particular, um membro do nosso grupo de empresas Huawei Cloud. Trabalhando em estreita colaboração com nossos colegas nesta divisão, garantimos a eles nenhuma perda de pacote de dados, demos o ímpeto para melhorar visivelmente seus processos de negócios. Finalmente, entre nossas conquistas "internas", notamos o fato de que no Atlas 900, o maior cluster de IA do mundo, somos capazes de fornecer potência computacional usada para treinar inteligência artificial em um nível acima de 1.000 petaflops - o número mais alto em um computador indústria hoje.



Outro cenário altamente relevante é o armazenamento de dados em nuvem usando sistemas All-Flash. Este é um serviço muito “tendência” para os padrões da indústria. O aumento dos recursos computacionais e a expansão das instalações de armazenamento requerem, naturalmente, tecnologias avançadas no campo das soluções de rede de data center. Portanto, continuamos a trabalhar com a Huawei Cloud e a implementar mais e mais cenários de aplicativos usando nossas soluções de rede.



O que a ADN Networks pode fazer hoje









Vamos voltar para Redes Autônomas (ADN). Não há dúvida de que as redes definidas por software (redes definidas por software) do ponto de vista da tecnologia - um passo confiante na gestão do componente de rede do centro de dados. A implementação aplicada do conceito SDN acelera significativamente a inicialização e configuração da camada de rede do data center. Mas, é claro, os recursos que ele fornece não são suficientes para automatizar totalmente o O&M do data center. Para ir mais longe, existem três desafios principais que precisam ser enfrentados.



Em primeiro lugar, na infraestrutura de rede de data centers existem cada vez mais oportunidades associadas à prestação de serviços e configurações para o seu funcionamento, no setor financeiro - em especial. É importante ser capaz de traduzir automaticamente a intenção de nível de serviço para a camada de rede...



Em segundo lugar, também se trata de verificar esses comandos de provisionamento incremental. Compreensivelmente, as redes de data center foram configuradas há muito tempo, com base em abordagens bem estabelecidas ou mesmo desatualizadas. Como você garante que a personalização adicional não interrompa seus procedimentos depurados? A verificação automática de novas configurações adicionais é indispensável. Precisamente automático, já que o conjunto de configurações existentes em um data center geralmente é proibitivamente grande. É praticamente impossível lidar com isso manualmente.



Em terceiro lugar, surge a questão da eliminação rápida e eficaz de problemas na infraestrutura de rede... Quando a automação atinge um alto nível, os administradores e engenheiros de serviço do data center não são mais capazes de rastrear em tempo real o que está acontecendo na rede. Eles precisam de um kit de ferramentas que pode fazer uma rede de milhares de alterações por dia consistentemente transparente para eles, bem como construir bancos de dados construídos em gráficos de conhecimento para lidar rapidamente com os problemas.



ADNs pode nos ajudar a enfrentar esses desafios de mudar para data centers verdadeiramente inteligentes. E a ideologia de redes com controle autônomo (que migrou para o mundo dos data centers da indústria vizinha - na junção da IoT e V2X, em particular) nos permite reconsiderar abordagens de automação em diferentes níveis da rede de data centers.







No momento, na autonomia de gerenciamento de redes para data centers, chegamosnível L3 (automação condicional). Isso significa um alto grau de automação do data center, no qual a intervenção humana é necessária pontualmente e apenas sob certas condições.



Enquanto isso, em vários cenários, a automação total também é possível. Já estamos a trabalhar com os nossos clientes no âmbito de um programa de inovação conjunta para a automatização abrangente de redes de centros de dados de acordo com o conceito ADN, principalmente no contexto da resolução de problemas de rede, e relativamente aos mais urgentes e morosos deles temos alcançado sucesso: por exemplo, com a ajuda do nosso tecnologias inteligentes gerenciam automaticamente para fechar cerca de 85% dos cenários de falha de desenvolvimento mais frequentes em redes de data center .



Esta funcionalidade é implementada dentro da estrutura do nosso conceito O&M 1-3-5: um minuto para estabelecer que ocorreu uma falha ou para detectar o risco de uma falha, três minutos para determinar a causa raiz e cinco minutos para sugerir como eliminá-lo. É claro que, por enquanto, a participação humana é necessária para a tomada de decisões finais - em particular, escolhendo uma das decisões possíveis e dando um comando para implementá-la. Alguém deve assumir a responsabilidade pela escolha. Porém, partindo da prática, acreditamos que o sistema, mesmo em sua implantação atual, oferece soluções altamente qualificadas e adequadas.



Resumindo, aqui estão alguns dos desafios mais desafiadores que os arquitetos de data centers inteligentes enfrentam em 2020, e nós realmente lidamos com eles. Por exemplo, a funcionalidade de transferência de solicitações da camada de serviço para a camada de rede e para verificação automática de configurações já está incluída no CloudFabric 2.0.







Estamos satisfeitos que nossas conquistas tenham sido reconhecidas - e este ano recebemos o Prêmio Gartner Peer Insights Customer Choice, bem como o Prêmio de Liderança em Tecnologia de Switch de Data Center Global da F&S - para o Switch CloudEngine 16800, que foi reconhecido por excelente rendimento , a maior densidade de interfaces de 400 Gigabit e a escalabilidade geral do sistema, bem como tecnologias inteligentes que permitem, em particular, reduzir o nível de perda de pacotes de dados a zero.



All Articles