O ML Ă© realmente Ăștil para reduzir o ruĂ­do de alerta? NĂłs estudamos pelo exemplo de um mĂ©todo



fundo



Nos Ășltimos dois anos, o mercado de sistemas de monitoramento foi agitado pela sigla AIOps. Todos os fornecedores começaram a buscar o uso de inteligĂȘncia artificial em seus sistemas complexos e caros. Os termos “anĂĄlise de causa raiz”, “correlação”, “ferramentas de ML”, “detecção de anomalias”, “previsĂŁo de incidentes”, “redução de ruĂ­do” sĂŁo completa e provavelmente para sempre definidos em materiais de marketing e sites de vĂĄrios sistemas de monitoramento.



Como sabemos, brochuras publicitĂĄrias sĂŁo uma coisa, mas projetar a vida cotidiana Ă© outra. Provavelmente, muitos enfrentaram uma situação quando as promessas dos vendedores de certas inovaçÔes tecnolĂłgicas colidiram, como o Titanic com um iceberg, com a prĂĄtica de implementação, principalmente no complexo ambiente de TI de grandes empresas. Portanto, inicialmente olhei com grande ceticismo e nĂŁo compartilhei o entusiasmo em torno deste tĂłpico. AlĂ©m disso, quando existem soluçÔes de concreto armado como Zabbix, Prometheus e Elastic. Mas hype hyip, ceticismo, ceticismo, e ainda somos engenheiros e devemos verificar e estudar tudo na prĂĄtica, e nĂŁo nos perguntarmos se acreditamos ou nĂŁo no “botĂŁo mĂĄgico” de fornecedores eminentes e startups promissoras. E assim, apĂłs outra apresentação do integrador e promessas de muito dinheiro "o paraĂ­so em nossa terra pecaminosa de engenheiros de operação", reunimos um pequeno grupo de iniciativa,que decidiu “sentir” o que esta mĂĄgica da inteligĂȘncia artificial e do aprendizado de mĂĄquina representa em nossa prĂĄtica. Assim, nasceram materiais e atĂ© um pequeno projeto pet que gostaria de compartilhar com vocĂȘs.





— , . . - . : -. — “ ”, .. , “ ”, . — “ ”.



ML- . , . - , .



. HTTP- . “”, . , downdetector , , , ;)







2020-10-14 14:00 +03:00 38 ( ), .. [2020-10-12 23:00:00 +03:00 – 2020-10-14 14:00 +03:00]. : 3612.



(threshold), , 0, 1, 179 . (. . 1: . UTC. ,

).



Figura 1. 1. . UTC. , — .



, 3- , 44 (. . 2). 4 . “0110010011101010
”, , , % ( 1 ), - .



Figura 2. 2. 3- . , — .



“” : - , . - , . , AI/ML.



ML?



, , Data Scientist . , , -, , 3- :



  1. . — , .
  2. , , , .
  3. , , "" . .. " " , , .


DetectIidSpike ML.NET. : . , . "" , . .

DetectIidSpike :



  • confidence — [0, 100]. , , , , ;
  • pvalueHistoryLength — p-value. - " ", .


, . HTTP- , .. . . - . , .. 5 : . , , .. . (, ), "", .



“”. , , , (), «» ( ). 5 . , websockets , . , ( kubernetes ).



(confidence: 95, pvalueHistoryLength: 5), 36 . , , .. . , 24 . (, ).



Figura:  3. 3. (confidence: 95, pvalueHistoryLength: 5) , —



(. 3), , . , , ( ).



. 4 pvalueHistoryLength=12 confidence: 98. : 14 .



Figura:  4. 4. (confidence: 98, pvalueHistoryLength: 12)





, DetectIidSpike (24 44) 3 , 7,5 (24 179) . , , . , ML . , :)



P.S.: ML, -, . .



PPS: Abaixo darei mais alguns screenshots do nosso pet-projeto com os dados reais das verificaçÔes realizadas e as anomalias geradas. VocĂȘ pode ver com que eficiĂȘncia ou ineficaz (para quem como) o algoritmo funciona (cĂ­rculo amarelo - anomalias no intervalo selecionado).



Algumas capturas de tela mais interessantes








All Articles