Grandes erros em big data: problemas de análise na prática





Ao trabalhar com big data, erros não podem ser evitados. Você precisa chegar ao fundo dos dados, priorizar, otimizar, visualizar os dados, obter as ideias certas. De acordo com pesquisas , 85% das empresas buscam o gerenciamento de dados, mas apenas 37% relatam sucesso nessa área. Na prática, estudar experiências negativas é difícil, porque ninguém gosta de falar sobre fracassos. Os analistas ficarão felizes em falar sobre acertos, mas assim que se deparar com erros, esteja preparado para ouvir sobre "acúmulo de ruído", "falsa correlação" e "endogeneidade aleatória", e sem quaisquer especificações. Os problemas com big data são realmente apenas teóricos?



Hoje vamos explorar a experiência de erros reais que têm um impacto tangível sobre usuários e analistas.



Erros de amostragem





No artigo “ Big data: um grande erro? »Lembrou de uma história interessante com uma startup Street Bump. A empresa convidou os residentes de Boston para monitorar as condições da superfície da estrada usando um aplicativo móvel. O software registrava a posição do smartphone e desvios anormais da norma: fossas, solavancos, buracos, etc. Os dados recebidos eram enviados em tempo real para o destinatário pretendido para os serviços municipais.



Porém, em algum momento, o gabinete do prefeito percebeu que há muito mais reclamações das regiões ricas do que das pobres. Uma análise da situação mostrou que residentes ricos tinham telefones com conexão permanente à Internet, dirigiam com mais frequência e eram usuários ativos de vários aplicativos, incluindo o Street Bump.



Como resultado, o objeto principal do estudo foi um evento no aplicativo, mas a unidade de interesse estatisticamente significativa deveria ser uma pessoa que usa um dispositivo móvel. Dada a demografia dos usuários de smartphones (na época, eles eram em sua maioria americanos brancos com renda média e alta), ficou claro como os dados não eram confiáveis.



O problema do preconceito não intencional tem vagado de um estudo para outro por décadas: sempre haverá pessoas usando mais ativamente redes sociais, aplicativos ou hashtags do que outras. Os dados em si não são suficientes - a qualidade é de suma importância. Da mesma forma que os questionários influenciam os resultados da pesquisa, as plataformas eletrônicas utilizadas para coletar dados distorcem os resultados da pesquisa, influenciando o comportamento das pessoas ao trabalhar com essas plataformas.



De acordo com os autores do estudo “Revisão dos métodos de processamento de seletividade em fontes de Big Data”, existem muitas fontes de big data que não se destinam a análises estatísticas precisas - pesquisas na Internet, visualizações de páginas no Twitter e Wikipedia, Google Trends, análise de hashtag, etc.



Um dos erros mais flagrantes desse tipo é prever a vitória de Hillary Clinton nas eleições presidenciais de 2016 nos EUA. De acordo com uma pesquisa Reuters / Ipsos divulgada horas antes do início da votação, Clinton tinha 90% de probabilidade de vencer. Os pesquisadores sugerem que, metodologicamente, a própria pesquisa poderia ter sido conduzida sem falhas, mas a base, composta por 15 mil pessoas em 50 estados, se comportou de forma irracional - provavelmente, muitos simplesmente não admitiram que queriam votar em Trump.



Erros de correlação



Correlações incompreensíveis e relações causais confusas costumam confundir o cientista de dados novato. O resultado são modelos perfeitos em termos matemáticos e completamente inviáveis ​​na realidade.





O gráfico acima mostra o número total de avistamentos de OVNIs desde 1963. O número de casos relatados do banco de dados do National UFO Reporting Center permaneceu praticamente o mesmo por muitos anos, mas houve um grande salto em 1993.



Portanto, podemos chegar a uma conclusão completamente lógica que, há 27 anos, os alienígenas começaram a estudar os terráqueos com seriedade. A verdadeira razão foi que o primeiro episódio de Arquivo X foi lançado em setembro de 1993 (no auge, foi assistido por mais de 25 milhões de pessoas nos Estados Unidos).





Agora dê uma olhada nos dados que mostram a frequência de avistamentos de OVNIs dependendo da hora do dia e do dia da semana: a maior frequência de avistamentos é amarelo-laranja. Obviamente, os alienígenas pousam na Terra com mais frequência nos fins de semana porque eles vão trabalhar o resto do tempo. Então, pesquisar pessoas é um hobby para elas?



Essas correlações hilárias têm implicações de longo alcance. Por exemplo, um estudo sobre Acesso à Impressão em Comunidades de Baixa Renda descobriu que crianças em idade escolar com acesso a mais livros recebiam notas melhores. Orientados pelos dados do trabalho científico, as autoridades da Filadélfia (EUA) começaram a reorganizar o sistema educacional.



O projeto de cinco anos envolveu a conversão de 32 bibliotecas para fornecer oportunidades iguais para todas as crianças e famílias na Filadélfia. À primeira vista, o plano parecia ótimo, mas infelizmente o estudo não levou em consideração se as crianças realmente leram os livros - apenas examinou se os livros estão disponíveis ou não.



Como resultado, nenhum resultado significativo foi alcançado. As crianças que não tinham lido livros antes do estudo não se apaixonaram repentinamente pela leitura. A cidade perdeu milhões de dólares, as notas dos alunos de áreas desfavorecidas não melhoraram e as crianças criadas pelo amor aos livros continuaram a aprender da mesma forma.



Perda de dados





( c )



Às vezes, a amostra pode estar correta, mas os autores simplesmente perdem os dados que precisam analisar. Isso aconteceu em um trabalho amplamente distribuído pelo mundo sob o nome de "Freakonomics". O livro, cuja circulação total ultrapassou 4 milhões de cópias, explorou o fenômeno do surgimento de relações de causa e efeito não óbvias. Por exemplo, entre as ideias de destaque do livro, está a ideia de que a razão para o declínio da criminalidade adolescente nos Estados Unidos não foi o crescimento da economia e da cultura, mas a legalização do aborto.



Os autores de Freakonomics, o professor de economia da Universidade de Chicago Stephen Levitt e o jornalista Stephen Dubner, admitiram alguns anos depoisque nem todos os dados coletados foram incluídos na pesquisa final sobre o aborto, pois os dados simplesmente desapareceram. Levitt explicou o erro de cálculo metodológico pelo fato de naquele momento "estarem muito cansados", e se referiu à insignificância estatística desses dados para a conclusão geral do estudo.



Se o aborto realmente reduz o crime futuro ou não, ainda é discutível. No entanto, os autores notaram muitos outros erros, e alguns deles são surpreendentemente semelhantes à situação com a popularidade da ufologia nos anos 1990.



Erros de análise





( c ) A



biotecnologia se tornou um novo rock and roll para empreendedores de tecnologia. É também chamado de “novo mercado de TI” e até mesmo de “novo mundo criptográfico”, referindo-se à explosiva popularidade de empresas envolvidas no processamento de informação biomédica entre investidores.



Se os dados do biomarcador e da cultura de células são "óleo novo" ou não, é uma questão secundária. As consequências de injetar dinheiro rápido no setor são interessantes. Afinal, a biotecnologia pode representar uma ameaça não apenas para as carteiras de VC, mas também afetar diretamente a saúde humana.



Por exemplo, como apontageneticista Stephen Lipkin, o genoma tem a capacidade de fazer análises de alta qualidade, mas as informações de controle de qualidade muitas vezes estão fora dos limites para médicos e pacientes. Às vezes, antes de solicitar um teste, você pode não saber com antecedência a profundidade de sua cobertura de sequenciamento. Quando um gene não é lido o suficiente para uma cobertura adequada, o software encontra a mutação onde não há nenhuma. Freqüentemente, não sabemos qual algoritmo é usado para classificar os alelos do gene em benéficos e prejudiciais.



Há um grandeo número de artigos científicos na área da genética que contêm erros. Uma equipe de pesquisadores australianos analisou cerca de 3,6 mil artigos genéticos publicados em várias das principais revistas científicas. Como resultado, descobriu-se que cerca de um em cada cinco trabalhos incluía genes de erro em suas listas.



A fonte desses erros é impressionante: em vez de usar linguagens especiais para processamento estatístico de dados, os cientistas resumiram todos os dados em uma planilha do Excel. O Excel converteu automaticamente nomes de genes em datas do calendário ou números aleatórios. E é simplesmente impossível verificar novamente manualmente milhares e milhares de linhas.



Na literatura científica, os genes são freqüentemente denotados por símbolos: por exemplo, o gene Septina-2 é encurtado para SEPT2, e o dedo anular associado à membrana (C3HC4) 1 - para MARÇO1. O Excel usou as configurações padrão para substituir essas strings por datas. Os pesquisadores observaram que não foram os pioneiros no problema - ele foi apontado há mais de uma década.



Em outro caso, o Excel foi um grande golpe para a economia. Os famosos economistas da Universidade de Harvard, Carmen Reinhart e Kenneth Rogoff, analisaram 3.700 casos diferentes de aumento da dívida pública e seu impacto no crescimento econômico em 42 países ao longo de 200 anos em seu trabalho de pesquisa.



O trabalho "Crescimento ao longo do tempo da dívida" indicou inequivocamente que quando o nível da dívida pública está abaixo de 90% do PIB, ele praticamente não afeta o crescimento econômico. Se a dívida nacional ultrapassar 90% do PIB, a taxa de crescimento média cai 1%.



O estudo teve um grande impacto em como o mundo enfrentou a última crise econômica. O trabalho foi amplamente citado para justificar cortes no orçamento nos Estados Unidos e na Europa.



No entanto, alguns anos depois, Thomas Herndorn, Michael Ash e Robert Pollin da Universidade de Massachusetts, após analisar o trabalho de Rogoff e Reinhart ponto a ponto , revelaram imprecisões comuns ao trabalhar com o Excel. As estatísticas, de fato, não mostram nenhuma relação entre o crescimento do PIB e a dívida pública.



Conclusão: correções de bugs como fonte de bugs





( c )



Dada a vasta quantidade de informações a serem analisadas, alguns equívocos surgem simplesmente porque essa é a natureza das coisas. Se os erros são raros e quase aleatórios, as conclusões da análise final podem não ser afetadas. Em alguns casos, é inútil lidar com eles, uma vez que a luta com os erros na coleta de dados pode levar ao surgimento de novos erros.



O famoso estatístico Edward Deming formulou a descrição desse paradoxo da seguinte maneira: estabelecer um processo estável para compensar pequenos desvios existentes a fim de alcançar os melhores resultados pode levar a resultados piores do que se não houvesse interferência no processo.



Para ilustrar os problemas com a correção excessiva de dados, usamos a simulação de correções no processo de deixar cair bolas acidentalmente em um funil. O processo pode ser ajustado usando várias regras, cujo objetivo principal é fornecer uma oportunidade de chegar o mais perto possível do centro do funil. No entanto, quanto mais você seguir as regras, mais frustrantes serão os resultados.



A maneira mais fácil de experimentar um funil é conduzi-lo online, para o qual foi criado um simulador . Escreva nos comentários quais resultados você alcançou.






Podemos ensiná-lo a analisar corretamente o big data na MADE Academy , um projeto educacional gratuito do Mail.ru Group. Aceitamos inscrições para treinamento até 1º de agosto inclusive.



All Articles