A mais triste equação da ciência de dados

imagem



Estoque de lenços! Agora vou lhe contar toda a verdade sobre estatística e ciência de dados. Você terá lágrimas nos olhos, eu prometo.



CONCLUSÃO = DADOS + SUPOSIÇÕES. Em outras palavras, as estatísticas não dizem a verdade.



Mitos comuns



Os seguintes equívocos são frequentemente ouvidos:



  • "Se eu encontrar as equações certas, posso descobrir o que ninguém sabe no momento."
  • "Se eu adicionar matemática aos meus dados, posso reduzir a incerteza."
  • "As estatísticas podem transformar dados em verdade!"


Tudo parece contos de fadas, não é? Porque é isso que eles são.



Verdade amarga



Não há mágica no mundo que possa ajudá-lo a criar algo do nada. Esqueça isso. Estatísticas sobre outra coisa. Tome minha palavra como estatística. (Como bônus, este artigo economizará uma tonelada de tempo perseguindo esse sonho .)



Infelizmente, muitos charlatães tentarão convencê-lo do contrário. Eles vão usar o truque padrão: "Você não conhece as equações com as quais eu te banhei, então admita minha vantagem e faça o que eu digo!"



Não se deixe enganar pelas palavras desses posudos.



imagem Sobre o autor: Cassie Kozyrkov é uma estatística e estatística sul-africana. Ela fundou o Decision Intelligence no Google, onde é pesquisadora principal.




Não repita o destino de Ícaro



Pense em inferência estatística (em resumo, "estatísticas" ) como um salto do que sabemos (nossos dados habituais) para o que não sabemos (nossa dimensão populacional).



Nas estatísticas, o que você sabe não é o mesmo que você gostaria de saber.
Você pode querer fatos sobre amanhã, mas só pode tirar conclusões com base em ontem. (É tão irritante quando não nos lembramos do futuro, certo?) Você pode querer saber o que todos os seus usuários em potencial pensam sobre o seu produto, mas você pode pedir apenas uma centena. Então você tem incerteza!



Isso não é mágico, isso é especulação



Como você pode pular do que sabe para o que não sabe? Você precisa de uma ponte para superar esse abismo. E o nome dessa ponte é especulação. Deixe-me lembrá-lo da equação mais dolorosa da ciência de dados: DADOS + SUPOSIÇÕES = PREVISÃO.



DADOS + PRESSUPOSTAS = PREVISÃO.
(Você pode substituir facilmente a palavra "previsão" por "conclusões" ou "previsões", se preferir. É tudo a mesma coisa: uma declaração sobre algo que você não sabe ao certo.)



O que é suposição?



Se soubéssemos todos os fatos (e tivéssemos certeza de que são fatos concretos), não precisaríamos de suposições (ou estatísticas). Pressupostos são as partes feias que você usa para construir uma ponte entre o que você sabe e o que você gostaria de saber. Essas são dicas que você deve usar quando precisar convergir os números, mas não há dados suficientes.



Pressupostos são patches feias que você coloca onde não há informações.
Como eu diria isso sem rodeios? Suposição não é um fato, é um absurdo que você inventa porque não possui informações suficientes. Se você menospreza as pessoas com seus intervalos super precisos, lembre-se de que é muito imprudente dizer que o que é baseado em suposições é verdadeiro. Pense nas estatísticas melhor como uma ferramenta de tomada de decisão. Esta ferramenta não é perfeita, mas ainda melhor que nada (em determinadas situações).



Estatística é sua tentativa de fazer tudo ao seu alcance em um mundo de incertezas.
Pressupostos - e na África, pressupostos. Eles não se transformarão em fatos pela onda de uma varinha mágica.



Fazer suposições faz parte da tomada de decisões



Mostre-me qualquer decisão tomada sem especulação. Posso facilmente listar para você muitas suposições implícitas que você faz na vida real, sem sequer pensar.



Exemplos: Ao ler um jornal, você supõe que todos os fatos foram verificados? Quando você fez planos para 2020, você assumiu que não haveria pandemia global? Se você analisou os dados, assumiu que os dados foram registrados sem erros? Você esperava que seu gerador de números aleatórios desse resultados aleatórios? (Geralmente, eles não são aleatórios.) Quando você decide fazer uma compra on-line, considera que será cobrado o valor correto? E o seu último lanche? Você supôs que ele não foi envenenado? Quando você tomou o medicamento, você * sabia * sobre o efeito a longo prazo ou ... adivinhou?



Goste ou não, fazer suposições faz parte da tomada de decisão.


Quer você goste ou não, as suposições sempre fazem parte da tomada de decisão. A interferência nos dados do mundo real deve consistir em uma pluralidade de suposições registradas. Ao mesmo tempo, os cientistas de dados devem descrever todos os cantos que precisarão percorrer.



Mesmo se você decidir dispensar as estatísticas, provavelmente usará suposições para decidir como proceder. Para sua própria segurança, você deve estar ciente das suposições em que suas decisões se baseiam.



Como é a "mágica" das estatísticas



Existem muitas ferramentas estatísticas que permitem formular suposições e combiná-las com evidências. É assim que nascem as decisões inteligentes. (Aqui você pode ver minha introdução de 8 minutos às estatísticas.)



É absurdo esperar que a análise, incluindo incerteza e probabilidade, se torne uma fonte de verdade com um "P" maiúsculo.
Sim, é assim que a mágica estatística funciona. Você escolhe com quais suposições viver e depois as combina com os dados. Com base nessa união profana, você toma decisões inteligentes. Essas são todas as estatísticas.



imagem



É por isso que uma análise que inclui incerteza e probabilidade nunca pode ser uma fonte de verdade com um "P" maiúsculo. Não há magia negra secreta fazendo isso por você.



Duas pessoas podem chegar a conclusões completamente diferentes com base nos mesmos dados! Basta que eles façam suposições diferentes.
Pela mesma razão, duas pessoas podem chegar a conclusões completamente diferentes com base nos mesmos dados! Basta que eles façam suposições diferentes. As estatísticas oferecem uma ferramenta que permite tomar decisões mais informadas, mas não existe uma regra única para usá-las. É uma ferramenta de tomada de decisão pessoal.



O desempenho de sua pesquisa depende de quão boas são as suposições que você faz.



E a ciência?



O que acontece quando um cientista usa estatísticas para tirar conclusões? Ele simplesmente forma uma opinião e decide compartilhá-la com o mundo inteiro. Isso não é ruim, os cientistas precisam tirar conclusões de vez em quando por vontade, não por vontade, esse é o trabalho deles. Sugiro que algumas vezes essas conclusões possam ser ouvidas.



Por não vontade, os cientistas periodicamente precisam tirar conclusões baseadas em estatísticas, esse é o trabalho deles.
Gosto de ouvir os conselhos de pessoas que têm mais informação e experiência do que eu, mas nunca me permito confundir opiniões com fatos. Existem cientistas que são bem versados ​​em probabilidade e trabalham com isso. No entanto, também conheci cientistas que cometeram tantos erros estatísticos que você nunca os tirará da vida. As opiniões não podem (e não devem) influenciar as pessoas que não estão prontas para formular suposições por si mesmas. Essas opiniões foram obtidas por meio de uma combinação de evidências e suposições não verificadas. Eles não podem ser considerados competentes.



Resultado



Pense nas estatísticas como uma ciência que pode ajudá-lo a tomar decisões quando não tiver certeza de algo. É uma estrutura que ajuda você a tomar decisões informadas quando as informações são escassas. Não existe uma maneira única e correta de usar estatísticas.



Não, ela não fornece os fatos necessários. Dá a você o que você precisa para lidar com a falta de fatos. O objetivo das estatísticas é ajudá-lo a fazer o seu melhor em um mundo de incertezas.



Você só precisa fazer suposições.



Tradução: Diana Sheremieva



imagem



Descubra os detalhes de como obter uma profissão exigida do zero ou subir de nível em habilidades e salário fazendo os cursos SkillFactory on-line pagos:











All Articles