A ideia mais importante em ciência de dados

Dicas para separar distrações de informações úteis



imagem



Se você fizer um curso introdutório de estatística, perceberá que os dados podem ser usados ​​para encontrar inspiração ou testar uma teoria, mas nunca para ambas. Por que é que?



As pessoas são boas demais em encontrar padrões em tudo. Você mesmo determina quais padrões realmente existem e quais são inventados. Somos criaturas que encontram o rosto de Elvis em uma batata frita. Se você é tentado a igualar padrões com conceitos, lembre-se de que existem três tipos de padrões:



  • Padrões que existem no seu conjunto de dados e além.
  • Padrões que existem apenas no seu conjunto de dados.
  • Padrões que existem apenas em sua imaginação (apofenia).


imagem



Os padrões de dados podem existir (1) em toda a população de interesse, (2) apenas em uma amostra ou (3) apenas em sua cabeça.



Quais padrões e padrões de dados podem ser úteis para você? Depende de seus objetivos.



Inspiração



Se você precisar de pura inspiração - os dados podem ser um milagre. Mesmo a apofenia (a tendência humana de perceber erroneamente conexões e significados entre coisas não relacionadas) pode fazer sua criatividade funcionar ao máximo. A criatividade não tem as respostas certas, então tudo que você precisa fazer é olhar para seus dados e brincar com eles. Como um bônus adicional, tente não perder muito tempo (seu ou dos interessados).



Fatos



Quando seu governo deseja cobrar impostos de você, não pode deixar de prestar atenção aos valores que vão além dos dados financeiros do ano. O IRS precisa tomar uma decisão factual sobre quanto você deve e a principal maneira de tomar essa decisão é analisando os dados do ano passado. Em outras palavras, observe os dados e aplique a fórmula. Nesse caso, estamos falando de análises puramente descritivas vinculadas aos dados disponíveis. Qualquer um dos dois primeiros tipos de padrões é bom para isso.



Análise descritiva vinculada aos dados existentes.


(Nunca escondi minhas demonstrações financeiras, mas acho que o governo dos Estados Unidos não ficaria emocionado se eu usasse os métodos de cálculo de dados que aprendi na faculdade para pagar impostos estatisticamente para substituí-los.



Decisões em face da incerteza



Às vezes, os fatos disponíveis não correspondem aos desejados. Quando você não possui todas as informações necessárias para tomar uma decisão, deve se orientar pela incerteza, tentando escolher um curso de ação razoável.



É disso que se trata a estatística - a ciência de como mudar de idéia diante da incerteza. O jogo é sobre saltar para o desconhecido como Ícaro ... e não ser esmagado em pedacinhos.



Este é o principal desafio da ciência de dados: como não ser * ignorante * como resultado da ciência de dados.


Antes de pular deste penhasco, é melhor esperar que os padrões que você encontrou em sua visão limitada da realidade realmente funcionem fora da sua visão. Em outras palavras, para ser útil para você, os modelos devem ser generalizados.



imagem


Dos três tipos de padrões, ao tomar decisões diante da incerteza, apenas o primeiro (generalizado) é seguro. Infelizmente, você encontrará outros tipos de padrões em seus dados - este é o grande problema no coração da ciência de dados: como não perder a consciência como resultado da exploração de dados.



Generalização



Se você acha que encontrar padrões inúteis nos dados é um privilégio puramente humano - pense novamente! Se você não tomar cuidado, as máquinas podem fazer a mesma coisa automaticamente.



O objetivo principal do aprendizado de máquina e da IA ​​é generalizar adequadamente novas situações.


O aprendizado de máquina é uma abordagem para tomar muitas decisões semelhantes que envolve a pesquisa algorítmica de padrões em seus dados e a sua utilização para responder corretamente a dados completamente novos. No aprendizado de máquina e no jargão de IA, generalização refere-se à capacidade do seu modelo para ter um bom desempenho com dados que ele nunca viu antes. Qual é o sentido de um modelo baseado em modelo que só funciona bem com dados antigos? Para fazer isso, você pode simplesmente usar a tabela de pesquisa. O objetivo principal do aprendizado de máquina e da IA ​​é fazer as generalizações corretas em novas situações.



imagem


É por isso que o primeiro tipo de padrão em nossa lista é o único que funciona bem para o aprendizado de máquina. Esse tipo de dado é um sinal, tudo o resto é apenas ruído (fatores que existem apenas nos dados antigos e interferem na criação de um modelo generalizável).



Sinal: padrões que existem no seu conjunto de dados e além.



Ruído: padrões que existem apenas no seu conjunto de dados.


Basicamente, obter uma solução que lida com ruídos antigos, e não com dados novos, é o que é chamado de sobreajuste no aprendizado de máquina (usamos esse termo no mesmo tom que você usa para pronunciar seu palavrão favorito). No aprendizado de máquina, quase tudo é feito para evitar ajustes excessivos.



Então, a que tipo esta amostra pertence?



Suponha que o padrão que você (ou seu computador) extraiu dos seus dados exista além da sua imaginação - a que categoria pertence? É um fenômeno real que existe na população de interesse (sinal) ou é uma característica do seu conjunto de dados (ruído)? Como determinar o tipo de padrão detectado ao trabalhar com dados?



Se você examinar todos os dados disponíveis, não poderá fazer isso. Você ficará perplexo e não saberá se o seu modelo existe em outro lugar. Toda retórica sobre o teste de hipóteses estatísticas depende do inesperado, e fingir que o padrão já conhecido surpreende você é de mau gosto (na verdade, isso é hacking).



imagem



É como ver uma nuvem em forma de coelho e depois verificar se todas as nuvens se parecem com coelhos ... olhando para a mesma nuvem. Espero que você entenda que precisará de novas nuvens para testar sua teoria.



Qualquer dado usado para formar uma teoria ou pergunta não pode ser usado para testar a mesma teoria.


O que você faria se soubesse que tem acesso a apenas uma nuvem? Meditado no armário, é isso. Faça sua pergunta antes de analisar os dados.



A matemática nunca contradiz o senso comum.


Aqui chegamos à conclusão mais triste. Se você usar seu conjunto de dados em busca de inspiração, não poderá usá-lo novamente para testar minuciosamente a teoria que inspirou (não importa quais truques de jujitsu matemático você use - a matemática nunca contradiz o bom senso).



Escolha difícil



O ponto é que você tem que fazer uma escolha! Se você possui apenas um conjunto de dados, precisa se perguntar: “Medito no armário, formulando minhas hipóteses para testes estatísticos e, em seguida, tomo cuidadosamente uma abordagem rigorosa - tudo para que eu possa me levar a sério? Ou estou apenas coletando dados para inspiração e, ao mesmo tempo, entendo que posso me enganar e lembre-se de que devo usar frases como "sinto" ou "inspira" ou "não tenho certeza"? " Escolha difícil!



Ou existe uma maneira de comer um pedaço de bolo duas vezes? O problema é que você possui apenas um conjunto de dados e precisa de mais de um conjunto de dados. E se você tiver dados suficientes, então eu tenho um truque. Explodir. Seu. Cérebro.



imagem



Truque complicado



Para ter sucesso na ciência de dados, basta transformar um conjunto de dados em dois (pelo menos) dividindo seus dados. Em seguida, use um para inspiração e outro para testes rigorosos. Se o padrão que o inspirou inicialmente também existir nos dados que não puderam influenciar sua opinião, é provável que esse padrão seja uma regra geral em vigor na ninhada de gatos da qual você coleta seus dados.



Se o mesmo fenômeno ocorrer nos dois conjuntos de dados, é possível que essa seja uma regra geral que se aplique a todas as fontes desse conjunto de dados.


RSChD!



Como a vida sem exploração não é vida, aqui estão quatro palavras para viver: Compartilhe seus malditos dados .



O mundo seria um lugar melhor se todos compartilhassem seus dados. Teríamos melhores respostas (graças às estatísticas) e melhores perguntas (graças às análises). A única razão pela qual as pessoas não vêem o compartilhamento de dados como um hábito obrigatório é porque, no século passado, era um luxo que poucas pessoas podiam pagar. Os conjuntos de dados eram tão pequenos que, se você tentasse separá-los, talvez não restasse nada deles.



imagem


Divida seus dados em um conjunto de dados exploratório disponível ao público que possa ser usado como inspiração e um conjunto de dados de teste que será usado por especialistas para validar com precisão quaisquer "suposições" encontradas durante a fase de exploração.



Alguns projetos ainda enfrentam esse problema, especialmente em pesquisas médicas (eu costumava ser em neurociência, por isso tenho muito respeito pela complexidade de trabalhar com pequenos conjuntos de dados), mas muitos de vocês têm tantos dados que precisam contratar engenheiros. apenas para providenciar a mudança deles ... qual é a sua desculpa ?! Não seja mesquinho, compartilhe seus dados.



Se você não tem o hábito de compartilhar dados, pode ficar preso no século XX.


Se você possui muitos dados e seus conjuntos não são separados, você existe em um paradigma desatualizado. As pessoas que existem nesse paradigma chegaram a um acordo com o pensamento arcaico e se recusaram a avançar mais no tempo.



O aprendizado de máquina é um descendente do compartilhamento de dados



No final, a ideia é simples. Use um conjunto de dados para formar uma teoria, descubra esse conjunto de dados e faça a mágica - prove suas idéias em um conjunto de dados totalmente novo.



O compartilhamento de dados é a solução rápida mais simples para uma cultura de dados mais saudável.


Dessa forma, você pode usar métodos estatísticos com segurança e garantir o ajuste excessivo. De fato, a história do aprendizado de máquina é a história do compartilhamento de dados.



Como usar a melhor ideia em ciência de dados



Para tirar proveito da melhor idéia em ciência de dados, tudo que você precisa fazer é manter os dados de teste fora do alcance de olhares indiscretos e deixar seus analistas enlouquecerem com todo o resto.



Para ter sucesso na ciência de dados, basta transformar um conjunto de dados em (pelo menos) dois, dividindo seus dados.


Quando achar que eles trouxeram informações úteis além do que aprenderam, use seu estoque secreto de dados de teste para testar suas descobertas.



imagem



Descubra os detalhes de como obter uma profissão de alto nível do zero ou subir de nível em habilidades e salário fazendo os cursos on-line pagos do SkillFactory:











All Articles