Uma das primeiras tecnologias do mundo para armazenar e trocar dados.
No século 19, os médicos podiam prescrever mercúrio para mudanças de humor e arsênico para asma. Pode não ter ocorrido a eles lavar as mãos antes da cirurgia. Claro, eles não tentaram matar ninguém - eles simplesmente não sabiam que havia métodos mais adequados.
Esses primeiros médicos tinham dados valiosos rabiscados em seus cadernos, mas cada um viu apenas uma peça de um grande quebra-cabeça. Sem ferramentas modernas para a troca e análise de informações (assim como a ciência para entender esses dados), nada poderia impedir a superstição de influenciar o que pode ser visto através do "buraco da fechadura" dos fatos observados.
Os seres humanos percorreram um longo caminho com a tecnologia desde então, mas o boom atual de aprendizado de máquina e inteligência artificial não está fora de contato com o passado. Tudo isso é uma continuação do instinto humano básico - a compreensão do mundo ao nosso redor. Esse instinto é necessário para que possamos tomar decisões mais inteligentes. E agora temos uma tecnologia significativamente melhor do que nunca.
Uma maneira de descrever esse padrão que vem ocorrendo ao longo dos tempos é considerá-lo uma revolução nos conjuntos de dados, não nas unidades de dados. A diferença não é trivial. Massivos dados ajudaram a moldar o mundo moderno. Considere os escribas sumérios (Iraque dos dias atuais) que pressionaram suas canetas em placas de barro há mais de 5.000 anos atrás. Quando o fizeram, não apenas inventaram o primeiro sistema de gravação, mas a primeira tecnologia para armazenar e trocar dados.
Se você se inspira na promessa de que a IA pode superar as capacidades humanas, considere papel de carta para nos dar memórias sobre-humanas. Embora seja fácil considerar a gravação de informações hoje em dia, a capacidade de armazenar conjuntos de dados com segurança representa um primeiro passo inovador em direção a uma maior inteligência.
Infelizmente, extrair informações de placas de argila e de suas contrapartes pré-eletrônicas é uma dor. Você não pode clicar com o dedo em um livro para contar o número de palavras nele. Em vez disso, você deve carregar cada palavra em seu cérebro para processá-lo. Questões como essas tornavam a análise de dados precoce trabalhosa; portanto, as tentativas iniciais travaram muito cedo. Embora o reino pudesse analisar as receitas tributárias, apenas uma alma destemida poderia tentar raciocinar com a mesma eficácia em um campo como a medicina, onde uma tradição de mil anos incentivava a improvisação.
Felizmente, a raça humana produziu pioneiros incríveis. Por exemplo, o mapa da morte de John Snow, compilado durante o surto de cólera em Londres em 1858, inspirou médicos a reconsiderar a superstição de que a doença foi causada por miasma (ar tóxico) e a prestar atenção à água potável.
Se você conhece A Dama da Lâmpada, Florence Nightingale, por sua heróica compaixão como enfermeira, pode se surpreender ao saber que ela também foi pioneira em análises. Seu infográfico inventivo salvou muitas vidas durante a Guerra da Crimeia porque identificou problemas de higiene como a principal causa de mortes em hospitais, e foi esse infográfico que inspirou o governo a prestar atenção ao saneamento.
A era de conjuntos de dados uniformes surgiu quando o valor da informação começou a se afirmar em mais e mais áreas, levando ao advento dos computadores. E isso não é sobre o amigo eletrônico que você está acostumado hoje. O "computador" (calculadora) surgiu como uma profissão humana, quando funcionários especiais realizavam cálculos e processavam dados manualmente para avaliar sua significância.
Essas pessoas eram todas computadores! Foto tirada na década de 1950 pela equipe do túnel de pressão supersônica .
A beleza dos dados é que eles permitem moldar o julgamento a partir de algo mais significativo que o nada. Observando os dados, você se inspira em fazer novas perguntas, seguindo os passos de Florence Nightingale e Jon Snow. Esta é a disciplina da analítica: inspirar modelos e hipóteses por meio da pesquisa.
Dos conjuntos de dados ao particionamento de dados
No início do século XX, o desejo de tomar melhores decisões diante da incerteza levou ao nascimento de uma profissão paralela: a estatística. Os estatísticos ajudam a verificar se é razoável se comportar de acordo com o fenômeno que o analista descobriu no conjunto de dados atual (e além).
Um exemplo famoso é Ronald A. Fisher, que desenvolveu o primeiro livro de estatística do mundo. Fisher descreve a execução de um teste de hipótese em resposta à alegação de seu amigo de que ele poderia determinar se o leite foi adicionado ao chá antes ou depois da água. Na esperança de provar que isso não era verdade, com base nos dados, ele teve que concluir que seu amigo realmente poderia ter feito isso.
A análise e as estatísticas têm um grande salto de Aquiles: se você usar o mesmo dado para gerar uma hipótese e testá-la, estará enganando. O rigor das estatísticas exige que você declare suas intenções antes de tomar as medidas apropriadas. O Analytics é mais um jogo retrospectivo estendido. Análises e estatísticas eram frustrantemente incompatíveis até a próxima grande revolução (compartilhamento de dados) mudar tudo.
Compartilhar dados é uma idéia simples, mas é uma das idéias mais importantes para cientistas como eu. Se você tiver apenas um conjunto de dados, deverá escolher entre análise (inspiração não fundamentada) e estatística (inferências fortes). Quer um truque? Divida seu conjunto de dados em dois e você terá os lobos alimentados e as ovelhas em segurança!
A era de dois conjuntos de dados remove a tensão entre análises e estatísticas e introduz um trabalho coordenado entre dois tipos diferentes de cientistas de dados. Os analistas usam um conjunto de dados para ajudá-lo a formular perguntas, e os estatísticos usam um conjunto diferente de dados para fornecer respostas sólidas.
Esse luxo impõe exigências rigorosas à quantidade de dados. É mais fácil falar sobre separação do que realmente implementá-la. Você sabe do que se trata se você tentou coletar informações suficientes para pelo menos um conjunto de dados decente. A era dos conjuntos de dados duplos é um novo desenvolvimento que anda de mãos dadas com melhores equipamentos de processamento de dados, custos mais baixos de armazenamento e a capacidade de compartilhar informações coletadas pela Internet.
De fato, as inovações tecnológicas que levaram à era dos conjuntos de dados duplos rapidamente deram início à fase seguinte - a era dos conjuntos de três dados automáticos.
Existe um termo mais familiar para isso: aprendizado de máquina.
O uso de um conjunto de dados destrói sua pureza como fonte de rigor estatístico. Você tem apenas uma chance, então como você sabe qual insight analítico vale mais a pena testar? Se você tivesse um terceiro conjunto de dados, poderia usá-lo para fazer um test drive de sua ideia. Esse processo é chamado de validação e está no cerne do que faz o aprendizado de máquina funcionar.
Quando estiver livre para testar tudo e ver idéias sólidas, você pode confiar em qualquer pessoa para encontrar uma solução: analistas experientes, estagiários, folhas de chá para adivinhação e até algoritmos que funcionam fora do contexto do seu problema de negócios. A solução com melhor desempenho no processo de validação se tornará uma candidata ao teste estatístico apropriado. Você acabou de se capacitar com a capacidade de automatizar a inspiração!
Inspiração automatizada
É por isso que o aprendizado de máquina está revolucionando conjuntos de dados, não apenas dados. É tudo sobre o luxo de ter dados suficientes para uma partição de três vias.
Como a IA se encaixa nessa imagem? O aprendizado de máquina com redes neurais multicamadas é tecnicamente chamado de aprendizado profundo, mas recebeu outro apelido que ficou na fala: a IA. Embora a IA tenha tido um significado diferente, hoje é provavelmente usada como sinônimo de aprendizado profundo.
As redes neurais profundas criaram um burburinho, superando os algoritmos tradicionais de aprendizado de máquina em uma infinidade de problemas complexos. No entanto, eles exigem muito mais dados para treiná-los, e os requisitos para os recursos de processamento de dados estão além dos recursos de um laptop convencional. É por isso que o surgimento da IA moderna está associado a tecnologias em nuvem. A tecnologia em nuvem permite que você alugue o data center de outra pessoa em vez de montar o hardware por conta própria, para que você possa experimentar as modernas tecnologias de IA antes de começar a investir nelas.
Com esta peça do quebra-cabeça, temos um conjunto completo de profissões: aprendizado de máquina e especialistas em IA, analistas e estatísticos. O termo geral que descreve cada um deles é um especialista em ciência de dados, a ciência que torna os dados úteis.
A ciência de dados é o produto de nossa era de conjuntos de dados triplos. Muitos setores do setor atual geram regularmente dados mais do que suficientes. Então, é possível uma abordagem de quatro conjuntos de dados?
Qual é o próximo passo se o modelo que você acabou de treinar mostrar baixos valores de validação? Se você se comportar como a maioria das pessoas, exigirá imediatamente que descubra o motivo! Infelizmente, não há um conjunto de dados que possa responder à sua pergunta. Você pode ficar tentado a pesquisar no seu conjunto de dados de validação, mas, infelizmente, a depuração interromperá sua capacidade de validar seus modelos com eficácia.
Ao analisar seu conjunto de dados de validação, você basicamente transforma três conjuntos de dados novamente em dois. Em vez de fazer algo útil, você involuntariamente voltou ao passado!
A solução está fora dos três conjuntos de dados que você já usa. Para chegar a iterações de aprendizado mais inteligentes e ajuste hiperparamétrico, convém aproximar-se das melhores práticas: a era de quatro conjuntos de dados.
Supondo que três conjuntos de dados forneçam inspiração, iterações de aprendizado e testes rigorosos, o quarto acelerará seu ciclo de desenvolvimento de IA com análises avançadas que fornecem informações sobre quais abordagens podem ser tentadas a cada iteração. Ao usar o compartilhamento de dados em quatro direções, você pode aproveitar a abundância de dados! Bem vindo ao futuro.
Descubra os detalhes de como obter uma profissão de alto nível do zero ou subir de nível em habilidades e salário fazendo os cursos on-line pagos do SkillFactory:
- Machine Learning (12 )
- Data Science (12 )
- (9 )
- «Python -» (9 )