
Índice:
Introdução
1. Matemática e estatística
2. Fundamentos de programação
3. Algoritmos e conceitos de aprendizado de máquina
4. Projetos na área de ciência de dados
Introdução
Meu palpite é que, como um cientista de dados iniciante, você desejará compreender totalmente os conceitos e detalhes de vários algoritmos de aprendizado de máquina, conceitos de ciência de dados e assim por diante.
Portanto, recomendo que você comece com a base antes mesmo de olhar para algoritmos de aprendizado de máquina ou aplicativos de análise de dados. Se você não tem um conhecimento básico de cálculo e integrais, álgebra linear e estatística, será difícil entender a mecânica por trás dos vários algoritmos. Da mesma forma, se você não tiver um conhecimento básico de Python, será difícil para você traduzir seu conhecimento em aplicativos do mundo real. Abaixo está a ordem dos tópicos que recomendo estudar:
- Matemática e estatística.
- Noções básicas de programação.
- Algoritmos e conceitos de aprendizado de máquina.
1. Matemática e estatística
Como com tudo o mais, você deve aprender o básico antes de entrar na diversão. Acredite em mim, seria muito mais fácil para mim se eu começasse aprendendo matemática e estatística antes de começar com alguns algoritmos de aprendizado de máquina. Três tópicos gerais que recomendo examinar são cálculo / integrais, estatística e álgebra linear (sem ordem específica).
Integrais
Integrais são importantes quando se trata de distribuição de probabilidade e teste de hipóteses. Embora você não precise ser um especialista, é do seu interesse aprender o básico sobre integrais. Os dois primeiros artigos destinam-se àqueles que desejam ter uma ideia do que são integrais ou àqueles que precisam apenas atualizar seus conhecimentos. Se você não sabe absolutamente nada sobre integrais, recomendo que faça o curso da Khan Academy. Finalmente, aqui estão os links para uma série de tarefas práticas para aprimorar suas habilidades:
- Introdução às integrais (artigo).
- Um curso intensivo sobre integrais (artigo).
- Khan Academy: Cálculo Integral (curso).
- Questões práticas (comece com o bloco 6).
Estatisticas
Se há algum tópico em que você deve se concentrar, é a estatística. Afinal, um cientista de dados é um estatístico verdadeiramente moderno e o aprendizado de máquina é um termo moderno para estatística. Se você tiver tempo, recomendo que você faça o curso Georgia Tek chamado Técnicas estatísticas , que cobre os fundamentos de probabilidade, variáveis aleatórias, distribuição de probabilidade, teste de hipótese e muito mais. Se você não tem tempo para se dedicar a este curso, recomendo fortemente assistir os vídeos da Khan Academy sobre estatísticas .
Álgebra Linear
A álgebra linear é especialmente importante se você deseja mergulhar no aprendizado profundo, mas mesmo assim é útil conhecer outros conceitos fundamentais do aprendizado de máquina, como análise de componente principal e sistemas de recomendação. Para dominar álgebra linear, também recomendo a Khan Academy !
2. Fundamentos da programação
Assim como um entendimento fundamental de matemática e estatística é importante, um entendimento fundamental de programação tornará sua vida muito mais fácil, especialmente quando se trata de implementação. Portanto, recomendo que você reserve um tempo para aprender as linguagens básicas - SQL e Python, antes de mergulhar nos algoritmos de aprendizado de máquina.
SQL
Não importa por onde começar, mas eu começaria com SQL. Por quê? É mais fácil de aprender e útil saber se você trabalha em uma empresa de dados, mesmo que não seja um cientista de dados.
Se você é novo em SQL, recomendo conferir os tutoriais de SQL do Mode , pois eles são muito concisos e detalhados. Se você quiser aprender conceitos mais avançados, verifique a lista de recursos onde você pode aprender SQL avançado .
Abaixo estão alguns recursos que você pode usar para praticar SQL:
Pitão
Comecei com Python e provavelmente vou ficar com essa linguagem pelo resto da minha vida. Está muito à frente em termos de contribuições de código aberto e é fácil de aprender. Sinta-se à vontade para recorrer ao R se quiser, mas não tenho opiniões ou conselhos sobre o R. Descobri que aprender Python com a prática é muito mais gratificante. No entanto, depois de fazer vários cursos intensivos de Python, cheguei à conclusão de que este curso é o mais completo (e gratuito!).
Pandas
Talvez a biblioteca mais importante a se conhecer seja a Pandas, que foi projetada especificamente para manipulação e análise de dados. Abaixo estão dois recursos que devem acelerar sua curva de aprendizado. O primeiro link é um tutorial sobre como usar o Randas, e o segundo link contém muitas tarefas práticas que você pode resolver para solidificar seu conhecimento!
3. Algoritmos e conceitos de aprendizado de máquina
Se você chegou a esta parte do artigo, significa que construiu sua base e está pronto para aprender coisas interessantes. Esta parte é dividida em duas outras: algoritmos de aprendizado de máquina e conceitos de aprendizado de máquina.
Algoritmos de aprendizado de máquina
A próxima etapa é aprender os diferentes algoritmos de aprendizado de máquina, como eles funcionam e quando usá-los. Abaixo está uma lista parcial dos vários algoritmos e recursos de aprendizado de máquina que você pode usar para aprender cada um.
- Regressão linear ( Georgia Tech , StatQuest ).
- Regressão logística ( StatQuest ).
- K vizinhos mais próximos ( MIT ).
- Árvores de decisão ( StatQuest ).
- Naive Bayes ( Terence Sheen , Luis Serrano ).
- Support Vector Machines ( SVM Tutorial de Alice Zhao ).
- Redes neurais ( Terence Sheen ).
- Florestas aleatórias ( StatQuest ).
- AdaBoost ( Terence Sheen , StatQuest ).
- Aumento de gradiente ( StatQuest ).
- XGBoost ( StatQuest ).
- Análise de componentes principais ( StatQuest ).
Conceitos de aprendizado de máquina
Além disso, existem alguns conceitos fundamentais de aprendizado de máquina que você também deseja aprender. Abaixo está uma lista (não exaustiva) de conceitos que eu recomendo o aprendizado. Muitas perguntas da entrevista são baseadas nesses tópicos!
- Regularização .
- O dilema do viés - variância .
- Matriz de confusão e métricas relacionadas .
- Área sob a curva ROC e ROC (vídeo) .
- Busca de bootstrap .
- Treinamento de ensemble, ensacamento e reforço .
- Normalização e padronização .
4. Projetos na área de ciência de dados
Nesse ponto, você não apenas terá construído uma base sólida, mas também terá um conhecimento sólido dos fundamentos do aprendizado de máquina. Agora é hora de trabalhar em alguns projetos paralelos pessoais. Se você quiser ver alguns exemplos simples de projetos de ciência de dados, dê uma olhada em alguns dos meus projetos:
- Predição da qualidade do vinho usando métodos de classificação ( artigo , Github ).
- Visualizando dados do Coronavirus com Plotly ( artigo , Github ).
- Sistema de recomendações de filmes com filtros colaborativos ( Github ).
Aqui está uma lista de projetos de Ciência de Dados que você pode consultar para criar um projeto paralelo interessante.
Espero que este post lhe dê um direcionamento e ajude em sua carreira em Data Science. Não há solução mágica, então fique à vontade para aceitar este post com um grão de sal, mas acredito que aprender o básico terá uma boa recompensa no futuro. E o código promocional HABR adicionará 10% ao desconto de treinamento mostrado no banner.
