Mestre em Ciência de Dados: Conselhos de um Estudante de Graduação da Universidade de Harvard

A tradução foi realizada como parte do recrutamento de alunos para um programa de mestrado online em Ciência de Dados com diploma estadual da MISiS .



imagem



Neste artigo, gostaria de compartilhar minha experiência de carreira científica na área de Ciência de Dados, acumulada no último ano e meio.



Este é meu primeiro post no Medium, então gostaria de falar sobre mim e minhas experiências anteriores. Sou estudante de doutorado em Engenharia Ambiental e Computação na Universidade de Harvard e também trabalho como consultor de aprendizado de máquina e blockchain para a empresa de consultoria em inteligência artificial do Reino Unido Critical Future. Minha pesquisa se concentra na implementação de aprendizado de máquina e inteligência artificial em ciência ambiental usando sistemas de sensores baseados em drones que podem se mover por conta própria para compor uma imagem da composição química da baixa atmosfera, principalmente na floresta amazônica (para os interessados ​​neste projeto, Vou postar artigos separados sobre este tópico em um futuro próximo).



Comecei minha jornada de doutorado na Harvard University no outono de 2017 com bacharelado e mestrado em engenharia mecânica pelo Imperial College London, e completei meu último ano no exterior na National University of Singapore. Durante meus estudos de graduação, eu não estava muito familiarizado com Data Science e estatística em geral, mas ao mesmo tempo eu sabia muito sobre programação em Matlab, C e Visual Basic, e também tinha uma sólida formação matemática.



Antes de começar em Harvard, eu nunca havia programado em Python, ou mesmo ouvido falar em R. Eu nunca fiz computação paralela, nunca criei clusters, e aprendizado de máquina e inteligência artificial eram coisas de que normalmente só ouvia falar. de romances e filmes distópicos.



Frequentar um programa de Harvard de Ciência da Computação e Aprendizado de Máquina com uma formação tão humilde era como escalar um penhasco íngreme (extenuante e instável). No entanto, esta é Harvard, então você dificilmente pode esperar nada menos. O programa de PhD de Harvard requer 10 cursos, dos quais geralmente 8 são de mestrado. Eles podem ser concluídos no seu próprio ritmo, mas você deve concluí-los antes da formatura, o que leva em média 5 anos. Os alunos são incentivados a concluir todos os cursos nos primeiros dois anos, após os quais podem obter seu diploma de mestrado (formalmente gratuito). No final do semestre da primavera de 2019, cumprirei esses requisitos e receberei meu diploma, após o qual me concentrarei exclusivamente em pesquisa.



No outono de 2018, Harvard lançou o primeiro grupo de alunos para um programa de mestrado em Ciência de Dados. É um programa de dois anos que consiste em cursos básicos em Ciência de Dados, Ética e Matemática Aplicada, Ciência da Computação e disciplinas eletivas em Estatística / Economia. Chegando um ano antes de todos esses alunos, serei um dos primeiros a cumprir os pré-requisitos básicos para este programa, o que me proporcionou uma experiência única em termos de eficácia do meu diploma em Ciência de Dados.



Nos últimos 18 meses, fiz vários cursos. Um dos primeiros foi CS205: Parallel Computing, onde aprendi a programar no Linux e criei clusters de computação capazes de aceleração linear de cálculos matriciais, e este curso culminou em um projeto final que incluiu computação paralela em Python com Dask em um cluster Kubernetes.



Eu também fiz AM207: Advanced Scientific Computing, que é oferecido pela Harvard Extension School (o que significa que qualquer pessoa pode fazer este curso). Este curso teve como foco a estatística Bayesiana e sua implementação em aprendizado de máquina, e incluiu inúmeras horas de simulações da Cadeia de Markov Monte Carlo (MCMC), trabalhando com o Teorema Bayesiano, e até mesmo assistindo a um pequeno vídeo sobre o Superman que fez o tempo virar. reversão (para demonstrar o conceito de reversibilidade do tempo no aprendizado de máquina)



Também um dos cursos básicos é o AC209a, que enfoca os fundamentos de Aprendizado de Máquina e Ciência de Dados. Eu diria que este curso inclui o que a maioria das pessoas pensa quando alguém diz as palavras "Ciência de Dados" ou "Aprendizado de Máquina". É sobre aprender como fazer análise exploratória de dados e executar regressores e classificadores usando o sklearn. Grande parte do tutorial se concentra em compreender essas técnicas e como melhor otimizá-las para um determinado conjunto de dados (é preciso um pouco mais do que apenas usar model.fit (X_train, y_train) ...). Outro curso é o AC209b: Seções de Ciência de Dados Avançadas, que é uma extensão da primeira aula. Basicamente, este é um curso de Ciência de Dados sobre esteróides,em que as primeiras aulas começam com modelos aditivos generalizados e criando belas splines para descrever conjuntos de dados. No entanto, as coisas rapidamente evoluem para a execução de 2.500 modelos em paralelo usando Dask em um cluster do Kubernetes em uma tentativa de realizar a otimização hiperparamétrica em uma rede neural artificial de 100 camadas. Ao mesmo tempo, aliás, não foi nem a coisa mais difícil que fizemos - tudo isso aconteceu apenas na terceira semana de aulas, se falarmos do curso como um todo.não foi nem a coisa mais difícil que a gente fez - tudo aconteceu apenas na terceira semana de aulas, se falarmos do curso como um todo.não foi nem a coisa mais difícil que a gente fez - tudo aconteceu só na terceira semana de aulas, se falarmos do curso como um todo.



Também fiz outros cursos, incluindo CS181: Aprendizado de máquina, que cobre os fundamentos matemáticos de regressão, classificação, aprendizado por reforço e outras áreas usando métodos baseados em frequência e Bayesianos; AM205: Métodos científicos para resolver equações diferenciais e AM225: Métodos avançados para resolver equações diferenciais parciais. Existem muitos outros cursos que eu também poderia fazer durante meu tempo restante em Harvard para aprofundar meus conhecimentos, como CS207: Engenharia de Sistemas para Ciência da Computação, AM231: Teoria da Decisão ou AM221: Otimização Avançada. Devo também esclarecer que cada um desses cursos teve um projeto final que pude adicionar ao meu portfólio.



Agora vamos ao tópico do artigo - depois de todo esse tempo aprendendo como ser um bom cientista de dados, valeu a pena? Ou eu poderia ter feito tudo sozinho? Mais especificamente, vale a pena para alguém que deseja seguir essa carreira investir de 1 a 2 anos e mais de US $ 100.000 em um diploma de ciência de dados?



Não acho que tudo que aprendi nesses 18 meses de cursos de Data Science eu pudesse aprender lendo livros, assistindo a vídeos online e estudando a documentação de vários pacotes de software. No entanto, não tenho dúvidas de que obter um diploma em Ciência de Dados pode acelerar a carreira de alguém, bem como fornecer uma experiência valiosa com projetos do mundo real que podem ser discutidos durante entrevistas e usados ​​em um portfólio. Pessoalmente, levaria anos para descobrir como otimizar uma rede neural de 100 camadas em execução em um cluster paralelo no Google Cloud se estivesse apenas sentado em casa assistindo a um vídeo no Youtube - não conseguia nem imaginar como fazer isso.



A curiosidade sobre Data Science é ótima e eu gostaria que mais pessoas se interessassem por este tópico. Desde a explosão da informação, parece que na próxima década os dados se tornarão a nova religião mundial e, portanto, é inevitável que o mundo precise de muito mais especialistas em Ciência de Dados. No entanto, a curiosidade pode levá-lo muito longe, e ter um pedaço de papel que mostra que você gastou tempo, investiu em habilidades e bons hábitos e se tornou um cientista de dados verdadeiramente talentoso irá diferenciá-lo dos demais. Data Science não existe apenas como uma competição do Kaggle, como alguns parecem pensar.



Meu conselho para quem quer fazer Ciência de Dados é obter uma boa base em estatística e matemática, também aconselho você a ganhar alguma experiência de programação em linguagens como Python e R, bem como desenvolvimento mestre em Linux. A maioria dos alunos de ciência da computação que vi parecem ter dificuldades com aspectos relacionados à ciência da computação, como trabalhar com contêineres Docker e criar e gerenciar clusters distribuídos em execução em alguma infraestrutura de nuvem. Existem muitas habilidades complexas a serem dominadas para me tornar um Cientista de Dados experiente, e certamente não posso me considerar um especialista. No entanto, com alguma experiência, sinto-me suficientemente confianteque eu possa continuar a desenvolver minhas próprias habilidades em Ciência de Dados e Aprendizado de Máquina e aplicá-las em projetos e pesquisas relacionadas à indústria, sem medo de fazer "ciência ruim".



Se você quiser saber o que é um curso de Ciência de Dados, recomendo dar uma olhada nos cursos online oferecidos por universidades, que muitas vezes rendem a você os créditos necessários para concluir o seu diploma. Agora é um aluno de Harvard que completou 3 cursos em Ciência da Computação na Extension School e agora é formado em Computação e Engenharia e é um dos professores assistentes do curso Avançado de Ciência de Dados. Tudo é possível!






Cursos online em Ciência de Dados com diploma estadual da MISiS



imagem



A NUST MISIS e a SkillFactory (uma escola online de Ciência de Dados) assinaram um acordo para criar um programa de mestrado online conjunto “Ciência de Dados”, que incluirá estágios em projetos reais, salas de bate-papo com mentores e um plano de treinamento individual. As aulas serão ministradas por professores e profissionais da NUST MISIS do Mail.ru Group, Yandex, Tinkoff e bancos VTB, Lamoda, BIOCAD, AlfaStrakhovanie e outros.



Este é o primeiro caso na Rússia de uma parceria entre uma empresa privada de ensino e uma universidade estadual baseada no modelo OPM (Online Gestão do programa). O parceiro industrial do programa será o Grupo Mail.ru. O programa também é suportado pela NVidia, Rostelecom e NTI University "20.35".



Graduados de bacharelado em qualquer direção poderão se inscrever em um programa de mestrado com base nos resultados de um exame online.Você pode se inscrever agora e até 10 de agosto.



Materiais úteis






All Articles