O melhor do Kaggle: o que é ciência de dados competitivos e como ter sucesso nela

Hello Habr! No blog do nosso site, publicamos regularmente artigos sobre dados e tudo relacionado a eles. Publicamos alguns materiais de lá e aqui.



Como as empresas sabem qual cientista de dados é mais legal ao contratá-los? Como mostrar seu talento e se tornar famoso na comunidade? Com base em que classificação é formada, com base na qual você pode então ser contratado para uma posição de prestígio? Vamos falar sobre a plataforma competitiva mais famosa, as possibilidades e regras do seu jogo, e também revelar a lista dos melhores participantes da Rússia.










A ciência de dados é, por definição, uma ciência. Portanto, para avaliar desenvolvedores e analistas, o índice de Hirsch, muito difundido entre os cientistas, tem sido e vem sendo aplicado há muito tempo  . Ajuda, pelo número de publicações e suas citações, a entender quanto trabalho científico está em demanda - e, portanto, seu autor. 

O índice de Hirsch h é igual ao número de artigos, cada um dos quais foi referido pelo menos h vezes. Ou seja, para calculá-lo, eles pegam todos os artigos do cientista que foram citados por seus colegas, organizam-nos em ordem decrescente do número de referências a eles, atribuindo-lhes números. Depois disso, encontram o último artigo, cujo número não ultrapassa o número de citações. Este número é o índice de Hirsch.
Complicado? Não parece muito bom, e os cientistas de dados reais entendem imediatamente - apenas não muito adequado para avaliar seu trabalho. Afinal, o resultado de seu trabalho é muito mais um código do que um texto científico. Além disso, os cientistas de dados estão em demanda no mercado, e o mercado é mais importante sobre os exemplos de algoritmos do que sobre as conquistas científicas. 



Mas muitas vezes as empresas mantêm informações sobre seus funcionários e seu trabalho em segredo. Os cientistas de dados estão especialmente escondidos na Rússia, onde  há uma  enorme escassez de pessoal nesta área. 



Em resposta à demanda, plataformas competitivas para desenvolvedores cresceram em popularidade. O serviço mais famoso é o Kaggle (pronuncia-se: "cajl"), que é propriedade do Google. Os alunos usam  e os desenvolvedores profissionais  contamcomo atualizar sua classificação. As soluções usadas lá definem a moda entre os cientistas de dados, e empresas na Rússia e no mundo prestam atenção ao seu lugar nas classificações de Kaggle ao contratar. 



Em 2017,  mais de um milhão de usuários foram registrados no Kaggle  e, em agosto de 2020, os usuários da Rússia pesquisaram  o  serviço no Google quase com a mesma frequência que a frase "Big Data": 







O Kaggle é totalmente gratuito e qualquer usuário pode hospedar um concurso de mineração de dados ou participar de um existente. O sistema hospeda conjuntos de  dados abertos , bem como ferramentas de nuvem para seu processamento e aprendizado de máquina. Há também uma oportunidade de estudo e uma seção de postagem de vagas, onde os concursos também ajudam na seleção dos melhores candidatos. 



Como funciona



Uma das características interessantes do Kaggle, graças ao qual se tornou tão popular no ambiente de ciência de dados, é  o sistema de classificação



Os usuários podem ganhar pontos e melhorar sua classificação em quatro categorias diferentes: 



  • Concorrência.  Sozinho ou em equipe, você resolve problemas de aprendizado de máquina. As competições são muito diversas: desde uma tarefa simples e direta de prever o  número de sobreviventes no Titanic  até  avaliar a eficácia dos jogadores de defesa  ao jogar um passe do NFL Big Data Bowl 2021.
  • Código do programa.  Compartilhe seu código com a comunidade executando-o no Kaggle Notebooks, um ambiente de computação em nuvem.
  • Conjuntos de dados.  Você pode ajudar outros cientistas de dados compartilhando novos dados.
  • Discussões.  Discuta tarefas e compartilhe suas melhores soluções, bem como avalie as postagens de outros usuários.


A promoção em cada uma das categorias independe das demais. Diferentes níveis de conquistas estão disponíveis neles: 



  • Principiante.  Você só precisa se registrar.
  • Participante.  Você preencheu seu perfil e conversou com a comunidade, além de usar todos os recursos da plataforma:

    - Execute um script.

    - Participamos de uma competição.

    - Nós escrevemos um comentário.

    - Demos um voto a um dos participantes.

  • .  Kaggle . , Kaggle . 
  • .  , Kaggle . «» , .
  • .  . .


As medalhas são concedidas por excelentes resultados em competições, códigos de programas populares ou conjuntos de dados úteis e permanecem para sempre. Ao mesmo tempo, os pontos perdem seu valor com o tempo, o que permite que a classificação geral permaneça relevante.



Quem vem primeiro?



Acima de tudo, Kaggle tem   usuários registrados da Índia e dos EUA. Os russos ocupam um quinto lugar estável na classificação geral dos países - entre China e Japão. O primeiro lugar no ranking geral de competições de  ciência de dados  é ocupado por Guanshuo Xu, um cientista de dados de Nova York. Por cinco anos, ele marcou mais de 255 mil pontos em competições Kaggle (este é um recorde absoluto).



Guanshuo  formou-se formou-se em engenharia elétrica e eletrônica na Universidade Tongji em Xangai e, em seguida, concluiu o mestrado na Universidade de Nova Jersey. Desde 2010, ele trabalha com reconhecimento de imagem e algoritmos de aprendizado de máquina, em 2017 ele se tornou um grande mestre na Kaggle, e desde 2019 ele trabalha como Cientista de Dados na H2O.ai (Cisco, Intel e PayPal usam os algoritmos desta empresa). 



Os melhores cientistas de dados da Rússia de acordo com Kaggle



Para compilar uma lista dos melhores cientistas de dados praticantes na Rússia, usamos os  dados dos  participantes das competições Kaggle, que possuem informações pessoais.



O  desenvolvedor russo mais poderoso que participa da competição Kaggle,  Dmitry Gordeev  ( dott ), também trabalha em H2O.ai. Ele se inscreveu no Kaggle há oito anos e tem 114.000 pontos hoje.



Na classificação geral do Kaggle, ele  está em nono lugar... Dmitry se formou na Universidade Estadual de Moscou em 2010, fazendo reconhecimento de imagem e mineração de dados lá. Tendo trabalhado no grupo de modelagem de risco de varejo em um banco desde 2008, ele cresceu e se tornou um diretor de divisão e se mudou para a Áustria em 2013. Em 2014, ele concluiu um curso de ciência de dados no Coursera, e em 2020 ele se juntou à  equipe  da H2O.ai.



Em  segundo lugar  entre os Cientistas de Dados Russos nas competições de classificação Kaggle - Arthur Kuzin ( n01z3 ) - ocupa o 28º lugar no ranking geral do Kaggle, com mais de 71 mil pontos. 



Arthur se formou no Instituto de Física e Tecnologia de Moscou em 2011 e trabalhou em análise de pesquisa de 2008 a 2016. Depois disso, ele conseguiu um emprego na Avito como cientista de dados e, nos últimos anos, liderou a equipe de visão computacional no X5 Retail Group. Arthur tem  várias publicações de  física e uma patente de um dispositivo para calibrar microscópios eletrônicos de transmissão.



O terceiro lugar  na classificação geral das competições Kaggle entre os russos é ocupado por Artem Kulakov ( Art.) - na classificação geral é 29º e 71 mil pontos Kaggle, que conquistou em dois anos de participação na competição. Artem está estudando no HSE com uma graduação em Ciência da Computação e já trabalhou como Analista de Dados no Tinkoff Bank e Megafon. Artem agora é freelancer e se especializou em tarefas de visão computacional e PNL.



Em quarto lugar está Roman Soloviev ( ZFTurbo ) - ele tem 69 mil pontos e 31º no ranking geral das competições Kaggle. Roman é um dos principais pesquisadores do Instituto de Problemas de Projeto em Microeletrônica da Academia Russa de Ciências.



Em quinto lugar está  Ilya Larchenko ( ilialar), atualmente classificado em 37º no ranking geral do Kaggle, com 65 mil pontos Ilya se formou no Instituto de Física e Tecnologia de Moscou em 2014 e depois trabalhou como analista e desenvolvedor. Desde 2017, ele  liderou  a equipe de cientistas de dados no DOC +, e em 2020 mudou-se para a Tailândia, onde trabalha como gerente de ciência de dados na Agoda. 



Um pequeno elemento de gamificação que permite aos usuários ganhar pontos e medalhas nas competições Kaggle mudou o jogo das contratações. 



O exemplo dos melhores cientistas de dados da Rússia mostra que a educação e a experiência no trabalho com dados não são tão importantes para construir uma carreira de sucesso. Por exemplo, Artem Kulakov ainda está estudando na universidade e começou a participar de competições na Kaggle há apenas dois anos. Agora ele está na lista dos melhores cientistas de dados da Rússia e trabalha como freelancer. Guangshuo Xu é formado em Engenharia Elétrica e Eletrônica e agora trabalha na H2O.ai, líder em soluções de ciência de dados de código aberto.



Comece com tarefas simples hoje - e quem sabe, talvez em um ou dois anos você estará no ranking dos melhores cientistas de dados e avançará no progresso, implementando tecnologias de  pesquisa de HIV , modelos para  prever o congestionamento de rodovias e muito mais. O principal é desejar desenvolver-se na área da Ciência de Dados e praticar o máximo possível. 



imagem






Artigos recomendados






All Articles