Gerando ideias exclusivas para projetos de Ciência de Dados em 5 etapas

Provavelmente, a parte mais difícil de qualquer projeto de ciência de dados é ter uma ideia original, mas viável. Um especialista em busca de tal ideia pode facilmente cair na "armadilha do conjunto de dados". Ele passa muitas horas examinando conjuntos de dados existentes e tentando ter novas ideias interessantes. Mas essa abordagem tem um problema. O fato é que alguém que apenas olha os conjuntos de dados existentes (com Kaggle , Google Datasets , FiveThirtyEight ) limita sua criatividade ao ver apenas um pequeno conjunto de tarefas em que os conjuntos de dados que estudam se concentram.



Às vezes gosto de explorar os conjuntos de dados que me interessam. Se eu construir um modelo de sucesso com base nos dados do Kaggle, para o qual inúmeros modelos já foram criados, não haverá valor prático, mas pelo menos me permitirá aprender algo novo. Mas os cientistas de dados são pessoas que se esforçam para criar algo novo, único, algo que pode trazer benefícios reais para o mundo.







Como você gera novas ideias? Para encontrar a resposta a esta pergunta, combinei minha própria experiência e os resultados de pesquisas sobre criatividade. Isso levou ao fato de eu ser capaz de formular 5 perguntas, cujas respostas ajudam a encontrar novas ideias. Aqui também darei exemplos de ideias encontradas graças à metodologia que propus. Ao buscar respostas para as questões apresentadas aqui, você trilhará o caminho da geração de novas ideias e será capaz de usar seu potencial criativo ao máximo. Como resultado, você terá novas ideias exclusivas que pode implementar em seus projetos de Ciência de Dados.



1. Por que eu quero começar a trabalhar em um novo projeto?



Quando você pensa em iniciar um novo projeto, você tem uma intenção ou objetivo em sua cabeça. Primeiro, você precisa encontrar a resposta para a pergunta de por que deseja criar outro projeto no campo da ciência de dados. Ter um esboço do tipo de meta que você almeja o ajudará a se concentrar em encontrar uma ideia. Portanto, pense sobre o que você vai criar um projeto. Aqui estão algumas opções:



  • Este é um projeto de portfólio que você apresentará aos empregadores em potencial.
  • Este é um rascunho de um artigo sobre conceitos, modelos ou análise exploratória de dados.
  • Este é um projeto que permitirá que você pratique algo. Por exemplo, podemos falar sobre processamento de linguagem natural, sobre visualização de dados, sobre processamento de dados primários, sobre algum algoritmo específico de aprendizado de máquina.
  • Este é um projeto muito especial que não está descrito nesta lista.


2. Em que áreas são meus interesses e minha experiência?



Existem três razões principais para pensar sobre esta questão.



  • Primeiro, lembre-se dos diagramas de Venn usados ​​em ciência de dados para descrever as habilidades necessárias nesta área. O conhecimento em uma área específica é um ativo importante que todo cientista de dados deve ter. É possível resolver certos problemas processando dados somente se a área de assunto a que esses dados pertencem estiver clara. Caso contrário, algoritmos serão aplicados, visualizações e previsões serão criadas que parecem inadequadas para qualquer praticante do perfil apropriado. E se o que você está fazendo não faz sentido, então por que se preocupar em fazer isso?
  • -, , , , . , . , . , , .
  • -, , , . , , - . 


Deixe-me lhe dar um exemplo. Áreas de conhecimento que me interessam e nas quais tenho experiência incluem sustentabilidade ambiental e socioeconômica de sistemas, finanças, cultura popular, processamento de linguagem natural. Focar nesses tópicos me ajuda a aproveitar o que já tenho. Graças a esse conhecimento, eu determino se posso, tendo sido inspirado por algo, ter uma nova ideia que possa ser implementada.



3. Como você encontra inspiração?



A principal fonte de inspiração é a leitura. Ao pesquisar uma ideia, você pode encontrar tópicos interessantes lendo vários materiais:



  • , , . , , . , WIRED , , Google . , . , Google.
  • . , . , GPT-2 , , , , , , . - ?
  • . , , Data Science, , . , NLP- «», , , . - ? , ? GPT-2.


Se falamos de outras fontes de inspiração, então a inspiração, sem se fechar a novas ideias, pode ser encontrada no dia a dia. Sempre que você estiver interessado em uma pergunta, pense se você pode responder a essa pergunta usando técnicas de manipulação de dados. Por exemplo, recentemente encontrei um trailer de Boys, e encontrei muitas críticas positivas sobre ele no IMDb. “Existe alguma confirmação de que o número de cenas de violência em programas de TV está aumentando com o tempo ?”, Perguntei a mim mesmo. “Existe um público cada vez maior que gosta de programas de TV violentos?”, Continuei. Se algo lhe interessa - aproveite o momento e estude os dados relevantes.



Como você gera ideias de projetos a partir das fontes de inspiração acima? Os neurocientistas identificaram três processos psicológicos distintos associados à geração de ideias:



  • Você pode combinar ideias existentes para criar novas (criatividade combinatória). Por exemplo, vários projetos analisaram ofertas de aluguel publicadas no Airbnb. Existem projetos voltados para a análise do mercado imobiliário. Se você combinar essas ideias, poderá encontrar uma resposta para a questão de saber se os preços das moradias em uma determinada cidade estão aumentando graças ao Airbnb.
  • , ( ). , -, , , . , , - .
  • - , ( ). — . . . : , , .


4. ?



Depois de decidir a direção geral da pesquisa, você precisará pesquisar dados que lhe permitirão entender como implementar sua ideia na forma de um projeto de Ciência de Dados. Isso é extremamente importante para determinar se uma ideia terá sucesso. Respondendo à pergunta no título desta seção, você deve considerar a possibilidade de ter o que precisa nos armazenamentos de dados existentes. Você mesmo pode ter que coletar os dados necessários, o que complica a tarefa. Portanto, aqui está uma visão geral das fontes de dados:





Se você não conseguir encontrar dados que possam ajudá-lo a implementar sua ideia de projeto, reformule a ideia. Tente ter uma ideia a partir da ideia original que pode ser implementada usando os dados que você possui. Enquanto isso, pergunte a si mesmo por que você não consegue encontrar os dados de que precisa. O que há de errado na área em que você está interessado? O que você pode fazer a respeito? As respostas a essas perguntas por si só podem levar ao surgimento de um novo projeto de Ciência de Dados.



5. A ideia encontrada é realizável?



Então você tem uma ideia fantástica! Mas pode ser implementado? Repita as etapas do processo de geração de ideias. Pense no que você quer alcançar (questão número 1), você se interessa pela área escolhida, se você tem experiência (questão número 2), você tem os dados necessários para implementar a ideia (questão número 4). Agora você precisa determinar o seguinte: você tem as habilidades necessárias para implementar a ideia e atingir o objetivo.



É importante levar em consideração fatores como o tempo que você planeja gastar neste projeto. Você provavelmente não vai escrever uma dissertação de doutorado sobre o tema escolhido. Portanto, o projeto que você fará dentro da estrutura da ideia encontrada, talvez, afetará apenas uma certa parte dela. Talvez seja apenas aprender algo novo, você precisa implementar a ideia no futuro.



Depois de passar pelas 5 etapas acima para gerar uma ideia, você deve ter uma pergunta que pode e deseja responder, gastando tanto tempo quanto estiver disposto a gastar para atingir seu objetivo.



Resultado



  • . , , , . — , , , . — . , , .
  • - . . , - , . , . , , , , .
  • Não tenha medo de recomeçar. Faça o que fizer, você sempre aprende algo novo. Cada vez que você escreve uma linha de código, você pratica e expande seus conhecimentos e habilidades. Se você percebeu que a implementação da ideia encontrada não o aproximará de seu objetivo, ou se descobrir que a ideia não é viável, não tenha medo de abandoná-la e seguir em frente. O tempo que você gastou procurando por essa ideia não foi perdido para você. É necessário avaliar com sensatez os benefícios que podem ser obtidos com a implementação da ideia.


Usando a técnica descrita aqui, encontro constantemente ideias originais para meus projetos de Data Science. Espero que essa técnica seja útil para você também.



Como você busca novas ideias para seus projetos de Data Science?










All Articles