Vários anos atrás, fiquei brevemente interessado em aprendizado de máquina e análise de dados, até mesmo escrevi uma curta série sobre minha imersão neste mundo incrível do ponto de vista de um iniciante.
Como sempre acontece quando aprendo algo novo, eu realmente queria fazer minha própria "bicicleta". Infelizmente, não sei muito sobre matemática e programação, então meu próprio conjunto de dados se tornou um candidato ao papel de uma "bicicleta".
Mais de dois anos se passaram desde aquele momento, e agora posso compartilhar minha pequena experiência com você.
Neste artigo, consideraremos várias fontes potenciais para auto-coleta de dados (incluindo as não muito populares) e também tentaremos encontrar pelo menos algum benefício neste processo.
Índice:
Parte I: Introdução
Parte II: Fontes de dados
Parte III: Beneficia?
Parte IV: Conclusão
Parte I: Introdução
Você provavelmente já deve ter adivinhado desde a introdução que não sou um guru de análise de dados e aprendizado de máquina. Dificilmente posso ser chamado de pioneiro no campo da pesquisa de fontes de dados abertos. Portanto, neste artigo, não falaremos sobre boas práticas, mas sobre acabar com a "coceira nas mãos" caso você tenha a ideia de criar seu próprio conjunto de dados.
Peço que não leve meu artigo muito a sério.
, « » , « » .
II:
.
. .
Kaggle. Kaggle .
, - , .
.
« » 2010- , - 2015 .
.
, , :
.
. , API .
, .
( ), .
, « » , :
,
. . .
. , .
. , . 2016 2020 GitHub.
, -, .
III: ?
. , .
, :
- Python ( ) . , - .
- , .
- . , . , , .
- , . , , «», . , , , .
- , - .
IV:
, «», , .
, , : « », .
.
- , .