Olá! Sou um desenvolvedor da Web e estou interessado em aprendizado de máquina há vários anos. Porque no meu parque de trabalho do dia-a-dia, tenho que resolver problemas menos interessantes para mim, não relacionados ao aprendizado de máquina, de vez em quando esqueço o que li ou usei. Para criar um memorando para mim mesmo, fortalecer meu conhecimento e compartilhá-lo com outras pessoas, decidi escrever esta série de artigos sobre aprendizado de máquina. Vou começar com o pré-processamento de dados.
Neste artigo, falarei sobre quais problemas acontecem com os dados, como resolvê-los, bem como os métodos mais comumente usados para preparar dados antes de alimentá-los em diferentes modelos.
Pula
Considere o seguinte conjunto de dados. Sinceramente, eu a inventei e, mais adiante neste artigo, irei me referir a ela.
EU IRIA | Nome | Disciplina esportiva | Um país | Ano de nascimento do atleta | Peso do atleta | Medalha |
---|---|---|---|---|---|---|
1 | Ivan | Remo | Federação Russa | 1985 | 265 | B |
2 | Boxe | Grã Bretanha | 1986 | 54 | S | |
3 | Kim | Luta greco-romana | Coreia do Norte | 1986 | 93 | G |
4 | Oleg | Luta greco-romana | 1984 | B | ||
cinco | Pedro | Remo | Brasil | 97 | N | |
6 | Valery | Remo | Federação Russa | 2004 | 97 | N |
, . . — , . , .
, "" , . , , .
— , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . — , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . — ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
— — , 25% . — — , 75% .
, , , : :
.
— . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
— X.
Z- .
M[X] — X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" — 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
Obrigado por ler ou navegar até aqui. Não descrevi todos os métodos de pré-processamento e este artigo dificilmente é útil para cientistas de dados profissionais. No entanto, se você é um iniciante e não sabe o que fazer com seus dados, pode retornar com segurança aqui. Boa sorte com seu aprendizado e tarefas interessantes!
Lista de fontes
Não sou cientista e este artigo não pretende ser científico. Portanto, não vou elaborar fontes de acordo com GOSTs. Por favor, me desculpe por isso.