Pré-processamento de dados

Olá! Sou um desenvolvedor da Web e estou interessado em aprendizado de máquina há vários anos. Porque no meu parque de trabalho do dia-a-dia, tenho que resolver problemas menos interessantes para mim, não relacionados ao aprendizado de máquina, de vez em quando esqueço o que li ou usei. Para criar um memorando para mim mesmo, fortalecer meu conhecimento e compartilhá-lo com outras pessoas, decidi escrever esta série de artigos sobre aprendizado de máquina. Vou começar com o pré-processamento de dados.



Neste artigo, falarei sobre quais problemas acontecem com os dados, como resolvê-los, bem como os métodos mais comumente usados ​​para preparar dados antes de alimentá-los em diferentes modelos.



Pula



Considere o seguinte conjunto de dados. Sinceramente, eu a inventei e, mais adiante neste artigo, irei me referir a ela.



EU IRIA Nome Disciplina esportiva Um país Ano de nascimento do atleta Peso do atleta Medalha
1 Ivan Remo Federação Russa 1985 265 B
2 Boxe Grã Bretanha 1986 54 S
3 Kim Luta greco-romana Coreia do Norte 1986 93 G
4 Oleg Luta greco-romana 1984 B
cinco Pedro Remo Brasil 97 N
6 Valery Remo Federação Russa 2004 97 N


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



EuQR=Q3-Q1,



Q1 — — , 25% . Q3 — — , 75% .



, , , : :



[Q1-1,5EuQR,Q3+1,5EuQR]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



xneW=xoeud-xmEunxmumax-xmEun



Z-. Z- :



(-3σ[X],3σ[X]),



σ[X] — X.



Z- .



xneW=xoeud-M[X]σ[X]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



Obrigado por ler ou navegar até aqui. Não descrevi todos os métodos de pré-processamento e este artigo dificilmente é útil para cientistas de dados profissionais. No entanto, se você é um iniciante e não sabe o que fazer com seus dados, pode retornar com segurança aqui. Boa sorte com seu aprendizado e tarefas interessantes!



Lista de fontes



Não sou cientista e este artigo não pretende ser científico. Portanto, não vou elaborar fontes de acordo com GOSTs. Por favor, me desculpe por isso.



  1. Palestra do curso de Yandex e HSE "Introdução ao Aprendizado de Máquina" no cursor.
  2. Padronização ou remoção média e escala de variação - documentação da biblioteca sklearn
  3. Tarefas avançadas de preparação de dados de aprendizado de máquina - Microsoft



All Articles