Normalização de dados inteligentes: dados categóricos e ordinais, recursos “emparelhados”

Este artigo é ad hoc. A última vez que olhei para as nuances e desafios de diferentes métodos de normalização de dados. E só depois da publicação percebi que não havia mencionado alguns detalhes importantes. Para alguns, eles parecerão óbvios, mas, em minha opinião, é melhor falar sobre isso explicitamente.



Normalizando dados categóricos



Para não confundir o texto com coisas básicas, assumirei que você sabe o que são dados categóricos e ordinais, e como eles diferem dos demais.



Obviamente, qualquer normalização só pode ser realizada em dados numéricos. Conseqüentemente, se apenas os números forem adequados para seu algoritmo / programa para trabalho posterior, é necessário converter todos os outros tipos para eles.



Os dados categóricos são simples. Se o objetivo não é apenas codificar (criptografar) os valores com alguns números, então a única opção disponível é representá-los como valores “1” - “0” (SIM - NÃO) para cada categoria possível. Esta é a chamada codificação one-hot . Quando, em vez de um recurso categórico, aparecerem tantos recursos “booleanos” quantas forem as categorias possíveis.





E isso é tudo.



, .



, , .



, /”” , — . . .



, , , , “” “”. “ ”, , “” . , , — .



, - , « , 0 1». , . , .





. “” ( ) . , . .



1. . ( ). ( ) , , , . , , .





2. ( ). , “” .



, , . — , , , .



— ..





“”



, , . , .



. “” , . “” .



. , , , . — , , , ( ). .



“” , “”. .





. . , , 100 , 100 . 100 .



,





. “” , , . - , .



“” ( ) “” .





, , “”. .





“” “” .



. /, . “-” ( ), “-” ( ). , - , “-” , “-”.





. . “” .



, , (- ), “-”, , “-”, . .. “”.



, “”, .



, — - , . - .



P.S. — , - AdjustedScaler, “” .




All Articles