Olá, Habr!
Nós da Reksoft traduzimos o artigo Seleção de recursos em aprendizado de máquina para o russo . Esperamos que seja útil a todos que não são indiferentes ao tema.
No mundo real, os dados nem sempre são tão claros quanto os clientes empresariais às vezes pensam. É por isso que a mineração de dados e a disputa de dados estão em demanda. Ele ajuda a identificar significados e padrões ausentes em dados estruturados por consulta que não podem ser identificados por humanos. O aprendizado de máquina é útil para localizar e usar esses padrões para prever resultados usando conexões de dados descobertas.
Para entender qualquer algoritmo, você precisa olhar para todas as variáveis nos dados e descobrir o que essas variáveis representam. Isso é crítico porque a justificativa para os resultados é baseada na compreensão dos dados. Se seus dados contiverem 5 ou até 50 variáveis, você pode examinar todas elas. E se houver 200 deles? Então, simplesmente não haverá tempo suficiente para examinar cada variável individual. Além disso, alguns algoritmos não funcionam para dados categóricos e, em seguida, todas as colunas categóricas terão que ser quantificadas (podem parecer quantitativas, mas as métricas mostrarão que são categóricas) para adicioná-las ao modelo. Assim, o número de variáveis aumenta, e são cerca de 500. O que fazer agora? Você pode pensar que a redução da dimensionalidade é a resposta. Algoritmos de redução de dimensão reduzem o número de parâmetrosmas afetam negativamente a interpretabilidade. E se houver outras técnicas que eliminam os traços e ainda tornam o resto fácil de entender e interpretar?
Dependendo se a análise é baseada em regressão ou classificação, os algoritmos de seleção de recursos podem ser diferentes, mas a ideia principal de sua implementação permanece a mesma.
Variáveis fortemente correlacionadas
Variáveis altamente correlacionadas fornecem ao modelo as mesmas informações, portanto, não é necessário usar todas para análise. Por exemplo, se o conjunto de dados contém os atributos "Tempo Online" e "Tráfego Usado", podemos presumir que eles serão de alguma forma correlacionados e veremos uma forte correlação, mesmo se escolhermos uma amostra de dados imparcial. Nesse caso, apenas uma dessas variáveis é necessária no modelo. Se ambos forem usados, o modelo será ajustado em excesso e inclinado para um recurso específico.
Valores P
, , — . p-, . , p-, - , , , , (target).
— , . , , , . , , . . p-, . , , ( ).
, . . ( ), . p- . .
RFE / . , « » , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).
, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , « ». , .
(bias) (variance). , (overfit) . , . , . ! :
L1 — : (.. ). , , , (.. , ).
L2 — Ridge: Ridge . Ridge , .
Ridge , , , Elastic-Net.
, : . — , , , .
! !