Riscos e advertências ao aplicar o método do componente principal a problemas de aprendizagem supervisionada

A tradução do artigo foi preparada na véspera do início do curso básico de aprendizado de máquina .








Espaço de alta dimensão e sua maldição



A maldição da dimensionalidade é um problema sério quando se trabalha com conjuntos de dados reais, que tendem a ser multidimensionais. Conforme a dimensão do espaço do recurso aumenta, o número de configurações pode crescer exponencialmente e, como resultado, o número de configurações cobertas pela observação diminui.



Nesse caso, a análise de componente principal (PCA) desempenhará um papel importante, reduzindo efetivamente os dados enquanto preserva o máximo de variação possível no conjunto de dados.



Vamos dar uma olhada rápida na essência da análise de componentes principais antes de mergulhar no problema.



Método do Componente Principal - definição



A ideia principal por trás da análise de componentes principais é reduzir a dimensão de um conjunto de dados que é composto por um grande número de variáveis ​​inter-relacionadas, enquanto mantém a diversidade máxima que está presente no conjunto de dados.



Defina uma matriz simétrica A ,







onde X é uma matriz mxn de variáveis ​​independentes, onde m é o número de colunas en é o número de pontos de dados. A matriz A pode ser decomposta da seguinte maneira:







Onde D é a matriz diagonal e E é a matriz dos autovetores de A , dispostos em colunas.



Principais componentes XSão os autovetores XX T , o que significa que a direção dos autovetores / componentes principais depende da variação da variável independente (X) .



Por que a aplicação imprudente da análise de componentes principais é a ruína dos problemas de aprendizagem supervisionada?



A literatura frequentemente menciona o uso da análise de componentes principais na regressão, bem como em problemas de multicolinearidade. No entanto, junto com o uso de regressão em componentes principais, havia muitos equívocos sobre a explicabilidade da variável de resposta por componentes principais e a ordem de sua importância.



Um equívoco comum, que foi encontrado várias vezes em vários artigos e livros, é que em um ambiente de aprendizagem supervisionado com regressão de componente principal, os componentes principais da variável independente com pequenos valores próprios não desempenharão um papel importante na explicação da variável de resposta, o que nos leva a o objetivo deste artigo. A ideia é que componentes com pequenos autovalores podem ser tão ou muito mais importantes do que componentes básicos com grandes autovalores para explicar a variável de resposta.



Abaixo, listarei alguns exemplos de publicações que mencionei:



[1]. Mansfield et al. (1977, p. 38) sugerem que, se apenas os componentes de baixa variância forem removidos, a regressão não perderá muito poder preditivo.

[2]. Em Ganst e Mason (1980), 12 páginas são dedicadas à regressão de componentes principais, e grande parte da discussão sugere que a remoção dos componentes principais é baseada apenas em suas variâncias. (pp. 327-328).

[3]. Mosteller e Türki (1977, pp. 397-398) também argumentam que componentes de baixa variância provavelmente não são importantes na regressão, evidentemente porque a natureza é "complicada", mas não "uniforme" .

[4]. Hawking (1976, p. 31) é ainda mais restritivo ao definir a regra de preservação dos componentes principais na regressão baseada na variância.



Explicação teórica e compreensão



Primeiro, vamos obter a justificativa matemática correta para a hipótese acima, e então dar uma pequena explicação para um melhor entendimento usando visualização geométrica e modelagem.



Suponha que

Y seja a variável de resposta,

X é a Matriz de Espaço de Recursos

Z é a Versão Padronizada X



Letλλ>.λpsão valores próprios de Z t Z (matriz de correlação) e V - vectores eigen que correspondem, em seguida, W = ZV , colunas em W irá representar a componentes principais Z . O método padrão usado na regressão de componentes principais é regredir os primeiros m componentes principais em Y , e o problema pode ser representado através do teorema abaixo e sua explicação [2].



Teorema:



Vamos W = (W₁, ..., WP) - eigenvectors X . Agora, considere o modelo de regressão:







Se o verdadeiro vector de regressão coeficientes β é codirecional com o j-th eigenvector Z T Z , em seguida, na regressão de Y para W, o j- th principal componente Wⱼ contribuirá para a aprendizagem, enquanto os restantes não contribuirá, em princípio, ...



Prova : Deixe- o V = (V₁, ..., Vp) - matriz dos vectores próprios de Z t Z . Então ,







Desde , onde estão os coeficientes de regressão da expressão.



Se βé codirecional com o j -ésimo vetor próprio Vⱼ , então Vⱼ = aβ , onde a é um valor escalar diferente de zero. Portanto, θj = Vⱼᵀβ = aβᵀβ e θᴋ = Vᴋᵀ β = 0, onde k ≠ j . Assim, o coeficiente de regressão θᴋ correspondente a Wᴋ é zero, para k ≠ j , respectivamente, uma







vez que a variável Wᴋ não reduz a soma dos quadrados, se seu coeficiente de regressão for 0, então Wj trará a contribuição principal, enquanto os outros componentes principais não farão nenhuma contribuição.



Significado geométrico e modelagem



Agora vamos simular e obter uma representação geométrica dos cálculos matemáticos acima. A explicação é ilustrada pela modelagem de um espaço de recurso bidimensional (X) e uma variável de resposta para que a hipótese possa ser facilmente compreendida visualmente.





Figura 1: Gráficos unidimensionais e bidimensionais para as variáveis ​​X1 e X2 em consideração



No primeiro estágio da modelagem, o espaço de recursos foi modelado usando uma distribuição normal multivariada com uma correlação muito alta entre as variáveis ​​e os componentes principais.





Figura 2: Correlação de mapa de calor para PC1 e PC2 (componentes principais)



É muito claro no gráfico que não há correlação entre os componentes principais. Na segunda etapa, os valores da variável de resposta Y são modelados de modo que a direção do coeficiente Y dos componentes principais coincida com a direção do segundo componente principal.







Depois de receber a variável de resposta, a matriz de correlação será semelhante a esta.





Figura 3: Mapa de calor para a variável Y e PC1 e PC2.



O gráfico mostra claramente que a correlação entre Y e PC2 é maior do que entre Y e PC1 , o que confirma nossa hipótese.





Figura 4: Variância de espaço de recursos explicada por PC1 e PC2.



Como a figura mostra que PC1explica 95% da variância de X , então de acordo com a lógica delineada acima, devemos ignorar completamente PC2 na regressão.



Então, vamos acompanhar e ver o que acontece!





Figura 5. Resultado da regressão com Y e PC1.



Assim , , igual a 0 , disse que apesar de CP1 dar 95% da variância X , ainda não explica a variável resposta.



Agora vamos fazer o mesmo com PC2 , que explica apenas 5% da variância de X , e ver o que acontece.





Figura 6: Resultado da regressão com Y e PC2.



Yuhu! Basta olhar para o que aconteceu: o principal componente que explicou 5% da do X variância deu 72% de do Y variância . Existem também exemplos reais para apoiar tais situações:



[1] Smith e Campbell (1980) deram um exemplo da engenharia química, onde havia 9 variáveis ​​regressivas, e quando a variância do oitavo componente principal era de 0,06% da variância total, o que não seria levado em consideração devido à lógica acima.

[2] Um segundo exemplo foi fornecido por Kung e Sharif (1980). Em um estudo de previsão da data de início das monções usando dez variáveis ​​meteorológicas, apenas o oitavo, o segundo e o décimo componentes foram significativos. Este exemplo mostra que mesmo o componente principal com o menor autovalor será o terceiro mais significativo em termos de explicar a variabilidade da variável de resposta.



Resultado



Os exemplos acima mostram que não é apropriado remover componentes principais com autovalores pequenos, uma vez que eles afetam apenas a explicabilidade no espaço de recursos, mas não a variável de resposta. Portanto, você precisa preservar todos os componentes nas técnicas de redução de dimensão supervisionada, como regressão de mínimos quadrados parciais e regressão de mínimos ângulos, sobre os quais falaremos em artigos futuros.



Fontes
[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.






Saiba mais sobre o curso “Aprendizado de Máquina. Curso básico ” , além de assistir a uma aula gratuita , você pode se inscrever para um webinar gratuito neste link .






Consulte Mais informação:



Entropia: como as árvores de decisão tomam decisões



All Articles