🛴 🧕🏻 🧖🏻 Noções básicas de regressão linear ✖️ ⛴️ 👩🏽‍🚒

Olá, Habr!

O objetivo deste artigo é falar sobre regressão linear, nomeadamente, recolher e mostrar as formulações e interpretações do problema de regressão em termos de análise matemática, estatística, álgebra linear e teoria da probabilidade. Embora os livros-texto estabeleçam esse tópico de maneira estrita e exaustiva, outro artigo de ciência popular não fará mal.

! Cuidado com o trânsito! O artigo contém um número notável de imagens para ilustrações, algumas em formato gif.

Conteúdo

Introdução

Existem três conceitos semelhantes, três irmãs: interpolação, aproximação e regressão.

Eles têm um objetivo comum: de uma família de funções, escolha aquela que possui uma determinada propriedade.

Interpolação- uma forma de selecionar de uma família de funções aquela que passa por determinados pontos A função é geralmente usada para calcular em pontos intermediários. Por exemplo, definimos manualmente a cor de vários pontos e queremos que as cores dos pontos restantes formem transições suaves entre os dados fornecidos. Ou definimos quadros-chave para a animação e queremos transições suaves entre eles. Exemplos clássicos: interpolação polinomial de Lagrange, interpolação spline, interpolação multidimensional (bilinear, trilinear, vizinho mais próximo, etc.). Existe também um conceito relacionado de extrapolação - prever o comportamento de uma função fora de um intervalo. Por exemplo, prever a taxa do dólar com base nas flutuações anteriores é uma extrapolação.

Aproximação- uma forma de escolher de uma família de funções "simples" uma aproximação para uma função "complexa" em um segmento, enquanto o erro não deve exceder um certo limite. A aproximação é usada quando você precisa obter uma função semelhante a uma dada, mas mais conveniente para cálculos e manipulações (diferenciação, integração, etc.). Ao otimizar seções críticas do código, uma aproximação é frequentemente usada: se o valor de uma função é calculado muitas vezes por segundo e a precisão absoluta não é necessária, então um aproximador mais simples com um "custo" de cálculo menor pode ser dispensado. Exemplos clássicos incluem séries de Taylor em um segmento, aproximação polinomial ortogonal, aproximação de Padé, aproximação de seno de Bhaskar, etc.

Regressão- uma forma de escolher de uma família de funções aquela que minimiza a função perda. Este último caracteriza o quanto a função de teste se desvia dos valores nos pontos dados. Se pontos são obtidos em um experimento, eles inevitavelmente contêm erro de medição, ruído, então é mais razoável exigir que a função transmita a tendência geral e não passe exatamente por todos os pontos. Em certo sentido, a regressão é um “ajuste de interpolação”: queremos desenhar a curva o mais próximo possível dos pontos e ainda mantê-la o mais simples possível para capturar a tendência geral. A função de perda (na literatura inglesa “função perda” ou “função custo”) é responsável pelo equilíbrio entre esses desejos conflitantes.

Neste artigo, veremos a regressão linear. Isso significa que a família de funções que escolhemos é uma combinação linear de funções de base predeterminadas

${f_i}$

$f = \sum_i w_i f_i.$

O objetivo da regressão é encontrar os coeficientes desta combinação linear e, assim, determinar a função de regressão

$f$ (também chamado demodelo). Observe que a regressão linear é chamada de linear precisamente por causa da combinação linear das funções básicas - isso não está relacionado às funções mais básicas (elas podem ser lineares ou não).

A regressão está conosco há muito tempo: o método foi publicado pela primeira vez por Legendre em 1805, embora Gauss o tenha abordado antes e usado com sucesso para prever a órbita do "cometa" (na verdade, um planeta anão) Ceres. Existem muitas variações e generalizações de regressão linear: LAD, Least Squares, Ridge Regression, Lasso Regression, ElasticNet e muitos outros.

GIF

. — .

GoogleColab.

GitHub

Método dos mínimos quadrados

Vamos começar com o caso bidimensional mais simples. Vamos receber pontos no avião

$\{(x_1,y_1),\cdots,(x_N,y_N)\}$ e estamos procurando por uma função afim

$f(x) = a + b \cdot x,$

para que seu gráfico fique mais próximo dos pontos. Assim, nossa base consiste em uma função constante e uma linear

$(1, x)$ .

Como você pode ver na ilustração, a distância de um ponto a uma linha reta pode ser entendida de diferentes maneiras, por exemplo, geometricamente - é o comprimento de uma perpendicular. No entanto, no contexto da nossa tarefa, precisamos de uma distância funcional, não geométrica. Estamos interessados na diferença entre o valor experimental e a previsão do modelo para cada

$x_i,$ então você precisa medir ao longo do eixo

$y$ .

A primeira coisa que vem à mente é tentar uma expressão que dependa dos valores absolutos das diferenças como uma função de perda

$|f(x_i) - y_i|$ ... A opção mais simples é a soma dos módulos de desvio

$\sum_i |f(x_i) - y_i|$ resulta na regressão da Distância Mínima Absoluta (LAD).

No entanto, a função de perda mais popular é a soma dos quadrados dos desvios do regressante do modelo. Na literatura inglesa, é denominado Soma dos Erros Quadrados (SSE)

$\text{SSE}(a,b)=\text{SS}_{res[iduals]}=\sum_{i=1}^N{\text{}_i}^2=\sum_{i=1}^N(y_i-f(x_i))^2=\sum_{i=1}^N(y_i-a-b\cdot x_i)^2,$

Mínimos Quadrados (OLS) - Regressão Linear com

$\text{SSE}(a,b)$ como uma função de perda.

Essa escolha é principalmente conveniente: a derivada de uma função quadrática é uma função linear e as equações lineares são facilmente resolvidas. No entanto, indicarei ainda outras considerações em favor de

$\text{SSE}(a,b)$ .

GIF

() (). .

GoogleColab.

GitHub

Analise matemática

A maneira mais simples de encontrar

$\text{argmin}_{a,b} \, \text{SSE}(a,b)$ - calcular derivadas parciais em relação a

$a$ e

$b$ , iguale-os a zero e resolva o sistema de equações lineares

$\begin{aligned} \frac{\partial}{\partial a}\text{SSE}(a,b)&=-2\sum_{i=1}^N(y_i-a-bx_i), \\ \frac{\partial}{\partial b}\text{SSE}(a,b)&=-2\sum_{i=1}^N(y_i-a-bx_i)x_i. \end{aligned}$

Os valores dos parâmetros que minimizam a função de perda satisfazem as equações

$\begin{aligned} 0 &= -2\sum_{i=1}^N(y_i-\hat{a}-\hat{b}x_i), \\ 0 &= -2\sum_{i=1}^N(y_i-\hat{a}-\hat{b}x_i)x_i, \end{aligned}$

que são fáceis de resolver

$\begin{aligned} \hat{a}&=\frac{\sum_i y_i}{N}-\hat{b}\frac{\sum_i x_i}{N},\\ \hat{b}&=\frac{\frac{\sum_i x_i y_i}{N}-\frac{\sum_i x_i\sum_i y_i}{N^2}}{\frac{\sum_i x_i^2}{N}-\left(\frac{\sum_i x_i^2}{N}\right)^2}. \end{aligned}$

Temos expressões pesadas e desestruturadas. Agora vamos enobrecê-los e dar-lhes significado.

Estatisticas

As fórmulas resultantes podem ser escritas de forma compacta usando estimadores estatísticos: média

$\langle{\cdot}\rangle$ , variações

$\sigma_{\cdot}$ (desvio padrão), covariância

$\sigma({\cdot},{\cdot})$ e correlações

$\rho({\cdot},{\cdot})$

$\begin{aligned} \hat{a}&=\langle{y}\rangle-\hat{b}\langle{x}\rangle, \\ \hat{b}&=\frac{\langle{xy}\rangle-\langle{x}\rangle\langle{y}\rangle}{\langle{x^2}\rangle-\langle{x}\rangle^2}. \end{aligned}$

Vamos reescrever

$\hat{b}$ Como

$\hat{b} = \frac{\sigma(x,y)}{\sigma_x^2},$

Onde

$\sigma_x$ é o desvio padrão da amostra não corrigido (enviesado), e

$\sigma(x,y)$ - covariância. Agora lembre-se de que o coeficiente de correlação (coeficiente de correlação de Pearson)

$\rho(x,y)=\frac{\sigma(x,y)}{\sigma_x \sigma_y}$

e escrever

$\hat{b}=\rho(x,y)\frac{\sigma_y}{\sigma_x}.$

Agora podemos apreciar toda a elegância das estatísticas descritivas escrevendo a equação da linha de regressão como esta

$\boxed{y-\langle {y} \rangle = \rho(x,y)\frac{\sigma_y}{\sigma_x}(x-\langle {x} \rangle)}.$

Primeiro, esta equação indica imediatamente duas propriedades da linha de regressão:

a linha reta passa pelo centro de massa $(\langle{x}\rangle, \langle{y}\rangle)$ ;
se ao longo do eixo $x$ por unidade de comprimento escolha $\sigma_x$ , e ao longo do eixo $y$ - $\sigma_y$ , então o ângulo de inclinação da linha reta será de $-45^\circ$ antes $45^\circ$ ... Isso se deve ao fato de que $-1 \leq\rho(x,y)\leq 1$ ...

Em segundo lugar, agora fica claro por que o método de regressão é chamado assim. Em unidades de desvio padrão

$y$ desvia de sua média por menos de

$x$ , Porque

$|\rho(x,y)|\leq1$ ... Isso é chamado de regressão (do latim regressus - "retorno") em relação à média. Este fenômeno foi descrito por Sir Francis Galton no final do século 19 em seu artigo "Regressão à Mediocridade na Herança do Crescimento". O artigo mostra que as características (como altura) que se desviam muito da média raramente são herdadas. As características da prole parecem tender para a média - a natureza repousa sobre os filhos de gênios.

Ao elevar o coeficiente de correlação ao quadrado, obtemos o coeficiente de determinação

$R = \rho^2$ ... O quadrado desta medida estatística mostra o quão bem o modelo de regressão se ajusta aos dados.

$R^2$ igual a

$1$ , significa que a função se ajusta perfeitamente a todos os pontos - os dados estão perfeitamente correlacionados. Pode ser provado que

$R^2$ mostra quanto da variância nos dados é devido ao melhor modelo linear. Para entender o que isso significa, apresentamos as definições

$\begin{aligned} \text{Var}_{data} &= \frac{1}{N}\sum_i (y_i-\langle y \rangle)^2, \\ \text{Var}_{res} &= \frac{1}{N} \sum_i (y_i-\text{}(x_i))^2, \\ \text{Var}_{reg} &= \frac{1}{N} \sum_i (\text{}(x_i)-\langle y \rangle)^2. \end{aligned}$

$\text{Var}_{data}$ - variação dos dados iniciais (variação de pontos

$y_i$ )

$\text{Var}_{res}$ - variação de resíduos, ou seja, variação de desvios do modelo de regressão - de

$y_i$ você precisa subtrair a previsão do modelo e encontrar a variação.

$\text{Var}_{reg}$ - variação da regressão, ou seja, variação das previsões do modelo de regressão em pontos

$x_i$ (observe que a média das previsões do modelo corresponde

$\langle y \rangle$ )

A questão é que a variação nos dados originais é decomposta na soma de duas outras variações: a variação que é explicada pelo modelo e a variação do ruído aleatório (resíduos)

$\boxed{{\color{red}{\text{Var}_{data}}} ={\color{green}{\text{Var}_{res}}}+ {\color{blue}{\text{Var}_{reg}}}.}$

$\sigma^2_{data} =\sigma^2_{res}+ \sigma^2_{reg}.$

Como você pode ver, os desvios padrão formam um triângulo retângulo.

Nós nos esforçamos para nos livrar da variabilidade associada ao ruído e deixar apenas a variabilidade que é explicada pelo modelo - queremos separar o joio do trigo. A extensão em que o melhor dos modelos lineares teve sucesso é evidenciada por

$R^2$ igual a um menos a fração de variação do erro na variação total

$R^2=\frac{\text{Var}_{data}-\text{Var}_{res}}{\text{Var}_{data}}=1-\frac{\color{green}{\text{Var}_{res}}}{\color{red}{\text{Var}_{data}}}$

ou a proporção da variação explicada (proporção da variação da regressão na variação total)

$R^2=\frac{\color{blue}{\text{Var}_{reg}}}{\color{red}{\text{Var}_{data}}}.$

$R$ igual ao cosseno de um ângulo em um triângulo retângulo

$(\sigma_{data}, \sigma_{reg}, \sigma_{res})$ ... A propósito, às vezes uma fração da variação inexplicada é introduzida

$FUV=1-R^2$ e é igual ao quadrado do seno neste triângulo. Se o coeficiente de determinação for pequeno, talvez tenhamos escolhido funções de base malsucedidas, a regressão linear não é aplicável de todo, etc.

Teoria da probabilidade

Anteriormente, falamos da função de perda

$\text{SSE}(a,b)$ por razões de conveniência, mas também pode ser alcançado usando a teoria da probabilidade e o método da máxima verossimilhança (MLM). Deixe-me relembrar brevemente sua essência. Suponha que temos

$N$ variáveis aleatórias independentes distribuídas de forma idêntica (em nosso caso, resultados de medição). Conhecemos a forma da função de distribuição (por exemplo, a distribuição normal), mas queremos determinar os parâmetros que estão incluídos nela (por exemplo

$\mu$ e

$\sigma$ ) Para fazer isso, você precisa calcular a probabilidade de obter

$N$ pontos de dados sob a suposição de parâmetros constantes, mas desconhecidos. Devido à independência das medidas, obtemos o produto das probabilidades de realização de cada dimensão. Se pensarmos no valor resultante como uma função de parâmetros (função de verossimilhança) e encontrarmos seu máximo, obteremos uma estimativa dos parâmetros. Freqüentemente, em vez da função de verossimilhança, eles usam seu logaritmo - é mais fácil diferenciá-lo, mas o resultado é o mesmo.

Voltemos ao problema de regressão simples. Digamos que os valores

$x$ sabemos exatamente, mas em medição

$y$ há ruído aleatório (propriedade exógena fraca ). Além disso, assumimos que todos os desvios da linha reta (propriedade de linearidade ) são causados por ruído com uma distribuição constante ( distribuição constante ). Então

$y = a + bx + \epsilon,$

Onde

$\epsilon$ - variável aleatória normalmente distribuída

$\epsilon \sim \mathcal{N}(0,\,\sigma^{2}), \qquad p(\epsilon) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\epsilon^2}{2\sigma^2}}.$

Com base nas premissas acima, escrevemos a função de probabilidade

$\begin{aligned} L(a,b|\mathbf{y})&=P(\mathbf{y}|a,b)=\prod_i P(y_i|a,b)=\prod_i p(y_i-a-bx|a,b)=\\ &= \prod_i \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(y_i-a-bx)^2}{2\sigma^2}}= \frac{1}{\sqrt{2 \pi \sigma^2}}e^{-\frac{\sum_i (y_i-a-bx)^2}{2 \sigma^2}}=\\ &= \frac{1}{\sqrt{2 \pi \sigma^2}}e^{-\frac{\text{SSE}(a,b)}{2 \sigma^2}} \end{aligned}$

e seu logaritmo

$l(a,b|\mathbf{y})=\log{L(a,b|\mathbf{y})}=-\text{SSE}(a,b)+const.$

Assim, a probabilidade máxima é alcançada em um mínimo

$\text{SSE}$

$(\hat{a},\hat{b})=\text{argmax}_{a,b} \, l(a,b|\mathbf{y}) = \text{argmin}_{a,b} \, \text{SSE}(a,b),$

o que dá razão para aceitá-lo como uma função de perda. A propósito, se

$\begin{aligned} \epsilon \sim \text{Laplace}(0, \alpha), \qquad p_{L}(\epsilon; \mu, \alpha) =\frac{\alpha}{2}e^{-\alpha |\epsilon-\mu|} \end{aligned}$

obtemos a função de perda de regressão LAD

$E_{LAD}(a,b)=\sum_i |y_i-a-bx_i|,$

que mencionamos anteriormente.

A abordagem que usamos nesta seção é possível. É possível obter o mesmo resultado usando propriedades mais gerais. Em particular, a propriedade de distribuição constante pode ser enfraquecida substituindo-a pelas propriedades de independência, constância de variação (homocedasticidade) e ausência de multicolinearidade. Além disso, em vez da estimativa MMP, você pode usar outros métodos, por exemplo, estimativa MMSE linear.

Regressão multilinear

Até agora, consideramos o problema de regressão para um recurso escalar

$x$ , no entanto geralmente o regressor é

$n$ vetor dimensional

$\mathbf{x}$ ... Em outras palavras, para cada dimensão, registramos

$n$ recursos, combinando-os em um vetor. Neste caso, é lógico aceitar o modelo com

$n+1$ funções de base independentes do argumento do vetor -

$n$ graus de liberdade correspondem

$n$ recursos e mais um - regressante

$y$ ... A escolha mais simples são funções de base linear

$(1, x_1, \cdots, x_n)$ ... Quando

$n = 1$ nós temos a base já familiar

$(1, x)$ ...

Então, queremos encontrar esse vetor (conjunto de coeficientes)

$\mathbf{w}$ , o que

$\sum_{j=0}^n w_j x_j^{(i)}= \mathbf{w}^{\top}\mathbf{x}^{(i)} \simeq y_i, \qquad \qquad \qquad \qquad i=1\dots N.$

Placa "

$\simeq$ "significa que estamos procurando uma solução que minimize a soma dos quadrados dos erros

$\hat{\mathbf{w}}=\text{argmin}_\mathbf{w} \, \sum_{i=1}^N \left({y_i - \mathbf{w}^{\top}\mathbf{x}^{(i)}}\right)^2$

A última equação pode ser reescrita de uma maneira mais conveniente. Para isso colocamos

$\mathbf{x}^{(i)}$ nas linhas da matriz (matriz de informação)

$X= \begin{pmatrix} - & \mathbf{x}^{(1)\top} & - \\ \cdots & \cdots & \cdots\\ - & \mathbf{x}^{(N)\top} & - \end{pmatrix} = \begin{pmatrix} | & | & & | \\ \mathbf{x}_0 & \mathbf{x}_1 & \cdots & \mathbf{x}_n \\ | & | & & | \end{pmatrix} = \begin{pmatrix} 1 & x^{(1)}_{1} & \cdots & x^{(1)}_{n} \\ \cdots & \cdots & \cdots & \cdots\\ 1 & x^{(N)}_{1} & \cdots & x^{(N)}_{n} \end{pmatrix}.$

Então as colunas da matriz

$\mathbf{x}_{i}$ encontrar medidas

$i$ -ésimo recurso. É importante não se confundir aqui:

$N$ - o número de medições,

$n$ - o número de sinais (características) que registramos. O sistema pode ser escrito como

$X \, \mathbf{w} \simeq \mathbf{y}.$

O quadrado da norma da diferença entre os vetores nos lados direito e esquerdo da equação forma a função de perda

$\text{SSE}(\mathbf{w}) = {\|\mathbf{y}-X \mathbf{w}\|}^2, \qquad \qquad \mathbf{w} \in \mathbb{R}^{n+1}; \, \mathbf{y} \in \mathbb{R}^{N},$

que pretendemos minimizar

$\begin{aligned} \hat{\mathbf{w}}&=\text{argmin}_\mathbf{w} \, \text{SSE}(\mathbf{w}) = \text{argmin}_\mathbf{w} \, (\mathbf{y}-X \mathbf{w})^{\top}(\mathbf{y}-X \mathbf{w})=\\ &= \text{argmin}_\mathbf{w} \,(\mathbf{y}^{\top}\mathbf{y}-2\mathbf{w}^{\top}X^{\top}\mathbf{y}+\mathbf{w}^{\top}X^{\top}X\mathbf{w}). \end{aligned}$

Vamos diferenciar a expressão final por

$\mathbf{w}$ (se você esqueceu como fazer, dê uma olhada no livro de receitas Matrix )

$\frac{\partial \, \text{SSE}(\mathbf{w})}{\partial \mathbf{w}}=-2 X^{\top}\mathbf{y}+2 X^{\top}X\mathbf{w},$

nós igualamos a derivada a

$\mathbf{0}$ e temos o assim chamado. equações normais

$X^{\top}X \, \hat{\mathbf{w}}=X^{\top}\mathbf{y}.$

Se as colunas da matriz de informação

$X$ são linearmente independentes (não há recursos perfeitamente correlacionados), então a matriz

$X^{\top}X$ tem o oposto (a prova pode ser vista, por exemplo, no vídeo da academia de Khan ). Então podemos escrever

$\boxed{\hat{\mathbf{w}} = (X^{\top}X)^{-1}X^{\top}\mathbf{y}=X^{+}\mathbf{y}},$

Onde

$X^{+}=(X^{\top}X)^{-1}X^{\top}$

pseudo-inverso a

$X$ ... O conceito de matriz pseudoinversa foi introduzido em 1903 por Fredholm e desempenhou um papel importante nas obras de Moore e Penrose.

Deixe-me lembrá-lo do que virar

$X^{\top}X$ e encontra

$X^{+}$ só é possível se as colunas

$X$ são linearmente independentes. No entanto, se as colunas

$X$ perto da dependência linear, cálculo

$(X^{\top}X)^{-1}$ já está se tornando numericamente instável. O grau de dependência linear de recursos em

$X$ ou, como se costuma dizer, a multicolinearidade da matriz

$X^{\top}X$ , pode ser medido pelo número de condicionalidade - a razão entre o valor próprio máximo e o mínimo. Quanto maior for, mais perto

$X^{\top}X$ para degenerar e computação instável do pseudoinverso.

Álgebra Linear

A solução para o problema da regressão multilinear pode ser alcançada de forma bastante natural com o auxílio da álgebra linear e da geometria, pois mesmo o fato de a norma do vetor de erro aparecer na função de perda já sugere que o problema tem um lado geométrico. Vimos que uma tentativa de encontrar um modelo linear que descreva os pontos experimentais leva à equação

$X \, \mathbf{w} \simeq \mathbf{y}.$

Se o número de variáveis for igual ao número de incógnitas e as equações forem linearmente independentes, o sistema terá uma solução única. Porém, se o número de dimensões exceder o número de feições, ou seja, houver mais equações do que incógnitas, o sistema torna-se inconsistente, sobredeterminado. Neste caso, o melhor que podemos fazer é escolher o vetor

$\mathbf{w}$ cuja imagem

$X\mathbf{w}$ o mais próximo de

$\mathbf{y}$ ... Deixe-me lembrá-lo de que muitas imagens ou espaço de coluna

$\mathcal{C}(X)$ É uma combinação linear dos vetores de coluna da matriz

$X$

$\begin{pmatrix} | & | & & | \\ \mathbf{x}_0 & \mathbf{x}_1 & \cdots & \mathbf{x}_n \\ | & | & & | \end{pmatrix} \mathbf{w} = w_0 \mathbf{x}_0 + w_1 \mathbf{x}_1 + \cdots w_n \mathbf{x}_n .$

$\mathcal{C}(X)$ -

$n+1$ subespaço linear dimensional (consideramos recursos linearmente independentes), extensão linear de vetores de coluna

$X$ ... Então se

$\mathbf{y}$ pertence

$\mathcal{C}(X)$ , então podemos encontrar uma solução, caso contrário, buscaremos, por assim dizer, o melhor das não soluções.

Se além de vetores

$\mathcal{C}(X)$ consideramos todos os vetores perpendiculares a eles, então obtemos mais um subespaço e podemos qualquer vetor de

$\mathbb{R}^{N}$ decompõe-se em dois componentes, cada um dos quais vive em seu próprio subespaço. O segundo espaço perpendicular pode ser caracterizado como segue (precisaremos disso mais tarde). Deixe ir

$\mathbf{v} \in \mathbb{R}^{N}$ então

$X^\top \mathbf{v} = \begin{pmatrix} - & \mathbf{x}_0^{\top} & - \\ \cdots & \cdots & \cdots\\ - & \mathbf{x}_n^{\top} & - \end{pmatrix} \mathbf{v} = \begin{pmatrix} \mathbf{x}_0^{\top} \cdot \mathbf{v} \\ \cdots \\ \mathbf{x}_n^{\top} \cdot \mathbf{v} \\ \end{pmatrix}$

é zero se e somente se

$\mathbf{v}$ perpendicular a todos

$\mathbf{x}_i$ e, portanto, todo

$\mathcal{C}(X)$ ... Assim, encontramos dois subespaços lineares perpendiculares, combinações lineares de vetores dos quais completamente, sem buracos, "cobrem" todos

$\mathbb{R}^N$ ... Isso às vezes é denotado pelo símbolo de soma direta ortogonal

Onde

$\text{ker}(X^{\top})=\{\mathbf{v}|X^{\top}\mathbf{v}=\mathbf{0}\}$ ... Cada um dos subespaços pode ser alcançado usando o operador de projeção correspondente, mas mais sobre isso a seguir.

Agora vamos imaginar

$\mathbf{y}$ decomposição

$\mathbf{y} = \mathbf{y}_{\text{proj}} + \mathbf{y}_{\perp}, \qquad \mathbf{y}_{\text{proj}} \in \mathcal{C}(X), \qquad \mathbf{y}_{\perp} \in \text{ker}(X^{\top}).$

Se estamos procurando uma solução

$\hat{\mathbf{w}}$ , então é natural exigir que

$|| \mathbf{y} - X\mathbf{w} ||$ era mínimo, porque esse é o comprimento do vetor restante. Considerando a perpendicularidade dos subespaços e o teorema de Pitágoras

$\text{argmin}_\mathbf{w} || \mathbf{y} - X\mathbf{w} || = \text{argmin}_\mathbf{w} || \mathbf{y}_{\perp} + \mathbf{y}_{\text{proj}} - X\mathbf{w} || = \text{argmin}_\mathbf{w} \sqrt{|| \mathbf{y}_{\perp} ||^2 + || \mathbf{y}_{\text{proj}} - X\mathbf{w} ||^2},$

mas desde a escolha de um adequado

$\mathbf{w}$ , Posso obter qualquer vetor de espaço de coluna, então o problema é reduzido a

$X\hat{\mathbf{w}} = \mathbf{y}_{\text{proj}},$

$\mathbf{y}_{\perp}$ permanecerá como um erro fatal. Qualquer outra escolha

$\hat{\mathbf{w}}$ só cometerá mais erros.

Se agora nos lembrarmos disso

$X^{\top} \mathbf{y}_{\perp} = \mathbf{0}$ então é fácil de ver

$X^\top X \mathbf{w} = X^{\top} \mathbf{y}_{\text{proj}} = X^{\top} \mathbf{y}_{\text{proj}} + X^{\top} \mathbf{y}_{\perp} = X^{\top} \mathbf{y},$

o que é muito conveniente, uma vez que

$\mathbf{y}_{\text{proj}}$ nós não temos, mas

$\mathbf{y}$ - Há sim. Lembre-se da seção anterior que

$X^{\top} X$ tem o inverso sob a condição de independência linear dos recursos e escreve a solução

$\mathbf{w} = (X^\top X)^{-1} X^\top \mathbf{y} = X^{+} \mathbf{y},$

Onde

$X^{+}$ a já familiar matriz pseudoinversa. Se estivermos interessados na projeção

$\mathbf{y}_{\text{proj}}$ , então podemos escrever

$\mathbf{y}_{\text{proj}} = X \mathbf{w} = X X^{+} \mathbf{y} = \text{Proj}_X \mathbf{y},$

Onde

$\text{Proj}_X$ - operador de projeção no espaço da coluna.

Vamos esclarecer o significado geométrico do coeficiente de determinação.

Observe que o vetor roxo

$\bar{y} \cdot \boldsymbol{1}=\bar{y} \cdot (1,1,\dots,1)^{\top}$ proporcional à primeira coluna da matriz de informação

$X$ , que consiste em uma unidade de acordo com nossa escolha de funções básicas. No triângulo RGB

${\color{red}{\mathbf{y}-\hat{y} \cdot \boldsymbol{1}}}={\color{green}{\mathbf{y}-\bar{\mathbf{y}}}}+{\color{blue}{\hat{\mathbf{y}}-\bar{y} \cdot \boldsymbol{1}}}.$

Uma vez que este triângulo é retangular, então pelo teorema de Pitágoras

${\color{red}{\|\mathbf{y}-\hat{y} \cdot \boldsymbol{1}\|^2}}={\color{green}{\|\mathbf{y}-\bar{\mathbf{y}}\|^2}}+{\color{blue}{\|\hat{\mathbf{y}}-\bar{y} \cdot \boldsymbol{1}\|^2}}.$

Esta é uma interpretação geométrica do fato já conhecido de que

${\color{red}{\text{Var}_{data}}} = {\color{green}{\text{Var}_{res}}}+{\color{blue}{\text{Var}_{reg}}}.$

Nós sabemos isso

$R^2=\frac{\color{blue}{\text{Var}_{reg}}}{\color{red}{\text{Var}_{data}}},$

que significa

$R=\cos{\theta}.$

Legal, não é?

Base arbitrária

Como sabemos, a regressão é realizada em funções básicas

$f_i$ e seu resultado é o modelo

$f = \sum_i w_i f_i,$

mas até agora temos usado o mais simples

$f_i$ que simplesmente transmitia os recursos originais sem alterações, bem, talvez complementando-os com recursos constantes

$f_0(\mathbf{x}) = 1$ ... Como você pode ver, na verdade, nenhum tipo

$f_i$ , nem seu número é limitado por nada - o principal é que as funções na base são linearmente independentes. Normalmente, a escolha é feita com base em suposições sobre a natureza do processo que estamos modelando. Se tivermos motivos para acreditar que os pontos

$\{(x_1,y_1),\cdots,(x_N,y_N)\}$ cair em uma parábola, e não em uma linha reta, então vale a pena escolher uma base

$(1, x, x^2)$ ... O número de funções básicas pode ser menor ou maior que o número de recursos originais.

GIF

. scikit-learn , — .

GoogleColab.

GitHub

Se tivermos decidido com base, procederemos da seguinte forma. Formamos uma matriz de informações

$\Phi = \begin{pmatrix} - & \boldsymbol{f}^{(1)\top} & - \\ \cdots & \cdots & \cdots\\ - & \boldsymbol{f}^{(N)\top} & - \end{pmatrix} = \begin{pmatrix} {f}_{0}\left(\mathbf{x}^{(1)}\right) & {f}_{1}\left(\mathbf{x}^{(1)}\right) & \cdots & {f}_{n}\left(\mathbf{x}^{(1)}\right) \\ \cdots & \cdots & \cdots & \cdots\\ {f}_{0}\left(\mathbf{x}^{(N)}\right) & {f}_{1}\left(\mathbf{x}^{(N)}\right) & \cdots & {f}_{n}\left(\mathbf{x}^{(N)}\right) \end{pmatrix},$

escreva a função de perda

$E(\mathbf{w})={\|{\boldsymbol{\epsilon}}(\mathbf{w})\|}^2={\|\mathbf{y}-\Phi \, \mathbf{w}\|}^2$

e encontrar seu mínimo, por exemplo, usando a matriz pseudoinversa

$\hat{\mathbf{w}} = \text{argmin}_\mathbf{w} \,E(\mathbf{w}) = (\Phi^{\top}\Phi)^{-1}\Phi^{\top}\mathbf{y}=\Phi^{+}\mathbf{y}$

ou outro método.

Considerações finais

Problema de seleção de dimensão

Na prática, muitas vezes é necessário construir de forma independente um modelo do fenômeno, ou seja, determinar quantas e quais funções básicas devem ser desempenhadas. O primeiro impulso de "conseguir mais" pode ser uma piada cruel: o modelo será muito sensível a ruídos nos dados (overfitting). Por outro lado, se você restringir excessivamente o modelo, ele ficará muito grosso (ajuste insuficiente).

Existem duas maneiras de sair dessa situação. A primeira é aumentar consistentemente o número de funções básicas, verificar a qualidade da regressão e parar a tempo. Ou a segunda: escolha uma função de perda que determinará o número de graus de liberdade automaticamente. Como critério para o sucesso da regressão, pode-se usar o coeficiente de determinação, que já foi mencionado acima, porém, o problema é que

$R^2$ aumenta monotonicamente com o crescimento da dimensão da base. Portanto, o coeficiente ajustado é introduzido

$\bar{R}^2=1-(1-R^2)\left[\frac{N-1}{N-(n+1)}\right],$

Onde

$N$ - tamanho da amostra,

$n$ - o número de variáveis independentes. Seguindo o

$\bar{R}^2$ , podemos parar a tempo e parar de adicionar outros graus de liberdade.

O segundo grupo de abordagens é a regularização, a mais famosa das quais é Ridge (

$L_2$ / ridge / regularização Tikhonov), Lasso (

$L_1$ regularização) e Rede Elástica (Ridge + Lasso). A ideia principal desses métodos é modificar a função de perda com termos adicionais que não permitirão o vetor de coeficientes

$\mathbf{w}$ crescer indefinidamente e, assim, evitar a reciclagem

$\begin{aligned} E_{\text{Ridge}}(\mathbf{w})&=\text{SSE}(\mathbf{w})+\alpha \sum_i |w_i|^2 = \text{SSE}(\mathbf{w})+\alpha \| \mathbf{w}\|_{L_2}^2,\\ E_{\text{Lasso}}(\mathbf{w})&=\text{SSE}(\mathbf{w})+\beta \sum_i |w_i| =\text{SSE}(\mathbf{w})+\beta \| \mathbf{w}\|_{L_1},\\ E_{\text{EN}}(\mathbf{w})&=\text{SSE}(\mathbf{w})+\alpha \| \mathbf{w}\|_{L_2}^2+\beta \| \mathbf{w}\|_{L_1}, \\ \end{aligned}$

Onde

$\alpha$ e

$\beta$ - parâmetros que controlam a "força" da regularização. Este é um tópico vasto com bela geometria que merece uma discussão separada. A propósito, mencionarei que para o caso de duas variáveis, usando interpretação probabilística, pode-se obter regressões de Ridge e Lasso escolhendo com sucesso a distribuição anterior para o coeficiente.

$b$

$y = a + bx + \epsilon,\qquad \epsilon \sim \mathcal{N}(0,\,\sigma^{2}),\qquad \left\{\begin{aligned} &b \sim \mathcal{N}(0,\,\tau^{2})&\leftarrow\text{Ridge},\\ &b \sim \text{Laplace} (0,\,\alpha)&\leftarrow\text{Lasso}. \end{aligned}\right.$

Métodos numéricos

Deixe-me dizer algumas palavras sobre como minimizar a função de perda na prática. SSE é uma função quadrática comum que é parametrizada pelos dados de entrada, portanto, em princípio, pode ser minimizada pelo método de descida mais íngreme ou outros métodos de otimização. Claro, os melhores resultados são mostrados por algoritmos que levam em consideração a forma da função SSE, por exemplo, o método de descida gradiente estocástico. A implementação de regressão do Lasso no scikit-learn usa o método de descida por coordenadas.

Você também pode resolver equações normais usando métodos de álgebra linear numérica. Um método eficiente que o scikit-learn usa para OLS é encontrar o pseudoinverso usando decomposição de valor singular. Os campos deste artigo são muito restritos para tocar neste tópico, para detalhes, eu o aconselho a consultar o curso de palestras de K.V. Vorontsov.

Publicidade e conclusão

Este artigo é uma releitura resumida de um dos capítulos de um curso sobre aprendizado de máquina clássico na Universidade Acadêmica de Kiev (sucessor da filial de Kiev do Instituto de Física e Tecnologia de Moscou, KO MIPT). O autor do artigo ajudou a criar este curso. O curso é feito tecnicamente na plataforma Google Colab, que permite combinar fórmulas formatadas em LaTeX, código executável Python e demonstrações interativas em Python + JavaScript, para que os alunos possam trabalhar com os materiais do curso e executar o código em qualquer computador que tenha um navegador. A página inicial contém links para resumos, pastas de trabalho práticas e recursos adicionais. O curso é baseado nos seguintes princípios:

todos os materiais devem estar disponíveis para os alunos da primeira dupla;
a aula é necessária para a compreensão, não para fazer anotações (as anotações já estão prontas, não adianta escrevê-las se não quiser);
uma palestra é mais do que uma palestra (há mais material nas notas do que foi anunciado na palestra; na verdade, as notas são um livro-texto completo);
visibilidade e interatividade (ilustrações, fotos, demos, gifs, código, vídeos do youtube).

Se você quiser ver o resultado, dê uma olhada na página do curso no GitHub .

Espero que esteja interessado, obrigado pela atenção.

Noções básicas de regressão linear

Conteúdo

Introdução

Método dos mínimos quadrados

Analise matemática

Estatisticas

Teoria da probabilidade

Regressão multilinear

Álgebra Linear

Base arbitrária

Considerações finais

Problema de seleção de dimensão

Métodos numéricos

Publicidade e conclusão

More articles: