Entendendo a Regressão Linear

Como X é capaz de explicar Y.

regressão linear

Apesar da prevalência de modelos mais complexos e mais extravagantes nos últimos anos, a regressão linear continua difícil de ser batida por causa de sua versatilidade, robustez e explicação.

em uma linha

A regressão basicamente questiona qual é a equação da linha que melhor se encaixa aos meus dados. Simples e direto.

Y = b0 + b1*X

variância mede incerteza

Y, a variável alvo, é o que estamos tentando modelar. Queremos explicar sua variância.

visualizando volatilidade

variância que não pode ser explicada

Em ciência de dados e estatística em geral, não estamos preocupados com a variância, estamos apenas preocupados com a variância que não pode ser explicada. Ou seja, se pudermos encontrar alguma outra variável (a variável de característica, X), que explique muito da variância em Y, então estamos bem.

recursos correlacionados ajudam a explicar a variância

Porque a função lienar nos ajuda a explicar a variância? Pense no que a equação linear representa linha representa. Ela define a relação entre X e Y. Multiplicando X por b1 e somando com b0 (b0 + b1*X), temos nossa previsão de Y com base em um determinado valor de X.

variáveis positivamente correlacionadas tendem a se mover juntas (Gráfico criado pelo autor)

Estamos explicando a variância de Y usando as variáveis X em nossa equação de regressão linear.

Ao atribuir explicar a variância dessa forma, estamos de fato reduzindo-a, ou seja, explicamos a variância que não precisamos mais nos preocupar.

apenas a variável Y

x ajuda a explicar y

Agora vamos dizer que encontramos uma variável de características, X, com uma correlação positiva com Y. A figura abaixo mostra como X ajuda a explicar a variância.

a variável X ajuda a explicar um pouco da variância de Y (Gráfico criado pelo autor)

segmentar reduz variância

Observe como, ao segmentar desta forma, a variância (os cones vermelhos) foi reduzida em relação ao cone verde original.

regressão linear quebra dados em inúmeras segmentações

E é isso que a regressão linear faz. Ela projeta toneladas e toneladas de linhas verticais que quebram os dados em inúmeras segmentações minúsculas. Isso maximiza tanto a variância explicada quanto a precisão em torno de nossa previsão.

mínimos quadrados ordinários (OLS)

OLS é uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados

O algoritmo de regressão linear quer encontrar valores para b0 e b1 que minimiza a soma dos erros quadráticos.

Erro é a distância entre os dados (pontos observados) e (linha azul projetada) na imagem abaixo, as setas vermelhas denotam erro, a distância do ponto em relação à média. Portanto, o erro pode ser positivo ou negativo.

método dos mínimos quadrados

parâmetros de regressão

Os parâmetros (b0, b1, etc.), conhecidos como betas, que compõem uma regressão são importantes. Em nosso exemplo anterior, tínhamos apenas uma única variável. Mas digamos que tenhamos três variáveis de características:

Y = b0 + b1*X1 + b2*X2 + b3*X3
  • b1 nos diz como, ao manter X2 e X3 constante, mudar X1 impacta Y.
  • b2 nos diz como, ao manter X1 e X3 constante, a mudança de X2 impacta Y.
  • b3 nos diz como, ao manter X1 e X2 constante, a mudança de X3 impacta Y.

R² — quantificando a variância explicada

Finalmente, queremos descobrir quanto da variância original conseguimos explicar (já que o objetivo é explicar e, portanto, reduzir a variância).

R^2 = 1 - (residual sum of squares / total sum of squares)

Erro de previsão é a diferença entre a observação real e a previsão do nosso modelo sobre ele. É uma medida de variância inexplicável.

A razão da soma residual dos quadrados à soma total dos quadrados mede a proporção de variância deixada inexplicada após a execução da regressão linear. Em outras palavras, é a proporção de incerteza que não poderíamos fazer desaparecer com nossa regressão linear.

Então, se depois de executar nossa regressão, vemos um R² de 0,90, isso significa que as variáveis X que incluímos em nosso modelo ajudaram a explicar 90% da variância observada em Y.

Em outras palavras, explicamos com sucesso muita incerteza em torno da variável em que estamos interessados.

Obrigado.

São Paulo — Composing a repository of books (I bought), courses (I took), authors (I follow) & blogs (the direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store