Regressão Linear

Escrito por Gabriel Neves Siqueira

Imagine que você trabalha em uma imobiliária e quer entender a relação entre o tamanho de um apartamento (em metros quadrados) e seu preço. Você coletou dados de vários apartamentos vendidos recentemente e quer descobrir um padrão: será que apartamentos maiores custam mais? E se sim, quanto mais?

A regressão linear é exatamente a ferramenta que precisamos para responder essas perguntas. A ideia é simples: vamos desenhar uma linha reta que passe “no meio” dos nossos dados, de forma que ela represente o melhor possível a relação entre tamanho e preço.

Mas o que significa “no meio” dos dados? E como sabemos qual é a “melhor” linha? Vamos começar visualizando o problema:

Observando o gráfico acima, conseguimos ver claramente um padrão: conforme a área aumenta, o preço também tende a aumentar. Os pontos não estão perfeitamente alinhados em uma linha reta (afinal, o preço de um apartamento depende de muitos fatores além do tamanho), mas de fato existe uma tendência clara e consistente.

A questão que precisamos responder é a seguinte. Como podemos traçar a “melhor” linha reta que representa essa relação? Precisamos de uma linha que capture a tendência geral dos dados, minimizando as diferenças entre os preços reais e os preços que a linha prevê.

O algoritmo de regressão linear encontra matematicamente essa linha de melhor ajuste, e ela pode ser usada para fazer previsões. Por exemplo, se aparecer um apartamento de $$85 \text{ m}^2$$ no mercado, podemos usar nossa linha para estimar um preço justo.

Vamos ver como fica essa linha de melhor ajuste:

Agora temos a linha vermelha que melhor representa a relação entre área e preço. Note como ela passa “no meio” dos pontos, equilibrando as distâncias para cima e para baixo.

A linha tem uma equação matemática simples: $$\text{P} = 4,89 \times \text{A} – 14,41$$

Essa equação nos dá duas informações importantes. Primeiro, o número $$4,89$$ (chamado de coeficiente angular ou inclinação) nos diz quanto o preço aumenta para cada metro quadrado adicional. Neste caso, cada $$1 \text{ m}^2$$ a mais aumenta o preço em aproximadamente $$ \text{R\$ } 4.890 $$.

Segundo, o número $$-14,41$$ (chamado de intercepto) representa o valor teórico quando a área é zero. Neste exemplo, esse valor não tem muito sentido prático (não existe apartamento com $$0 \text{ m}^2$$), mas matematicamente é necessário para posicionar a linha corretamente no gráfico.

Com essa linha, podemos fazer previsões. Quer estimar o preço de um apartamento de $$85 \text{ m}^2$$? Basta calcular: $$\text{P} = 4,89 \times 85 – 14.41 = 401,24$$ mil reais.

Mas ainda há uma questão importante que não abordamos. Precisamos de uma forma de medir o quão bem essa linha representa nossos dados. Será que a relação entre área e preço é forte e previsível, ou os pontos estão muito espalhados? Existe uma métrica específica que nos ajuda a quantificar isso.

Coeficiente de Correlação de Pearson

O coeficiente de correlação de Pearson, geralmente representado pela letra $$r$$, é uma medida que varia entre $$-1$$ e $$1$$ e nos diz o quão forte é a relação linear entre duas variáveis.

Vamos entender o que cada valor significa:

$$r = 1$$: correlação perfeita positiva. Todos os pontos estão exatamente sobre a linha, e quando uma variável aumenta, a outra também aumenta proporcionalmente.
$$r = -1$$: correlação perfeita negativa. Todos os pontos estão exatamente sobre a linha, mas quando uma variável aumenta, a outra diminui proporcionalmente.
$$r = 0$$: sem correlação linear. Não há relação linear entre as variáveis, os pontos estão completamente espalhados.
Valores entre $$0$$ e $$1$$ (ou $$0$$ e $$-1$$): indicam correlação parcial. Quanto mais próximo de $$1$$ ou $$-1$$, mais forte é a relação. Quanto mais próximo de $$0$$, mais fraca.

Para nossos dados de apartamentos, o coeficiente de correlação é $$r = 0,997$$. Isso indica uma correlação extremamente forte e positiva entre área e preço. Os pontos estão muito próximos da linha, o que significa que nosso modelo de regressão linear é muito bom para fazer previsões neste caso.

A Matemática por Trás da Regressão Linear

Esta seção requer conhecimento de cálculo diferencial, especificamente derivadas e otimização. Se você não está familiarizado com esses conceitos, pode pular esta parte sem prejuízo para o entendimento prático da regressão linear.

Até agora, vimos como a regressão linear funciona de forma intuitiva e como usar suas fórmulas para fazer previsões. Mas como o algoritmo realmente encontra essa linha de melhor ajuste? Como ele determina os valores ideais para a inclinação e o intercepto?

A resposta está em um problema de otimização matemática. Queremos minimizar o erro total entre nossas previsões e os valores reais. Para isso, precisamos usar cálculo diferencial para encontrar o ponto mínimo de uma função de custo.

A Função de Custo

Primeiro, precisamos definir matematicamente o que significa “erro” e como medir se uma linha é boa ou ruim.

Para cada ponto de dados, temos um valor real $$y_i$$ (o preço real do apartamento) e um valor previsto $$\hat{y}_i$$ (o preço que nossa linha prevê). O erro para esse ponto é simplesmente a diferença: $$e_i = y_i – \hat{y}_i$$.

Porém, não podemos simplesmente somar todos os erros, porque erros positivos e negativos se cancelariam. Um ponto $$10$$ unidades acima da linha cancelaria um ponto $$10$$ unidades abaixo, e pareceríamos ter erro zero quando na verdade temos erros grandes.

A solução é elevar os erros ao quadrado antes de somá-los. Isso tem duas vantagens: primeiro, elimina o problema dos sinais (números negativos ao quadrado ficam positivos). Segundo, penaliza erros grandes de forma mais severa (um erro de $$10$$ contribui $$100$$ para o custo, enquanto dois erros de $$5$$ contribuem apenas $$50$$ no total).

Nossa função de custo (também chamada de função de perda) é a soma dos erros quadrados:

$$J = \sum_{i=1}^{n} (y_i – \hat{y}_i)^2$$

Onde $$n$$ é o número de pontos de dados que temos.

Lembre-se que nossa previsão $$\hat{y}_i$$ vem da equação da linha: $$\hat{y}_i = mx_i + b$$, onde $m$ é a inclinação, $$b$$ é o intercepto, e $$x_i$$ é o valor de entrada (a área do apartamento).

Substituindo na função de custo:

$$J(m, b) = \sum_{i=1}^{n} (y_i – mx_i – b)^2$$

Agora temos uma função que depende de $$m$$ e $$b$$. Nosso objetivo é encontrar os valores de $$m$$ e $$b$$ que minimizam essa função.

Minimizando a Função de Custo

Para encontrar o mínimo de uma função, precisamos encontrar os pontos onde suas derivadas são zero. Como nossa função depende de duas variáveis ($$m$$ e $$b$$), precisamos calcular as derivadas parciais em relação a cada uma delas.

Vamos começar com a derivada parcial em relação a $$m$$:

$$\frac{\partial J}{\partial m} = \frac{\partial}{\partial m} \sum_{i=1}^{n} (y_i – mx_i – b)^2$$

Usando a regra da cadeia:

$$\frac{\partial J}{\partial m} = \sum_{i=1}^{n} 2(y_i – mx_i – b) \cdot (-x_i)$$

$$\frac{\partial J}{\partial m} = -2 \sum_{i=1}^{n} x_i(y_i – mx_i – b)$$

Agora a derivada parcial em relação a $$b$$:

$$\frac{\partial J}{\partial b} = \frac{\partial}{\partial b} \sum_{i=1}^{n} (y_i – mx_i – b)^2$$

$$\frac{\partial J}{\partial b} = \sum_{i=1}^{n} 2(y_i – mx_i – b) \cdot (-1)$$

$$\frac{\partial J}{\partial b} = -2 \sum_{i=1}^{n} (y_i – mx_i – b)$$

Para encontrar o mínimo, igualamos ambas as derivadas a zero:

$$\frac{\partial J}{\partial m} = 0 \quad \text{e} \quad \frac{\partial J}{\partial b} = 0$$

Isso nos dá um sistema de duas equações com duas incógnitas. Resolvendo esse sistema, chegamos às fórmulas fechadas para a regressão linear:

$$m = \frac{n\sum x_i y_i – \sum x_i \sum y_i}{n\sum x_i^2 – (\sum x_i)^2}$$

$$b = \frac{\sum y_i – m \sum x_i}{n}$$

Essas são as fórmulas que os computadores usam para calcular a linha de melhor ajuste instantaneamente. Elas garantem matematicamente que encontramos o mínimo global da função de custo.