Método dos Mínimos Quadrados

Escrito por Vinicius Névoa

Método dos mínimos quadrados

Existem na matemática inúmeros procedimentos de análise de dados, e entre os que se encarregam de regressões lineares, o método dos mínimos quadrados é, com certeza, um dos mais populares e úteis. Antes de continuarmos, vale lembrar o que é uma regressão linear.

A regressão linear é um procedimento em que se toma como entrada um conjunto de N pontos (x_{i},y_{i}) e a hipótese de que existe uma relação linear entre y_{i} e x_{i}, e que, por meio de artifícios estatísticos, se procura obter a relação linear entre abscissa e ordenada que melhor enquadra o conjunto de pontos fornecidos, bem como estimativas do quão válida é a hipótese de linearidade e o quão certeiro são os parâmetros da reta obtida.

Os principais requerimentos matemáticos para o método dos mínimos quadrados para que esse não produza viés estatístico são:

  • Erro aleatório com média 0
  • Erro com distribuição gaussiana
  • Erros de pontos diferentes não carregam correlações ( \overline{\epsilon_{i} \epsilon_{j}}=0)
  • Todos os pontos tem erros oriundos de uma mesma distribuicão

Caso esses sejam satisfeitos, esse método é tanto o melhor estimador linear (parâmetros da reta com menos variância) quanto o método de máxima verossimelhança (maior confiança de que os dados observados são os mais prováveis)

Como em um bom experimento o erro é, de fato, aleatório e independente para diferentes medidas, esse método é um amigo natural de um bom físico experimental. Embora esse erro seja suposto existente nos requerimentos estatísticos, ele não entra nas contas! Os erros que falamos abaixo são as diferenças entre o valor dado de uma variável e seu valor estimado pela regressão linear.

Em particular, o método dos mínimos quadrados minimiza, como o próprio nome diz, o quadrado dos erros, em que um erro é a diferença entre uma certa ordenada y_{i} e o valor previsto pela hipótese de linearidade aplicada a respectiva abscissa, x_{i}. Veja:

y_{i}= a + bx_{i}+\epsilon_{i}

O que vamos minimizar é a soma dos quadrados do erros, de forma a obter os parâmetros da reta a e b que melhor descrevem o conjunto de pontos fornecidos:

J(a,b)=\displaystyle{ \sum \limits_{i=1}^{N} \epsilon_{i}^2}

Substituindo:

J(a,b)=\displaystyle{ \sum \limits_{i=1}^{N} (y_{i}-bx_{i}-a)^2}

Minimizando isso em relação a os parâmetros da reta (lembre-se da regra da cadeia):

\dfrac{\partial J(a,b)}{\partial a}=\displaystyle{-2 \sum \limits_{i=1}^{N} (y_{i}-bx_{i}-a)}=0

\dfrac{\partial J(a,b)}{\partial b}=\displaystyle{-2\sum \limits_{i=1}^{N} x_{i}(y_{i}-bx_{i}-a)}=0

 

Da primeira equação, obtemos:

Na=\displaystyle{\sum \limits_{i=1}^{N} (y_{i}-bx_{i})}

a=\displaystyle{\dfrac{1}{N} \sum \limits_{i=1}^{N} y_{i}} - \displaystyle{\dfrac{b}{N} \sum \limits_{i=1}^{N}x_{i}}

Perceba que as somas rendem os valores médios das abscissas e ordenadas:

\overline{x}= \displaystyle{\dfrac{1}{N} \sum \limits_{i=1}^{N} x_{i}}

\overline{y}= \displaystyle{\dfrac{1}{N} \sum \limits_{i=1}^{N} y_{i}}

Logo, podemos escrever mais concisamente:

\boxed{a=\overline{y}-b\overline{x}}

Substituindo na segunda equação:

\displaystyle{\sum \limits_{i=1}^{N} x_{i}(y_{i}-bx_{i}-\overline{y}+b\overline{x})}=0

\displaystyle{\sum \limits_{i=1}^{N} x_{i}(y_{i}-\overline{y}+b(\overline{x}-x_{i}))}=0

\boxed{b=\dfrac{\displaystyle{\sum \limits_{i=1}^{N} x_{i}(\overline{y}-y_{i})}}{\displaystyle{\sum \limits_{i=1}^{N} x_{i}(\overline{x}-x_{i})}}}

Com isso obtemos os valores de a e b que minimizam J(a,b), em função exclusivamente do conjunto de pontos (x_{i},y_{i}). São esses os valores fornecidos pela calculadora na regressão, como explicado no Curso de Física Experimental pelo Victor Ivo (role mais para o final da página para achar):

Regressão na calculadora (e muito mais)

Vamos agora falar de um elemento muito importante em todo tratamento estatístico, que é a ideia de coeficiente de correlação. No nosso caso, exploraremos o coeficiente de correlação de Pearson, que é o famoso r. Ele é dado pela razão entre a covariância de x e y pela raiz do produto das variâncias individuais de cada uma. Veja:

r=\dfrac{cov(X,Y)}{\sqrt{var(X)var(Y)}}

Esse coeficiente de correlação varia de -1 a 1, e indica a capacidade da variável aleatória x explicar a variável aleatória y. Por causa disso, ele serve como um indicador da veracidade da hipótese de linearidade que perpassa o método dos mínimos quadrados, e é um atributo de grande valor ao estatístico ou ao físico experimental. Uma forma matematicamente mais esclarecedora para escrever o r é:

\boxed{r=\dfrac{\displaystyle{\sum \limits_{i=1}^{N} (x_{i}-\overline{x})(y_{i}-\overline{y})}}{\sqrt{\displaystyle{\sum \limits_{i=1}^{N} (x_{i}-\overline{x})^2}}\sqrt{\displaystyle{\sum \limits_{i=1}^{N} (y_{i}-\overline{y})^2}}}}

 

Uma interpretação geométrica elegante para o r é que ele é o cosseno do ângulo entre os vetores N-dimensionais X(x_{1}-\overline{x},...,x_{N}-\overline{x}) e Y(y_{1}-\overline{y},...,y_{N}-\overline{y}): Veja que a fórmula acima é nada mais do que o produto interno desses dois vetores dividido pelo produto dos módulos. Ou seja, caso haja uma forte correlação linear, esses vetores serão quase paralelos, e o cosseno do ângulo entre eles se aproxima de -1 ou 1. No contexto do método dos mínimos quadrados, outra interpretaçao para o r é a porcentagem da variância de Y que é explicada por XPode-se mostrar que:

r^2=1-\dfrac{J(a,b)}{\displaystyle{\sum \limits_{i=1}^{N} (y_{i}-\overline{y})^2}}

Vale notar que esse indicador estatístico, r, não é muito resistente na presença de outliers, os famosos pontos fora da curva. Então, tente ao máximo eliminá-los antes de aplicar o método dos mínimos quadrados! Você pode fazer isso plotando os seus pontos coletados e analisando visualmente se algum ponto está prejudicando sua regressão. Essa é uma boa estratégia para se tentar caso uma regressão não esteja dando certo por motivos aparentemente inexplicados. Por fim, vale  comentar que, em um sistema físico controlado e sem muita complexidade, um bom r deve ser pelo menos maior que 0,98 em módulo! Diferente de estatísticas em, digamos, ciências sociais, em que ficam muito felizes com  um r na casa de 0,7, espera-se que leis físicas produzam correlações bem fortes.

Vale lembrar que os valores de a, b e r já são calculados pela função regressão linear da calculadora, após os pontos serem inseridos.

Observações sobre propagação de erros, hipótese nula e intervalo de confiança

Normalmente quando se coleta pontos experimentais, os erros experimentais dos pontos brutos coletados obedecem às condições ideias do MMQ listadas no começo desse post. Contudo, muitas vezes se faz necessário realizar procedimentos de linearização (como elevar os dois lados da equação para o período do pêndulo para fazer a regressão com x=l e y=T^2). Essa operação faz com que, por exemplo, o erro de T seja propagado para o erro de T^2, e os novos erros passam a não mais vir de uma mesma distribuição, já que são da forma  \sigma_{T^2}=2T\sigma_{T}, isto é, dependem de T. Moral da história: quanto mais propagação de erros suas variáveis aleatórias sofrem, mais sub-ótima é a regressão linear. Muitas vezes isso não produz nenhuma diferença apreciável, mas em casos extremos (erro propagado muito grande) pode gerar diferenças substanciais. Vale notar que o MMQ não endereça erros inerentes aos pontos (x_{i},y_{i}), que seriam os erros experimentais, mas ainda assim podemos atribuir erros aos parâmetros a e b baseados na manipulação estatística dos pontos. As fórmulas abaixo figuram no post de física experimental cujo link está acima, mas vou repeti-las aqui:

\boxed{\sigma_{b}=b\sqrt{\dfrac{\dfrac{1}{r^2}-1}{N-2}}}

\boxed{\sigma_{a}=\sigma_{b} \sqrt{ \overline{x}^2+ \sigma_{x}^2}}

Tanto a média \overline{x} quanto o desvio padrão \sigma_{x} pode ser obtido da calculadora (cuidado, algumas calculadoras utilizam o símbolo s_x para desvio padrão no lugar de \sigma_{x}). Por fim, vale comentar sobre a hipótese nula e intervalos de confiança. Hipótese nula é assumir que não há correlação entre x e Y (r=0). A pergunta de interesse é: caso a hipótese nula seja verdade, qual a chance de que resultados tão extremos quanto os obtidos aconteçam? Essa pergunta veio ao meio popular recentemente na seguinte forma, em vista da pandemia do Covid-19: qual a chance de que a vacina X não funcione (hipótese nula) e que as prevenções observadas tenham sido, na verdade, obra do acaso?

Um método rápido para estimar isso é o método das permutações: construa n! conjuntos de pontos da forma (x_{i},y_{perm(i)}), em que perm(i) são permutações do índice i. Ou seja, parea todas as abscissas com todas as outras ordenadas. Seja r(m) o coeficiente de Pearson do m-ésimo conjunto de pontos. Então a chance da correlação observada ser obra do acaso é o número de conjuntos em que r(m) supera o r original dividido por n!.

 

Bons estudos!