Inferência estatística: Regressão Linear (Parte 2)

A regressão linear é um método que permite inferir o valor de outras variáveis por meio de dados anteriores, que podem ser linearizados. Quanto mais próxima a distribuição dos dados estiverem de uma função afim, maior será a precisão das estimativas pela regressão linear. Algumas funções, embora não sejam lineares, podem ser linearizadas por meio da aplicação de operações em todas as imagens, como logaritmo ou raiz quadrada. Por exemplo:
Crescimento de colônias de bactérias com o tempo:

Q_0\cdot e^kt=Q

\therefore \ln Q \propto t

Sabemos que uma colônia de bactérias Q_0 cresce de maneira exponencial com o tempo até atingir uma colônia final de tamanho Q. Logo, o logaritmo natural do número de indivíduos de uma colônia é diretamente proporcional ao tempo, sendo \ln Q \times t uma função linearizável.

Regressão linear

Esse método de inferência nos permite calcular os valores de a, b e r de uma reta y=ax+b, sendo r seu coeficiente de linearidade, a o coeficiente angular e b o coeficiente linear, a partir dos dados experimentais. A função da regressão linear é da forma:

\hat{y} = \beta_0 + \beta_1 x+\epsilon

  • é o valor previsto da variável dependente (ou resposta);
  • x é o valor da variável independente (ou preditora);
  • é o intercepto (coeficiente linear), ou seja, o valor de \hat{y} quando x=0;
  • \beta_1 é o coeficiente angular (slope), que indica a taxa de variação de \hat{y} para cada unidade de x;
  • \epsilon é o erro padrão.

https://analisemacro.com.br/econometria-e-machine-learning/regressao-linear-teoria-e-pratica/

Para aprender a fazer uma regressão linear utilizando a calculadora, recomendo o vídeo: https://www.youtube.com/watch?v=LkkRRWtUQn0

Observações importantes: cada par ordenado é composto uma variável x e sua imagem y. Para o caso do coeficiente r ser muito menor que 1 (leia-se: menor que 0,95), o método da regressão linear não é recomendado, pelo menos se aplicado de forma direta. O ideal seria trabalhar os dados, por exemplo, tirando a raiz quadrada ou logaritmo das imagens para ver se obedecem à um padrão linear, ou mudar o método de inferência.

Exemplo: O diagrama de HR relaciona a temperatura das estrelas com sua luminosidade e permite inferir a qual grupo ela pertence. Perceba que, enquanto a temperatura é dada em Kelvin, a luminosidade é dada pelo logaritmo de luminosidades solares. Isso porque intervalos igual no eixo das ordenadas representam potências de 10.

Exercício de Bioestatística e Regressão Linear

Contexto: Um pesquisador está interessado em estudar a relação entre a quantidade de horas de sono por noite e o nível de glicose no sangue em jejum de indivíduos adultos. Ele coletou os seguintes dados de 10 voluntários:

Contexto:

Um pesquisador está interessado em estudar a relação entre a quantidade de horas de sono por noite e o nível de glicose no sangue em jejum de indivíduos adultos. Ele coletou os seguintes dados de 10 voluntários:

Indivíduo Horas de Sono (X) Nível de Glicose (Y) (mg/dL)
1 6 85
2 7 90
3 8 88
4 5 92
5 9 86
6 6 89
7 7 87
8 8 85
9 5 93
10 6 91

Questões

1. Análise Exploratória:

Calcule a média e o desvio padrão das variáveis "Horas de Sono" e "Nível de Glicose".

b) Construa um gráfico de dispersão (scatter plot) que mostre a relação entre "Horas de Sono" e "Nível de Glicose".

2. Ajuste do Modelo de Regressão Linear:

a) Encontre a equação da reta de regressão linear:

Y=\beta_0+\beta_1 X

onde Y é o nível de glicose e X são as horas de sono.

b) Interprete os coeficientes \beta_0 (intercepto) e \beta_1 (inclinação).

3. Validação do Modelo:

a) Calcule o coeficiente de determinação R^2 e interprete-o no contexto do problema.

b) Utilize a equação de regressão para prever o nível de glicose de um indivíduo que dorme 7,5 horas por noite.

4. Análise Crítica:

a) O coeficiente angular \beta_1 encontrado faz sentido biologicamente? Justifique sua resposta.

b) Quais outras variáveis poderiam influenciar o nível de glicose no sangue e não estão incluídas neste modelo? Como isso afetaria as conclusões?

Este artigo tem por finalidade aproximá-los de técnicas de inferência muito utilizadas em laboratórios de Bioestatística, para fazer previsões das variáveis. Bons estudos!

Por Luiza Temponi.