Inferência Estatística: Teste Qui-Quadrado (Parte 1)

Teste Qui-Quadrado

O teste Qui-Quadrado de variáveis é um tipo de teste de hipóteses para aferir a correlação entre duas variáveis e concluir se é válida a hipótese nula ou a hipótese alternativa. Para isso, utilizamos a distribuição normal e o escore padronizado dos valores coletados z_i. Se, ao menos, em 95\% das aferições as variáveis testadas estiverem contidas no intervalo -3<z<+3, desprezamos a hipótese nula, chamada H_0. Neste caso, consideramos as variáveis com escores padronizados fora deste intervalo como "outliers" (veja a ala sobre Análise descritiva e tratamento dos dados". Do contrário, se em mais 5\% das aferições as variáveis têm escores z<-3 ou z>+3, não podemos desprezar a hipótese nula, sendo esta tomada como verdadeira.

Observação: como citado anteriormente, o intervalo [\mu-3\sigma, \mu +3\sigma] contempla 99,7\% da distribuição. Dessa forma, para qualquer valor dentro deste valor, os escores padronizados são de:

\frac{\mu-3\sigma-\mu}{\sigma}=-3

\frac{\mu+3\sigma-\mu}{\sigma}=+3

[-3, +3]

Ou seja, essa é uma maneira de concluir que 99,7\% dos valores são abrangidos!

Além disso, o teste qui quadrado permite aferir o grau de significância da correlação das variáveis, o que não quer dizer que o valor aferido corresponde, de fato, à correlação dos dados na realidade. Erros podem acontecer na hora de escolher variáveis, tirar as medições, tratar os dados e, principalmente, escolher a hipótese a ser investigada. Quando isso ocorre, há dois tipos de erros possíveis:

  • Erro do Tipo 1: toma-se a decisão de rejeitar a hipótese nula quando, na verdade, essa é verdadeira. Assim, incorre-se em um erro do Tipo 1.
  • Erro do Tipo 2: toma-se a decisão de não rejeitar a hipótese nula, tomando como verdadeira, o que incorre em um erro do Tipo 2.
  • As hipóteses devem ser escolhidas de tal forma que o erro do tipo 1, seja mais grave que o erro do tipo 2.

Na prática, em uma situação real a hipótese nula existe se, em duas condições experimentais diferentes \mu_1 e \mu_2, \mu_1=\mu_2. O contrário seria a hipótese alternativa na qual, para condições experimentais diferentes, \mu_1\neq\mu_2. Pois, se alteramos uma variável e o resultado obtido é o mesmo, isso significa que essa variável não é relevante ou não influencia no que está sendo medido. Do contrário, se o resultado se altera, essa variável pode sim ser relevante.

Em outras possibilidades, quando escolhemos abraçar a hipótese nula quando esta é, da fato, verdadeira, a decisão tomada é correta. Da mesma forma, se escolhe-se rejeitar a hipótese nula quando esta é, da fato, falsa, a decisão também é correta. Assim, montamos o teste qui-quadrado:

Dessa forma, deve-se escolher a hipótese alternativa tal que o erro do tipo 1 seja mais grave que o erro do tipo 2. O erro do tipo I ou 1 representa um grau de significância estatística quando na verdade a correlação ocorreu ao acaso, sendo um falso positivo.

Exemplo de hipótese nula e alternativa: (OBBS 2024- 2ª fase) Genoma mínimo. O genoma mínimo é um conjunto de genes essenciais para a vida de um organismo. A determinação do genoma mínimo é um importante tópico de estudo na biologia sintética, pois pode auxiliar na criação de organismos sintéticos mais simples e eficientes, além de contribuir para o conhecimento sobre a função de certos genes e como eles influenciam o fenótipo do microrganismo (Figura 11).

Figura 11 . Minimização. a) Genomas mínimos não possuem genes não essenciais. Após um genoma mínimo ter sido gerado, genes não essenciais podem ser adicionados novamente para explorar como eles impactam a função e os resultados fenotípicos. Além disso, genes heterólogos (Adicionar) podem ser inseridos para criar novos fenótipos celulares. b) Material genético adicionado novamente a genomas mínimos pode ajudar a elucidar como certos genes contribuem para o fenótipo em diferentes ambientes. Coradini, A. L. V. et al. Building genomes to understand biology. Nature Communications, 2020.

Considere um experimento onde se busca identificar o genoma mínimo de uma bactéria. Para isso, foram criados diversos mutantes com genes específicos deletados. Os mutantes foram então cultivados em diferentes meios de cultura, contendo diferentes nutrientes.

O resultado do experimento é apresentado na tabela abaixo:
Tabela 2: Crescimento de diferentes mutantes para diferentes genes deletados em diferentes meios.

Com base nesses resultados, qual das seguintes conclusões é CORRETA?

 

Resposta: d) O Gene B e C, em conjunto, são essenciais para o crescimento da bactéria em todos os meios de cultura.

O leitor então poderia se perguntar: porque não o gene D não é essencial para o crescimento das bactérias, já que, em todos os meios de cultura com o gene D presenta, ela cresce? Justamente isso mostra que o gene D não tem correlação com o crescimento das bactérias, pois a variação do meio para condições adversas de crescimento não impacta na transcrição e tradução deste gene.

Exemplo 2.: (OBB 2024- Fase 2B) 01) O gráfico a seguir evidencia a taxa metabólica basal ((TMB), L O2/h) em função da massa corporal de diversos animais. A partir das informações desse gráfico, julgue as seguintes proposições como verdadeiras (V) ou falsas (F):

Legenda: Gráfico a taxa metabólica basal ((TMB), L O2/h) em função da massa corporal de diversos animais. Fonte: REECE, J. B. Biologia de Campbell, 10ª Ed. 2015

I. ( F ) O coeficiente de determinação (R²) do gráfico apresentado se aproxima de 0. Isso ocorre quando duas grandezas são diretamente proporcionais.
II. ( F ) O elefante apresenta o maior metabolismo quando TMB é padronizada por unidade de massa corporal entre os animais apresentados no gráfico.
III. ( V ) O ponto correspondente à ovelha, próximo à reta de regressão, indica que a sua TMB poderia ser bem inferida pela sua massa corporal.
IV. ( F ) Um valor -p* abaixo de 0.95 em um teste de hipóteses sobre a correlação entre TMB e massa corporal indicaria significância estatística. 

Justificativa: IV. (F)- "Falso. Um valor-p abaixo de 0.95 não indicaria significância estatística. Na prática, valores de p comumente considerados como limiares para significância estatística são 0.05 ou menores. Um valor-p de 0.95 sugeriria que há uma alta probabilidade de que os resultados observados poderiam ter ocorrido ao acaso, portanto não rejeitando a hipótese nula."

 

Com estes exemplos e diversos tratados em artigos científicos, mostramos a hipótese do teste qui-quadrado para haver significância estatística nos resultados obtidos, com o devido rigor científico. Além disso, na prática, muitos experimentos são feitos em triplicada, i.e., repetidos três vezes e tendo seus resultados comparados, permitem inferências melhores sobre o valor de p, usualmente menor que 0,001 pela repetição do teste de hipóteses.