Análise descritiva e tratamento dos dados

Aula elaborada por Luiza Lanza L. Temponi.

Na aula anterior, aprendemos sobre os tipos de variáveis e suas classificações quanto os valores que podem assumir. Também definimos uma pesquisa estatística quantitativa e qualitativa e os objetos de estudo da pesquisa: população e amostra. Chamamos de dados estatísticos os valores atribuídos para cada medição da variável. Para tirar conclusões sobre correlação estatística dos dados de uma pesquisa, é necessário coletá-los, registrá-los, agrupá-los e tratá-los, i.e., representar os valores coletados de forma eficaz, para facilitar sua leitura e interpretação, calcular a medida de dispersão dos dados (desvio padrão) e tratar os outliers.

Nas pesquisas em Ciências Biológicas, a maior parte das pesquisas utiliza-se de estatística qualitativa, na qual este artigo é integralmente focado. Em outra oportunidade, podemos discutir sobre métodos de estatística quantitativa, como regressão linear.

1. Distribuição de frequências

É utilizada para representação de variáveis quantitativas discretas. Também pode ser utilizada para variáveis contínuas, desde que seja criado um novo conjunto imagem, no qual para cada elemento é atribuído um intervalo que representa um conjunto de valores que podem ser medidos.

1.1. Classificação das frequências

        • Frequência absoluta: representa o total de incidências na amostra de uma categoria da variável (valor numérico). Se são registrados X medições para uma categoria em uma amostra de tamanho A, a frequência absoluta desta categoria na amostra X;
        • Frequência relativa: representa a fração da amostra de registros para incidências de uma categoria na amostra. Se são registrados X medições para uma categoria em uma amostra de tamanho A, a frequência relativa desta categoria na amostra X/A.

Para transformar uma frequência absoluta em relativa, basta dividir o valor atribuído à cada categoria da variável pelo tamanho da amostra.

Número de golfinhos capturados por dia

https://sweet.ua.pt/pedrocruz/bioestatistica/ed-tab-frequencias.html#gsc.tab=0

A tabela possui uma primeiro coluna que representa o número de golfinhos capturados  por dia n=\{0,1,2,3,...\}, uma variável numérica e discreta. Já a segunda coluna representa a frequência absoluta dos termos, i.e., o número de incidências (aferições) para cada categoria de x. A terceira coluna representa a frequência relativa destes dados, ou seja, sobre o conjunto total de elementos a qual porcentagem corresponde cada subcategoria.

1.2. Representação: 

1.2.1. Tabelas: um exemplo é a categorização em colunas. A primeira coluna representa os valores que são atribuídos em cada categoria, a segunda coluna representa o número de incidências para cada valor. Assim, cada linha da tabela representa o número de incidências na amostra por valor, seja ele absoluto (quantidade de incidências) ou relativo (percentil das incidências). Muitas vezes na pesquisa em laboratório, as tabelas acabam sendo o primeiro registro dos dados, pois desenhos uma tabela para coleta dos dados experimentais que, posteriormente, podem ser transformados em outros tipos de gráficos.

1.2.2. Gráficos de frequência absoluta:

          • Histograma: cada barra é proporcional ao número de incidências, quantificado por um eixo paralelo às barras. O eixo das barras (perpendicular) descreve cada categoria.

          • Diagrama de pontos: o número de pontos em cada barra corresponde à sua frequência absoluta. Determinando os valores máximo (x_{mbox{max}}) e mínimo (x_{mbox{min}}) das medições, dividimos o eixo das abcissas em intervalos convenientes com estes valores e marcamos um ponto para cada frequência de uma categoria.

https://brasilescola.uol.com.br/matematica/graficos.htm
          • Diagrama de ramo-e-folhas: é um caso particular do diagram de pontos, em que os próprios valores são registrados. Primeiro, anota-se todos os dados coletados, depois deve-se determinar a amplitude dos dados. Cada linha vertical determina um "ramo", e cada anotação na linha é uma "folha", ou seja, uma medição. Nos ramos, estão os algarismos significativos corretos, e a folha é o algarismo significativo duvidoso de um número. A chave do diagrama de ramo-e-folhas nos fornece a leitura correta da ordem de grandeza dos números.

A chave de leitura |3|1 = 31 meses indica que o número central (folha) representa a quantidade de meses em dezena e cada folha adiciona uma unidade de mês às dezenas.

1.1.3. Gráfico de frequência relativa:

          • Gráfico de setores: é um gráfico circular em que cada setor circular é proporcional à incidência da variável. Para calcular o ângulo \alpha relativo à cada setor, dado um número de incidências X para uma categoria de uma variável experimental em um espaço amostral de medições A, temos:

\alpha=\frac{X}{A}\cdot 360^{\circ}

https://bioestcan.blogspot.com/p/iv-analise-dos-dados.html
          • Polígono de frequências: após definir um eixo com as categorias de uma variável, o outro eixo perpendicular à este representará o valor de incidências em cada categoria. Assim, cada ponto possui duas coordenadas: a projeção em um eixo representa a categoria da variável e, a projeção no outro, representa o número de incidências para esta categoria. Após marcados os pontos obtidos experimentalmente, para obter o polígono de frequências basta ligar os pontos.
          • O polígono de frequências é apropriado para variáveis quantitativas, e permite verificar a taxa de variação m entre categorias vizinhas, o que pode ser muito útil para variáveis ordinais, já que m=\frac{\Delta y}{\Delta x}

https://alexandreprofessor.blogspot.com/p/graficos.html
          • Ogiva: é chamado também de polígono de frequências cumulativas. O eixo das abcissas é divido em intervalos convenientes e marcam-se os pontos que expressam as frequências de cada categoria, depois conectam-se os pontos. A representação de ogiva só é válida se \forall x_i < x_j \Rightarrow y_i < y_j, i.e., para toda categoria x_i menor x_j, a frequência y_i deve ser obrigatoriamente menor ou igual y_j. Um exemplo deste tipo de gráfico é concentração de mercúrio no organismo \times idade. Como o mercúrio não é bioacumulativo, i.e., uma vez absorvido é retido e vai se acumulando no corpo do ser vivo, essa concentração só pode aumentar ou permanecer constante.

2. Tratamento dos dados experimentais

2.1. Média aritmética: a média aritmética permite estudar a tendência dos dados coletados e é definida por:

\bar{x}=\frac{\sum^n_{i=1}x_i}{n}\ (i)

Sendo \bar{x} a média aritmética e n é o número de termos. Em outras palavras, coletamos o conjunto de todos os termos de x_1 até x_n, somamos todos os valores e dividimos pelo total de termos.

Exemplo retirado do livro Introdução a Bioestatística, VIEIRA S. (exemplo 1): "Um professor de Educação Física mediu a circunferência abdominal de dez homens que se apresentaram em uma academia de ginástica. Então, obteve os seguintes valores, em centímetros: 88; 83; 79; 76; 78; 70; 80; 82; 86; 106." Calcule a média desses valores:

\bar{x}=\frac{\sum^n_{i=1}x_i}{n} = \frac{88+83+79+76+78+70+80+82+86+106}{10}

\frac{828}{10}=82,8

2.2. Mediana: a mediana só é definida para variáveis ordinais. Ordenando os valores em ordem crescente, a mediana é definida como o valor central da lista para uma sequência com uma quantidade ímpar de termos, ou seja:

med_1=x_{\frac{n}{2}}

Caso o número de termos seja par, a mediana será definida pela média aritmética dos dois termos centrais, ou seja:

med_2=\frac{med_1+med_2}{2}

med_2=\frac{x_{\frac{n-1}{2}}+x_{\frac{n+1}{2}}}{2}

Calculando a mediana no exemplo 1. Ordenando os termos em ordem crescente: A=\{ 70, 76, 78, 79, 80, 82, 83, 86, 88, 106 \}. Logo, a mediana é \frac{80+82}{2}=81.

2.3. Moda: é o valor de maior frequência na amostra, ou seja, a medição mais repetida. Por definição, dado uma variável aleatória e um dado da medição desconhecida, o valor mais provável que esse dado assuma é a moda.

No diagrama de pontos do item 1.2.2., a mediana dos termos é 4.

2.4. Amplitude: é a medida de variância mais simples, que quantifica a distância entre os dois extremos das medições. Assim, a amplitude é definida por:

x_{\mbox{max}}-x_{\mbox{min}}

Note que essa medida não diz muito sobre a tendência central da amostra, já que, diferentes conjuntos com médias e medianas muito diferentes podem ter a mesma amplitude, desde que a diferença entre a maior e menor medição sejam iguais.

2.5. Variância: a variância é uma medida que quantifica a dispersão dos valores de um conjunto de dados em relação à média aritmética desse conjunto. Define-se variância como a média do somatório do quadrado de cada valor medido menos a média aritmética, ou seja:

\sigma^2=\frac{\sum^{n}_{i=1}(x_i-\bar{x})^2}{n-1}

É intuitivo pensar que a média dos desvios deveria ser definida como \sigma^2=\frac{\sum^{n}_{i=1}(x_i-\bar{x})}{n}, ou seja, o somatório do desvio de cada valor à média aritmética divido pelo total de medições n. Note, porém, que por definição \sigma^2=\frac{\sum^{n}_{i=1}(x_i-\bar{x})}{n}=0, já que:

\sum^{n}_{i=1}(x_i-\bar{x})=\sum^{n}_{i=1}x_i-\sum^{n}_{i=1}\bar{x}

\sum^{n}_{i=1}x_i+\bar{x}\cdot n\ (ii)

Substituindo (i) em (ii):

\sum^{n}_{i=1}x_i-\sum^{n}_{i=1}x_i=0

Podemos reescrever a expressão da invariância da seguinte forma:

\sum^{n}_{i=1}(x_i-\bar{x})^2=\sum^{n}_{i=1}x_i^{2}-2\bar{x}\sum^{n}_{i=1}x_i+\sum^{n}_{i=1}(\bar{x})^{2}

Como \sum^{n}_{i=1}x_i=n\bar{x}\ (i), então:

\sum^{n}_{i=1}(x_i-\bar{x})^2=\sum^{n}_{i=1}x_i^{2}-2\bar{x}\sum^{n}_{i=1}x_i+n\bar{x}

\sum^{n}_{i=1}(x_i-\bar{x})^2=\sum^{n}_{i=1}x_i^{2}-n\bar{x}^2

\sum^{n}_{i=1}(x_i-\bar{x})^2=\sum^{n}_{i=1}x_i^{2}-n\left(\frac{\left(\sum^{n}_{i=1}x_i\right)^2}{n^{2}}\right)

\therefore \sum^{n}_{i=1}(x_i-\bar{x})^2=\sum^n_{i=1}x^2_i-\frac{\left(\sum^{n}_{i=1}x_1\right)^{2}}{n}

Logo, dividindo os dois lado da igualdade por n-1:

\sigma^2=\frac{\sum^n_{i=1}x^2_i-\left(\sum^{n}_{i=1}x_i\right)^{2}/n}{n-1}

2.6. Desvio-padrão: como a unidade de medida ao quadrado, para ajustar a análise dimensional, o desvio-padrão é definido como a raiz quadrada da variância. Logo:

\sigma=\sqrt{\frac{\sum^n_{i=1}x^2_i-\left(\sum^{n}_{i=1}x_i\right)^{2}/n}{n-1}}

O n-1 surge devido à correção de Bessel, pois o valor n é enviesado, porém não nos cabe aprofundar nisto agora. O desvio padrão pode ser representado em um gráfico por barras verticais ou horizontais saindo de cada ponto (medição), como no exemplo abaixo:

https://www.researchgate.net/figure/Figura-34-Media-barras-e-desvio-padrao-linha-de-erro-em-periodos-de-15-minutos-do_fig9_312972533
https://www.nature.com/articles/srep46687

2.7. Coeficiente de variação: para medir se um desvio padrão é grande ou pequeno, é relevante compará-lo à média aritmética, já que o desvio-padrão é a raiz quadrada da variância, e a variância quantifica a dispersão dos valores de um conjunto de dados em relação à média aritmética desse conjunto. Assim, define-se coeficiente de variação como:

CV=\frac{\sigma}{\bar{x}}

2.8. Escore padronizado: relaciona o quanto uma medida se afasta da média, em termos de desvio padrão. Por exemplo: admita-se que a média aritmética de uma turma em Matemática foi 6 ao fim do ano. Se o desvio-padrão for 1 e determinado aluno tirou 7, sua nota foi muito boa. Porém, se o desvio-padrão for 3, essa nota já não é tão boa assim. Logo:

z_i=\frac{x_i-\bar{x}}{\sigma}\ \forall i\in \mathbb{N}

Assim, quando z_i>0 isso indica que o termo está acima da média, quando z_i<0 a medida está abaixo da média e se z_i=0 o termo é igual à média. Para uma distribuição normal com valor p\leq 0,05, aproximadamente 95% dos valores tem escore padronizado no intervalo de -3<z<+3.

2.9. Percentis: um percentil é um parte de um conjunto ordenado, tal que:

P_{x}

é o conjunto dado pelos primeiros x porcento dos elementos do conjunto ordenado. Por exemplo, P_{0,01} representa os primeiros 1% do conjunto, o que significa que 99% dos elementos estão acima dele. Alguns percentis especiais são:

P_{0,25} é chamado quartil inferior, pois define um subconjunto que representa os primeiros 1/4 elementos do conjunto, delimitando também 75% dos elementos acima deste percentil;

P_{0,50} é chamado de mediana, pois determina metade dos elementos do conjunto e o valor deste quartil é justamente o termo médio da sequência de elementos ordenada do conjunto, i.e., sua mediana;

P_{0,75} é chamado quartil superior, pois define um subconjunto que representa os primeiros 3/4 elementos do conjunto, delimitando também 25% dos elementos acima deste percentil.

Assim, chamamos: 1º quartil = Q_1 (quartil inferior); 2º quartil = Q_2 (mediana); 3º quartil = Q_3 (quartil superior).

      • Observação: Boxplots

O Boxplot é um tipo de gráfico que representa a distribuição dos dados de um conjunto e dos quartis dentro desse conjunto, bem como de outliers detectados (será definido mais à frente). A linha inferior representa o menor valor medido e a linha superior o maior valor. A caixa central contém 50% dos dados avaliados, de tal forma que a linha horizontal na caixa representa o 2º Quartil ou mediana. A linha inferior da caixa representa o 1º quartil e a linha superior da caixa representa o 3º quartil.

Fonte da imagem: https://statplace.com.br/blog/como-interpretar-um-boxplot/

Esse tipo de gráfico permite aferir:

  • Dispersão dos dados: quanto maior o intervalo entre os quartis, menos concentrados estão os dados.
  • Simetria: quanto mais próximo do centro entre os quartis P_{0,00} e P_{1,00}, maior a simetria de distribuição dos dados.
  • Outliers: permite detectar quantas observações atípicas estão presentes nos dados coletados, atestando a precisão dos mesmos.

3. Outliers

São observações atípicas nos dados coletados, que destoam muito dos demais dados. Podem atrapalhar muito a avaliação estatística dos dados se não devidamente tratados, por alterar de forma significativa a média, mediana e desvio padrão calculados. O outlier é representado externamente ao boxplot, de forma que sua presença é ignorada nos cálculos.

Outliers podem surgir por erro de leitura ou transcrição dos dados, erro de execução no experimento, mudanças não controláveis nas variáveis ou uma característica inerente à variável estudada, como instabilidade do que está sendo medido ou sensibilidade do experimento à aferições externas.

https://datascienceplus.com/outlier-detection-and-treatment-with-r/

Os outliers são previstos em uma distribuição normal: são aqueles valores para os quais o escore padronizado é x>+3 ou x<-3. Em uma distribuição normal (será estudado mais a frente), representam cerca de 5% dos dados coletados, porém podem enviesar nossa análise quando não tratados. As formas mais comuns de tratar um outliers são:

  • Removê-lo, de forma a não enviesar a análise descritiva dos dados (média, mediana e devio-padrão);
  • Transformá-lo, utilizar a raiz quadrada ou logaritmo dos dados coletados é uma boa maneira de diminuir o impacto dos outliers na análise da amostra e, por vezes, é utilizado para linearizar um gráfico (ex.: função exponencial);
  • Substituí-lo, por valores centrais como média ou mediana, usado para lidar com dados ausentes ou anômalos.

4. Precisão e exatidão

A precisão de uma medida diz respeito à dispersão dos dados. Se os dados estão muito concentrados, i.e., possuem um pequeno desvio padrão, dizemos que a medição é precisa. Se temos a média e mediana dos dados próximas do fitting teórico (do que é estimado teoricamente), dizemos que a medida possui exatidão. O diagrama abaixo expressa a conjugação dessas grandezas.

https://i.pinimg.com/originals/82/47/fd/8247fdd4e0e8b4ca0b86f55a64e1291e.jpg

O melhor é que a medida seja exata e precisa. Porém, entre precisão e exatidão, a exatidão é mais importante, pois apenas a precisão pode significar que todos os dados estão adulterados. Na Biologia, a medição correta dos dados trás precisão para o processo (distribuição normal ou gaussiana), e a escolha correta da amostragem, como discutido na primeira aula de Bioestatística, trás exatidão para a medição.

Esta aula busca dar a vocês uma base de Bioestatística mais que suficiente para compreender os gráficos e análises feitas nas seletivas e Olimpíadas Internacionais de Biologia. Espero que, a partir desta, possam compreender melhor a leitura de dados e identificar pesquisas ou conclusões enviesadas. Também pode ser útil para aqueles que busquem competir em outras olimpíadas de ciências.