Aula elaborada por Luiza Lanza L. Temponi.
Na aula anterior, aprendemos sobre os tipos de variáveis e suas classificações quanto os valores que podem assumir. Também definimos uma pesquisa estatística quantitativa e qualitativa e os objetos de estudo da pesquisa: população e amostra. Chamamos de dados estatísticos os valores atribuídos para cada medição da variável. Para tirar conclusões sobre correlação estatística dos dados de uma pesquisa, é necessário coletá-los, registrá-los, agrupá-los e tratá-los, i.e., representar os valores coletados de forma eficaz, para facilitar sua leitura e interpretação, calcular a medida de dispersão dos dados (desvio padrão) e tratar os outliers.
Nas pesquisas em Ciências Biológicas, a maior parte das pesquisas utiliza-se de estatística qualitativa, na qual este artigo é integralmente focado. Em outra oportunidade, podemos discutir sobre métodos de estatística quantitativa, como regressão linear.
1. Distribuição de frequências
É utilizada para representação de variáveis quantitativas discretas. Também pode ser utilizada para variáveis contínuas, desde que seja criado um novo conjunto imagem, no qual para cada elemento é atribuído um intervalo que representa um conjunto de valores que podem ser medidos.
1.1. Classificação das frequências:
-
-
-
- Frequência absoluta: representa o total de incidências na amostra de uma categoria da variável (valor numérico). Se são registrados
medições para uma categoria em uma amostra de tamanho
, a frequência absoluta desta categoria na amostra
;
- Frequência relativa: representa a fração da amostra de registros para incidências de uma categoria na amostra. Se são registrados
medições para uma categoria em uma amostra de tamanho
, a frequência relativa desta categoria na amostra
.
- Frequência absoluta: representa o total de incidências na amostra de uma categoria da variável (valor numérico). Se são registrados
-
-
Para transformar uma frequência absoluta em relativa, basta dividir o valor atribuído à cada categoria da variável pelo tamanho da amostra.
Número de golfinhos capturados por dia
https://sweet.ua.pt/pedrocruz/bioestatistica/ed-tab-frequencias.html#gsc.tab=0
A tabela possui uma primeiro coluna que representa o número de golfinhos capturados por dia , uma variável numérica e discreta. Já a segunda coluna representa a frequência absoluta dos termos, i.e., o número de incidências (aferições) para cada categoria de
. A terceira coluna representa a frequência relativa destes dados, ou seja, sobre o conjunto total de elementos a qual porcentagem corresponde cada subcategoria.
1.2. Representação:
1.2.1. Tabelas: um exemplo é a categorização em colunas. A primeira coluna representa os valores que são atribuídos em cada categoria, a segunda coluna representa o número de incidências para cada valor. Assim, cada linha da tabela representa o número de incidências na amostra por valor, seja ele absoluto (quantidade de incidências) ou relativo (percentil das incidências). Muitas vezes na pesquisa em laboratório, as tabelas acabam sendo o primeiro registro dos dados, pois desenhos uma tabela para coleta dos dados experimentais que, posteriormente, podem ser transformados em outros tipos de gráficos.
1.2.2. Gráficos de frequência absoluta:
-
-
-
-
- Histograma: cada barra é proporcional ao número de incidências, quantificado por um eixo paralelo às barras. O eixo das barras (perpendicular) descreve cada categoria.
-
-
-
-
-
-
-
- Diagrama de pontos: o número de pontos em cada barra corresponde à sua frequência absoluta. Determinando os valores máximo (
) e mínimo (
) das medições, dividimos o eixo das abcissas em intervalos convenientes com estes valores e marcamos um ponto para cada frequência de uma categoria.
- Diagrama de pontos: o número de pontos em cada barra corresponde à sua frequência absoluta. Determinando os valores máximo (
-
-
-
https://brasilescola.uol.com.br/matematica/graficos.htm
-
-
-
-
- Diagrama de ramo-e-folhas: é um caso particular do diagram de pontos, em que os próprios valores são registrados. Primeiro, anota-se todos os dados coletados, depois deve-se determinar a amplitude dos dados. Cada linha vertical determina um "ramo", e cada anotação na linha é uma "folha", ou seja, uma medição. Nos ramos, estão os algarismos significativos corretos, e a folha é o algarismo significativo duvidoso de um número. A chave do diagrama de ramo-e-folhas nos fornece a leitura correta da ordem de grandeza dos números.
-
-
-
A chave de leitura |3|1 = 31 meses indica que o número central (folha) representa a quantidade de meses em dezena e cada folha adiciona uma unidade de mês às dezenas.
1.1.3. Gráfico de frequência relativa:
-
-
-
-
- Gráfico de setores: é um gráfico circular em que cada setor circular é proporcional à incidência da variável. Para calcular o ângulo
relativo à cada setor, dado um número de incidências
para uma categoria de uma variável experimental em um espaço amostral de medições
, temos:
- Gráfico de setores: é um gráfico circular em que cada setor circular é proporcional à incidência da variável. Para calcular o ângulo
-
-
-
https://bioestcan.blogspot.com/p/iv-analise-dos-dados.html
-
-
-
-
- Polígono de frequências: após definir um eixo com as categorias de uma variável, o outro eixo perpendicular à este representará o valor de incidências em cada categoria. Assim, cada ponto possui duas coordenadas: a projeção em um eixo representa a categoria da variável e, a projeção no outro, representa o número de incidências para esta categoria. Após marcados os pontos obtidos experimentalmente, para obter o polígono de frequências basta ligar os pontos.
- O polígono de frequências é apropriado para variáveis quantitativas, e permite verificar a taxa de variação
entre categorias vizinhas, o que pode ser muito útil para variáveis ordinais, já que
-
-
-
https://alexandreprofessor.blogspot.com/p/graficos.html
-
-
-
-
- Ogiva: é chamado também de polígono de frequências cumulativas. O eixo das abcissas é divido em intervalos convenientes e marcam-se os pontos que expressam as frequências de cada categoria, depois conectam-se os pontos. A representação de ogiva só é válida se
, i.e., para toda categoria
menor
, a frequência
deve ser obrigatoriamente menor ou igual
. Um exemplo deste tipo de gráfico é concentração de mercúrio no organismo
idade. Como o mercúrio não é bioacumulativo, i.e., uma vez absorvido é retido e vai se acumulando no corpo do ser vivo, essa concentração só pode aumentar ou permanecer constante.
- Ogiva: é chamado também de polígono de frequências cumulativas. O eixo das abcissas é divido em intervalos convenientes e marcam-se os pontos que expressam as frequências de cada categoria, depois conectam-se os pontos. A representação de ogiva só é válida se
-
-
-
2. Tratamento dos dados experimentais
2.1. Média aritmética: a média aritmética permite estudar a tendência dos dados coletados e é definida por:
Sendo a média aritmética e
é o número de termos. Em outras palavras, coletamos o conjunto de todos os termos de
até
, somamos todos os valores e dividimos pelo total de termos.
Exemplo retirado do livro Introdução a Bioestatística, VIEIRA S. (exemplo 1): "Um professor de Educação Física mediu a circunferência abdominal de dez homens que se apresentaram em uma academia de ginástica. Então, obteve os seguintes valores, em centímetros: ." Calcule a média desses valores:
2.2. Mediana: a mediana só é definida para variáveis ordinais. Ordenando os valores em ordem crescente, a mediana é definida como o valor central da lista para uma sequência com uma quantidade ímpar de termos, ou seja:
Caso o número de termos seja par, a mediana será definida pela média aritmética dos dois termos centrais, ou seja:
Calculando a mediana no exemplo 1. Ordenando os termos em ordem crescente: . Logo, a mediana é
.
2.3. Moda: é o valor de maior frequência na amostra, ou seja, a medição mais repetida. Por definição, dado uma variável aleatória e um dado da medição desconhecida, o valor mais provável que esse dado assuma é a moda.
No diagrama de pontos do item 1.2.2., a mediana dos termos é 4.
2.4. Amplitude: é a medida de variância mais simples, que quantifica a distância entre os dois extremos das medições. Assim, a amplitude é definida por:
Note que essa medida não diz muito sobre a tendência central da amostra, já que, diferentes conjuntos com médias e medianas muito diferentes podem ter a mesma amplitude, desde que a diferença entre a maior e menor medição sejam iguais.
2.5. Variância: a variância é uma medida que quantifica a dispersão dos valores de um conjunto de dados em relação à média aritmética desse conjunto. Define-se variância como a média do somatório do quadrado de cada valor medido menos a média aritmética, ou seja:
É intuitivo pensar que a média dos desvios deveria ser definida como , ou seja, o somatório do desvio de cada valor à média aritmética divido pelo total de medições
. Note, porém, que por definição
, já que:
Substituindo em
:
Podemos reescrever a expressão da invariância da seguinte forma:
Como , então:
Logo, dividindo os dois lado da igualdade por :
2.6. Desvio-padrão: como a unidade de medida ao quadrado, para ajustar a análise dimensional, o desvio-padrão é definido como a raiz quadrada da variância. Logo:
O surge devido à correção de Bessel, pois o valor
é enviesado, porém não nos cabe aprofundar nisto agora. O desvio padrão pode ser representado em um gráfico por barras verticais ou horizontais saindo de cada ponto (medição), como no exemplo abaixo:
https://www.researchgate.net/figure/Figura-34-Media-barras-e-desvio-padrao-linha-de-erro-em-periodos-de-15-minutos-do_fig9_312972533
https://www.nature.com/articles/srep46687
2.7. Coeficiente de variação: para medir se um desvio padrão é grande ou pequeno, é relevante compará-lo à média aritmética, já que o desvio-padrão é a raiz quadrada da variância, e a variância quantifica a dispersão dos valores de um conjunto de dados em relação à média aritmética desse conjunto. Assim, define-se coeficiente de variação como:
2.8. Escore padronizado: relaciona o quanto uma medida se afasta da média, em termos de desvio padrão. Por exemplo: admita-se que a média aritmética de uma turma em Matemática foi 6 ao fim do ano. Se o desvio-padrão for 1 e determinado aluno tirou 7, sua nota foi muito boa. Porém, se o desvio-padrão for 3, essa nota já não é tão boa assim. Logo:
Assim, quando isso indica que o termo está acima da média, quando
a medida está abaixo da média e se
o termo é igual à média. Para uma distribuição normal com valor
, aproximadamente 95% dos valores tem escore padronizado no intervalo de
.
2.9. Percentis: um percentil é um parte de um conjunto ordenado, tal que:
é o conjunto dado pelos primeiros porcento dos elementos do conjunto ordenado. Por exemplo,
representa os primeiros 1% do conjunto, o que significa que 99% dos elementos estão acima dele. Alguns percentis especiais são:
é chamado quartil inferior, pois define um subconjunto que representa os primeiros
elementos do conjunto, delimitando também
dos elementos acima deste percentil;
é chamado de mediana, pois determina metade dos elementos do conjunto e o valor deste quartil é justamente o termo médio da sequência de elementos ordenada do conjunto, i.e., sua mediana;
é chamado quartil superior, pois define um subconjunto que representa os primeiros
elementos do conjunto, delimitando também
dos elementos acima deste percentil.
Assim, chamamos: 1º quartil = (quartil inferior); 2º quartil =
(mediana); 3º quartil =
(quartil superior).
-
-
- Observação: Boxplots
-
O Boxplot é um tipo de gráfico que representa a distribuição dos dados de um conjunto e dos quartis dentro desse conjunto, bem como de outliers detectados (será definido mais à frente). A linha inferior representa o menor valor medido e a linha superior o maior valor. A caixa central contém 50% dos dados avaliados, de tal forma que a linha horizontal na caixa representa o 2º Quartil ou mediana. A linha inferior da caixa representa o 1º quartil e a linha superior da caixa representa o 3º quartil.
Fonte da imagem: https://statplace.com.br/blog/como-interpretar-um-boxplot/
Esse tipo de gráfico permite aferir:
- Dispersão dos dados: quanto maior o intervalo entre os quartis, menos concentrados estão os dados.
- Simetria: quanto mais próximo do centro entre os quartis
e
, maior a simetria de distribuição dos dados.
- Outliers: permite detectar quantas observações atípicas estão presentes nos dados coletados, atestando a precisão dos mesmos.
3. Outliers
São observações atípicas nos dados coletados, que destoam muito dos demais dados. Podem atrapalhar muito a avaliação estatística dos dados se não devidamente tratados, por alterar de forma significativa a média, mediana e desvio padrão calculados. O outlier é representado externamente ao boxplot, de forma que sua presença é ignorada nos cálculos.
Outliers podem surgir por erro de leitura ou transcrição dos dados, erro de execução no experimento, mudanças não controláveis nas variáveis ou uma característica inerente à variável estudada, como instabilidade do que está sendo medido ou sensibilidade do experimento à aferições externas.
https://datascienceplus.com/outlier-detection-and-treatment-with-r/
Os outliers são previstos em uma distribuição normal: são aqueles valores para os quais o escore padronizado é ou
. Em uma distribuição normal (será estudado mais a frente), representam cerca de 5% dos dados coletados, porém podem enviesar nossa análise quando não tratados. As formas mais comuns de tratar um outliers são:
- Removê-lo, de forma a não enviesar a análise descritiva dos dados (média, mediana e devio-padrão);
- Transformá-lo, utilizar a raiz quadrada ou logaritmo dos dados coletados é uma boa maneira de diminuir o impacto dos outliers na análise da amostra e, por vezes, é utilizado para linearizar um gráfico (ex.: função exponencial);
- Substituí-lo, por valores centrais como média ou mediana, usado para lidar com dados ausentes ou anômalos.
4. Precisão e exatidão
A precisão de uma medida diz respeito à dispersão dos dados. Se os dados estão muito concentrados, i.e., possuem um pequeno desvio padrão, dizemos que a medição é precisa. Se temos a média e mediana dos dados próximas do fitting teórico (do que é estimado teoricamente), dizemos que a medida possui exatidão. O diagrama abaixo expressa a conjugação dessas grandezas.
https://i.pinimg.com/originals/82/47/fd/8247fdd4e0e8b4ca0b86f55a64e1291e.jpg
O melhor é que a medida seja exata e precisa. Porém, entre precisão e exatidão, a exatidão é mais importante, pois apenas a precisão pode significar que todos os dados estão adulterados. Na Biologia, a medição correta dos dados trás precisão para o processo (distribuição normal ou gaussiana), e a escolha correta da amostragem, como discutido na primeira aula de Bioestatística, trás exatidão para a medição.
Esta aula busca dar a vocês uma base de Bioestatística mais que suficiente para compreender os gráficos e análises feitas nas seletivas e Olimpíadas Internacionais de Biologia. Espero que, a partir desta, possam compreender melhor a leitura de dados e identificar pesquisas ou conclusões enviesadas. Também pode ser útil para aqueles que busquem competir em outras olimpíadas de ciências.