Análise de Dados

Análise de Dados

Por Bruno Makoto

I would say that data analysis round requires good understanding in both theory and observation, because data analysis round is like applying any technique you have learnt into the data you are given. [David Kurniawan, ouro na IOAA 2013]

Nesta ideia, vamos aprender um pouco mais sobre a prova/questões de análise de dados (a qual irei me referir por DA, Data Analysis em inglês): como ela cai nas provas, construção de gráficos e tabelas (com análise estatística) e propagação de erros.

Questões que envolvem a análise de dados, seja por tabelas ou gráficos, começam a aparecer na prova de Barra do Piraí, onde pelo menos uma das questões das provas teóricas cobra isso do aluno, e se estendem para os treinamentos de Vinhedo, que novamente cobram DA em uma das questões das provas teóricas, mas desta vez envolvendo uma análise estatística mais aprofundada, e aparecem pela última vez em uma das provas da IOAA, que vale em torno de 25% da nota e exige uma análise estatística completa. A prova da OLAA não possui questões de DA.

Os conteúdos aqui expostos usam como base: Curso NOIC Física Experimental, Vitor Mori, Calebe Simões, Lucas Hernandes, Gabriel Golfetti, inúmeros ex-olímpicos que fazem parte da comissão da OBA e o livro Taylor Erros (An Introduction to Error Analysis - John Taylor), com foco naquilo que é cobrado nas olímpiadas de Astronomia.

As questões

Grosso modo, as questões de DA envolvem a formulação de um modelo teórico que, junto dos dados fornecidos e uma análise cautelosa dos mesmos, guiam o aluno para um resultado. Essa análise pode ser através de uma tabela, gráfico ou simplesmente uma substituição de valores no modelo teórico. As habilidades de lidar com muitas informações, usar a calculadora de maneira eficiente, saber analisar estatisticamente os dados e, principalmente, gerenciar bem o tempo, são essenciais para se obter um bom resultado. Fazer as questões de DA dos anteriores da prova que você for fazer é imprescindível para que você saiba o que esperar da prova, já que DA é algo relativamente novo para a maioria, e para que você não se restrinja a uma análise puramente teórica ou estatística na hora da prova.

Isso posto, podemos finalmente ver os métodos utilizados para analisar os dados. Para Barra do Piraí, fazer as provas passadas e saber construir tanto gráficos como tabelas é suficiente, enquanto para Vinhedo em diante a leitura de toda a Ideia é necessária.

Gráficos e Tabelas

Em muitas provas, somente a construção e o preenchimento correto dos gráficos e tabelas pedidos já lhe garante cerca de 50% da questão. Em outras, a análise dos mesmos é necessária para que o estudante possa seguir em frente na questão. Ademais, é muito comum que alunos levem muito tempo para escolher a escala, preencher a tabela, plotar os pontos (sem cartear) e traçar o gráfico. Você em hipótese ALGUMA pode se der ao luxo de ficar meia hora ou mais em um gráfico. Na IOAA de 2017, por exemplo, o aluno tinha 4 horas para traçar 8 gráficos (sem contar com o resto da prova). Em Barra do Piraí e Vinhedo, fazer a questão do gráfico rápido lhe dará mais tempo para pensar nas outras questões. Por isso, de longe, ser rápido e eficiente na hora de traçar o gráfico é fundamental para garantir uma boa nota!

Tabelas:

Uma tabela é um conjunto de dados postos num esquema linha/coluna tal que todos os dados correspondentes a uma medição estão na mesma linha (a não ser que tenhamos linhas periódicas, como uma tabela dupla). As linhas de uma tabela que não estiverem representando nome da medida ou algo do gênero devem estar compostas apenas por números, isto é, sem a dimensão da grandeza em questão. Tabelas geralmente são pedidas para auxiliar na construção de gráficos, e devem ser claras na leitura. Por isso, a utilização de notação científica pode ajudar. Aqui há alguns exemplos de tabelas:

Note que, como toda figura na prova, uma legenda deve estar próxima da mesma para indicá-la. No caso de tabelas, esta deve estar na parte superior. Tome atenção especial para os casos com incerteza e notação científica, sempre obedecendo às regras de Algarismos Significativos (não só aqui como na prova toda)

Gráficos:

Milimetrado 27x19 (papel milimetrado)

Aqui irei mostrar como construir os eixos, determinar a escala e plotar os pontos. Como traçar a reta e determinar seus coeficientes angular e linear (assim como suas incertezas) são artifícios descritos mais à frente. Para Barra, você também deve ler a explicação de como traçar a reta.

Passo a passo:

  1. Definir os eixos e as variáveis. Se for o caso, o eixo x deve ser da váriavel de controle, enquanto o eixo y deve ser da variável dependente. Caso não exista uma dependência, a escolha da variável de cada eixo é arbitrária;
  2. Garantir que a região dos pontos ocupa o maior espaço possível da folha (na IOAA, mais de 50\% garante nota máxima). O gráfico pode ser tanto vertical como horizontal;
  3. Colocar nome e unidade nos eixos. Novamente, se a utilização da notação científica deixar o gráfico mais claro, você deve fazê-la. Escrever "(variável representada \cdot 10^n) unidade correspondente" ao lado da seta do eixo é suficiente;
  4. Indicação da figura. Agora, esta deve estar na parte inferior do gráfico;
  5. Escolher uma escala adequada. Esta deve ser composta por múltiplos de 1, 2, 5 ou 10, SOMENTE (mesmo que uma escala múltipla de 3 deixar o gráfico espaçoso na folha, você NÃO pode utilizá-la). Note que a origem não precisa ser no ponto (0, 0). Você não deve escrever a coordenada de nenhum ponto nos eixos, mesmo que isso ajude;
  6. Marcação dos pontos. Você deve plotar cada ponto e colocar também sua respectiva incerteza (se existir). Se a incerteza for menor que o tamanho do próprio ponto, não faça gambiarras, escreva que os valores das incertezas se confundem com os pontos, por isso você não as representou;
  7. Fitting (descrito mais à frente. Já adianto que ligar os pontos é errado);
  8. Legenda. Em um espaço disponível na folha, coloque as seguintes informações (quando elas forem conhecidas/relevantes): coeficientes angular e linear, coeficiente de correlação linear (mais à frente), escala e uma indicação de correspondência para cada ponto, no caso de um papel de gráfico possuir mais de uma curva (por exemplo, "os pontos marcados por X correspondem à estrela A, os pontos marcados por O correspondem à estrela B, etc")

Dica: com o auxílio da calculadora, você pode fazer os passos 5 e 6 de maneira mais rápida. Para achar a escala em x, por exemplo, você pode dividir a variação total do valor da variável em x pelo número de quadrados no papel de gráfico e aumentar esse valor até chegar numa escala de 1, 2 ou 5. Guardando o inverso da escala (e multiplicando por 10, para obter o número de quadradinhos por unidade) na memória da calculadora (recomendo que no slot X) você consegue determinar a distância de qualquer ponto até uma subdivisão. Veja o exemplo: (1 quadrado = 10 quadradinhos)

Repetindo o processo das últimas 4 linhas desta figura para cada ponto (lembre-se também das incertezas), você conseguirá plotar todos os pontos rapidamente. Além disso, para ser ainda mais veloz, eu faço os eixos e as marcações das escalas com caneta e faço pequenos riscos a lápis na coordenada de cada ponto (eixo x, depois eixo y) enumerando que ponto é aquele. Após fazer isso para todos os pontos em cada eixo, plotá-los fica mais fácil. Lembre-se de apagar todos os riscos de lápis quando você acabar.

Para ver gráficos feitos nesse padrão, veja os problemas sugeridos no fim desta aula.

Fitting:

Basicamente, aquilo que você faz para traçar a curva após ter os pontos. Quando a mesma não é uma reta (senoides, elipses ou curvas não convencionais), traçar 'no olho' é permitido, desde que nunca se ligue os pontos. No caso de ser uma reta, existem dois jeitos principais de se realizar o ajuste linear: método gráfico e mínimos quadrados. O primeiro peca um pouco na precisão e é bem mais subjetivo com relação ao segundo, mas ambos são igualmente aceitos. Nessa ideia, irei tratar somente dos mínimos quadrados, pois na minha opinião (!) o tempo necessário para se realizar ambas as maneiras é parecido e a quantidade de informações (também mais precisas) obtidas usando os mínimos é muito maior. Para Barra do Piraí, entretanto, o método gráfico é mais do que suficiente (e mais simples), então você pode aprendê-lo aqui se preferir utilizá-lo.

Mínimos Quadrados:

Nessa explicação serei direto e propositivo: se você quiser saber de onde as fórmulas aqui expostas vem, olhe o livro de erros do Taylor. Basicamente, queremos uma reta do tipo y=A+Bx tal que a soma dos quadrados da distância entre cada ponto e a reta ideal seja mínima (usamos o quadrado da distância pois caso contrário uma distância de d anularia uma -d e módulos/potências maiores são trabalhosas demais).

Passo a passo: (tudo na calculadora, onde minha referência é uma Casio fx-82MS, mas todas as calculadoras científicas possuem funções análogas: olhe no manual da mesma)

  1. [MODE] -> [3] -> [LIN]. Entrando no modo regressão linear
  2. [SHIFT] -> [MODE] -> [1] -> [=]. Limpando a memória da calculadora
  3. [x_i] -> [,] -> [y_i] -> [M+]. Adicionando os pares ordenados
  4. [SHIFT] -> [1] (S-SUM)
  5. [SHIFT] -> [2] (S-VAR)
S-SUM
S-VAR

Essas informações são tudo que você pode precisar. s é o desvio padrão (não \sigma), A é o coeficiente linear, B é o coeficiente angular e r é o coeficiente de correlação linear, que mede a qualidade do ajuste (o quão compatíveis com uma reta os pontos estão) e pode valer -1<r<1, onde um |r| próximo de 1 é muito similar a uma reta perfeita. Note que o sinal negativo indica somente que a inclinação da reta ajustada é negativa, enquanto o positivo indica uma inclinação positiva.

Agora, os parâmetros que mais nos interessam de uma reta costumam ser seus coeficientes, que também devem estar acompanhados de suas devidas incertezas. Para encontrar o valor sem erros dos mesmos basta fazer o que foi descrito acima. Já para os erros, você deve utilizar as seguintes fórmulas*:

Cuidado! A notação para as expressões abaixo é y=A+Bx

\left(\dfrac{\Delta B}{B}\right)^2 = \left(\dfrac{1}{r^2}-1\right)\left(\dfrac{1}{n-2}\right)

\Delta A=\Delta B \sqrt{\dfrac{\sum x^2}{n}}

Repare que as incertezas dos pontos NÃO são levadas em conta. Para tal, a utilização de programas de computador é necessária, portanto não sendo cobrada em provas.

Para fins de complitude, irei colocar as fórmulas "originais" de cada coeficiente e de suas incertezas. Elas podem ser relevantes se, por exemplo, estiverem na tabela de constantes (como ocorreu na prova de DA de Vinhedo 2021). Assim, você pode ter certeza de que pode utilizar os métodos normais (calculadora para A e B e as fórmulas acima para \Delta A e \Delta B).

Coeficientes angular (B) e linear (A):

B = \dfrac{n(\sum xy) - (\sum x)(\sum y)}{n(\sum x^2) - (\sum x)^2}

A=\overline y-B\overline x=\dfrac{(\sum x^2)(\sum y)-(\sum x)(\sum xy)}{n(\sum x^2) - (\sum x)^2}

Onde \overline p=\dfrac{\sum p}{n} é o valor médio de p.

Definindo S^2=\dfrac{\sum \left (y-A-Bx \right )^2}{n-2}, as incertezas de cada coeficiente são:

\Delta B = \dfrac{S}{\sqrt{\sum \left(x - \overline x\right)^2}}

\Delta A = S \sqrt{\dfrac{1}{n}+\dfrac{\left(\overline x \right)^2}{\sum\left(x-\overline x \right)^2}}

 

Linearização

Note que as fórmulas utilizadas para o ajuste são somente válidas no caso de equações lineares. Se você quiser plotar uma função exponencial ou com expoentes maiores que 1, linearizar a função é necessário. Linearizar consiste em transformar uma função qualquer f em uma do tipo y=A+Bx. Para tal, podemos fazer algumas trocas convenientes de variáveis, a partir dos dados que temos. Veja alguns exemplos, com os dados que você possui indicados antes das equações:

s e t: \quad s=s_0+\dfrac{at^2}{2} \Rightarrow \overbrace{s^{\vphantom{2}}}^{y}=\underbrace{s_0\vphantom{\dfrac{1}{1}}}_{A}+\underbrace{\dfrac{a}{2}}_{B}\overbrace{t^2}^{x}

T e a: \quad \frac{T^2}{a^3}=\frac{4\pi^2}{GM} \Rightarrow \overbrace{T^2}^{y}=\underbrace{0}_{A} +\underbrace{\frac{4\pi^2}{GM}}_{B}\overbrace{a^3}^{x}

T e l: \quad T=2\pi\sqrt{\dfrac{I_C+ml^2}{mgl}}\Rightarrow T^2=\dfrac{4\pi^2}{g}\dfrac{I_C+ml^2}{ml}\Rightarrow\overbrace{lT^2}^{y}=\underbrace{\dfrac{4\pi^2}{g}\dfrac{I_C}{m}}_{A}+\underbrace{\dfrac{4\pi^2}{g}}_{B}\overbrace{l^{2}}^{x}

x e t: \quad x=x_0 e^{-\beta t}\Rightarrow ln(\frac{x}{x_0})=-\beta t\Rightarrow\overbrace{ln x}^{y}=\underbrace{ln x_0}_{A} \underbrace{- \beta}_{B}\overbrace{t}^{x}

 

Propagação de Erros

Medidas possuem incertezas, que devem ser consideradas na conta. Provas de astronomia costumam ser bem superficiais na aplicação dos erros, por isso, não me adentrarei profundamente na análise dos mesmos. Se você quiser uma análise mais profunda sobre erros, veja o livro do Taylor.

Já vimos como calcular a incerteza dos coeficientes de um gráficos, mas como se calcula a incerteza de uma função f(x_1, ..., x_n), sabendo a incerteza e o valor de cada uma das variáveis x_1, ..., x_n? A fórmula que nos dá isso envolve a aplicação de derivadas parciais, por isso, se você não souber nada de cálculo, pode somente decorar as fórmulas finais. A fórmula é:

\sigma_f^2=\sum_{i=1}^{n}(\frac{\partial f}{\partial x_i}\sigma_{x_i})^2

Exemplo: período de pêndulo (T=2\pi \sqrt{\frac{l}{g}}\Rightarrow g=4\pi^2 l T^{-2})

Temos T, l, \sigma_T, \sigma_l e g (aplicando a fórmula do período) e queremos \sigma_g

\large{\frac{\partial g}{\partial l}=\frac{4\pi^2}{T^2}}

\large{\frac{\partial g}{\partial T}=-\frac{8\pi^2l}{T^3}}

Logo:

\sigma_g^2=(\frac{4\pi^2}{T^2}\sigma_l)^2 + (\frac{8\pi^2l}{T^3} \sigma_T)^2

Porém, manipulando essa equação podemos obter uma expressão muito mais interessante:

\Leftrightarrow \sigma_g^2=(\frac{4\pi^2l}{T^2}\frac{\sigma_l}{l})^2+(2\frac{4\pi^2l}{T^2} \frac{\sigma_T}{T})^2

\Large{(\frac{\sigma_g}{g})^2=(\frac{\sigma_l}{l})^2+(\frac{2\sigma_T}{T})^2}

Repare nesta última expressão: a fórmula de g envolvia um l^1 e um T^{-2}, e a fórmula da incerteza tem um fator 1 no erro relativo de l e um fator 2 no erro relativo do período. Não é coincidência! Na verdade, se o expoente de uma das grandezas na fórmula for \pm n, um fator multiplicativo n irá aparecer. Isso é muito mais prático do que ficar derivando e é um fato conhecido, fazendo com que você possa utilizar essa fórmula diretamente na prova.

Ou seja, somente para funções dadas pelo produto entre variáveis:

O quadrado do erro relativo é a soma dos quadrados dos erros relativos de suas variáveis incertas com um fator multiplicativo igual ao módulo de seus expoentes

Para os outros casos, é mais conveniente utilizar a própria definição relacionada à derivada parcial. Veja alguns exemplos:

  1. f=x+y ou f=x-y \Rightarrow \sigma_f^2=\sigma_x^2+\sigma_y^2
  2. f=x^m \Rightarrow \sigma_f=|m x^{m-1}\sigma_x|
  3. f=ax ou f=ax+b, onde a e b são constantes \Rightarrow \sigma_f=|a\sigma_x|
  4. f=log_{10}x \Rightarrow \sigma_f=|\frac{\sigma_x}{x\;ln10}|

Para deduzir a quarta expressão use a propriedade da mudança de base do log para obter a base natural e lembre-se de que a derivada do lnx é \frac{1}{x}.

Desvio Padrão da Média e Erros Instrumentais + Estatísticos

Estes costumam cair pouco em provas de astronomia, mas são conceitos essenciais na análise de incertezas

Vamos supor que uma grandeza y foi medida n vezes. Como determinar a média e a incerteza de y (valores incertos são expressos como a média \pm incerteza)? Note que o que vamos fazer aqui vale para valores que teoricamente seriam iguais, porém fatores como erros sistemáticos e estatísticos fazem com que os resultados obtidos oscilem em torno de um valor médio.

Média:

\overline y=\frac{\sum_{i=1}^{n}y_i}{n}

Desvio Padrão:

\sigma_y=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\overline y)^2}

O desvio padrão mede a dispersão dos dados em torno do valor médio. Note que os conjuntos de dados [3, 6, 9] e [5, 6, 7] possuem a mesma média, porém o desvio padrão do primeiro é maior que o do segundo.

Desvio Padrão da Média:

\sigma_{my}=\frac{\sigma_y}{\sqrt{n}}

Repare que, quanto maior o número de medidas, menor é \sigma_{my}. O desvio padrão da média é utilizado como INCERTEZA estatística e indica a dispersão da média, ou seja, respondendo à nossa pergunta inicial:

\overline y \pm \sigma_{my} unidades arbitrárias

Instrumental + Estatístico

Agora as medições possuem uma mesma incerteza (devido ao instrumento de medida, por exemplo). Como determinar a incerteza de x?

{x_1\pm \sigma_i \quad x_2\pm \sigma_i \quad x_3\pm \sigma_i} \quad ...

\sigma_{mx}=\frac{\sigma_x}{\sqrt{n}}=\sqrt{\frac{1}{n(n-1)}\sum_{i=1}^{n}(x_i - \overline x)^2}

A incerteza total é:

\sigma_{tot}=\sqrt{\sigma_{mx}^2+\sigma_i^2}

\overline x \pm \sigma_{tot} unidades arbitrárias

Como calcular

Novamente, a utilização da calculadora nos salva muito tempo, pois ela já faz as contas necessárias a partir dos dados que estão em sua memória.

Passo a passo:

  1. [MODE] -> [2] (SD). Entrando no modo estatístico
  2. [SHIFT] -> [MODE] -> [1] -> [=]. Limpando a memória
  3. [x_i] -> [M+]. Adicionando os valores
  4. [SHIFT] -> [1] (S-SUM)
  5. [SHIFT] -> [2] (S-VAR)

Lembre-se de que \sigma_x NÃO é o desvio padrão, e sim, s_x

Exemplo:

 

Provas que possuem questões de análise de dados:

  1. Barra do Piraí
  2. IAO
  3. Treinamentos de Vinhedo
  4. Treinamentos 3/4
  5. SAO
  6. IOAA

Questões de DA para treinar:

  1. Questão, Gabarito (feita para a prova de Barra do Piraí de 2022)
  2. Problemas da Semana 74, Gabarito (especialmente o intermediário)
  3. Problemas das Semanas 143 e 144 de física, Gabaritos 143 e 144 (não é necessário conhecer o significado físico das fórmulas)

Além disso, os Problemas da Semana 74 são somente de DA. O intermediário é especialmente recomendado para verificar a parte estatística dessa ideia: encontrar os coeficientes da reta e suas incertezas.

Por fim, é extremamente recomendado fazer todos os problemas das semanas 143 e 144 de física. Eles foram feitos de tal forma que não é necessário deduzir nenhuma fórmula, então possuir conhecimento prévio de física não é estritamente necessário (i.e. são problemas de analisar dados). As soluções encontram-se nestes links: Sol143 e Sol144.