Guia de Estatística para a IYPT – Aula 2 – A Lei dos Números Grandes

Como bom estudante de física, você deve ter alguma intuição a respeito da média: provavelmente, você já deve ter feito várias medidas de algum fenômeno (como o período de um pêndulo) e tirado a média para obter uma estimativa do valor “real”. A Lei dos Números Grandes nos ajudará a formalizar essa intuição.

Como podemos modelar o processo de repetir um experimento n vezes? Bem, cada experimento consiste na medida de uma variável aleatória X_i para i = 1, ..., n. Essas variáveis aleatórias, porém, são reproduções do mesmo experimento (pense no exemplo de medir o período do mesmo pêndulo n vezes). Portanto, podemos afirmar algumas coisas interessantes sobre essas variáveis aleatórias. Primeiramente, elas devem ser identicamente distribuídas, ou seja, X_1, ..., X_n devem vir da mesma distribuição, já que estamos medindo a mesma coisa em situações idênticas. Além disso, se nosso procedimento experimental for adequado, as variáveis aleatórias devem ser independentes, já que o resultado de um experimento não deve afetar causalmente o resultado do próximo. (Desprezaremos aqui o desgaste dos materiais do experimento, a fatiga do experimentador, etc.!)

Nossa meta como físicos é reconstruir a distribuição a partir da qual geramos as variáveis aleatórias X_1, ..., X_n. Geralmente, porém, estamos medindo coisas (como o período de um pêndulo) que não tem aleatoriedade intrínseca: a discrepância entre os valores obtidos nos n experimentos é fruto de erros experimentais. Consequentemente, estamos mais interessantos em reconstruir o valor esperado (também conhecido como a média) da distribuição do que a forma geral da mesma. Afinal, a média da distribuição dos períodos observados dos pêndulos (desprezando erros sistemáticos) é algo que podemos chamar de “o período do pêndulo”! É claro, queremos ter alguma ideia de quão precisa é a nossa estimativa do período do pêndulo – um bom físico nunca escreve um valor experimental sem uma medidade de erro!

A Lei dos Números Grandes é algo poderoso: nos proporciona uma maneira de estimar o valor esperado de uma distribuição e também nos dá uma maneira de analisar o erro da nossa estimativa. O estimador do valor esperado deve já ser conhecido por você: ele é simplesmente a média aritimética dos resultados experimentais

 \hat{\mu} = \frac{1}{n} \sum_{i = 1}^{n} x_i.

Note que escrevemos esse estimador com um chapéu para indicar que ele é apenas nosso melhor chute para o valor da média da distribuição μ, que não podemos observar diretamente.

Com esse prelúdio terminado, podemos ir diretamente ao enunciado formal dessa lei!

Teorema. (Lei dos Números Grandes.) Sejam X_1, ..., X_n variáveis aleatórias independentes e identicamente distribuídas. Definimos uma nova variável aleatória X tal que

 X = \frac{1}{n} \sum_{i = 1}^n X_i.

Para qualquer \varepsilon \rightarrow 0 positivo, temos que

 \mathbb{P}(|X - \mu| > \varepsilon) \rightarrow0.

Dizemos que X converge em probabilidade para \mu.

(Note que o estimador da média \hat{\mu} é simplesmente o valor obtido de X para um dado conjunto de experimetos.)

Prova. Primeiramente, mostraremos que \mathbb{E}(X) = \mu. Lembrando da linearidade da expectativa, essa parte é quase trivial:

 \mathbb{E}(X) = \mathbb{E}\left(\frac{1}{n} \sum_{i = 1}^n X_i \right) = \frac{1}{n} \sum_{i = 1}^n \mathbb{E}(X_i) = \frac{n \mu}{n} = \mu.

Agora, precisamos ter uma ideia de quão próximo X está de \mu, em geral. Essa ideia é capturada pela variância. Porém, como precisamos de um caso limite, será muito conveniente usar a desigualdade de Chebyshev. Para chegarmos nessa desigualdade de uma maneira fácil, porém, é necessário provarmos a desigualdade de Markov. Pode parecer um caminho tortuoso, mas essas desigualdades não são monstros de sete cabeças! Vamos à desigualdade de Markov:

Lema. (Desigualdade de Markov.) Seja X uma variável aleatória, com valor esperado \mu, tal que X > 0. Logo, para todo t > 0, temos que

 \mathbb{P}(X > t) \leq \frac{\mu}{t}.

(Essa desigualdade simplesmente afirma que é improvável que uma variável aleatória acabe tendo um valor longe da média.)

Prova do lema. Seja f_X a função densidade de probabilidade associada a X. Logo:

\mu = \mathbb{E}(X) = \int_0^\infty x f_X(x) \, dx = \int_0^t x f_X(x) \, dx + \int_t^\infty x f_X(x) \, dx

\implies \mu \geq \int_t^\infty x f_X(x) \, dx \geq t \int_t^\infty f_X(x) \, dx.

Usamos o fato que ambas as integrais na primeira linha são positivas, já que X > 0. Ao notarmos que \int_t^\infty f_X(x) \, dx = \mathbb{P}(X > t), completamos a prova.

Lema. (Desigualdade de Chebyshev.) Seja \mu = \mathbb{E}(X) e \sigma^2 = \mathbb{V}(X). Logo

 \mathbb{P}(|X - \mu| > t) \leq \frac{\sigma^2}{t^2}.

Prova do lema. Perceba que |X - \mu| > t é equivalente a (X - \mu)^2 > t^2, e que a variável aleatória (X - \mu)^2 é sempre não-negativa. Logo, podemos aplicar a desigualdade de Markov para \mathbb{P}[(X - \mu)^2 > t^2], o que resulta em

 \mathbb{P}(|X - \mu| > t) \leq \frac{\mathbb{E}[(X - \mu)^2]}{t^2}.

A identificação da variância com \mathbb{E}[(X - \mu)^2]completa a prova.

Agora, está quase tudo pronto para finalizarmos a prova por completo! Basta calcularmos a variância de X para podermos aplicar a desigualdade de Chebyshev e encontrarmos um limite para a probabilidade de |X - \mu| > \varepsilon. Pela definição de variância, temos que

 \mathbb{V}(X) = \mathbb{E}[(X - \mu)^2] = \frac{1}{n^2} \mathbb{E}\left[\left(\sum_{i = 1}^n X_i - \mu_i\right)^2\right].

Notemos que \mu_i = \mupara todo valor de i, e que, como as variáveis aleatórias X_1, ..., X_n são independentes, os termos mistos do quadrado (isto é, termos da forma \mathbb{E}[(X_i - \mu)(X_j - \mu)] para i \neq j) são nulos. Portanto, temos apenas n termos não-nulos; cada um desses termos é simplesmente \mathbb{E}[(X_i - \mu)^2] = \sigma^2. Concluímos que a variância de X é \sigma^2/n.

Finalmente, substituímos tudo na desigualdade de Chebyshev. Obtemos

 \mathbb{P}(|X - \mu| > \varepsilon) \leq \frac{\sigma^2}{n \varepsilon^2}.

Claramente, o lado direito dessa desigualdade tende a zero quando \varepsilon \rightarrow0. Consequentemente, o lado esquerdo também tem essa tendência e a Lei dos Números Grandes foi provada. Adicionalmente, conseguimos uma expressão que nos permite estimar o nível do erro das nossas medidas (usando o estimador do desvio-padrão

\hat{\sigma} = \frac{1}{n - 2} \sum_{i = 1}^{n} (x_i - \hat{\mu})^2

[fórmula que estabeleceremos posteriormente] como nosso melhor chute para o valor real de \sigma)! Derivamos um tremendo resultado, de fato!

(Nota: esse limite superior no erro não é o mais prático para uma olimpíada como a IYPT, pois existem expressões mais complexas que nos dão um limite mais apertado. Porém, é uma fórmula muito fácil de se lembrar e calcular, o que pode a tornar útil em uma experimental da OBF ou algo similar.)