Guia de Estatística para a IYPT – Aula 2 – A Lei dos Números Grandes

Como bom estudante de física, você deve ter alguma intuição a respeito da média: provavelmente, você já deve ter feito várias medidas de algum fenômeno (como o período de um pêndulo) e tirado a média para obter uma estimativa do valor “real”. A Lei dos Números Grandes nos ajudará a formalizar essa intuição.

Como podemos modelar o processo de repetir um experimento $n$ vezes? Bem, cada experimento consiste na medida de uma variável aleatória $X_i$ para $i = 1, ..., n$ . Essas variáveis aleatórias, porém, são reproduções do mesmo experimento (pense no exemplo de medir o período do mesmo pêndulo $n$ vezes). Portanto, podemos afirmar algumas coisas interessantes sobre essas variáveis aleatórias. Primeiramente, elas devem ser identicamente distribuídas, ou seja, $X_1, ..., X_n$ devem vir da mesma distribuição, já que estamos medindo a mesma coisa em situações idênticas. Além disso, se nosso procedimento experimental for adequado, as variáveis aleatórias devem ser independentes, já que o resultado de um experimento não deve afetar causalmente o resultado do próximo. (Desprezaremos aqui o desgaste dos materiais do experimento, a fatiga do experimentador, etc.!)

Nossa meta como físicos é reconstruir a distribuição a partir da qual geramos as variáveis aleatórias $X_1, ..., X_n$ . Geralmente, porém, estamos medindo coisas (como o período de um pêndulo) que não tem aleatoriedade intrínseca: a discrepância entre os valores obtidos nos $n$ experimentos é fruto de erros experimentais. Consequentemente, estamos mais interessantos em reconstruir o valor esperado (também conhecido como a média) da distribuição do que a forma geral da mesma. Afinal, a média da distribuição dos períodos observados dos pêndulos (desprezando erros sistemáticos) é algo que podemos chamar de “o período do pêndulo”! É claro, queremos ter alguma ideia de quão precisa é a nossa estimativa do período do pêndulo – um bom físico nunca escreve um valor experimental sem uma medidade de erro!

A Lei dos Números Grandes é algo poderoso: nos proporciona uma maneira de estimar o valor esperado de uma distribuição e também nos dá uma maneira de analisar o erro da nossa estimativa. O estimador do valor esperado deve já ser conhecido por você: ele é simplesmente a média aritimética dos resultados experimentais

$\hat{\mu} = \frac{1}{n} \sum_{i = 1}^{n} x_i.$

Note que escrevemos esse estimador com um chapéu para indicar que ele é apenas nosso melhor chute para o valor da média da distribuição μ, que não podemos observar diretamente.

Com esse prelúdio terminado, podemos ir diretamente ao enunciado formal dessa lei!

Teorema. (Lei dos Números Grandes.) Sejam $X_1, ..., X_n$ variáveis aleatórias independentes e identicamente distribuídas. Definimos uma nova variável aleatória X tal que

$X = \frac{1}{n} \sum_{i = 1}^n X_i.$

Para qualquer $\varepsilon \rightarrow 0$ positivo, temos que

$\mathbb{P}(|X - \mu| > \varepsilon) \rightarrow0.$

Dizemos que $X$ converge em probabilidade para $\mu$ .

(Note que o estimador da média $\hat{\mu}$ é simplesmente o valor obtido de $X$ para um dado conjunto de experimetos.)

Prova. Primeiramente, mostraremos que $\mathbb{E}(X) = \mu$ . Lembrando da linearidade da expectativa, essa parte é quase trivial:

$\mathbb{E}(X) = \mathbb{E}\left(\frac{1}{n} \sum_{i = 1}^n X_i \right) = \frac{1}{n} \sum_{i = 1}^n \mathbb{E}(X_i) = \frac{n \mu}{n} = \mu.$

Agora, precisamos ter uma ideia de quão próximo $X$ está de $\mu$ , em geral. Essa ideia é capturada pela variância. Porém, como precisamos de um caso limite, será muito conveniente usar a desigualdade de Chebyshev. Para chegarmos nessa desigualdade de uma maneira fácil, porém, é necessário provarmos a desigualdade de Markov. Pode parecer um caminho tortuoso, mas essas desigualdades não são monstros de sete cabeças! Vamos à desigualdade de Markov:

Lema. (Desigualdade de Markov.) Seja $X$ uma variável aleatória, com valor esperado $\mu$ , tal que $X > 0$ . Logo, para todo $t > 0$ , temos que

$\mathbb{P}(X > t) \leq \frac{\mu}{t}.$

(Essa desigualdade simplesmente afirma que é improvável que uma variável aleatória acabe tendo um valor longe da média.)

Prova do lema. Seja $f_X$ a função densidade de probabilidade associada a $X$ . Logo:

$\mu = \mathbb{E}(X) = \int_0^\infty x f_X(x) \, dx = \int_0^t x f_X(x) \, dx + \int_t^\infty x f_X(x) \, dx$

$\implies \mu \geq \int_t^\infty x f_X(x) \, dx \geq t \int_t^\infty f_X(x) \, dx.$

Usamos o fato que ambas as integrais na primeira linha são positivas, já que $X > 0$ . Ao notarmos que $\int_t^\infty f_X(x) \, dx = \mathbb{P}(X > t)$ , completamos a prova.

Lema. (Desigualdade de Chebyshev.) Seja $\mu = \mathbb{E}(X)$ e $\sigma^2 = \mathbb{V}(X)$ . Logo

$\mathbb{P}(|X - \mu| > t) \leq \frac{\sigma^2}{t^2}.$

Prova do lema. Perceba que $|X - \mu| > t$ é equivalente a $(X - \mu)^2 > t^2$ , e que a variável aleatória $(X - \mu)^2$ é sempre não-negativa. Logo, podemos aplicar a desigualdade de Markov para $\mathbb{P}[(X - \mu)^2 > t^2]$ , o que resulta em

$\mathbb{P}(|X - \mu| > t) \leq \frac{\mathbb{E}[(X - \mu)^2]}{t^2}.$

A identificação da variância com $\mathbb{E}[(X - \mu)^2]$ completa a prova.

Agora, está quase tudo pronto para finalizarmos a prova por completo! Basta calcularmos a variância de $X$ para podermos aplicar a desigualdade de Chebyshev e encontrarmos um limite para a probabilidade de $|X - \mu| > \varepsilon$ . Pela definição de variância, temos que

$\mathbb{V}(X) = \mathbb{E}[(X - \mu)^2] = \frac{1}{n^2} \mathbb{E}\left[\left(\sum_{i = 1}^n X_i - \mu_i\right)^2\right].$

Notemos que $\mu_i = \mu$ para todo valor de $i$ , e que, como as variáveis aleatórias $X_1, ..., X_n$ são independentes, os termos mistos do quadrado (isto é, termos da forma $\mathbb{E}[(X_i - \mu)(X_j - \mu)]$ para $i \neq j$ ) são nulos. Portanto, temos apenas $n$ termos não-nulos; cada um desses termos é simplesmente $\mathbb{E}[(X_i - \mu)^2] = \sigma^2$ . Concluímos que a variância de $X$ é $\sigma^2/n$ .

Finalmente, substituímos tudo na desigualdade de Chebyshev. Obtemos

$\mathbb{P}(|X - \mu| > \varepsilon) \leq \frac{\sigma^2}{n \varepsilon^2}.$

Claramente, o lado direito dessa desigualdade tende a zero quando $\varepsilon \rightarrow0$ . Consequentemente, o lado esquerdo também tem essa tendência e a Lei dos Números Grandes foi provada. Adicionalmente, conseguimos uma expressão que nos permite estimar o nível do erro das nossas medidas (usando o estimador do desvio-padrão

$\hat{\sigma} = \frac{1}{n - 2} \sum_{i = 1}^{n} (x_i - \hat{\mu})^2$

[fórmula que estabeleceremos posteriormente] como nosso melhor chute para o valor real de $\sigma$ )! Derivamos um tremendo resultado, de fato!

(Nota: esse limite superior no erro não é o mais prático para uma olimpíada como a IYPT, pois existem expressões mais complexas que nos dão um limite mais apertado. Porém, é uma fórmula muito fácil de se lembrar e calcular, o que pode a tornar útil em uma experimental da OBF ou algo similar.)