Como bom estudante de física, você deve ter alguma intuição a respeito da média: provavelmente, você já deve ter feito várias medidas de algum fenômeno (como o período de um pêndulo) e tirado a média para obter uma estimativa do valor “real”. A Lei dos Números Grandes nos ajudará a formalizar essa intuição.
Como podemos modelar o processo de repetir um experimento $$n$$ vezes? Bem, cada experimento consiste na medida de uma variável aleatória $$X_i$$ para $$i = 1, …, n$$. Essas variáveis aleatórias, porém, são reproduções do mesmo experimento (pense no exemplo de medir o período do mesmo pêndulo $$n$$ vezes). Portanto, podemos afirmar algumas coisas interessantes sobre essas variáveis aleatórias. Primeiramente, elas devem ser identicamente distribuídas, ou seja, $$X_1, …, X_n$$ devem vir da mesma distribuição, já que estamos medindo a mesma coisa em situações idênticas. Além disso, se nosso procedimento experimental for adequado, as variáveis aleatórias devem ser independentes, já que o resultado de um experimento não deve afetar causalmente o resultado do próximo. (Desprezaremos aqui o desgaste dos materiais do experimento, a fatiga do experimentador, etc.!)
Nossa meta como físicos é reconstruir a distribuição a partir da qual geramos as variáveis aleatórias $$X_1, …, X_n$$. Geralmente, porém, estamos medindo coisas (como o período de um pêndulo) que não tem aleatoriedade intrínseca: a discrepância entre os valores obtidos nos $$n$$ experimentos é fruto de erros experimentais. Consequentemente, estamos mais interessantos em reconstruir o valor esperado (também conhecido como a média) da distribuição do que a forma geral da mesma. Afinal, a média da distribuição dos períodos observados dos pêndulos (desprezando erros sistemáticos) é algo que podemos chamar de “o período do pêndulo”! É claro, queremos ter alguma ideia de quão precisa é a nossa estimativa do período do pêndulo – um bom físico nunca escreve um valor experimental sem uma medidade de erro!
A Lei dos Números Grandes é algo poderoso: nos proporciona uma maneira de estimar o valor esperado de uma distribuição e também nos dá uma maneira de analisar o erro da nossa estimativa. O estimador do valor esperado deve já ser conhecido por você: ele é simplesmente a média aritimética dos resultados experimentais
$$ \hat{\mu} = \frac{1}{n} \sum_{i = 1}^{n} x_i. $$
Note que escrevemos esse estimador com um chapéu para indicar que ele é apenas nosso melhor chute para o valor da média da distribuição μ, que não podemos observar diretamente.
Com esse prelúdio terminado, podemos ir diretamente ao enunciado formal dessa lei!
Teorema. (Lei dos Números Grandes.) Sejam $$X_1, …, X_n$$ variáveis aleatórias independentes e identicamente distribuídas. Definimos uma nova variável aleatória X tal que
$$ X = \frac{1}{n} \sum_{i = 1}^n X_i. $$
Para qualquer $$\varepsilon \rightarrow 0$$ positivo, temos que
$$ \mathbb{P}(|X – \mu| > \varepsilon) \rightarrow0.$$
Dizemos que $$X$$ converge em probabilidade para $$\mu$$.
(Note que o estimador da média $$\hat{\mu}$$ é simplesmente o valor obtido de $$X$$ para um dado conjunto de experimetos.)
Prova. Primeiramente, mostraremos que $$\mathbb{E}(X) = \mu$$. Lembrando da linearidade da expectativa, essa parte é quase trivial:
$$ \mathbb{E}(X) = \mathbb{E}\left(\frac{1}{n} \sum_{i = 1}^n X_i \right) = \frac{1}{n} \sum_{i = 1}^n \mathbb{E}(X_i) = \frac{n \mu}{n} = \mu. $$
Agora, precisamos ter uma ideia de quão próximo $$X$$ está de $$\mu$$, em geral. Essa ideia é capturada pela variância. Porém, como precisamos de um caso limite, será muito conveniente usar a desigualdade de Chebyshev. Para chegarmos nessa desigualdade de uma maneira fácil, porém, é necessário provarmos a desigualdade de Markov. Pode parecer um caminho tortuoso, mas essas desigualdades não são monstros de sete cabeças! Vamos à desigualdade de Markov:
Lema. (Desigualdade de Markov.) Seja $$X$$ uma variável aleatória, com valor esperado $$\mu$$, tal que $$X > 0$$. Logo, para todo $$t > 0$$, temos que
$$ \mathbb{P}(X > t) \leq \frac{\mu}{t}. $$
(Essa desigualdade simplesmente afirma que é improvável que uma variável aleatória acabe tendo um valor longe da média.)
Prova do lema. Seja $$f_X$$ a função densidade de probabilidade associada a $$X$$. Logo:
$$\mu = \mathbb{E}(X) = \int_0^\infty x f_X(x) \, dx = \int_0^t x f_X(x) \, dx + \int_t^\infty x f_X(x) \, dx$$
$$\implies \mu \geq \int_t^\infty x f_X(x) \, dx \geq t \int_t^\infty f_X(x) \, dx.$$
Usamos o fato que ambas as integrais na primeira linha são positivas, já que $$X > 0$$. Ao notarmos que $$\int_t^\infty f_X(x) \, dx = \mathbb{P}(X > t)$$, completamos a prova.
Lema. (Desigualdade de Chebyshev.) Seja $$\mu = \mathbb{E}(X)$$ e $$\sigma^2 = \mathbb{V}(X)$$. Logo
$$ \mathbb{P}(|X – \mu| > t) \leq \frac{\sigma^2}{t^2}. $$
Prova do lema. Perceba que $$|X – \mu| > t$$ é equivalente a $$(X – \mu)^2 > t^2$$, e que a variável aleatória $$(X – \mu)^2$$ é sempre não-negativa. Logo, podemos aplicar a desigualdade de Markov para $$\mathbb{P}[(X – \mu)^2 > t^2]$$, o que resulta em
$$ \mathbb{P}(|X – \mu| > t) \leq \frac{\mathbb{E}[(X – \mu)^2]}{t^2}. $$
A identificação da variância com $$\mathbb{E}[(X – \mu)^2]$$completa a prova.
Agora, está quase tudo pronto para finalizarmos a prova por completo! Basta calcularmos a variância de $$X$$ para podermos aplicar a desigualdade de Chebyshev e encontrarmos um limite para a probabilidade de $$|X – \mu| > \varepsilon$$. Pela definição de variância, temos que
$$ \mathbb{V}(X) = \mathbb{E}[(X – \mu)^2] = \frac{1}{n^2} \mathbb{E}\left[\left(\sum_{i = 1}^n X_i – \mu_i\right)^2\right]. $$
Notemos que $$\mu_i = \mu$$para todo valor de $$i$$, e que, como as variáveis aleatórias $$X_1, …, X_n$$ são independentes, os termos mistos do quadrado (isto é, termos da forma $$\mathbb{E}[(X_i – \mu)(X_j – \mu)]$$ para $$i \neq j$$) são nulos. Portanto, temos apenas $$n$$ termos não-nulos; cada um desses termos é simplesmente $$\mathbb{E}[(X_i – \mu)^2] = \sigma^2$$. Concluímos que a variância de $$X$$ é $$\sigma^2/n$$.
Finalmente, substituímos tudo na desigualdade de Chebyshev. Obtemos
$$ \mathbb{P}(|X – \mu| > \varepsilon) \leq \frac{\sigma^2}{n \varepsilon^2}. $$
Claramente, o lado direito dessa desigualdade tende a zero quando $$\varepsilon \rightarrow0$$. Consequentemente, o lado esquerdo também tem essa tendência e a Lei dos Números Grandes foi provada. Adicionalmente, conseguimos uma expressão que nos permite estimar o nível do erro das nossas medidas (usando o estimador do desvio-padrão
$$\hat{\sigma} = \frac{1}{n – 2} \sum_{i = 1}^{n} (x_i – \hat{\mu})^2$$
[fórmula que estabeleceremos posteriormente] como nosso melhor chute para o valor real de $$\sigma$$)! Derivamos um tremendo resultado, de fato!
(Nota: esse limite superior no erro não é o mais prático para uma olimpíada como a IYPT, pois existem expressões mais complexas que nos dão um limite mais apertado. Porém, é uma fórmula muito fácil de se lembrar e calcular, o que pode a tornar útil em uma experimental da OBF ou algo similar.)
