Guia de Estatística para a IYPT – Aula 1 – Probabilidade e Variáveis Aleatórias

Escrito por Guilhermo Cutrim Costa

Aula 1 – Probabilidade e Variáveis Aleatórias

Probabilidade

O que é probabilidade? Nessas aulas, vamos ignorar totalmente as dificuldades filosóficas desse conceito e partiremos direto para uma formalização axiomática desse conceito. Afinal, nosso objetivo é aplicar a probabilidade e a estatística em um contexto físico, especialmente em olimpíadas experimentais como a IYPT.

Suponha que temos algum experimento que pode ter vários resultados, que denotaremos por \omega. O conjunto de todos os resultados possíveis é chamado de espaço amostral e é denotado por \Omega. Um evento A é um subconjunto do espaço amostral.

Exemplo. Suponha que o experimento é jogar duas moedas. O espaço amostral é o conjunto

\Omega = \{\mathrm{(cara, cara); (cara, coroa); (coroa, cara); (coroa, coroa)}\}.

O evento "a primeira moeda deu cara" é o conjunto A = \{\mathrm{(cara, cara); (cara, coroa)}\}.

Para todo evento A, associamos um número real \mathbb{P}(A), que é a probabilidade do evento A. Entretudo, a função \mathbb{P} não pode ser uma função qualquer: ela deve satisfazer os seguintes axiomas (se você quiser ser chique, pode chamá-los de axiomas de Kolmogorov):

1. Não-negatividade. \mathbb{P}(A) \ge 0 para todo evento A.

2. Unitariedade. \mathbb{P}(\Omega) = 1.

3. \sigma-aditividade. Sejam A_1, A_2, \ldots eventos mutuamente exclusivos. Então

\mathbb{P}\left( \displaystyle{\bigcup_{i = 1}^{\infty}} A_i \right) = \displaystyle{\sum_{i = 1}^{\infty}} \mathbb{P}(A_i).

(Esse axioma é a famosa "regra do ou" que você conhece desde o fundamental, só que aloprada pelos matemáticos.)

Uma função \mathbb{P} que satisfaz esses axiomas é chamada de distribuição de probabilidade ou de medida de probabilidade.

Com esses axiomas, já podemos provar fatos surpreendentes sobre a probabilidade! Bem, talvez não tão surpreendentes assim...Os teoremas a seguir podem parecer meio óbvios, mas provar eles rigorosamente vai ajudar vocês a acreditarem que os axiomas acima funcionam, além de praticar as suas habilidades matemáticas.

Teorema. \mathbb{P}(\emptyset) = 0.

Prova. Perceba que os conjuntos \Omega, \emptyset, \emptyset, \emptyset, \ldots são mutuamente exclusivos, tal que a união deles é simplesmente \Omega. Logo, pelo terceiro axioma, temos que

\mathbb{P}(\Omega) = \mathbb{P}(\Omega) + \displaystyle{\sum^\infty} \mathbb{P}(\emptyset).

A única solução possível dessa equação é \mathbb{P}(\emptyset) = 0. \; \Box

Teorema (Regra do ou). Sejam A, B conjuntos mutuamente exclusivos. Então

\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B).

Prova. Perceba que os conjuntos A, B, \emptyset, \emptyset, \emptyset, \ldots são mutuamente exclusivos. Como \mathbb{P}(\emptyset) = 0, temos que

\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) + 0 + 0 + 0 + \ldots = \mathbb{P}(A) + \mathbb{P}(B). \; \Box

Teorema. Se A \subset B, então \mathbb{P}(A) \leq \mathbb{P}(B).

Prova. Se A \subset B, podemos dividir os elementos de B em dois grupos: os que pertencem a A (que formam o conjunto A) e os que não pertencem a A (que formamm o conjunto B - A). Usando o terceiro axioma, temos que

\mathbb{P}(B) = \mathbb{P}(A) + \mathbb{P}(B - A).

Como, pelo primeiro axioma, temos que \mathbb{P}(B - A) \geq 0, temos que \mathbb{P}(A) \leq \mathbb{P}(B). \; \Box.

Teorema. Para todo evento A, 0 \leq \mathbb{P}(A) \leq 1.

Prova. Deixada como exercício para o leitor.

Teorema. Seja A^c = \Omega - A. Então \mathbb{P}(A^c) = 1 - \mathbb{P}(A).

Prova. Deixada como exercício para o leitor.

Teorema. Para quaisquer eventos A, B, temos que \mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B).

Prova. Deixada como exercício para o leitor.

Variáveis aleatórias

Na prática, é difícil trabalhar diretamente com eventos e espaços amostrais. Precisamos conectar esses conceitos com dados numéricos que são passíveis de medição em um laboratório. As variáveis aleatórias fazem justamente isso.

Formalmente, uma variável aleatória X é uma função X : \Omega \rightarrow \mathbb{R} que associa um número real X(\omega) para cada resultado \omega de um experimento. Falaremos muito da probabilidade que uma variável aleatória X tenha um certo valor x, e denotaremos essa probabilidade por \mathbb{P}(X = x).

Exemplo. Considere um experimento de termodinâmica no qual preenchemos um recipiente com um gás ideal e subsequentemente reduzimos o volume desse recipiente. Para descrevermos o resultado desse evento com precisão total, precisaríamos da posição e velocidade das n partículas desse gás – 6n variáveis! É muito mais fácil trabalharmos com a pressão e a temperatura do gás (que são variáveis aleatórias).

Exemplo. Considere uma sequência de lançamentos de moedas. Podemos definir uma variável aleatória X que nos dá o número de lançamentos que resultaram em caras.

Funções Distribução

Seja X uma variavél aleatória. A função distribuição F_X : \mathbb{R}\rightarrow [0, 1] de X é definida por

F_X (x) = \mathbb{P}(X \leq x).

Escrevemos X \sim F_X (lê-se "X tem distribuição F_X"). Uma função distribuição é monotonicamente crescente.

Na verdade, a função distribuição contém tudo que queremos sobre uma variável aleatória! Em geral, ela não é tão conveniente na resolução de problemas na física do que a função de densidade de probabilidade, que veremos a seguir, mas elas são bem úteis para provar teoremas e e alguns casos específicos.

Problema 1. Sejam X_1, X_2, \ldots, X_n variáveis aleatórias independentes e identicalmente distribuidas, com distribuição F. Definimos uma nova variável aleatória

X_\mathrm{max} = \max ( X_1, X_2, \ldots, X_n ).

Qual é a distribuição F_\mathrm{max} de X_\mathrm{max}?

Problema 2. Uma moeda enviesada, quando lançada, resulta em cara (que denotaremos por H) com probabilidade p, e, consequentemente, resulta em coroa (que denotaremos T) com probabilidade 1 - p. Seja X uma variavél aleatória tal que

X = \begin{cases} 1 & \omega = H \\ 0 & \omega = T. \end{cases}

Esboce o gráfico da função distribuição F_X. Essa distribuição é chamada de distribuição de Bernoulli.

(Extra: você consegue achar uma fórmula para F_X(x), se x \in \{0, 1\}?)

Funções Densidade de Probabilidade

Na física, mexemos muito com variáveis aleatórias contínuas. Com elas, é muito difícil trabalhar com as probabilidades diretamente, já que, se X é uma variável aleatória contínua, temos que, para todo x, \mathbb{P}(X = x) = 0! (Esse resultado é contraintuitivo, sim! Para dar alguma intuição para ele, pense na probabilidade de acertar um número específico com um dardo, mirando na linha dos reais.)

Como todo experimento tem uma margem de erro, estamos muito mais interessados na probabilidade que uma variável aleatória X tenha um valor x dentro de um determinado intervalo (a, b). Para encontrarmos essa probabilidade, intrroduzimos a função densidade de probabilidade f_X (x). Por definição, essa função satisfaz

\mathbb{P}(a < X < b) = \displaystyle{\int_a^b} f_X(x) d x.

Veja que, como não podemos ter probabilidades negativas, f_X (x) \geq 0.

Teorema. \displaystyle{\int_{-\infty}^\infty} f_X(x) d x = 1.

Prova. Deixada como um exercício para o leitor.

Momentos

Valor Esperado

O valor esperado, ou a expectativa matemática, ou o primeiro momento de uma variável aleatória X é definido como

\mathbb{E}(X) = \displaystyle{\int_{-\infty}^{\infty}} x f_X (x) d x

para uma variável contínua ou

\mathbb{E}(X) = \displaystyle{\sum_{\forall x}} x \, \mathbb{P}(X = x)

para uma variável discreta. Frequentemente denotamos o valor esperado por \mu.

Como você já deve saber, se medirmos variáveis aleatórias indepententes X_1, X_2, \ldots, X_n tiradas da mesma distribuição e calcularmos a média \frac{1}{n} \sum_{i=1}^n X_i, obteremos um valor muito próximo ao valor esperado. Isso não é só uma carta, mas sim um teorema, a Lei dos Números Grandes! Provaremos isso em uma aula posterior.

Variância

Seja X uma variável aleatória com média \mu. A variância, ou o segundo momento centralizado de X – denotada por \mathbb{V}(X) ou \sigma^2 – é definida por

\sigma^2 = \mathbb{E}(X - \mu)^2.

Caso X seja uma variável aleatória contínua, podemos escrever a variância da seguinte forma:

\sigma^2 = \displaystyle{\int_{-\infty}^{\infty}} (x - \mu)^2 f_X(x) d x.

A variância, como o nome indica, representa quão próximos da média estão os valores de uma distribuição.

Momentos de Order Maior

Podemos generalizar a ideia do valor esperado e da variância. Por simplicidade, tomaremos \mu = 0 por enquanto. Nesse caso, temos

\begin{aligned} \mu &= \mathbb{E}(X), \\ \sigma^2 &= \mathbb{E}(X^2).\end{aligned}

A generalização natural dessa ideia é definir o enésimo momento m_n por

m_n = \mathbb{E}(X^n).

Um teorema que será muito útil para nós no futuro afirma que, se duas variáveis aleatórias X e Y tem os mesmos momentos para todas as ordens, então essas variáveis são identicamente distribuidas.

Problema 3. Você entende por que o momento de inércia tem esse nome?

Problema 4. Em São Petersburgo, um casino oferece o seguinte jogo de cara ou coroa: se o primeiro lance der coroa, o apostador não ganha nada. Se ele der cara, outra moeda é jogada. Se essa segunda der coroa, o apostador ganha \$2. Se der cara, ele continua jogando, o dinheiro no pote dobrando a cada iteração. Quanto o casino precisa cobrar para esse jogo ser lucrativo? Qual a variância dos retornos do apostador?

Problema 5. Prove o teorema do estatístico preguiçoso: Seja Y = h(X). Então

\mathbb{E}(Y) = \displaystyle{\int_{-\infty}^{\infty}} h(x) f_X(x) d x.