Nas duas últimas aulas, nos dedicamos a estudar como classificar e definir variáveis, agrupá-las e tratá-las. Agora, nos resta saber como tirar conclusões em cima da nossa pesquisa. Para isso, precisamos conhecer a forma como as variáveis se distribuem, para escrever funções e prever casos futuros. Além disso, a distribuição das variáveis nos fornece a significância da medida.
Ao plotar os dados em uma curva de probabilidade, observa-se que ela segue um padrão, na maioria das vezes, semelhantes à um sino (campanário) e é simétrico:
A grande questão é: qual função descreve esta curva e nos permite fazer previsões? Para isso, vamos estudar as três teorias de distribuição de probabilidades mais convenientes para nossa análise.
1. Modelo binomial
O modelo binomial é uma distribuição baseada no Binômio de Newton, que nada mais é que uma maneira para escrever a forma canônica de um polinômio de grau $$n$$. Relembrando:
$$(a+b)^n=\sum^n_{k=0}\binom{n}{k}a^{n-k}b^k$$
O modelo de distribuições binomial serve para variáveis dicotômicas e independentes, ou seja, só há duas respostas possíveis e uma ocorrência não influencia próxima. Ou seja, $$P(A|B)=P(A)$$, a probabilidade de ocorrer $$A$$ dado que ocorreu $$B$$ é igual a probabilidade de ocorrer $$A$$, já que são eventos independentes, e $$P(A)+P(B)=1$$. Um caso típico é a chance de um casal ter uma menina dado que eles já têm um filho homem, a probabilidade é $$50\% $$, já que os eventos são independentes: a cada nova fecundação a probabilidade do óvulo ser $$XX$$ ou $$XY$$ é a mesma.
Seja $$P$$ a probabilidade de sucesso de um evento, i.e., a probabilidade que ele ocorra dado o espaço amostral. Dessa forma, $$(1-p)$$ é a chance de fracasso. Considerando $$x$$ o número de sucessos em $$n$$ realizações, se $$x$$ tem distribuição binomial, a probabilidade de sucesso é de:
$$P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}|\ x\in \mathbb{N}$$
https://www.researchgate.net/figure/Figura-31-Graficos-da-distribuicao-binomial_fig2_255665114
Ou seja, interpretando a função, temos que para $$x$$ sucessos em $$n$$ casos, distribuidos aleatoriamente, há $$\binom{n}{x}$$ maneiras de escolher como distribuir esses valores em $$n$$ casos.
Como a distribuição binomial é uma distribuição de probabilidades, a soma de toda a área sob a curva é 1.
Exemplo retirado de https://www.inf.ufsc.br/~andre.zibetti/probabilidade/binomial.html: Baseado em estudos anteriores, a probabilidade de um certo componente elétrico estar em condições operacionais satisfatórias é de 0.98. Os componentes são amostrados item por item, a partir de uma produção (contínua). Em uma amostra de cinco componentes, quais são as probabilidades de se encontrarem,
- zero;
- exatamente um;
- exatamente dois;
- dois ou mais;
- ao menos quatro, itens defeituosos?
Respostas: Para isso, basta aplicar a fórmula da distribuição binomial, utilizando $$p=0.98$$, $$(1-p)=0.02$$ e aplicando o valor de $$X=5-x$$ (número de sucessos) para cada situação. Então:
- $$P(X=5)=\binom{5}{5}0.98^5\cdot0.02^{0}=0.9039207968$$
- $$P(X=4)=\binom{5}{4}0.98^4\cdot0.02^{1}=0.0922368160$$
- $$P(X=3)=\binom{5}{3}0.98^3\cdot0.02^{2}=0.0037647680$$
- $$P(X=2)=\binom{5}{2}0.98^2\cdot0.01^{3}=0,0000768320$$
- $$P(X=1)=\binom{5}{1}0.98^1\cdot0.02^{4}=0,0000007842$$

O modelo binomial é bastante útil em distribuições de genética mendeliana.
(Retirado do livro Introdução à Bioestatística) “Exemplo 4.2.2: De acordo com a teoria Mendeliana da hereditariedade de caracteres, um cruzamento de determinada espécie de plantas com flores vermelhas e brancas, produz uma nova planta que tem 25% de chance de ter flores vermelhas. Dois cruzamentos essa espécie de plantas foram realizados. Seja $$X$$ o número de plantas com flores vermelhas. a variável aleatória $$X~B(2, 1/4)$$ pois: (a) cada planta produz flores vermelhas (V) ou brancas (B) (dicotomia de eventos); (b) $$P(V)=1/4$$ é constante em cada realização do experimento (os eventos são independentes). A distribuição de probabilidade de $$X$$ é:
$$P(X=x)=\binom{2}{x}(\frac{1}{4})^x(\frac{3}{4})^{2-x},\ x=1,2,3…$$
Calculando-se $$P(X=x)$$ para cada $$x$$, obtêm-se […]:
$$P(X=0)=\binom{2}{0}(\frac{1}{4})^0(\frac{3}{4})^{2}=1\times 1\times \frac{9}{16}$$
$$P(X=1)=\binom{2}{1}(\frac{1}{4})^1(\frac{3}{4})^{1}=2\times \frac{1}{4}\times \frac{3}{4}= \frac{6}{16}$$
$$P(X=2)=\binom{2}{2}(\frac{1}{4})^2(\frac{3}{4})^{0}=1\times \frac{1}{16}\times 1=\frac{1}{16}$$
Observe que a ocorrência de nenhuma planta com flores vermelhas, i.e., $$X=0$$, equivale ao evento duas plantas com flores brancas ($$B\cap B$$) e a probabilidade desse evento é:
$$P(B\cap B)=\frac{3}{4}\times\frac{3}{4}=\frac{9}{16}$$
As demais probabilidades poderiam ser obtidos de maneira análoga.
A distribuição de probabilidade de $$X$$ está apresentada graficamente na Figura abaixo.
Modelo de Poisson
É utilizado quando sabe-se para representar o número de ocorrências, de forma discreta, de um evento por intervalo de tempo. Nessa distribuição, a taxa de variação ocorrências aferidas por intervalo de tempo deve ser aproximadamente constante (ex.: número de isótopos que sofrem decaimento radioativo por intervalo de tempo: tempo de meia-vida). A distribuição de Poisson é dada por:
$$P(X=x)=\frac{e^{-\lambda}\lambda^x}{x!}|\ x\in\mathbb{N}$$
Modelo normal ou gaussiano
É o modelo mais usual e que melhor descreve as variáveis biológicas, por isso, é chamado de “normal”. Cada distribuição pode ser completamente descrita pela média aritmética das variáveis e o desvio padrão, uma vez que:
$$z_i=\frac{x_i-\bar{x}}{\sigma}\ \forall i\in \mathbb{N}$$
$$\therefore x_i=z_i\cdot \sigma+\bar{x}$$
A função que descreve a curva de distribuição é dada por:
$$f(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\bar{x})^2}{2\sigma^2}}$$
Porém, é mais comum a representação da média aritmética pela letra grega $$\mu$$, sendo possível encontrar a expressão como:
$$f(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$
Como essa é uma distribuição de probabilidades, a área sob a curva é 1. Assim, se queremos saber a probabilidade de uma variável assumir uma valor que está contido em um intervalo [a,b], basta efetuar:
\[ E = \int_{a}^{b} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx \]
Por fim os intervalor mais importantes são $$[\mu-\sigma, \mu +\sigma]$$, $$[\mu-2\sigma, \mu +2\sigma]$$, $$[\mu-3\sigma, \mu +3\sigma]$$, que representam respectivamente $$68,3\%$$, $$95,4\%$$ e $$99,7\%$$ da distribuição.





Deixe um comentário