Nas duas últimas aulas, nos dedicamos a estudar como classificar e definir variáveis, agrupá-las e tratá-las. Agora, nos resta saber como tirar conclusões em cima da nossa pesquisa. Para isso, precisamos conhecer a forma como as variáveis se distribuem, para escrever funções e prever casos futuros. Além disso, a distribuição das variáveis nos fornece a significância da medida.
Ao plotar os dados em uma curva de probabilidade, observa-se que ela segue um padrão, na maioria das vezes, semelhantes à um sino (campanário) e é simétrico:
A grande questão é: qual função descreve esta curva e nos permite fazer previsões? Para isso, vamos estudar as três teorias de distribuição de probabilidades mais convenientes para nossa análise.
1. Modelo binomial
O modelo binomial é uma distribuição baseada no Binômio de Newton, que nada mais é que uma maneira para escrever a forma canônica de um polinômio de grau n. Relembrando:
(a+b)n=∑nk=0(nk)an−kbk
O modelo de distribuições binomial serve para variáveis dicotômicas e independentes, ou seja, só há duas respostas possíveis e uma ocorrência não influencia próxima. Ou seja, P(A|B)=P(A), a probabilidade de ocorrer A dado que ocorreu B é igual a probabilidade de ocorrer A, já que são eventos independentes, e P(A)+P(B)=1. Um caso típico é a chance de um casal ter uma menina dado que eles já têm um filho homem, a probabilidade é 50%, já que os eventos são independentes: a cada nova fecundação a probabilidade do óvulo ser XX ou XY é a mesma.
Seja P a probabilidade de sucesso de um evento, i.e., a probabilidade que ele ocorra dado o espaço amostral. Dessa forma, (1−p) é a chance de fracasso. Considerando x o número de sucessos em n realizações, se x tem distribuição binomial, a probabilidade de sucesso é de:
P(X=x)=(nx)px(1−p)n−x| x∈N
https://www.researchgate.net/figure/Figura-31-Graficos-da-distribuicao-binomial_fig2_255665114
Ou seja, interpretando a função, temos que para x sucessos em n casos, distribuidos aleatoriamente, há (nx) maneiras de escolher como distribuir esses valores em n casos.
Como a distribuição binomial é uma distribuição de probabilidades, a soma de toda a área sob a curva é 1.
Exemplo retirado de https://www.inf.ufsc.br/~andre.zibetti/probabilidade/binomial.html: Baseado em estudos anteriores, a probabilidade de um certo componente elétrico estar em condições operacionais satisfatórias é de 0.98. Os componentes são amostrados item por item, a partir de uma produção (contínua). Em uma amostra de cinco componentes, quais são as probabilidades de se encontrarem,
- zero;
- exatamente um;
- exatamente dois;
- dois ou mais;
- ao menos quatro, itens defeituosos?
Respostas: Para isso, basta aplicar a fórmula da distribuição binomial, utilizando p=0.98, (1−p)=0.02 e aplicando o valor de X=5−x (número de sucessos) para cada situação. Então:
- P(X=5)=(55)0.985⋅0.020=0.9039207968
- P(X=4)=(54)0.984⋅0.021=0.0922368160
- P(X=3)=(53)0.983⋅0.022=0.0037647680
- P(X=2)=(52)0.982⋅0.013=0,0000768320
- P(X=1)=(51)0.981⋅0.024=0,0000007842
O modelo binomial é bastante útil em distribuições de genética mendeliana.
(Retirado do livro Introdução à Bioestatística) "Exemplo 4.2.2: De acordo com a teoria Mendeliana da hereditariedade de caracteres, um cruzamento de determinada espécie de plantas com flores vermelhas e brancas, produz uma nova planta que tem 25% de chance de ter flores vermelhas. Dois cruzamentos essa espécie de plantas foram realizados. Seja X o número de plantas com flores vermelhas. a variável aleatória X B(2,1/4) pois: (a) cada planta produz flores vermelhas (V) ou brancas (B) (dicotomia de eventos); (b) P(V)=1/4 é constante em cada realização do experimento (os eventos são independentes). A distribuição de probabilidade de X é:
P(X=x)=(2x)(14)x(34)2−x, x=1,2,3...
Calculando-se P(X=x) para cada x, obtêm-se [...]:
P(X=0)=(20)(14)0(34)2=1×1×916
P(X=1)=(21)(14)1(34)1=2×14×34=616
P(X=2)=(22)(14)2(34)0=1×116×1=116
Observe que a ocorrência de nenhuma planta com flores vermelhas, i.e., X=0, equivale ao evento duas plantas com flores brancas (B∩B) e a probabilidade desse evento é:
P(B∩B)=34×34=916
As demais probabilidades poderiam ser obtidos de maneira análoga.
A distribuição de probabilidade de X está apresentada graficamente na Figura abaixo.
Modelo de Poisson
É utilizado quando sabe-se para representar o número de ocorrências, de forma discreta, de um evento por intervalo de tempo. Nessa distribuição, a taxa de variação ocorrências aferidas por intervalo de tempo deve ser aproximadamente constante (ex.: número de isótopos que sofrem decaimento radioativo por intervalo de tempo: tempo de meia-vida). A distribuição de Poisson é dada por:
P(X=x)=e−λλxx!| x∈N
Modelo normal ou gaussiano
É o modelo mais usual e que melhor descreve as variáveis biológicas, por isso, é chamado de "normal". Cada distribuição pode ser completamente descrita pela média aritmética das variáveis e o desvio padrão, uma vez que:
zi=xi−ˉxσ ∀i∈N
∴xi=zi⋅σ+ˉx
A função que descreve a curva de distribuição é dada por:
f(x)=1√2πσe−(x−ˉx)22σ2
Porém, é mais comum a representação da média aritmética pela letra grega μ, sendo possível encontrar a expressão como:
f(x)=1√2πσe−(x−μ)22σ2
Como essa é uma distribuição de probabilidades, a área sob a curva é 1. Assim, se queremos saber a probabilidade de uma variável assumir uma valor que está contido em um intervalo [a,b], basta efetuar:
E=∫ba1√2πσe−(x−μ)22σ2dx
Por fim os intervalor mais importantes são [μ−σ,μ+σ], [μ−2σ,μ+2σ], [μ−3σ,μ+3σ], que representam respectivamente 68,3%, 95,4% e 99,7% da distribuição.