O capítulo se inicia com a definição de Probabilidade que, nas palavras dos autores, é a quantidade de vezes em que há a ocorrência de um resultado específico dentro de uma sequência de observações. A probabilidade, por sua vez, está relacionada à proporção sob a forma de um número entre 0 e 1, onde quanto mais próximo do 1 maior é a probabilidade de alcançar a hipótese.
As regras básicas da probabilidade se organizam dentro de 3 parâmetros gerais:
A probabilidade de não ser A é igual a 100% menos a probabilidade de ser A; ou… P(não A) = 1 - P(A).
Se A e B são distintos, então a probabilidade de ser A ou B é igual à probabilidade de A mais probabilidade de B; ou… P(A ou B) = P(A) + P(B).
Se A e B são independentes, então a probabilidade de ser A e B é igual à probabilidade de A vezes probabilidade de B; ou… P(A e B) = P(A) x P(B).
Para a representação da distribuição probabilística de variáveis discretas é comum utilizarmos um histograma.
As variáveis contínuas - por apresentar valores infinitos - podem ser representadas por um gráfico de dispersão, com uma curva contínua suave, cuja àrea da figura formada é a representação da probabilidade.
plot(rnorm(100, mean = 20, sd = 1))
plot(rnorm(100, mean = 20, sd = 0.3))
Distribuições Normais são simétricas e apresentam um formato padrão de sino. Seus dois parâmetros definidores são a média e o desvio padrão.
O z-escore é uma medida que permite identificarmos quantos desvios-padrão a probabilidade sofreu na média. Seu cálculo nas distribuições normais é feito assim: (Observação - Média)/Desvio Padrão; ou… (q - mean)/sd.
A Distribuição Normal Padrão é aquela que possue média igual a zero e desvio padrão igual a 1 (mean = 0; sd = 1 ). Observe que no exemplo a média e a mediana tem como resultado 0:
x <- seq(-5, 5, length = 500)
plot(x, dnorm(x), axes = TRUE, type =
'l', xlab = '',ylab = ''); abline(v = 0, col = "red")
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -5.0 -2.5 0.0 0.0 2.5 5.0
Uma Distribuição Amostral é definida como a representação da estatística de forma que apresenta as probabilidades possíveis para um valor assumir. É muito comum nas pesquisas de opinião pública e eleitorais. Os valores encontrados para a média amostral deve flutuar perto da média da população e, quanto mais amostras forem recolhidas, mais próximo do resultado (em tese) estaremos e mais próxima a média amostral deve estar da média populacional. O desvio padrão da distribuição amostral recebe o nome de “Erro Amostral”. A equação representativa de tal fenômeno é descrita como: Erro Padrão = (Desvio Padrão / √N).
O Teorema Central do Limite é o que sustenta a tese de que uma distribuição amostral com um número de casos elevado tende a estar próxima de uma distribuição normal.