Objetivo:

Essa atividade consiste em resumir o quarto capítulo da obra “Métodos Estatísticos para as Ciências Sociais”, de autoria de Alan Agresti e Barbara Finlay

Capítulo 4

O capítulo se inicia com a definição de Probabilidade que, nas palavras dos autores, é a quantidade de vezes em que há a ocorrência de um resultado específico dentro de uma sequência de observações. A probabilidade, por sua vez, está relacionada à proporção sob a forma de um número entre 0 e 1, onde quanto mais próximo do 1 maior é a probabilidade de alcançar a hipótese.

As regras básicas da probabilidade se organizam dentro de 3 parâmetros gerais:

  • A probabilidade de não ser A é igual a 100% menos a probabilidade de ser A; ou… P(não A) = 1 - P(A).

  • Se A e B são distintos, então a probabilidade de ser A ou B é igual à probabilidade de A mais probabilidade de B; ou… P(A ou B) = P(A) + P(B).

  • Se A e B são independentes, então a probabilidade de ser A e B é igual à probabilidade de A vezes probabilidade de B; ou… P(A e B) = P(A) x P(B).

Para a representação da distribuição probabilística de variáveis discretas é comum utilizarmos um histograma.

As variáveis contínuas - por apresentar valores infinitos - podem ser representadas por um gráfico de dispersão, com uma curva contínua suave, cuja àrea da figura formada é a representação da probabilidade.

  • A Média de uma distribuição de probabilidade é o somatório de todas as probabilidades possíveis da variável.
  • O Desvio Pardão mede o quão longe um valor está da média, onde quanto maior, mais dispersa é a distribuição. Veja que no exemplo criado: Neste modelo, vemos um gráfico com média 20 (mean = 20) e desvio padrão 1 (sd = 1). Notamos que o valor máximo do eixo Y atinge 23. Quando aplicamos a mesma média e diminuímos o desvio padrão para 0,3 (sd = 0.3), observa-se que a dispersão fica mais consisa, com um y máximo de 20,6.
plot(rnorm(100, mean = 20, sd = 1))

plot(rnorm(100, mean = 20, sd = 0.3))

Distribuições Normais são simétricas e apresentam um formato padrão de sino. Seus dois parâmetros definidores são a média e o desvio padrão.

O z-escore é uma medida que permite identificarmos quantos desvios-padrão a probabilidade sofreu na média. Seu cálculo nas distribuições normais é feito assim: (Observação - Média)/Desvio Padrão; ou… (q - mean)/sd.

A Distribuição Normal Padrão é aquela que possue média igual a zero e desvio padrão igual a 1 (mean = 0; sd = 1 ). Observe que no exemplo a média e a mediana tem como resultado 0:

x <- seq(-5, 5, length = 500)

plot(x, dnorm(x), axes = TRUE, type = 
'l', xlab = '',ylab = ''); abline(v = 0, col = "red")

summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    -5.0    -2.5     0.0     0.0     2.5     5.0

Uma Distribuição Amostral é definida como a representação da estatística de forma que apresenta as probabilidades possíveis para um valor assumir. É muito comum nas pesquisas de opinião pública e eleitorais. Os valores encontrados para a média amostral deve flutuar perto da média da população e, quanto mais amostras forem recolhidas, mais próximo do resultado (em tese) estaremos e mais próxima a média amostral deve estar da média populacional. O desvio padrão da distribuição amostral recebe o nome de “Erro Amostral”. A equação representativa de tal fenômeno é descrita como: Erro Padrão = (Desvio Padrão / √N).

O Teorema Central do Limite é o que sustenta a tese de que uma distribuição amostral com um número de casos elevado tende a estar próxima de uma distribuição normal.