Distribuição Normal

Distribuição Normal

\[X \sim N(\mu, \sigma^2) \]

A expressão acima indica que a variável aleatória \(X\) possui distribuição normal com média \(\mu\) e variância \(\sigma^2\). A distribuição Normal é contínua - ou seja, a probabilidade dela ser igual a qualquer valor é nula, possuindo apenas função de densidade de probabilidade em cada ponto do espaço amostral. Essa expressão, para variáveis normalmente distribuídas, é dada por:

\[f(x) = \frac{1}{\sqrt{2\pi\sigma}} e^{\frac{-(x-\mu)^2}{\sigma^2}}\] O espaço amostral de uma normal abrange todo o conjunto dos reais.

# sequência de pontos  nos quais calcularemos a densidade
x <- seq(-3,3, by =0.01)

# densidade de uma normal padrão nos pontos do vetor x
y <- dnorm(x)

# junção dos dados num data frame para plotagem
df <- data.frame(x,y)

# plotagem da densidade com o ggplot2
ggplot(df) +
  aes(x,y) +
  geom_line(col = "blue", linewidth =1.2) +
  theme_classic()

O código apresenta o gráfico de densidade de uma variável aleatória normalmente distribuída com média 0 e variância 1. Quando a normal apresenta esses parâmetros, isto é, \(\mu = 0\) e \(\sigma^2 = 1\), dizemos se tratar de uma normal padrão. É possível observar que a normal é simétrica, em que o ponto de maior densidade é sua média. Observemos abaixo as mudanças no comportamento do gráfico da densidade conforme a alteração da variância.

x <- seq(-5,5,0.01)

norm_var_1 <- dnorm(x, mean = 0, sd = sqrt(0.5))
norm_var_2 <- dnorm(x, mean = 0, sd = 1)
norm_var_3 <- dnorm(x, mean = 0, sd = sqrt(2))
norm_var_4 <- dnorm(x, mean = 0, sd = sqrt(5))

df <- data.frame(x,norm_var_1,norm_var_2,norm_var_3,norm_var_4)

cores <- c("Var = 0.5" = "blue", "Var = 1" = "red", "Var = 2" = "green", "Var = 5" = "grey")

ggplot(df) +
  aes(x) +
  geom_line(aes(y = norm_var_1, col = "Var = 0.5"), linewidth = 1) +
  geom_line(aes(y = norm_var_2, col = "Var = 1"), linewidth = 1) +
  geom_line(aes(y = norm_var_3, col = "Var = 2"), linewidth = 1) +
  geom_line(aes(y = norm_var_4, col = "Var = 5"), linewidth = 1) +
  theme_minimal() +
  scale_color_manual(values = cores, name = "") +
  ylab("Densidade")

Conforme podemos ver, uma maior variância indica uma menor concentração da densidade em torno da média, ainda que a média continue sendo o ponto com maior densidade de probabilidade. Tal comportamento não é inesperado: como a variância é uma medida de dispersão, é intuitivo que haja um maior espaçamento da densidade. Vale lembrar que a probabilidade de uma variável aleatória contínua pertencer a um dado intervalo é a área sob a curva entre os dois pontos do intervalo. Dessa forma, variáveis normais com menor variância, quando amostradas, apresentam uma maior concentração de valores

Obs: no R, o parâmetro da variância e substituído pelo desvio padrão (chamado de sd). Como o desvio padrão é a raíz da variância, se quisermos fazer algum cálculo ou amostragem de uma normal com variância 2, devemos colocar sd = sqrt(2).

Outra propiedade importante da normal é o comportamento da função de densidade conforme a alteração de \(\mu\). Como a média é simétrica, a alteração desta implica apenas no descolamento do eixo x da curva. Ou seja:

\[X \sim N(\mu,\sigma^2) + a \equiv X \sim N(\mu+a,\sigma^2)\]

Essa equivalência não vale para todas as distribuições, conforme podemos ver abaixo:

set.seed(345)
normal1 <- rnorm(n = 10000, mean = 5, sd =1)
normal2 <- rnorm(n =10000, mean = 1, sd = 1) + 4

expo1 <- rexp(10000, 0.2) 
expo2 <- rexp(10000, 1) + 4

medias <- data.frame(normal1, normal2, expo1, expo2) %>%
  summarise(across(everything(), list(mean)))
print(medias)
  normal1_1 normal2_1  expo1_1  expo2_1
1  4.992593  4.993343 4.991367 4.999041
df <- data.frame(normal1,normal2,expo1,expo2)

cores <- c("Normal" = "blue", "Exponencial" = "red")

ggplot(df) +
  geom_density(aes(normal1, col = "Normal")) +
  geom_density(aes(normal2, col = "Normal"), linetype = "dotted", linewidth = 1) +
  geom_density(aes(expo1, col = "Exponencial")) +
  geom_density(aes(expo2, col = "Exponencial"), linetype = "dotted",  linewidth = 1) +
  theme_minimal() +
  xlim(c(0,10)) +
  xlab("") +
  scale_color_manual(values = cores, name = "")

Conforme podemos ver, o comportamento da normal se mantém muito semelhante, ao passo que o

Observações:

  • A parametrização da exponencial pode ser feita tanto com a média como com o inverso da média, isto é, \(\frac{1}{E[X]}\). No caso do R, a parametrização é feita com o inverso da média.
  • A densidade da exponencial é estritamente decrescente no intervalo \((0, \infty)\). No caso de uma exponencial somada a uma constante \(c\), é estritamente decrescente no invertalo \((c, \infty)\). O aparente comportamento de crescimento se dá pela curva ter sido construída em cima de uma amostragem da distribuição e não da curva teórica.

Por fim, tratemos dos cálculos de probabilidade.Não é possível, analiticamente, resolver a integral \(\displaystyle \int_{a}^{b} \frac{1}{\sqrt{2\pi\sigma}} e^{\frac{-(x-\mu)^2}{\sigma^2}} dx\). Como alternativa, recorre-se a métodos numéricos de solução. No caso da normal padrão, há a seguinte tabela que podemos utilizar para descobrir a probabilidade acumulada em cada ponto:

É comum denotar a função que retorna a probabilidade acumuladade uma normal padrão em um dado ponto como \(\phi\). Também se utiliza variável aleatória \(Z\) para denotar uma normal padrão, em que \(F(z) = P(Z <= z) = \phi(z)\).

No caso em que queremos obter o intervalo de uma normal com média e desvio padrão distintos de \(\mu\) e \(\sigma^2\), utilizamos a seguinte equivalência:

\(X \sim N(\mu, \sigma^2)\); \(P(X>x) = P\left(Z < \frac{x-u}{\sigma^2}\right) = \phi\left(\frac{x-\mu}{\sigma}\right)\)

No R, podemos obter a normal acumulada com o comando pnorm. Verifiquemos que a probabilidade acumulada da normal com \(\mu = 3, \sigma^2 = 2\) ponto 5 é igual à probabilidade acumulada da normal padrão no ponto \(\frac{5-3}{\sqrt2}\)

pnorm(5,3,sqrt(2)) == pnorm((5-3)/sqrt(2),0,1)
[1] TRUE

Exercícios

  1. Acerca da distribuição normal, determine se as afirmativas abaixo são verdadeiras ou falsas:
  • Quanto maior for a variância, maior será a concentração de valores em uma amostra em torno da média.
  • As distribuição \(X \sim N(\mu, \sigma^2 + a)\) e \(Y \sim N(\mu, \sigma^2) + a\), em que \(a \neq = 0\), se equivalem.
  1. Seja \(X \sim N(4,3)\). Calcule:
  • \(P(X>2)\)
  • \(P(X<1)\)
  • \(P(X < 2\, \cup X > 6)\)

Distribuição de Médias amostrais

A média amostral de \(n\) observaçõesde uma variável aleatória \(Z\) é dada por: \[\bar{Z} = \frac{Z_1+Z_2+\cdots + Z_n}{n}\]

Sejam \(X_1\) e \(X_2\) variáveis aleatória iid tais que \(X_1 \sim N(\mu,\sigma^2)\) e \(X_2 \sim N(\mu, \sigma^2)\). Um resultado importante, cuja demonstração não será discutida aqui, é que \(Y = X_1 + X_2\) possui distribuição normal com média \(2\; \mu\) e variância \(2 \; \sigma^2\). Ou seja, \(Y \sim N(2 \mu, 2 \sigma^2)\). Como \(Var \; [aX] = a^2 \;Var [X]\), segue que a média de \(X_1\) e \(X_2\) possui distribuição normal com média \(\frac{2 \mu}{2} = \mu\) e variância \(\frac{2 \sigma^2}{4} = \frac{\sigma^2}{2}\). Vale o caso geral que a distribuição da média de uma amostra tamanho \(n\) é dada por:

\[\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\]

Ou seja, conforme se aumenta o tamanho da amostra, diminui-se a variância da média amostra - para um número suficientemente grande de amostras, a diferença entre a média amostral e \(\mu\) será bem pequena.

x <- seq(-3,3,0.01)
y1 <- dnorm(x,0,1)
y2 <- dnorm(x,0,1/sqrt(2))
y5 <- dnorm(x,0,1/sqrt(5))
y100 <- dnorm(x,0,1/sqrt(100))

df <- data.frame(x,y1,y2,y5,y100)

ggplot(df) +
  aes(x) +
  geom_line(aes(y = y1), linewidth = 1, col = "blue") +
  geom_line(aes(y = y2), linewidth = 1, col = "green") +
  geom_line(aes(y = y5), linewidth = 1, col = "red") +
  geom_line(aes(y = y100), linewidth = 1, col = "grey") +
  theme_minimal()

Exercícios

1 - Utilizando o exercício 2 da questão anterior, calcule as mesmas probabilidades pedidas, porém o faça para a média amostral de tamanho 2, 5 e 10.

TCL

O Teorema Central do Limite nos diz que, para uma amostra suficientemente grande, a distribuição da média amostral de qualquer variável \(Y\) aleatória segue uma distribuição normal com parâmetros \(E[Y]\) e \(\frac{Var(Y)}{n}\), isto é, \(\bar{Y} \sim N(E[Y], \frac{Var\; (Y)}{n})\) para um \(n\) suficientemente grande.