A expressão acima indica que a variável aleatória \(X\) possui distribuição normal com média \(\mu\) e variância \(\sigma^2\). A distribuição Normal é contínua - ou seja, a probabilidade dela ser igual a qualquer valor é nula, possuindo apenas função de densidade de probabilidade em cada ponto do espaço amostral. Essa expressão, para variáveis normalmente distribuídas, é dada por:
\[f(x) = \frac{1}{\sqrt{2\pi\sigma}} e^{\frac{-(x-\mu)^2}{\sigma^2}}\] O espaço amostral de uma normal abrange todo o conjunto dos reais.
# sequência de pontos nos quais calcularemos a densidadex <-seq(-3,3, by =0.01)# densidade de uma normal padrão nos pontos do vetor xy <-dnorm(x)# junção dos dados num data frame para plotagemdf <-data.frame(x,y)# plotagem da densidade com o ggplot2ggplot(df) +aes(x,y) +geom_line(col ="blue", linewidth =1.2) +theme_classic()
O código apresenta o gráfico de densidade de uma variável aleatória normalmente distribuída com média 0 e variância 1. Quando a normal apresenta esses parâmetros, isto é, \(\mu = 0\) e \(\sigma^2 = 1\), dizemos se tratar de uma normal padrão. É possível observar que a normal é simétrica, em que o ponto de maior densidade é sua média. Observemos abaixo as mudanças no comportamento do gráfico da densidade conforme a alteração da variância.
x <-seq(-5,5,0.01)norm_var_1 <-dnorm(x, mean =0, sd =sqrt(0.5))norm_var_2 <-dnorm(x, mean =0, sd =1)norm_var_3 <-dnorm(x, mean =0, sd =sqrt(2))norm_var_4 <-dnorm(x, mean =0, sd =sqrt(5))df <-data.frame(x,norm_var_1,norm_var_2,norm_var_3,norm_var_4)cores <-c("Var = 0.5"="blue", "Var = 1"="red", "Var = 2"="green", "Var = 5"="grey")ggplot(df) +aes(x) +geom_line(aes(y = norm_var_1, col ="Var = 0.5"), linewidth =1) +geom_line(aes(y = norm_var_2, col ="Var = 1"), linewidth =1) +geom_line(aes(y = norm_var_3, col ="Var = 2"), linewidth =1) +geom_line(aes(y = norm_var_4, col ="Var = 5"), linewidth =1) +theme_minimal() +scale_color_manual(values = cores, name ="") +ylab("Densidade")
Conforme podemos ver, uma maior variância indica uma menor concentração da densidade em torno da média, ainda que a média continue sendo o ponto com maior densidade de probabilidade. Tal comportamento não é inesperado: como a variância é uma medida de dispersão, é intuitivo que haja um maior espaçamento da densidade. Vale lembrar que a probabilidade de uma variável aleatória contínua pertencer a um dado intervalo é a área sob a curva entre os dois pontos do intervalo. Dessa forma, variáveis normais com menor variância, quando amostradas, apresentam uma maior concentração de valores
Obs: no R, o parâmetro da variância e substituído pelo desvio padrão (chamado de sd). Como o desvio padrão é a raíz da variância, se quisermos fazer algum cálculo ou amostragem de uma normal com variância 2, devemos colocar sd = sqrt(2).
Outra propiedade importante da normal é o comportamento da função de densidade conforme a alteração de \(\mu\). Como a média é simétrica, a alteração desta implica apenas no descolamento do eixo x da curva. Ou seja:
\[X \sim N(\mu,\sigma^2) + a \equiv X \sim N(\mu+a,\sigma^2)\]
Essa equivalência não vale para todas as distribuições, conforme podemos ver abaixo:
df <-data.frame(normal1,normal2,expo1,expo2)cores <-c("Normal"="blue", "Exponencial"="red")ggplot(df) +geom_density(aes(normal1, col ="Normal")) +geom_density(aes(normal2, col ="Normal"), linetype ="dotted", linewidth =1) +geom_density(aes(expo1, col ="Exponencial")) +geom_density(aes(expo2, col ="Exponencial"), linetype ="dotted", linewidth =1) +theme_minimal() +xlim(c(0,10)) +xlab("") +scale_color_manual(values = cores, name ="")
Conforme podemos ver, o comportamento da normal se mantém muito semelhante, ao passo que o
Observações:
A parametrização da exponencial pode ser feita tanto com a média como com o inverso da média, isto é, \(\frac{1}{E[X]}\). No caso do R, a parametrização é feita com o inverso da média.
A densidade da exponencial é estritamente decrescente no intervalo \((0, \infty)\). No caso de uma exponencial somada a uma constante \(c\), é estritamente decrescente no invertalo \((c, \infty)\). O aparente comportamento de crescimento se dá pela curva ter sido construída em cima de uma amostragem da distribuição e não da curva teórica.
Por fim, tratemos dos cálculos de probabilidade.Não é possível, analiticamente, resolver a integral \(\displaystyle \int_{a}^{b} \frac{1}{\sqrt{2\pi\sigma}} e^{\frac{-(x-\mu)^2}{\sigma^2}} dx\). Como alternativa, recorre-se a métodos numéricos de solução. No caso da normal padrão, há a seguinte tabela que podemos utilizar para descobrir a probabilidade acumulada em cada ponto:
É comum denotar a função que retorna a probabilidade acumuladade uma normal padrão em um dado ponto como \(\phi\). Também se utiliza variável aleatória \(Z\) para denotar uma normal padrão, em que \(F(z) = P(Z <= z) = \phi(z)\).
No caso em que queremos obter o intervalo de uma normal com média e desvio padrão distintos de \(\mu\) e \(\sigma^2\), utilizamos a seguinte equivalência:
No R, podemos obter a normal acumulada com o comando pnorm. Verifiquemos que a probabilidade acumulada da normal com \(\mu = 3, \sigma^2 = 2\) ponto 5 é igual à probabilidade acumulada da normal padrão no ponto \(\frac{5-3}{\sqrt2}\)
pnorm(5,3,sqrt(2)) ==pnorm((5-3)/sqrt(2),0,1)
[1] TRUE
Exercícios
Acerca da distribuição normal, determine se as afirmativas abaixo são verdadeiras ou falsas:
Quanto maior for a variância, maior será a concentração de valores em uma amostra em torno da média.
As distribuição \(X \sim N(\mu, \sigma^2 + a)\) e \(Y \sim N(\mu, \sigma^2) + a\), em que \(a \neq = 0\), se equivalem.
Seja \(X \sim N(4,3)\). Calcule:
\(P(X>2)\)
\(P(X<1)\)
\(P(X < 2\, \cup X > 6)\)
Distribuição de Médias amostrais
A média amostral de \(n\) observaçõesde uma variável aleatória \(Z\) é dada por: \[\bar{Z} = \frac{Z_1+Z_2+\cdots + Z_n}{n}\]
Sejam \(X_1\) e \(X_2\) variáveis aleatória iid tais que \(X_1 \sim N(\mu,\sigma^2)\) e \(X_2 \sim N(\mu, \sigma^2)\). Um resultado importante, cuja demonstração não será discutida aqui, é que \(Y = X_1 + X_2\) possui distribuição normal com média \(2\; \mu\) e variância \(2 \; \sigma^2\). Ou seja, \(Y \sim N(2 \mu, 2 \sigma^2)\). Como \(Var \; [aX] = a^2 \;Var [X]\), segue que a média de \(X_1\) e \(X_2\) possui distribuição normal com média \(\frac{2 \mu}{2} = \mu\) e variância \(\frac{2 \sigma^2}{4} = \frac{\sigma^2}{2}\). Vale o caso geral que a distribuição da média de uma amostra tamanho \(n\) é dada por:
\[\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\]
Ou seja, conforme se aumenta o tamanho da amostra, diminui-se a variância da média amostra - para um número suficientemente grande de amostras, a diferença entre a média amostral e \(\mu\) será bem pequena.
x <-seq(-3,3,0.01)y1 <-dnorm(x,0,1)y2 <-dnorm(x,0,1/sqrt(2))y5 <-dnorm(x,0,1/sqrt(5))y100 <-dnorm(x,0,1/sqrt(100))df <-data.frame(x,y1,y2,y5,y100)ggplot(df) +aes(x) +geom_line(aes(y = y1), linewidth =1, col ="blue") +geom_line(aes(y = y2), linewidth =1, col ="green") +geom_line(aes(y = y5), linewidth =1, col ="red") +geom_line(aes(y = y100), linewidth =1, col ="grey") +theme_minimal()
Exercícios
1 - Utilizando o exercício 2 da questão anterior, calcule as mesmas probabilidades pedidas, porém o faça para a média amostral de tamanho 2, 5 e 10.
TCL
O Teorema Central do Limite nos diz que, para uma amostra suficientemente grande, a distribuição da média amostral de qualquer variável \(Y\) aleatória segue uma distribuição normal com parâmetros \(E[Y]\) e \(\frac{Var(Y)}{n}\), isto é, \(\bar{Y} \sim N(E[Y], \frac{Var\; (Y)}{n})\) para um \(n\) suficientemente grande.