Distribuição Amostral

Já que uma estatística (média, desvio) é uma variável aleatória que depende somente da amostra observada, ela deve ter uma distribuição de probabilidade.

Definição. A distribuição de probabilidade de uma estatística é chamada de distribuição amostral.

A distribuição amostral de um conjunto de dados estatístico depende do tamanho da população, do tamanho das amostras e do método de escolha das amostras.

Se estivermos amostrando uma população com distribuição desconhecida, seja finita ou infinita, a distribuição amostral da média ainda será aproximadamente Normal, com média \(\mu\) e variância \(\sigma^2\), se o tamanho da amostra é grande. Esse surpreendente resultado é uma consequência imediata do teorema do limite central.

Teorema do limite central

Se \(\bar{x}\) é a média da amostra aleatória de tamanho n, retirada de uma população com média \(\mu\) e variancia da média \(\frac{\sigma^2}{\sqrt{n}}\), então a forma limite da distribuição de

\begin{array} $z=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$ \end{array}

quando n tende a \(\infty\), é a distribuição normal N(z; 0,1).

Apresentação de dados em Gráficos

Gráficos estatísticos são usados para apresentar informação quantitativa na forma de ilustrações, o que facilita a compreensão e visualização dos dados.

De acordo com as normas da ABNT, os gráficos devem:

Elementos de um gráfico:

Erros mais comuns em gráficos

  1. Em geral, excesso de decoração é um problema.

  2. Ausência de um título, marcas e indicadores.

  3. Excesso de informação.

  4. Falta de dados.

  5. Má qualidade de impressão.

3.1 Histograma e Polígono de frequência

A representação gráfica dos valores associados a uma tabela de frequência, que costuma ser feita por meio de colunas justapostas, dá-se o nome de histograma.

Os histogramas podem ser emoldurados por linhas contínuas, abertas ou fechadas, compatíveis e adequadas às distribuições dos dados que pretendem retratar. em caso de frequências simples, a linha fechada de contorno externo é denominada linha característica, A linha característica que une os pontos médios das classes de frequências simples é dita linha de frequências; a que une os pontos médios das classes de frequências acumuladas, ogiva. Se os dados estão uniformemente distribuídos no intervalo, as linhas são compostas por segmentos de retas e definem a poligonal característica da distribuição, a qual permite a obtenção de valores intermediários por interpolação linear. Quando o número de intervalos tende a infinito, a linha de frequências é dita função de densidade dos dados; similarmente, a ogiva é denominada função de distribuição dos dados.

A linha de frequência é fechada no eixo das abcissas; para tanto, acrescenta-se à distribuição uma classe à esquerda e outra à direita, ambas com frequência zero. Destaca-se que a área sob a linha de frequências assim construída é igual a àrea do histograma.

A ogiva, por sua vez, por indicar os valores inferiores ou superiores a dado valor, é aberta de um de seus lados e fechada do outro. Uma das aplicações da ogiva é na determinação das separatrizes da distribuição.

O polígono de frequências e a ogiva produzem figuras regulares ou irregulares, simétricas ou assimétricas, alongadas ou afiladas e nas posições as mais díspares (como em J ou em U). A comparação de duas ou mais distribuições pode ser feita colocando-se os respectivos gráficos lado a lado ou um sobre o outro.

Exemplos-Gráficos: histogramas, polígonos de frequências e ogivas

dados<- c( 5.3, 6.4,  5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 
           6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9, 7.3, 
           5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9,
           5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1, 
           6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 
           6.8, 7.3, 6.9, 6.5, 5.9)

hist(dados, br=seq(4.5,15, by=1.5), density=20, 
     main="Histograma de frequência", ylab="frequência", ylim=c(0,30))

hist(dados, breaks= c(c(4.5,6), c(6,7.5), c(7.5,9), 
                      c(9,10.5), c(10.5,12), c(12,13.5), 
                      c(13.5,15)), xlim=c(4.5,17),  
     ylim=c(0,0.5), density=20, main="Histograma de frequência simples", ylab="frequência")

# usando o pacote agricolae
# install.packages("agricolae") ##instala somente uma vez
require (agricolae)
## Loading required package: agricolae

fig1<-graph.freq(dados,  breaks= seq(4.5,15, by=1.5),frequency = 1, 
                 density=10, ylab="Frequência absoluta", 
                 xlab="Tempo de carga(s)")
# frequency =1, indica a freq absoluta

polygon.freq(fig1, col="blue", lwd=2, frequency=1,density=10)
## Warning in plot.xy(xy.coords(x, y), type = type, ...): "density" não é um
## parâmetro gráfico
title("Exemplo 3.1 \n Histograma e Polígono de frequência absoluta")

fig2<-graph.freq(dados, breaks= seq(4.5,15, by=1.5), frequency = 2, 
                 density=15, ylab="Frequência relativa", 
                 xlab="Tempo de carga (s)")

polygon.freq(fig2,col="blue", lwd=2, frequency=2)
title("Exemplo 3.2 \n Histograma e Polígono de frequência relativa")

#frequency=2, indica a freq. relativa

fig3<-hist(dados, br=seq(4.5,15, by=1.5), 
    main="Exemplo 3.3 \n Histograma e Função densidade dos dados", 
    prob=TRUE,  ylab="Probabilidade")
lines(density(dados), col="blue")

#Ogiva

ogive.freq(fig1,col="red",type="b",
           ylab="Frquência relativa acumulada", 
           xlab="Tempo de carga (s)", main="Exemplo 3.4 \n Ogiva")
##   Tempo de carga (s)  RCF
## 1                4.5 0.00
## 2                6.0 0.50
## 3                7.5 0.84
## 4                9.0 0.94
## 5               10.5 0.98
## 6               12.0 0.98
## 7               13.5 0.98
## 8               15.0 1.00
## 9               16.5 1.00
arrows(7.5, 0, 7.5,0.82, length=0.25, angle=10, lty=1, col=3)
arrows(0, 0.83, 7.4,0.83,length=0.25, angle=10, lty=1, col=3)

Poligono de frequência usando as funções normais do R

hist2<-hist(dados, br=seq(4.5,15, by=1.5), density=20, 
            main="Polígono de frequência ", 
            ylab="frequência")
lines(c(min(hist2$breaks), hist2$mids, max(hist2$breaks)), 
      c(0, hist2$counts,0), type="l", col="4")

Gráfico de barras

Tabela 3.1 Opinião dos brasileiros sobre determinado técnico de futebol

resp<-c("bom", "reg","ruim", "nao sabe")
freq<-c("fr")
not<-matrix(c(52,18,5,25), nc=4, dimnames=list(freq,resp))
not.t<-as.table(not)
barplot(not.t, main="Exemplo 3.5 \n Gráfico de barras", 
        ylim=c(0,60), xlab="Respostas", 
        ylab="Frequência (%)", col=3, density=10)

#text(locator(n=4), paste(not.t, "%"), cex=1.5)

Gráfico de dispersão

plot(cars, main="Exemplo 3.7 \n Gráfico de dispersão")

Diagrama de caixa (Box-plot)

dados<-c(17,22,23,27,29,32,38,42,46,52,60,92)

boxplot(dados, main="Exemplo 3.6 \n Box-Plot ou gráfico de caixa e bigode")

help(boxplot)

Distribuições de probabilidade

O histograma é usado para descrever dados de uma amostra. Uma amostra é um conjunto de medidas selecionado de uma população maior, por exemplo, os 125 diâmetros dos anéis de pistons da tabela 3.3 são uma amostra dos diâmetros selecionada do processo de produção. A população neste exemplo é o conjunto de todos os anéis de pistons produzidos por este processo.

Uma distribuição de probabilidade é um modelo matemático que relaciona o valor da variável com a probabilidade de ocorrência daquele valor na população. Em outras palavras, podemos visualizar o diâmetro das arvores como uma variável aleatória, porque ele assume diferentes valores na população de acordo com algum mecânismo aleatório, e, assim a dstribuição de probabilidade dos diâmetros dos anéis descreve a probabilidade de ocorrência de qualquer valor do diâmetro na população. Há dois tipos de distribuição de probabilidade.

DEFINIÇÃO

1. Distribuições continuas. Quando a variável sendo medida é expressa em uma escala contínua; sua distribuição de probabilidade é chamada distribuição contínua. A distribuição de probabilidade dos diâmetros de uma árvore é contínua.

2. Distribuições discretas. Quando o parâmetro sendo medido só pode assumir certos valores, tais como os inteiros 0,1,2,…, a distribuição de probabilidade é chamada distribuição discreta. Por exemplo, a distribuição do número de sementes germinadas seria uma variável discreta.

A probabilidade de uma variável aleatória x assumir o valor \(x_i\) é indicada por:

\(P(x=x_i) = p(x_i)\)

A aparência de uma distribuição contínua é a de uma curva suave, com a área sob a curva sendo igual à probabilidade, de modo que a probabilidade de x está no intervalo entre a e b é escrita como:

\(P(a \leq x \leq b) = \int_{a}^{b}f(x)dx\)

x<- seq(70, 130, len = 100)
fx <- dnorm(x, 100, 8)
plot(x, fx, type = "l")

Figura 6.1 Distribuição de probabilidade contínua.

\newpage

Distribuição de Probabilidade Contínua - Distribuição Normal

A distribuição normal é, provavelmente, a mais importante distribuição, tanto na teoria quanto na prática da estatística. Se x é uma variável aleatória normal, então a distribuição de probabilidade de x é definida como segue.

DEFINIÇÃO

A distribuição normal ou função de densidade normal é

\(f(x) = \frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}\) \({-\infty} < x < {\infty}\)

aonde \(f(x)\) indica a altura da ordenada da curva, que representa a densidade dos dados; é a variável dependente, sendo função da variável independente x. Existe na equação anterior duas constantes: \(\pi\), que como sabemos é 3,14159; a outra constante é e, a base dos logaritmos naturais, cujo valor aproximado é 2,71828. Existem dois parâmetros na função de densidade normal: a média paramétrica \(\mu\) e o desvio padrão paramétrico \(\sigma\), que determina a forma e a localização da distribuição.

A média da distribuição normal é \(\mu\) (\({-\infty} < \mu < {\infty}\)) e a variância é \(\sigma^2 > 0\)

A distribuição normal é tão usada que frequentemente usamos uma notação especial, \(x \sim N (\mu, \sigma^2)\)

As probabilidades de eventos associados a uma variável aleatória contínua X podem ser calculadas através de uma função densidade de probabilidade f, que deve satisfazer:

Se A = [a,b], então P(A) = \(\int_{a}^{b}f(x)dx\)

Não existe uma única distribuição normal, como poderia aparecer, mas existe uma infinidade de tais curvas, dado que os parâmetros podem tomar um número infinito de valores (Figura 7.1 e 7.2).

par(mfrow=c(2,1))
x<- seq(0, 50, len = 100)
fx1<-dnorm(x, 25,8)
plot(x, fx1, type = "l", frame.plot = FALSE, yaxt="n")
mtext(expression(sigma==8), line=0.5)
mtext(expression(mu==25), line=1.5)

x2<- seq(75, 125, len = 100)
fx2<-dnorm(x2, 100,8)
plot(x2, fx2, type = "l", frame.plot=FALSE, yaxt="n", xlab = "Figura 7.1 Mesma forma, com localizações diferentes")
mtext(expression(sigma==8), line=0.5)
mtext(expression(mu==100), line=1.5)

#mesma localização
x3<- seq(50, 150, len = 100)
fx3<-dnorm(x3, 100,8)
plot(x3, fx3, type = "l",frame.plot=FALSE, yaxt="n")
mtext(expression(sigma==8), line=0.5)
mtext(expression(mu==100), line=1.5)

x4<- seq(50, 150, len = 100)
fx4<-dnorm(x4, 100,15)
plot(x4, fx4, type = "l", frame.plot=FALSE, yaxt="n", xlab= "Figura 7.2 Mesma localização, com formas diferentes")
mtext(expression(sigma==15), line=0.5)
mtext(expression(mu==100), line=1.5)

Quando uma variável aleatória x tem uma distribuição normal de probabilidade com parâmetros \(\mu\) e \(\sigma\); e precisamos calcular a probabilidade de x está entre dois valores a e b, ou seja para calcularmos o valor de \(P(a \leq x \leq b)\), precisamos calcular:

\(\int_{a}^{b}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\)

Nenhuma das técnicas comuns de integração pode ser usada para avaliar a expressão acima. Entretanto, usando a mudança de variável \(*z* = \frac{x-\mu}{\sigma}\)

O cálculo pode ser feito independetemente de \(\mu\) e \({\sigma}^2\).

7.1 Distribuição normal padrão

A distribuição normal com parâmetros \(\mu = 0\) e \(\sigma = 1\) é chamada de distribuição normal padrão. A escala horizontal do gráfico da distribuição normal padrão corresponde aos escores de z. Na seção 4.6, você aprendeu que um escore z é uma medida de posição que indica o número de desvios padrão de um valor a partir da média. Você pode transformar um valor x em um escore z usando a seguinte fórmula:

\(z = \frac{valor-média}{desvio padrão} = \frac{x-\mu}{\sigma}\)

A variável aleatória que tem uma distribuição normal padrão é chamada variável normal padrão e será indicada por z. A função distribuição de probabilidade de z é:

\(f(z;0,1)=\frac{1}{\sqrt{2\pi}}\).\(e^{-\frac{x^2}{2}}\)

A curva característica de uma distribuição normal é simétrica em relação à média. Portanto, a média, a mediana e a moda estão todas sobre o mesmo ponto. As seguintes porcentagens dos dados em uma distribuição normal se extende dentro dos seguintes limítes:

\(\mu \pm \sigma\) contém 68,26% dos dados

\(\mu \pm 2\sigma\) contém 95,44% dos dados

\(\mu \pm 3\sigma\) contém 99,73% dos dados

\(\mu \pm 4\sigma\) contém 99,99% dos dados

Inversamente:

50% dos dados cai dentro dos limítes \(\mu \pm 0,674\sigma\)

95% dos dados cai dentro dos limítes \(\mu \pm 1,960\sigma\)

99% dos dados cai dentro dos limítes \(\mu \pm 2,576\sigma\)

Veja a figura 7.3

figura7.3Image

figura7.3Image

Figura 7.3 distribuição dos percentuais em função do número de desvios-padrão.

Propriedades da distribuição Normal padrão

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
mtext("Área = 1", line=-5.5)

Figura 7.4 Distribuição normal padrão \((\mu=0; \sigma=1)\)

Por causa da importância das áreas sob a curva normal padrão, tabelas dessas áreas foram construídas (Tabela 7.1). Os valores no corpo da tabela, representam a área sob a curva entre 0 e um valor especificado de z.

Tabela 7.1 Áreas (probabilidades)sob a curva normal padrão.

Segunda casa decimal de z
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0 0,004 0,008 0,012 0,016 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,091 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,148 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,17 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,195 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,219 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,258 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,291 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,334 0,3365 0,3389
1 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,377 0,379 0,381 0,383
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,398 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,437 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,475 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,483 0,4834 0,4838 0,4842 0,4846 0,485 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,489
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,492 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,494 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,496 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,497 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,498 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,499 0,499

Observação: A área é dada do zero até “z”.

7.2 Usando a tabela normal padrão

Exemplo 7.1 - Determine a área acumulada que corresponde ao escore z de 1,15.

Solução Encontre 1,1 na coluna à esquerda e então movendo pela linha até a coluna sob 0,05. A interseção da linha com a coluna corresponde ao número 0,3749. Assim, a área de 0 até 1,15 é 0,3749.

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<-1.15
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(0.5,0.2, "área = \n 0,3749")

Observe que este valor corresponde a solução da integral, com \(\sigma\)=1 e \(\mu\)=0:

\(\int_{0}^{1.15}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\) =

fn <- function(x) {
     fx <- dnorm(x,0,1)
     return(fx)
}
integrate(fn, 0, 1.15)
## 0.3749281 with absolute error < 4.2e-15

Exemplo 7.2 - Determine a área acumulada que corresponde ao escore z de -0,24.

Encontre 0,2 na coluna à esquerda e movendo-se então pela linha até a coluna sob 0,04. O número naquela linha e coluna é 0,0948. Como a curva é simétrica, a área que corresponde a z=-0,24 é 0,0948. Observe que não existe probabilidade negativa.

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<--0.24
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF")
text(-0.4,0.2, "área = \n 0,0948")

Exemplo 7.3 Determine a área sob a curva normal padrão à direita de z = 2,37.

Solução

A área total sob a curva é 1; e a curva é simétrica com relação a 0. Portanto, a área total à direita de z = 0 é 0,5. Da tabela vemos que a área entre 0 e 2,37 é 0,4911. Então a área à direita de z=2,37 é: 0,500 - 0,4911 = 0,0089.

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<-2.37
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF", density = c(10,20))
c<-2.37
d<-3.5
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF")
text(0.5,0.2, "área = \n 0,4911")
text(3.0,0.05, "0,0089")
mtext("área = 0,500 - 0,4911 = 0,0089", adj=1)

fn <- function(x) {
     fx <- dnorm(x,0,1)
     return(fx)
}
integrate(fn, 2.37, +Inf)
## 0.008894043 with absolute error < 7.9e-07

Exemplo 7.4 - Determine a área sob a curva normal padrão entre z = 0,35 e z = 1,47.

Solução

Pela tabela, a área entre z = 0 e z = 0,35 é 0,1368 e a área entre z=0 e z=1,47 é 0,4292. Portanto, a área entre z=0,35 e z=1,47 é igual á diferença entre as duas áreas, ou seja:

Área = 0,4292 - 0,1368 = 0,2924

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
e<-0
f<-0.35
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(e,seq(e,f,l=20),f),y=c(0,dnorm(seq(e,f, l=20)),0) ,col="#BFBFBF")
g<-0
h<-1.47
polygon(x=c(g,seq(g,h,l=20),h),y=c(0,dnorm(seq(g,h, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(0.5,0.2, "0,1368")
text(2.0,0.05, "0,4292")
mtext("área=0,4292-0,1368 = 0,2924", adj=1)

fn <- function(x) {
     fx <- dnorm(x,0,1)
     return(fx)
}
integrate(fn, 0.35, 1.47)
## 0.2923885 with absolute error < 3.2e-15

ORIENTAÇÕES GERAIS

  1. Esboce a curva normal padrão e hachure a área apropriada sob a curva.

  2. Obtenha a área por meio dos procedimentos a seguir para cada caso mostrado.

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a1<-0
b1<-1.23
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a1,seq(a1,b1,l=20),b1),y=c(0,dnorm(seq(a1,b1, l=20)),0) ,col="#DFDFDF")
a2<--3.5
b2<- 1.23
polygon(x=c(a2,seq(a2,b2,l=20),b2),y=c(0,dnorm(seq(a2,b2, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(-0.7,0.2, "0,5")
text(0.6,0.1, "0,3907")

mtext("área = 0,5+0,3907=0,8907", adj=1)

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<-1.23
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF", density = c(10,20))
c<-1.23
d<-3.5
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF")
text(0.5,0.2, "área = \n 0,3907")
text(3.0,0.05, "0,1093")
mtext("área = 0,500 - 0,3907 = 0,1093", adj=1)

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
e<-0
f<-1.1
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(e,seq(e,f,l=20),f),y=c(0,dnorm(seq(e,f, l=20)),0) ,col="#BFBFBF")
g<-0
h<-3.0
polygon(x=c(g,seq(g,h,l=20),h),y=c(0,dnorm(seq(g,h, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(0.5,0.2, "0,3643")
text(2.0,0.05, "0,4987")
mtext("área=0,4987-0,3643 = 0,1344", adj=1)

par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
e<--1.76
f<- 0
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(e,seq(e,f,l=20),f),y=c(0,dnorm(seq(e,f, l=20)),0) ,col="#BFBFBF")
g<-0
h<-2.23
polygon(x=c(g,seq(g,h,l=20),h),y=c(0,dnorm(seq(g,h, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(-1.0,0.1, "0,4608")
text(1.0,0.1, "0,4871")
mtext("área=0,4608-0,4871 = 0,9479", adj=1)

Exercício 7.1 (Utilização da Tabela Normal padrão)

  1. Qual é a média da distribuição normal padrão? Qual é o desvio da distribuição normal padrão?

  2. Descreva como você pode transformar uma distribuição normal qualquer em uma distribuição normal padrão?

  3. Nos exercícios 1-11, determine a área indicada sob a curva normal padrão.

  1. Nos exercícios 1-10, determine a probabilidade indicada usando a distribuição normal padrão.

Distribuições Normais: determinando probabilidades

Se uma variável aleatória x é distribuída normalmente, é possível obter a probabilidade de que x caia em um determinado intervalo calculando a área sob a curva normal para o intervalo dado.

Para determinar a área sob qualquer curva normal , é preciso converter os limites superior e inferior do intervalo para o escore z. Depois, é aplicada a distribuição normal padrão para obter a área.

Considere, uma curva normal com \(\mu=500\) e \(\sigma=100\), conforme a primeira figura. O valor de x um desvio padrão acima da média é \(\mu + \sigma = 500 + 100 = 600\). Considere então a curva normal padrão exibida na segunda figura. O valor de z um desvio padrão acima da média é \(\mu + \sigma = 0 + 1 = 1\). Uma vez que o escore z de 1 corresponde a um valor *x de 600 e as áreas não são modificadas com uma transformação para a curva normal padrão, as áreas sombreadas nos dois gráficos são iguais.

par(mfrow=c(2,1))
x<- seq(200, 800, len = 100)
f1<-function(x){
     fx<-dnorm(x,500,100)
     return(fx)
}
fx <- dnorm(x, 500, 100)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
j<-200
k<-600
polygon(x=c(j,seq(j,k,l=20),k),y=c(0,f1(seq (j,k, l=20)),0) ,col="#DFDFDF", density = c(10,20))
mtext(expression(sigma==100), line=0.5)
mtext(expression(mu==500), line=1.5)
abline(v=500, col=2, lwd=1, lty=1)
abline(v=600, col=1, lwd=1, lty=2)

z<- seq(-3.0, 3.0, len = 100)
fz <- dnorm(z, 0, 1)
plot(z, fz, type = "l", frame.plot = FALSE, yaxt="n")
c<--3.5
d<-1
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF", density=c(10,20))
mtext(expression(sigma==1), line=0.5)
mtext(expression(mu==0), line=1.5)
abline(v=0, col=2, lwd=1, lty=1)
abline(v=1, col=1, lwd=1, lty=2)

Determinação de áreas sob uma curva normal com parâmetros \(\mu\) e \(\sigma\)

Exemplo 7.4 - Determine a área sob a curva normal com parâmetros \(\mu=100\) e \(\sigma=16\) que se encontra à direita de 120.

Solução

par(mfrow=c(2,1))
x<- seq(40, 160, len = 100)
f1<-function(x){
     fx<-dnorm(x,100,16)
     return(fx)
}
fx <- dnorm(x, 100, 16)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-120
m<-160
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF", density = c(10,20))
mtext(expression(sigma==16), line=0.5)
mtext(expression(mu==100), line=1.5)
abline(v=100, col=2, lwd=1, lty=1)
abline(v=120, col=1, lwd=1, lty=2)

z<- seq(-3.5, 3.5, len = 100)
fz <- dnorm(z, 0, 1)
plot(z, fz, type = "l", frame.plot = FALSE, yaxt="n")
c<-1.25
d<-3
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF", density=c(10,20))
mtext(expression(sigma==1), line=0.5)
mtext(expression(mu==0), line=1.5)
abline(v=0, col=2, lwd=1, lty=1)
abline(v=1.25, col=1, lwd=1, lty=2)

Determinação de z:

x=120

\(z = \frac{x - \mu}{\sigma} = \frac{120-100}{16}\) = 1,25

área entre 0 e 1,25 = 0,3944

área final = 0,500 - 0,3944 = 0,1056

Exemplo 7.5

Certo tipo de germinador portátil, dura, em média, três anos, com desvio-padrão de 0,5 ano. Assumindo que a vida dos germinadores portáteis é distribuída normalmente, encontre a probabilidade de que certo armazenador dure pelo menos 2,3 anos.

Solução: Primeiro, construa o diagrama, mostrando a distribuição da vida do acumulador e a área desejada.

par(mfrow=c(1,1))
x<- seq(1, 5, len = 100)
f1<-function(x){
     fx<-dnorm(x,3,0.5)
     return(fx)
}
fx <- dnorm(x, 3, 0.5)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-0
m<-2.3
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF")
mtext(expression(sigma==0.5), line=0.5)
mtext(expression(mu==3), line=1.5)
abline(v=3, col=2, lwd=1, lty=1)

Para determinar P(x < 2,3), precisamos avaliar a área abaixo da curva normal à esquerda de 2,3. Para isso, vamos determinar o valor de z correspondente:

\(z = \frac{2,3 - 3}{0,5}\) = -1,4

Então, usando a Tabela Normal, temos

P(X < 2,3) = P(z < -1,4)

= 0,5 - P(-1,4 < z < 0) = 0,5 - 0,4192

= 0,0808 ou 8,08%.

Portanto, estimamos que as chances do armazenador durar pelo menos 2,3 anos é de 8,08%.

Exemplo 7.6

Uma indústria fabrica lâmpadas para utilização em chocadeiras elétricas que têm vida útil, antes de queimarem, normalmente distribuída com média igual a 800 horas e desvio-padrão de 40 horas. Encontre a probabilidade de que uma destas lâmpadas queime entre 778 e 834 horas.

Solução: A distribuição da vida útil das lâmpadas é ilustrada na figura abaixo.

par(mfrow=c(1,1))
x<- seq(680, 920, len = 100)
f1<-function(x){
     fx<-dnorm(x,800,40)
     return(fx)
}
fx <- dnorm(x, 800, 40)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-778
m<-834
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF")
mtext(expression(sigma==40), line=0.5)
mtext(expression(mu==800), line=1.5)
abline(v=800, col=2, lwd=1, lty=1)

Os valores de z correspondentes a \(x_1\) = 778 e \(x_2\) = 834 são:

\(z_1 = \frac{778-899}{40}\)= -0,55

\(z_2 = \frac{834-800}{40}\)= 0,85

Então,

P(778 < x < 834) = P(-0,55 < z < 0,85) =

P(0 < z < 0,85)+P(-0,55 < z < 0) =

0,3023+0,2088 = 0,5111 ou 51,11%

Portanto, a probabilidade de uma lâmpada queime entre 778 e 834 horas é de 51,1%.

Exemplo 7.7 Em um processo para produção de mudas, o diâmetro do coleto é uma parte importante do processo. Um padrão de qualidade para estas mudas determina que as especificações para o diâmetro sejam 3,0 \(\pm\) 0,01 cm. A consequência é que nenhuma muda fora dessas especificações será aceita. Sabe-se que, no processo, o diâmetro do coleto tem distribuição normal com média \(\mu\) = 3,0 e desvio-padrão \(\sigma\)=0,05. Em média, quantas mudas serão rejeitadas?

Solução: A distribuição dos diâmetros é ilustrada na figura abaixo.

par(mfrow=c(1,1))
x<- seq(2.985, 3.015, len = 100)
f1<-function(x){
     fx<-dnorm(x,3, 0.005)
     return(fx)
}

fx <- dnorm(x, 3.0, 0.005)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-2.985
m<-2.99
n<-3.01
p<-3.015     
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF")

polygon(x=c(n,seq(n,p,l=20),p),y=c(0,f1(seq(n, p,l=20)),0) ,col="#DFDFDF")
mtext(expression(sigma==0.005), line=0.5)
mtext(expression(mu==3.0), line=1.5)
abline(v=3.0, col=2, lwd=1, lty=1)

Os valores correspondentes aos limites das especificações são \(x_1\) = 2,99 e \(x_2\) = 3,01. Os valores de z correspondentes são

\(z_1 = \frac{2,99-3,0}{0,005}=-2,0\)

\(z_2 = \frac{3,01-3,0}{0,005}=+2,0\)

Assim,

P(2,99 < x < 3,01) = P(-2,0 < z < +2,0)

= [0,5-P(-2,0 < z < 0)]+[0,5-P(0 < z < +2,0)] = [0,5-0,4772]+[0,5-0,4772]
= 0,0456 ou 4,56%

Portanto, como resultado, antecipamos, que em média, 4,56% das mudas serão inutilizados.

Exercício (Curvas Normais)