Já que uma estatística (média, desvio) é uma variável aleatória que depende somente da amostra observada, ela deve ter uma distribuição de probabilidade.
Definição. A distribuição de probabilidade de uma estatística é chamada de distribuição amostral.
A distribuição amostral de um conjunto de dados estatístico depende do tamanho da população, do tamanho das amostras e do método de escolha das amostras.
Se estivermos amostrando uma população com distribuição desconhecida, seja finita ou infinita, a distribuição amostral da média ainda será aproximadamente Normal, com média \(\mu\) e variância \(\sigma^2\), se o tamanho da amostra é grande. Esse surpreendente resultado é uma consequência imediata do teorema do limite central.
Se \(\bar{x}\) é a média da amostra aleatória de tamanho n, retirada de uma população com média \(\mu\) e variancia da média \(\frac{\sigma^2}{\sqrt{n}}\), então a forma limite da distribuição de
\begin{array} $z=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$ \end{array}quando n tende a \(\infty\), é a distribuição normal N(z; 0,1).
Gráficos estatísticos são usados para apresentar informação quantitativa na forma de ilustrações, o que facilita a compreensão e visualização dos dados.
De acordo com as normas da ABNT, os gráficos devem:
Elementos de um gráfico:
Erros mais comuns em gráficos
Em geral, excesso de decoração é um problema.
Ausência de um título, marcas e indicadores.
Excesso de informação.
Falta de dados.
Má qualidade de impressão.
A representação gráfica dos valores associados a uma tabela de frequência, que costuma ser feita por meio de colunas justapostas, dá-se o nome de histograma.
Os histogramas podem ser emoldurados por linhas contínuas, abertas ou fechadas, compatíveis e adequadas às distribuições dos dados que pretendem retratar. em caso de frequências simples, a linha fechada de contorno externo é denominada linha característica, A linha característica que une os pontos médios das classes de frequências simples é dita linha de frequências; a que une os pontos médios das classes de frequências acumuladas, ogiva. Se os dados estão uniformemente distribuídos no intervalo, as linhas são compostas por segmentos de retas e definem a poligonal característica da distribuição, a qual permite a obtenção de valores intermediários por interpolação linear. Quando o número de intervalos tende a infinito, a linha de frequências é dita função de densidade dos dados; similarmente, a ogiva é denominada função de distribuição dos dados.
A linha de frequência é fechada no eixo das abcissas; para tanto, acrescenta-se à distribuição uma classe à esquerda e outra à direita, ambas com frequência zero. Destaca-se que a área sob a linha de frequências assim construída é igual a àrea do histograma.
A ogiva, por sua vez, por indicar os valores inferiores ou superiores a dado valor, é aberta de um de seus lados e fechada do outro. Uma das aplicações da ogiva é na determinação das separatrizes da distribuição.
O polígono de frequências e a ogiva produzem figuras regulares ou irregulares, simétricas ou assimétricas, alongadas ou afiladas e nas posições as mais díspares (como em J ou em U). A comparação de duas ou mais distribuições pode ser feita colocando-se os respectivos gráficos lado a lado ou um sobre o outro.
dados<- c( 5.3, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5,
6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9, 7.3,
5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9,
5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,
6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0,
6.8, 7.3, 6.9, 6.5, 5.9)
hist(dados, br=seq(4.5,15, by=1.5), density=20,
main="Histograma de frequência", ylab="frequência", ylim=c(0,30))
hist(dados, breaks= c(c(4.5,6), c(6,7.5), c(7.5,9),
c(9,10.5), c(10.5,12), c(12,13.5),
c(13.5,15)), xlim=c(4.5,17),
ylim=c(0,0.5), density=20, main="Histograma de frequência simples", ylab="frequência")
# usando o pacote agricolae
# install.packages("agricolae") ##instala somente uma vez
require (agricolae)
## Loading required package: agricolae
fig1<-graph.freq(dados, breaks= seq(4.5,15, by=1.5),frequency = 1,
density=10, ylab="Frequência absoluta",
xlab="Tempo de carga(s)")
# frequency =1, indica a freq absoluta
polygon.freq(fig1, col="blue", lwd=2, frequency=1,density=10)
## Warning in plot.xy(xy.coords(x, y), type = type, ...): "density" não é um
## parâmetro gráfico
title("Exemplo 3.1 \n Histograma e Polígono de frequência absoluta")
fig2<-graph.freq(dados, breaks= seq(4.5,15, by=1.5), frequency = 2,
density=15, ylab="Frequência relativa",
xlab="Tempo de carga (s)")
polygon.freq(fig2,col="blue", lwd=2, frequency=2)
title("Exemplo 3.2 \n Histograma e Polígono de frequência relativa")
#frequency=2, indica a freq. relativa
fig3<-hist(dados, br=seq(4.5,15, by=1.5),
main="Exemplo 3.3 \n Histograma e Função densidade dos dados",
prob=TRUE, ylab="Probabilidade")
lines(density(dados), col="blue")
#Ogiva
ogive.freq(fig1,col="red",type="b",
ylab="Frquência relativa acumulada",
xlab="Tempo de carga (s)", main="Exemplo 3.4 \n Ogiva")
## Tempo de carga (s) RCF
## 1 4.5 0.00
## 2 6.0 0.50
## 3 7.5 0.84
## 4 9.0 0.94
## 5 10.5 0.98
## 6 12.0 0.98
## 7 13.5 0.98
## 8 15.0 1.00
## 9 16.5 1.00
arrows(7.5, 0, 7.5,0.82, length=0.25, angle=10, lty=1, col=3)
arrows(0, 0.83, 7.4,0.83,length=0.25, angle=10, lty=1, col=3)
hist2<-hist(dados, br=seq(4.5,15, by=1.5), density=20,
main="Polígono de frequência ",
ylab="frequência")
lines(c(min(hist2$breaks), hist2$mids, max(hist2$breaks)),
c(0, hist2$counts,0), type="l", col="4")
Tabela 3.1 Opinião dos brasileiros sobre determinado técnico de futebol
resp<-c("bom", "reg","ruim", "nao sabe")
freq<-c("fr")
not<-matrix(c(52,18,5,25), nc=4, dimnames=list(freq,resp))
not.t<-as.table(not)
barplot(not.t, main="Exemplo 3.5 \n Gráfico de barras",
ylim=c(0,60), xlab="Respostas",
ylab="Frequência (%)", col=3, density=10)
#text(locator(n=4), paste(not.t, "%"), cex=1.5)
plot(cars, main="Exemplo 3.7 \n Gráfico de dispersão")
dados<-c(17,22,23,27,29,32,38,42,46,52,60,92)
boxplot(dados, main="Exemplo 3.6 \n Box-Plot ou gráfico de caixa e bigode")
help(boxplot)
O histograma é usado para descrever dados de uma amostra. Uma amostra é um conjunto de medidas selecionado de uma população maior, por exemplo, os 125 diâmetros dos anéis de pistons da tabela 3.3 são uma amostra dos diâmetros selecionada do processo de produção. A população neste exemplo é o conjunto de todos os anéis de pistons produzidos por este processo.
Uma distribuição de probabilidade é um modelo matemático que relaciona o valor da variável com a probabilidade de ocorrência daquele valor na população. Em outras palavras, podemos visualizar o diâmetro das arvores como uma variável aleatória, porque ele assume diferentes valores na população de acordo com algum mecânismo aleatório, e, assim a dstribuição de probabilidade dos diâmetros dos anéis descreve a probabilidade de ocorrência de qualquer valor do diâmetro na população. Há dois tipos de distribuição de probabilidade.
DEFINIÇÃO
1. Distribuições continuas. Quando a variável sendo medida é expressa em uma escala contínua; sua distribuição de probabilidade é chamada distribuição contínua. A distribuição de probabilidade dos diâmetros de uma árvore é contínua.
2. Distribuições discretas. Quando o parâmetro sendo medido só pode assumir certos valores, tais como os inteiros 0,1,2,…, a distribuição de probabilidade é chamada distribuição discreta. Por exemplo, a distribuição do número de sementes germinadas seria uma variável discreta.
A probabilidade de uma variável aleatória x assumir o valor \(x_i\) é indicada por:
\(P(x=x_i) = p(x_i)\)
A aparência de uma distribuição contínua é a de uma curva suave, com a área sob a curva sendo igual à probabilidade, de modo que a probabilidade de x está no intervalo entre a e b é escrita como:
\(P(a \leq x \leq b) = \int_{a}^{b}f(x)dx\)
x<- seq(70, 130, len = 100)
fx <- dnorm(x, 100, 8)
plot(x, fx, type = "l")
Figura 6.1 Distribuição de probabilidade contínua.
\newpageA distribuição normal é, provavelmente, a mais importante distribuição, tanto na teoria quanto na prática da estatística. Se x é uma variável aleatória normal, então a distribuição de probabilidade de x é definida como segue.
DEFINIÇÃO
A distribuição normal ou função de densidade normal é
\(f(x) = \frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}\) \({-\infty} < x < {\infty}\)
aonde \(f(x)\) indica a altura da ordenada da curva, que representa a densidade dos dados; é a variável dependente, sendo função da variável independente x. Existe na equação anterior duas constantes: \(\pi\), que como sabemos é 3,14159; a outra constante é e, a base dos logaritmos naturais, cujo valor aproximado é 2,71828. Existem dois parâmetros na função de densidade normal: a média paramétrica \(\mu\) e o desvio padrão paramétrico \(\sigma\), que determina a forma e a localização da distribuição.
A média da distribuição normal é \(\mu\) (\({-\infty} < \mu < {\infty}\)) e a variância é \(\sigma^2 > 0\)
A distribuição normal é tão usada que frequentemente usamos uma notação especial, \(x \sim N (\mu, \sigma^2)\)
As probabilidades de eventos associados a uma variável aleatória contínua X podem ser calculadas através de uma função densidade de probabilidade f, que deve satisfazer:
Se A = [a,b], então P(A) = \(\int_{a}^{b}f(x)dx\)
Não existe uma única distribuição normal, como poderia aparecer, mas existe uma infinidade de tais curvas, dado que os parâmetros podem tomar um número infinito de valores (Figura 7.1 e 7.2).
par(mfrow=c(2,1))
x<- seq(0, 50, len = 100)
fx1<-dnorm(x, 25,8)
plot(x, fx1, type = "l", frame.plot = FALSE, yaxt="n")
mtext(expression(sigma==8), line=0.5)
mtext(expression(mu==25), line=1.5)
x2<- seq(75, 125, len = 100)
fx2<-dnorm(x2, 100,8)
plot(x2, fx2, type = "l", frame.plot=FALSE, yaxt="n", xlab = "Figura 7.1 Mesma forma, com localizações diferentes")
mtext(expression(sigma==8), line=0.5)
mtext(expression(mu==100), line=1.5)
#mesma localização
x3<- seq(50, 150, len = 100)
fx3<-dnorm(x3, 100,8)
plot(x3, fx3, type = "l",frame.plot=FALSE, yaxt="n")
mtext(expression(sigma==8), line=0.5)
mtext(expression(mu==100), line=1.5)
x4<- seq(50, 150, len = 100)
fx4<-dnorm(x4, 100,15)
plot(x4, fx4, type = "l", frame.plot=FALSE, yaxt="n", xlab= "Figura 7.2 Mesma localização, com formas diferentes")
mtext(expression(sigma==15), line=0.5)
mtext(expression(mu==100), line=1.5)
Quando uma variável aleatória x tem uma distribuição normal de probabilidade com parâmetros \(\mu\) e \(\sigma\); e precisamos calcular a probabilidade de x está entre dois valores a e b, ou seja para calcularmos o valor de \(P(a \leq x \leq b)\), precisamos calcular:
\(\int_{a}^{b}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\)
Nenhuma das técnicas comuns de integração pode ser usada para avaliar a expressão acima. Entretanto, usando a mudança de variável \(*z* = \frac{x-\mu}{\sigma}\)
O cálculo pode ser feito independetemente de \(\mu\) e \({\sigma}^2\).
A distribuição normal com parâmetros \(\mu = 0\) e \(\sigma = 1\) é chamada de distribuição normal padrão. A escala horizontal do gráfico da distribuição normal padrão corresponde aos escores de z. Na seção 4.6, você aprendeu que um escore z é uma medida de posição que indica o número de desvios padrão de um valor a partir da média. Você pode transformar um valor x em um escore z usando a seguinte fórmula:
\(z = \frac{valor-média}{desvio padrão} = \frac{x-\mu}{\sigma}\)
A variável aleatória que tem uma distribuição normal padrão é chamada variável normal padrão e será indicada por z. A função distribuição de probabilidade de z é:
\(f(z;0,1)=\frac{1}{\sqrt{2\pi}}\).\(e^{-\frac{x^2}{2}}\)
A curva característica de uma distribuição normal é simétrica em relação à média. Portanto, a média, a mediana e a moda estão todas sobre o mesmo ponto. As seguintes porcentagens dos dados em uma distribuição normal se extende dentro dos seguintes limítes:
\(\mu \pm \sigma\) contém 68,26% dos dados
\(\mu \pm 2\sigma\) contém 95,44% dos dados
\(\mu \pm 3\sigma\) contém 99,73% dos dados
\(\mu \pm 4\sigma\) contém 99,99% dos dados
Inversamente:
50% dos dados cai dentro dos limítes \(\mu \pm 0,674\sigma\)
95% dos dados cai dentro dos limítes \(\mu \pm 1,960\sigma\)
99% dos dados cai dentro dos limítes \(\mu \pm 2,576\sigma\)
Veja a figura 7.3
figura7.3Image
Figura 7.3 distribuição dos percentuais em função do número de desvios-padrão.
Propriedades da distribuição Normal padrão
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
mtext("Área = 1", line=-5.5)
Figura 7.4 Distribuição normal padrão \((\mu=0; \sigma=1)\)
Por causa da importância das áreas sob a curva normal padrão, tabelas dessas áreas foram construídas (Tabela 7.1). Os valores no corpo da tabela, representam a área sob a curva entre 0 e um valor especificado de z.
Tabela 7.1 Áreas (probabilidades)sob a curva normal padrão.
Segunda | casa | decimal | de | z | ||||||
---|---|---|---|---|---|---|---|---|---|---|
z | 0 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 |
0 | 0 | 0,004 | 0,008 | 0,012 | 0,016 | 0,0199 | 0,0239 | 0,0279 | 0,0319 | 0,0359 |
0,1 | 0,0398 | 0,0438 | 0,0478 | 0,0517 | 0,0557 | 0,0596 | 0,0636 | 0,0675 | 0,0714 | 0,0753 |
0,2 | 0,0793 | 0,0832 | 0,0871 | 0,091 | 0,0948 | 0,0987 | 0,1026 | 0,1064 | 0,1103 | 0,1141 |
0,3 | 0,1179 | 0,1217 | 0,1255 | 0,1293 | 0,1331 | 0,1368 | 0,1406 | 0,1443 | 0,148 | 0,1517 |
0,4 | 0,1554 | 0,1591 | 0,1628 | 0,1664 | 0,17 | 0,1736 | 0,1772 | 0,1808 | 0,1844 | 0,1879 |
0,5 | 0,1915 | 0,195 | 0,1985 | 0,2019 | 0,2054 | 0,2088 | 0,2123 | 0,2157 | 0,219 | 0,2224 |
0,6 | 0,2257 | 0,2291 | 0,2324 | 0,2357 | 0,2389 | 0,2422 | 0,2454 | 0,2486 | 0,2517 | 0,2549 |
0,7 | 0,258 | 0,2611 | 0,2642 | 0,2673 | 0,2704 | 0,2734 | 0,2764 | 0,2794 | 0,2823 | 0,2852 |
0,8 | 0,2881 | 0,291 | 0,2939 | 0,2967 | 0,2995 | 0,3023 | 0,3051 | 0,3078 | 0,3106 | 0,3133 |
0,9 | 0,3159 | 0,3186 | 0,3212 | 0,3238 | 0,3264 | 0,3289 | 0,3315 | 0,334 | 0,3365 | 0,3389 |
1 | 0,3413 | 0,3438 | 0,3461 | 0,3485 | 0,3508 | 0,3531 | 0,3554 | 0,3577 | 0,3599 | 0,3621 |
1,1 | 0,3643 | 0,3665 | 0,3686 | 0,3708 | 0,3729 | 0,3749 | 0,377 | 0,379 | 0,381 | 0,383 |
1,2 | 0,3849 | 0,3869 | 0,3888 | 0,3907 | 0,3925 | 0,3944 | 0,3962 | 0,398 | 0,3997 | 0,4015 |
1,3 | 0,4032 | 0,4049 | 0,4066 | 0,4082 | 0,4099 | 0,4115 | 0,4131 | 0,4147 | 0,4162 | 0,4177 |
1,4 | 0,4192 | 0,4207 | 0,4222 | 0,4236 | 0,4251 | 0,4265 | 0,4279 | 0,4292 | 0,4306 | 0,4319 |
1,5 | 0,4332 | 0,4345 | 0,4357 | 0,437 | 0,4382 | 0,4394 | 0,4406 | 0,4418 | 0,4429 | 0,4441 |
1,6 | 0,4452 | 0,4463 | 0,4474 | 0,4484 | 0,4495 | 0,4505 | 0,4515 | 0,4525 | 0,4535 | 0,4545 |
1,7 | 0,4554 | 0,4564 | 0,4573 | 0,4582 | 0,4591 | 0,4599 | 0,4608 | 0,4616 | 0,4625 | 0,4633 |
1,8 | 0,4641 | 0,4649 | 0,4656 | 0,4664 | 0,4671 | 0,4678 | 0,4686 | 0,4693 | 0,4699 | 0,4706 |
1,9 | 0,4713 | 0,4719 | 0,4726 | 0,4732 | 0,4738 | 0,4744 | 0,475 | 0,4756 | 0,4761 | 0,4767 |
2 | 0,4772 | 0,4778 | 0,4783 | 0,4788 | 0,4793 | 0,4798 | 0,4803 | 0,4808 | 0,4812 | 0,4817 |
2,1 | 0,4821 | 0,4826 | 0,483 | 0,4834 | 0,4838 | 0,4842 | 0,4846 | 0,485 | 0,4854 | 0,4857 |
2,2 | 0,4861 | 0,4864 | 0,4868 | 0,4871 | 0,4875 | 0,4878 | 0,4881 | 0,4884 | 0,4887 | 0,489 |
2,3 | 0,4893 | 0,4896 | 0,4898 | 0,4901 | 0,4904 | 0,4906 | 0,4909 | 0,4911 | 0,4913 | 0,4916 |
2,4 | 0,4918 | 0,492 | 0,4922 | 0,4925 | 0,4927 | 0,4929 | 0,4931 | 0,4932 | 0,4934 | 0,4936 |
2,5 | 0,4938 | 0,494 | 0,4941 | 0,4943 | 0,4945 | 0,4946 | 0,4948 | 0,4949 | 0,4951 | 0,4952 |
2,6 | 0,4953 | 0,4955 | 0,4956 | 0,4957 | 0,4959 | 0,496 | 0,4961 | 0,4962 | 0,4963 | 0,4964 |
2,7 | 0,4965 | 0,4966 | 0,4967 | 0,4968 | 0,4969 | 0,497 | 0,4971 | 0,4972 | 0,4973 | 0,4974 |
2,8 | 0,4974 | 0,4975 | 0,4976 | 0,4977 | 0,4977 | 0,4978 | 0,4979 | 0,4979 | 0,498 | 0,4981 |
2,9 | 0,4981 | 0,4982 | 0,4982 | 0,4983 | 0,4984 | 0,4984 | 0,4985 | 0,4985 | 0,4986 | 0,4986 |
3 | 0,4987 | 0,4987 | 0,4987 | 0,4988 | 0,4988 | 0,4989 | 0,4989 | 0,4989 | 0,499 | 0,499 |
Observação: A área é dada do zero até “z”.
Exemplo 7.1 - Determine a área acumulada que corresponde ao escore z de 1,15.
Solução Encontre 1,1 na coluna à esquerda e então movendo pela linha até a coluna sob 0,05. A interseção da linha com a coluna corresponde ao número 0,3749. Assim, a área de 0 até 1,15 é 0,3749.
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<-1.15
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(0.5,0.2, "área = \n 0,3749")
Observe que este valor corresponde a solução da integral, com \(\sigma\)=1 e \(\mu\)=0:
\(\int_{0}^{1.15}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\) =
fn <- function(x) {
fx <- dnorm(x,0,1)
return(fx)
}
integrate(fn, 0, 1.15)
## 0.3749281 with absolute error < 4.2e-15
Exemplo 7.2 - Determine a área acumulada que corresponde ao escore z de -0,24.
Encontre 0,2 na coluna à esquerda e movendo-se então pela linha até a coluna sob 0,04. O número naquela linha e coluna é 0,0948. Como a curva é simétrica, a área que corresponde a z=-0,24 é 0,0948. Observe que não existe probabilidade negativa.
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<--0.24
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF")
text(-0.4,0.2, "área = \n 0,0948")
Exemplo 7.3 Determine a área sob a curva normal padrão à direita de z = 2,37.
Solução
A área total sob a curva é 1; e a curva é simétrica com relação a 0. Portanto, a área total à direita de z = 0 é 0,5. Da tabela vemos que a área entre 0 e 2,37 é 0,4911. Então a área à direita de z=2,37 é: 0,500 - 0,4911 = 0,0089.
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<-2.37
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF", density = c(10,20))
c<-2.37
d<-3.5
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF")
text(0.5,0.2, "área = \n 0,4911")
text(3.0,0.05, "0,0089")
mtext("área = 0,500 - 0,4911 = 0,0089", adj=1)
fn <- function(x) {
fx <- dnorm(x,0,1)
return(fx)
}
integrate(fn, 2.37, +Inf)
## 0.008894043 with absolute error < 7.9e-07
Exemplo 7.4 - Determine a área sob a curva normal padrão entre z = 0,35 e z = 1,47.
Solução
Pela tabela, a área entre z = 0 e z = 0,35 é 0,1368 e a área entre z=0 e z=1,47 é 0,4292. Portanto, a área entre z=0,35 e z=1,47 é igual á diferença entre as duas áreas, ou seja:
Área = 0,4292 - 0,1368 = 0,2924
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
e<-0
f<-0.35
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(e,seq(e,f,l=20),f),y=c(0,dnorm(seq(e,f, l=20)),0) ,col="#BFBFBF")
g<-0
h<-1.47
polygon(x=c(g,seq(g,h,l=20),h),y=c(0,dnorm(seq(g,h, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(0.5,0.2, "0,1368")
text(2.0,0.05, "0,4292")
mtext("área=0,4292-0,1368 = 0,2924", adj=1)
fn <- function(x) {
fx <- dnorm(x,0,1)
return(fx)
}
integrate(fn, 0.35, 1.47)
## 0.2923885 with absolute error < 3.2e-15
ORIENTAÇÕES GERAIS
Esboce a curva normal padrão e hachure a área apropriada sob a curva.
Obtenha a área por meio dos procedimentos a seguir para cada caso mostrado.
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a1<-0
b1<-1.23
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a1,seq(a1,b1,l=20),b1),y=c(0,dnorm(seq(a1,b1, l=20)),0) ,col="#DFDFDF")
a2<--3.5
b2<- 1.23
polygon(x=c(a2,seq(a2,b2,l=20),b2),y=c(0,dnorm(seq(a2,b2, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(-0.7,0.2, "0,5")
text(0.6,0.1, "0,3907")
mtext("área = 0,5+0,3907=0,8907", adj=1)
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
a<-0
b<-1.23
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(a,seq(a,b,l=20),b),y=c(0,dnorm(seq(a,b, l=20)),0) ,col="#DFDFDF", density = c(10,20))
c<-1.23
d<-3.5
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF")
text(0.5,0.2, "área = \n 0,3907")
text(3.0,0.05, "0,1093")
mtext("área = 0,500 - 0,3907 = 0,1093", adj=1)
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
e<-0
f<-1.1
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(e,seq(e,f,l=20),f),y=c(0,dnorm(seq(e,f, l=20)),0) ,col="#BFBFBF")
g<-0
h<-3.0
polygon(x=c(g,seq(g,h,l=20),h),y=c(0,dnorm(seq(g,h, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(0.5,0.2, "0,3643")
text(2.0,0.05, "0,4987")
mtext("área=0,4987-0,3643 = 0,1344", adj=1)
par(mfrow=c(1,1))
x<- seq(-3.5, 3.5, len = 100)
fx <- dnorm(x, 0, 1)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
e<--1.76
f<- 0
plot(x,fx,type="l", yaxt="n", frame.plot=FALSE)
polygon(x=c(e,seq(e,f,l=20),f),y=c(0,dnorm(seq(e,f, l=20)),0) ,col="#BFBFBF")
g<-0
h<-2.23
polygon(x=c(g,seq(g,h,l=20),h),y=c(0,dnorm(seq(g,h, l=20)),0) ,col="#DFDFDF", density=c(10,20))
text(-1.0,0.1, "0,4608")
text(1.0,0.1, "0,4871")
mtext("área=0,4608-0,4871 = 0,9479", adj=1)
Qual é a média da distribuição normal padrão? Qual é o desvio da distribuição normal padrão?
Descreva como você pode transformar uma distribuição normal qualquer em uma distribuição normal padrão?
Nos exercícios 1-11, determine a área indicada sob a curva normal padrão.
Se uma variável aleatória x é distribuída normalmente, é possível obter a probabilidade de que x caia em um determinado intervalo calculando a área sob a curva normal para o intervalo dado.
Para determinar a área sob qualquer curva normal , é preciso converter os limites superior e inferior do intervalo para o escore z. Depois, é aplicada a distribuição normal padrão para obter a área.
Considere, uma curva normal com \(\mu=500\) e \(\sigma=100\), conforme a primeira figura. O valor de x um desvio padrão acima da média é \(\mu + \sigma = 500 + 100 = 600\). Considere então a curva normal padrão exibida na segunda figura. O valor de z um desvio padrão acima da média é \(\mu + \sigma = 0 + 1 = 1\). Uma vez que o escore z de 1 corresponde a um valor *x de 600 e as áreas não são modificadas com uma transformação para a curva normal padrão, as áreas sombreadas nos dois gráficos são iguais.
par(mfrow=c(2,1))
x<- seq(200, 800, len = 100)
f1<-function(x){
fx<-dnorm(x,500,100)
return(fx)
}
fx <- dnorm(x, 500, 100)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
j<-200
k<-600
polygon(x=c(j,seq(j,k,l=20),k),y=c(0,f1(seq (j,k, l=20)),0) ,col="#DFDFDF", density = c(10,20))
mtext(expression(sigma==100), line=0.5)
mtext(expression(mu==500), line=1.5)
abline(v=500, col=2, lwd=1, lty=1)
abline(v=600, col=1, lwd=1, lty=2)
z<- seq(-3.0, 3.0, len = 100)
fz <- dnorm(z, 0, 1)
plot(z, fz, type = "l", frame.plot = FALSE, yaxt="n")
c<--3.5
d<-1
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF", density=c(10,20))
mtext(expression(sigma==1), line=0.5)
mtext(expression(mu==0), line=1.5)
abline(v=0, col=2, lwd=1, lty=1)
abline(v=1, col=1, lwd=1, lty=2)
Determinação de áreas sob uma curva normal com parâmetros \(\mu\) e \(\sigma\)
Exemplo 7.4 - Determine a área sob a curva normal com parâmetros \(\mu=100\) e \(\sigma=16\) que se encontra à direita de 120.
Solução
par(mfrow=c(2,1))
x<- seq(40, 160, len = 100)
f1<-function(x){
fx<-dnorm(x,100,16)
return(fx)
}
fx <- dnorm(x, 100, 16)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-120
m<-160
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF", density = c(10,20))
mtext(expression(sigma==16), line=0.5)
mtext(expression(mu==100), line=1.5)
abline(v=100, col=2, lwd=1, lty=1)
abline(v=120, col=1, lwd=1, lty=2)
z<- seq(-3.5, 3.5, len = 100)
fz <- dnorm(z, 0, 1)
plot(z, fz, type = "l", frame.plot = FALSE, yaxt="n")
c<-1.25
d<-3
polygon(x=c(c,seq(c,d,l=20),d),y=c(0,dnorm(seq(c,d, l=20)),0) ,col="#DFDFDF", density=c(10,20))
mtext(expression(sigma==1), line=0.5)
mtext(expression(mu==0), line=1.5)
abline(v=0, col=2, lwd=1, lty=1)
abline(v=1.25, col=1, lwd=1, lty=2)
Determinação de z:
x=120
\(z = \frac{x - \mu}{\sigma} = \frac{120-100}{16}\) = 1,25
área entre 0 e 1,25 = 0,3944
área final = 0,500 - 0,3944 = 0,1056
Exemplo 7.5
Certo tipo de germinador portátil, dura, em média, três anos, com desvio-padrão de 0,5 ano. Assumindo que a vida dos germinadores portáteis é distribuída normalmente, encontre a probabilidade de que certo armazenador dure pelo menos 2,3 anos.
Solução: Primeiro, construa o diagrama, mostrando a distribuição da vida do acumulador e a área desejada.
par(mfrow=c(1,1))
x<- seq(1, 5, len = 100)
f1<-function(x){
fx<-dnorm(x,3,0.5)
return(fx)
}
fx <- dnorm(x, 3, 0.5)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-0
m<-2.3
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF")
mtext(expression(sigma==0.5), line=0.5)
mtext(expression(mu==3), line=1.5)
abline(v=3, col=2, lwd=1, lty=1)
Para determinar P(x < 2,3), precisamos avaliar a área abaixo da curva normal à esquerda de 2,3. Para isso, vamos determinar o valor de z correspondente:
\(z = \frac{2,3 - 3}{0,5}\) = -1,4
Então, usando a Tabela Normal, temos
P(X < 2,3) = P(z < -1,4)
= 0,5 - P(-1,4 < z < 0) = 0,5 - 0,4192
= 0,0808 ou 8,08%.
Portanto, estimamos que as chances do armazenador durar pelo menos 2,3 anos é de 8,08%.
Exemplo 7.6
Uma indústria fabrica lâmpadas para utilização em chocadeiras elétricas que têm vida útil, antes de queimarem, normalmente distribuída com média igual a 800 horas e desvio-padrão de 40 horas. Encontre a probabilidade de que uma destas lâmpadas queime entre 778 e 834 horas.
Solução: A distribuição da vida útil das lâmpadas é ilustrada na figura abaixo.
par(mfrow=c(1,1))
x<- seq(680, 920, len = 100)
f1<-function(x){
fx<-dnorm(x,800,40)
return(fx)
}
fx <- dnorm(x, 800, 40)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-778
m<-834
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF")
mtext(expression(sigma==40), line=0.5)
mtext(expression(mu==800), line=1.5)
abline(v=800, col=2, lwd=1, lty=1)
Os valores de z correspondentes a \(x_1\) = 778 e \(x_2\) = 834 são:
\(z_1 = \frac{778-899}{40}\)= -0,55
\(z_2 = \frac{834-800}{40}\)= 0,85
Então,
P(778 < x < 834) = P(-0,55 < z < 0,85) =
P(0 < z < 0,85)+P(-0,55 < z < 0) =
0,3023+0,2088 = 0,5111 ou 51,11%
Portanto, a probabilidade de uma lâmpada queime entre 778 e 834 horas é de 51,1%.
Exemplo 7.7 Em um processo para produção de mudas, o diâmetro do coleto é uma parte importante do processo. Um padrão de qualidade para estas mudas determina que as especificações para o diâmetro sejam 3,0 \(\pm\) 0,01 cm. A consequência é que nenhuma muda fora dessas especificações será aceita. Sabe-se que, no processo, o diâmetro do coleto tem distribuição normal com média \(\mu\) = 3,0 e desvio-padrão \(\sigma\)=0,05. Em média, quantas mudas serão rejeitadas?
Solução: A distribuição dos diâmetros é ilustrada na figura abaixo.
par(mfrow=c(1,1))
x<- seq(2.985, 3.015, len = 100)
f1<-function(x){
fx<-dnorm(x,3, 0.005)
return(fx)
}
fx <- dnorm(x, 3.0, 0.005)
plot(x, fx, type = "l", frame.plot = FALSE, yaxt="n")
l<-2.985
m<-2.99
n<-3.01
p<-3.015
polygon(x=c(l,seq(l,m,l=20),m),y=c(0,f1(seq (l,m, l=20)),0) ,col="#DFDFDF")
polygon(x=c(n,seq(n,p,l=20),p),y=c(0,f1(seq(n, p,l=20)),0) ,col="#DFDFDF")
mtext(expression(sigma==0.005), line=0.5)
mtext(expression(mu==3.0), line=1.5)
abline(v=3.0, col=2, lwd=1, lty=1)
Os valores correspondentes aos limites das especificações são \(x_1\) = 2,99 e \(x_2\) = 3,01. Os valores de z correspondentes são
\(z_1 = \frac{2,99-3,0}{0,005}=-2,0\)
\(z_2 = \frac{3,01-3,0}{0,005}=+2,0\)
Assim,
P(2,99 < x < 3,01) = P(-2,0 < z < +2,0)
= [0,5-P(-2,0 < z < 0)]+[0,5-P(0 < z < +2,0)] = [0,5-0,4772]+[0,5-0,4772]
= 0,0456 ou 4,56%
Portanto, como resultado, antecipamos, que em média, 4,56% das mudas serão inutilizados.