Consideremos uma amostra aleatória \(X_1,\ldots,X_n\) de tamanho \(n\) de uma população com distribuição normal com média \(\mu\) e variância \(\sigma^2\). Um estimador para \(\sigma^2\) é a variância amostral \(s^2\). Assim, sabemos que a quantidade pivotal
\[Q=\frac{(n-1)s^2}{\sigma^2}\sim\chi_{n-1}^2.\]
Seja \(1-\alpha\) a probabilidade da variável \(Q\), com \(n-1\) graus de liberdade, tomar valores entre \(Q_{\alpha/2}\) e \(Q_{1-\alpha/2}\), valores obtidos na tabela da distribuição qui-quadrado tais que \(\mathbb{P}[Q < \ Q_{\alpha/2}]=P[Q \ > \ Q_{1-\alpha/2}]=\alpha/2\).
O peso de componentes mecânicos produzidos por uma determinada empresa é uma variável aleatória que se supõe ter distribuição normal. Pretende-se estudar a variabilidade do peso dos referidos componentes. Para isso, uma amostra de tamanho 11 foi obtida,cujos valores em grama são:
\[98 ~~~ 97 ~~~ 102 ~~~ 100 ~~~ 98 ~~~ 101 ~~~ 102 ~~~ 105 ~~~ 95 ~~~ 102 ~~~ 100\]
Construa um intervalo de confiança para a variância do peso, com um grau de confiança igual a \(95\%\).
Entrando com os dados
x <- c(98, 97, 102, 100, 98, 101, 102, 105, 95, 102, 100)
var.interval <- function(data, conf.level = 0.95) {
df = length(data) - 1
chilower = qchisq((1 - conf.level)/2, df)
chiupper = qchisq((1 - conf.level)/2, df, lower.tail = FALSE)
v = var(data)
c(df * v/chiupper, df * v/chilower)
}
var.interval(data=x, conf.level = 0.95)
## [1] 3.905644 24.638334
Com uma confiança de \(95\%\), a variância populacional dos pesos dos componentes encontra-se entre 3,91 e 24,64.
Neste exemplo trabalharemos com o conjunto de dados sobre o preço da cesta básica mensal nos anos de 2017 e 2018, para a capital Campo Grande/MS.
https://www.dropbox.com/s/8r4w4uq55cxb3yg/cesta.csv?dl=0
Ano | Mes | Preco |
---|---|---|
2017 | 1 | 393 |
2017 | 2 | 385 |
2017 | 3 | 392 |
2017 | 4 | 402 |
2017 | 5 | 395 |
2017 | 6 | 387 |
2017 | 7 | 382 |
2017 | 8 | 355 |
2017 | 9 | 359 |
2017 | 10 | 369 |
2017 | 11 | 364 |
2017 | 12 | 366 |
2018 | 1 | 384 |
2018 | 2 | 373 |
2018 | 3 | 382 |
2018 | 4 | 378 |
2018 | 5 | 398 |
2018 | 6 | 380 |
2018 | 7 | 371 |
2018 | 8 | 365 |
2018 | 9 | 384 |
2018 | 10 | 397 |
2018 | 11 | 421 |
2018 | 12 | 423 |
cesta <- read.csv2("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/7_Aula/cesta.csv", header=T)
aggregate(Preco ~ Ano,
data=cesta,
FUN=mean)
## Ano Preco
## 1 2017 379.0833
## 2 2018 388.0000
aggregate(Preco ~ Ano,
data=cesta,
FUN=sd)
## Ano Preco
## 1 2017 15.75066
## 2 2018 18.51289
cv <- function(x){
sd(x)/mean(x)
}
aggregate(Preco ~ Ano,
data=cesta,
FUN=cv)
## Ano Preco
## 1 2017 0.04154934
## 2 2018 0.04771365
De acordo com o CV, o ano de 2017 apresentou um CV de \(4,2\%\) o qual foi inferior ao do ano de 2018 (\(4,8\%\)). Isto sugeri que o preço mensal da cesta básica em Campo Grande no ano de 2017 apresentou menor variabilidade em relação ao ano de 2018.
require(ggplot2)
## Loading required package: ggplot2
ggplot(cesta, aes(x = factor(Ano), y = Preco)) +
geom_boxplot() +
scale_x_discrete("Ano", labels = c("2017", "2018"))
cesta_2017 <- subset(cesta, Ano==2017, Preco)
cesta_2018 <- subset(cesta, Ano==2018, Preco)
var.interval(data = cesta_2017$Preco, conf.level = 0.95)
## [1] 124.4941 715.1721
Com uma confiança de \(95\%\), a variância populacional do preço da cesta básica mensal no ano de 2017 encontra-se entre 124,49 e 715,17
var.interval(data = cesta_2018$Preco, conf.level = 0.95)
## [1] 171.9887 988.0107
Com uma confiança de \(95\%\), a variância populacional do preço da cesta básica mensal no ano de 2018 encontra-se entre 171,99 988,01
Vejamos como construir um intervalo de confiança para a razão entre duas variâncias de populações normais independentes.
Para isso retiramos uma amostra aleatória \(X_1,X_2,\dots,X_{n_1}\) da população 1, com distribuição \(N(\mu_1,\sigma^2_1)\), e uma amostra \(Y_1,Y_2,\dots,Y_{n_2}\) da população 2, com distribuição \(N(\mu_2,\sigma^2_2)\).
Como \[Q_1=\cfrac{(n_1-1)}{\sigma_1^2}s_1^2\sim\chi_{n_1-1}^2 \quad \hbox{(Qui-quadrado com} \ n_1-1 \ \hbox{graus de liberdade)}\]
\[Q_2=\cfrac{(n_2-1)}{\sigma_2^2}s_2^2\sim\chi_{n_2-1}^2 \quad \hbox{(Qui-quadrado com} \ n_2-1 \ \hbox{graus de liberdade)}\]
em que \(s^2_1\) é a variância amostral da população 1 e \(s^2_2\) a variância amostral da população 2. Neste caso, a expressão \(F\) definida por
\[F=\cfrac{\cfrac{Q_1}{N_1-1}}{\cfrac{Q_2}{n_2-1}}=\cfrac{\cfrac{s_1^2}{\sigma_1^2}}{\cfrac{s_2^2}{\sigma_2^2}}=\cfrac{s_1^2}{s_2^2}\cfrac{\sigma_2^2}{\sigma_1^2}\]
tem distribuição F de Snedecor com \(n_1-1\) graus de liberdade no numerador e \(n_2-1\) graus de liberdade no denominador e denotamos por \(F_{(n_1-1;n_2-1)}\).
Consideremos que a probabilidade da variável \(F\) tomar valores entre \(F_{(\frac{\alpha}{2};n_1-1;n_2-1)}\) e \(F_{(1-\frac{\alpha}{2};n_1-1;n_2-1)}\) é \(1-\alpha\).
Esses valores são obtidos na Tabela da distribuição de Fisher-Snedecor referente ao valor de \(\alpha\) e aos graus de liberdade do numerador e do denominador, \(n_1-1\) e \(n_2-1\), respectivamente.
Observando a equação
\[F_{\alpha/2} \ < \ F \ < \ F_{(1-\alpha/2)}\]
\[F_{\alpha/2} \ < \frac{s_1^2}{s_2^2}\frac{\sigma_2^2}{\sigma_1^2} \ < \ F_{(1-\alpha/2)}.\]
Reescrevendo esta equação obtemos:
\[\cfrac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2} \ < \ \frac{\sigma_1^2}{\sigma_2^2} \ < \ \frac{1}{F_{\alpha/2}}\frac{s_1^2}{s_2^2}.\] Assim,
\[P\left(\frac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2} \ < \ \frac{\sigma_1^2}{\sigma_2^2} \ < \ \frac{1}{F_{\alpha/2}}\frac{s_1^2}{s_2^2}\right)=1-\alpha.\]
Logo, o intervalo de confiança com nível $ 100(1-)% $ para a razão entre duas variâncias será dado por
\[IC(\sigma_1^2/\sigma_2^2,1-\alpha)=\left(\frac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2};\frac{1}{F_{(\alpha/2)}}\frac{s_1^2}{s_2^2}\right).\]
Considere o conjunto de dados sobre o preço da cesta básica mensal nos anos de 2017 e 2018, para a capital Campo Grande/MS.
Construa um intervalo, ao nível de \(95\%\) de confiança, para a razão de variância.
cesta_2017 <- subset(cesta, Ano==2017, Preco)
cesta_2018 <- subset(cesta, Ano==2018, Preco)
var.test(cesta_2017$Preco, cesta_2018$Preco,
conf.level = 0.95)
##
## F test to compare two variances
##
## data: cesta_2017$Preco and cesta_2018$Preco
## F = 0.72385, num df = 11, denom df = 11, p-value = 0.6011
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2083803 2.5144391
## sample estimates:
## ratio of variances
## 0.7238506
Com uma confiança de \(95\%\), a razão das duas variância populacionais encontra-se entre 0,21 2,51.
Sim, uma vez que o número 1, pertence a este intervalo.
Queremos verificar se duas máquinas produzem peças com a mesma homogeneidade quanto à resistência à tensão. Para isso, sorteamos duas amostras de seis peças de cada máquina, e obtivemos as seguintes resistências:
Máquina A | 145 | 127 | 136 | 142 | 141 | 137 |
---|---|---|---|---|---|---|
Máquina B | 143 | 128 | 132 | 138 | 142 | 132 |
maq_A <- c(145, 127, 136, 142, 141, 137)
maq_B <- c(143, 128, 132, 138, 142, 132)
var(maq_A)
## [1] 40
var(maq_B)
## [1] 36.96667
var.test(maq_A, maq_B,
conf.level = 0.95)
##
## F test to compare two variances
##
## data: maq_A and maq_B
## F = 1.0821, num df = 5, denom df = 5, p-value = 0.9331
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.1514131 7.7327847
## sample estimates:
## ratio of variances
## 1.082056
Com uma confiança de \(95\%\), a razão das duas variância populacionais encontra-se entre 0,15 e 7,73. Adicionalmente, como o número 1 pertence ao este intervalo, logo há fortes indícios de que as máquinas produzem com a mesma homogeneidade quanto à variabilidade.
Consideremos agora duas amostras aleatórias, \(X_1,X_2,\ldots,X_{n1}\) de tamanho \(n_1\) e \(Y_1,Y_2,\ldots,Y_{n2}\) de tamanho \(n_2\), com variâncias que são desconhecidas, porém iguais, isto é, \(\sigma_1^2 = \sigma_2^2 = \sigma^2\).
Como
\[\frac{(n_1-1)s_1^2}{\sigma^2}\sim\chi_{n_1-1}^2 \quad \hbox{e} \quad \frac{(n_2-1)s_2^2}{\sigma_2}\sim\chi_{n_2-1}^2\] em que \(s_1^2\) é a variância amostral da população \(1\) e \(s_2^2\) é a variância amostral da população \(2\), temos que
\[T=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t_{n_1+n_2-2}\] em que
\[s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}.\]
\[-t_{(a,\alpha/2)} \ < \ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \ < \ t_{(a,\alpha/2)}.\]
\[(\overline{X}-\overline{Y})-t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\leq\mu_1-\mu_2\leq (\overline{X}-\overline{Y}+t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\]
\[\text{IC}(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}};(\overline{X}-\overline{Y})+t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right)\]
Consideremos duas amostras aleatórias, \(X_1,X_2,\ldots,X_{n1}\) de tamanho \(n_1\) e \(Y_1,Y_2,\ldots,Y_{n2}\) de tamanho \(n_2\), com distribuições normais, mas agora com variâncias desconhecidas e diferentes, isto é, \(\sigma_1^2\neq\sigma_2^2\).
Como as variâncias populacionais são desconhecidas, usaremos as variâncias amostrais \(s_1^2\) e \(s_2^2\) em seus lugares.
Consideremos a variável \(T\) tal que
\[T=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\sim t_{\nu}\]
ou seja, a variável \(T\) dada pela equação acima tem distribuição t de Student com \(\nu\) graus de liberdade, onde
\[\nu=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1-1}+\frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2-1}}.\]
\[\text{IC}(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}};(\overline{X}-\overline{Y})+t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right).\]
Liberais | 6,6 | 10,3 | 10,8 | 12,9 | 9,2 | 12,3 | 7,0 | |
---|---|---|---|---|---|---|---|---|
Administradores | 8,1 | 9,8 | 8,7 | 10,0 | 10,2 | 8,2 | 8,7 | 10,1 |
lib <- c(6.6, 10.3, 10.8, 12.9, 9.2, 12.3, 7.0)
adm <- c(8.1, 9.8, 8.7, 10.0, 10.2, 8.2, 8.7, 10.1)
summary(lib)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.600 8.100 10.300 9.871 11.550 12.900
sd(lib)
## [1] 2.432909
summary(adm)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.100 8.575 9.250 9.225 10.025 10.200
sd(adm)
## [1] 0.8876132
var.test(lib, adm,
conf.level = 0.95)
##
## F test to compare two variances
##
## data: lib and adm
## F = 7.5128, num df = 6, denom df = 7, p-value = 0.01768
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 1.467755 42.789180
## sample estimates:
## ratio of variances
## 7.512844
Com uma confiança de \(95\%\) a razão de variâncias encontra-se entre 1,47 e 42,79. Como o número 1 não pertence a este intervalo, podemos afirmar que as variâncias são estatísticamente diferentes.
t.test(lib, adm,
var.equal = FALSE,
conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: lib and adm
## t = 0.6653, df = 7.393, p-value = 0.5261
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.626575 2.919433
## sample estimates:
## mean of x mean of y
## 9.871429 9.225000
Ao nível de \(95\%\) de confiança, a diferença das médias populacionais entre os salários dos liberais e Administradores encontra-se entre -1,63 2,92. Logo, como o valor zero, pertence a este intervalo, podemos afirmar que estas médias são estatisticamente iguais.
Para realizarmos os intervalos de confiança para razão de variâncias e de diferenças de médias, precisamos que as duas populações sejam independentes.
Porém, na prática, temos algumas situações em que as populações não são independentes. Numa situação de comparação inter laboratorial onde dois laboratórios medem a mesma peça, por exemplo, as medidas entre os laboratórios não são independentes.
Aqui, temos duas amostras \(X_1, \cdots, Xn\) e \(Y_1, \cdots, Y_n\), só que agora as observações são pareadas, isto é, podemos considerar que temos na realidade uma amostra de pares \((X_1, Y_1), \cdots, (X_n, Y_n)\).
\[D = X - Y,\] teremos a amostra \(D_1, D_2, \cdots, D_n\), resultante das diferenças entre os valores de cada par.
\[ \bar{D} = 1/n\sum_{i=1}^{n}D_i = 1/n\sum_{i=1}^{n}(X_i - Y_i) = \bar{X} - \bar{Y} \] Adicionalmente, tem-se: \[s_D^2=\frac{\sum_{i=1}^n(D_i-\overline{D})^2}{n-1}.\] - O intervalo de confiança para o parâmetro \(\mu_D\) é dado por
\[IC(\mu_D,1-\alpha)=\left(\overline{D}-t_{\alpha/2}\frac{s_D}{\sqrt{n}};\overline{D}+t_{\alpha/2}\frac{s_D}{\sqrt{n}}\right)\] ### Exemplo
Operador | Marca A | Marca B |
---|---|---|
1 | 80 | 75 |
2 | 72 | 70 |
3 | 65 | 60 |
4 | 78 | 72 |
5 | 85 | 78 |
marca_A <- c(80, 72, 65, 78, 85)
marca_B <- c(75, 70, 60, 72, 78)
diff_AB <- marca_A - marca_B
summary(diff_AB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2 5 5 5 6 7
sd(diff_AB)
## [1] 1.870829
t.test(marca_A, marca_B,
paired = T,
conf.level = 0.90)
##
## Paired t-test
##
## data: marca_A and marca_B
## t = 5.9761, df = 4, p-value = 0.00394
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
## 3.216369 6.783631
## sample estimates:
## mean of the differences
## 5
Interpretação: Com uma confiança de \(90\%\) a diferença populacional entre a Marca A e a Marca B encontra-se entre 3,22 e 6,78.
Com este nível de confiança, poderíamos afirmar que o tempo gasto para realizar a tarefa pela máquina A é diferente do tempo na máquina B?
– Sim, uma vez que o valor zero não pertence ao seu respectivo intervalo de confiança.