Intervalo de Confiança para Variância

Consideremos uma amostra aleatória \(X_1,\ldots,X_n\) de tamanho \(n\) de uma população com distribuição normal com média \(\mu\) e variância \(\sigma^2\). Um estimador para \(\sigma^2\) é a variância amostral \(s^2\). Assim, sabemos que a quantidade pivotal

\[Q=\frac{(n-1)s^2}{\sigma^2}\sim\chi_{n-1}^2.\]
Seja \(1-\alpha\) a probabilidade da variável \(Q\), com \(n-1\) graus de liberdade, tomar valores entre \(Q_{\alpha/2}\) e \(Q_{1-\alpha/2}\), valores obtidos na tabela da distribuição qui-quadrado tais que \(\mathbb{P}[Q < \ Q_{\alpha/2}]=P[Q \ > \ Q_{1-\alpha/2}]=\alpha/2\).

Exemplo 1

O peso de componentes mecânicos produzidos por uma determinada empresa é uma variável aleatória que se supõe ter distribuição normal. Pretende-se estudar a variabilidade do peso dos referidos componentes. Para isso, uma amostra de tamanho 11 foi obtida,cujos valores em grama são:

\[98 ~~~ 97 ~~~ 102 ~~~ 100 ~~~ 98 ~~~ 101 ~~~ 102 ~~~ 105 ~~~ 95 ~~~ 102 ~~~ 100\]

  • Construa um intervalo de confiança para a variância do peso, com um grau de confiança igual a \(95\%\).

  • Entrando com os dados

x <- c(98, 97, 102, 100, 98, 101, 102, 105, 95, 102, 100)
  • Para determinar este intervalo, temos que criar um função.
var.interval <- function(data, conf.level = 0.95) {
 df = length(data) - 1
 chilower = qchisq((1 - conf.level)/2, df)
 chiupper = qchisq((1 - conf.level)/2, df, lower.tail = FALSE)
 v = var(data)
 c(df * v/chiupper, df * v/chilower)
 }
  • Obtendo o intervalo
var.interval(data=x, conf.level = 0.95)
## [1]  3.905644 24.638334
  • Interpretação

Com uma confiança de \(95\%\), a variância populacional dos pesos dos componentes encontra-se entre 3,91 e 24,64.

Exemplo 2:

Neste exemplo trabalharemos com o conjunto de dados sobre o preço da cesta básica mensal nos anos de 2017 e 2018, para a capital Campo Grande/MS.

https://www.dropbox.com/s/8r4w4uq55cxb3yg/cesta.csv?dl=0

Ano Mes Preco
2017 1 393
2017 2 385
2017 3 392
2017 4 402
2017 5 395
2017 6 387
2017 7 382
2017 8 355
2017 9 359
2017 10 369
2017 11 364
2017 12 366
2018 1 384
2018 2 373
2018 3 382
2018 4 378
2018 5 398
2018 6 380
2018 7 371
2018 8 365
2018 9 384
2018 10 397
2018 11 421
2018 12 423
  • Entrando com os dados
cesta <- read.csv2("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/7_Aula/cesta.csv", header=T)
  • Vamos investigar os dados
  1. Calculando a média e o desvio padrão por ano
aggregate(Preco ~ Ano, 
          data=cesta,
          FUN=mean)
##    Ano    Preco
## 1 2017 379.0833
## 2 2018 388.0000
aggregate(Preco ~ Ano, 
          data=cesta,
          FUN=sd)
##    Ano    Preco
## 1 2017 15.75066
## 2 2018 18.51289
  1. Determinando o coeficiente de variação (CV) por Ano. Criando uma função para isto:
cv <- function(x){
  sd(x)/mean(x)
}

aggregate(Preco ~ Ano, 
          data=cesta,
          FUN=cv)
##    Ano      Preco
## 1 2017 0.04154934
## 2 2018 0.04771365

De acordo com o CV, o ano de 2017 apresentou um CV de \(4,2\%\) o qual foi inferior ao do ano de 2018 (\(4,8\%\)). Isto sugeri que o preço mensal da cesta básica em Campo Grande no ano de 2017 apresentou menor variabilidade em relação ao ano de 2018.

  1. Criando gráfico de Box-Plot por ano
require(ggplot2)
## Loading required package: ggplot2
ggplot(cesta, aes(x = factor(Ano), y = Preco)) +
  geom_boxplot() +
  scale_x_discrete("Ano", labels = c("2017", "2018"))

    • Construa um intervalo de confiança para a variância do preço da cesta básica para o ano de 2017 e para o ano de 2018, com um grau de confiança igual a \(95\%\).
cesta_2017 <- subset(cesta, Ano==2017, Preco)
cesta_2018 <- subset(cesta, Ano==2018, Preco)
  • Intervalo para o ano de 2017
var.interval(data = cesta_2017$Preco, conf.level = 0.95)
## [1] 124.4941 715.1721
  • Interpretação

Com uma confiança de \(95\%\), a variância populacional do preço da cesta básica mensal no ano de 2017 encontra-se entre 124,49 e 715,17

var.interval(data = cesta_2018$Preco, conf.level = 0.95)
## [1] 171.9887 988.0107
  • Interpretação

Com uma confiança de \(95\%\), a variância populacional do preço da cesta básica mensal no ano de 2018 encontra-se entre 171,99 988,01

Intervalo de confiança para razão de duas variâncias

\[Q_2=\cfrac{(n_2-1)}{\sigma_2^2}s_2^2\sim\chi_{n_2-1}^2 \quad \hbox{(Qui-quadrado com} \ n_2-1 \ \hbox{graus de liberdade)}\]
em que \(s^2_1\) é a variância amostral da população 1 e \(s^2_2\) a variância amostral da população 2. Neste caso, a expressão \(F\) definida por

\[F=\cfrac{\cfrac{Q_1}{N_1-1}}{\cfrac{Q_2}{n_2-1}}=\cfrac{\cfrac{s_1^2}{\sigma_1^2}}{\cfrac{s_2^2}{\sigma_2^2}}=\cfrac{s_1^2}{s_2^2}\cfrac{\sigma_2^2}{\sigma_1^2}\]

\[F_{\alpha/2} \ < \ F \ < \ F_{(1-\alpha/2)}\]

\[F_{\alpha/2} \ < \frac{s_1^2}{s_2^2}\frac{\sigma_2^2}{\sigma_1^2} \ < \ F_{(1-\alpha/2)}.\]

Reescrevendo esta equação obtemos:

\[\cfrac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2} \ < \ \frac{\sigma_1^2}{\sigma_2^2} \ < \ \frac{1}{F_{\alpha/2}}\frac{s_1^2}{s_2^2}.\] Assim,

\[P\left(\frac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2} \ < \ \frac{\sigma_1^2}{\sigma_2^2} \ < \ \frac{1}{F_{\alpha/2}}\frac{s_1^2}{s_2^2}\right)=1-\alpha.\]

Logo, o intervalo de confiança com nível $ 100(1-)% $ para a razão entre duas variâncias será dado por

\[IC(\sigma_1^2/\sigma_2^2,1-\alpha)=\left(\frac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2};\frac{1}{F_{(\alpha/2)}}\frac{s_1^2}{s_2^2}\right).\]

Exemplo:

  • Considere o conjunto de dados sobre o preço da cesta básica mensal nos anos de 2017 e 2018, para a capital Campo Grande/MS.

  • Construa um intervalo, ao nível de \(95\%\) de confiança, para a razão de variância.

cesta_2017 <- subset(cesta, Ano==2017, Preco)
cesta_2018 <- subset(cesta, Ano==2018, Preco)
  • Obtendo o intervalo
var.test(cesta_2017$Preco, cesta_2018$Preco,
         conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  cesta_2017$Preco and cesta_2018$Preco
## F = 0.72385, num df = 11, denom df = 11, p-value = 0.6011
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2083803 2.5144391
## sample estimates:
## ratio of variances 
##          0.7238506
  • Interpretação

Com uma confiança de \(95\%\), a razão das duas variância populacionais encontra-se entre 0,21 2,51.

  • Por meio deste intervalo, é possível afirma que as variâncias populacionais são iguais?

Sim, uma vez que o número 1, pertence a este intervalo.

Exemplo

Queremos verificar se duas máquinas produzem peças com a mesma homogeneidade quanto à resistência à tensão. Para isso, sorteamos duas amostras de seis peças de cada máquina, e obtivemos as seguintes resistências:

Máquina A 145 127 136 142 141 137
Máquina B 143 128 132 138 142 132
  • Com uma confiança de \(95\%\), construa um intervalo de confiança para a razão de variância e verifique se as máquinas produzem peças com a mesma homogeneidade
maq_A <- c(145, 127, 136, 142, 141, 137)

maq_B <- c(143, 128, 132, 138, 142, 132)
var(maq_A)
## [1] 40
var(maq_B)
## [1] 36.96667
  • Obtendo o intervalo
var.test(maq_A, maq_B,
         conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  maq_A and maq_B
## F = 1.0821, num df = 5, denom df = 5, p-value = 0.9331
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1514131 7.7327847
## sample estimates:
## ratio of variances 
##           1.082056
  • Interpretação

Com uma confiança de \(95\%\), a razão das duas variância populacionais encontra-se entre 0,15 e 7,73. Adicionalmente, como o número 1 pertence ao este intervalo, logo há fortes indícios de que as máquinas produzem com a mesma homogeneidade quanto à variabilidade.

Intervalo de confiança para diferenças de médias: Variâncias iguais

\[\frac{(n_1-1)s_1^2}{\sigma^2}\sim\chi_{n_1-1}^2 \quad \hbox{e} \quad \frac{(n_2-1)s_2^2}{\sigma_2}\sim\chi_{n_2-1}^2\] em que \(s_1^2\) é a variância amostral da população \(1\) e \(s_2^2\) é a variância amostral da população \(2\), temos que

\[T=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t_{n_1+n_2-2}\] em que

\[s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}.\]

\[-t_{(a,\alpha/2)} \ < \ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \ < \ t_{(a,\alpha/2)}.\]

\[(\overline{X}-\overline{Y})-t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\leq\mu_1-\mu_2\leq (\overline{X}-\overline{Y}+t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\]

\[\text{IC}(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}};(\overline{X}-\overline{Y})+t_{(a,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right)\]

Intervalo de confiança para diferenças de médias: Variâncias Diferentes

\[T=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\sim t_{\nu}\]

ou seja, a variável \(T\) dada pela equação acima tem distribuição t de Student com \(\nu\) graus de liberdade, onde

\[\nu=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1-1}+\frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2-1}}.\]

\[\text{IC}(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}};(\overline{X}-\overline{Y})+t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right).\]

Exemplo

  • Para investigar a influência da opção profissional sobre o salário inicial de recém-formados, investigaram-se dois grupos de profissionais: um de liberais em geral e outro de formados em Administração de Empresas. Com os resultados abaixo, expressos em salários mínimos, quais seriam suas conclusões?
Liberais 6,6 10,3 10,8 12,9 9,2 12,3 7,0
Administradores 8,1 9,8 8,7 10,0 10,2 8,2 8,7 10,1
lib <- c(6.6, 10.3, 10.8, 12.9, 9.2, 12.3, 7.0)
adm <- c(8.1, 9.8, 8.7, 10.0, 10.2, 8.2, 8.7, 10.1)
  • Análise exploratória
summary(lib)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   6.600   8.100  10.300   9.871  11.550  12.900
sd(lib)
## [1] 2.432909
summary(adm)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.100   8.575   9.250   9.225  10.025  10.200
sd(adm)
## [1] 0.8876132
  • Passo 1) Verificar se as variâncias podem ser consideradas iguais.
var.test(lib, adm,
         conf.level = 0.95)
## 
##  F test to compare two variances
## 
## data:  lib and adm
## F = 7.5128, num df = 6, denom df = 7, p-value = 0.01768
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   1.467755 42.789180
## sample estimates:
## ratio of variances 
##           7.512844

Com uma confiança de \(95\%\) a razão de variâncias encontra-se entre 1,47 e 42,79. Como o número 1 não pertence a este intervalo, podemos afirmar que as variâncias são estatísticamente diferentes.

  • Passo 2) Intervalo para a diferença de média
t.test(lib, adm,
       var.equal = FALSE,
       conf.level = 0.95)
## 
##  Welch Two Sample t-test
## 
## data:  lib and adm
## t = 0.6653, df = 7.393, p-value = 0.5261
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.626575  2.919433
## sample estimates:
## mean of x mean of y 
##  9.871429  9.225000

Ao nível de \(95\%\) de confiança, a diferença das médias populacionais entre os salários dos liberais e Administradores encontra-se entre -1,63 2,92. Logo, como o valor zero, pertence a este intervalo, podemos afirmar que estas médias são estatisticamente iguais.

Intervalo de confiança para amostras dependentes

Aqui, temos duas amostras \(X_1, \cdots, Xn\) e \(Y_1, \cdots, Y_n\), só que agora as observações são pareadas, isto é, podemos considerar que temos na realidade uma amostra de pares \((X_1, Y_1), \cdots, (X_n, Y_n)\).

\[D = X - Y,\] teremos a amostra \(D_1, D_2, \cdots, D_n\), resultante das diferenças entre os valores de cada par.

\[ \bar{D} = 1/n\sum_{i=1}^{n}D_i = 1/n\sum_{i=1}^{n}(X_i - Y_i) = \bar{X} - \bar{Y} \] Adicionalmente, tem-se: \[s_D^2=\frac{\sum_{i=1}^n(D_i-\overline{D})^2}{n-1}.\] - O intervalo de confiança para o parâmetro \(\mu_D\) é dado por

\[IC(\mu_D,1-\alpha)=\left(\overline{D}-t_{\alpha/2}\frac{s_D}{\sqrt{n}};\overline{D}+t_{\alpha/2}\frac{s_D}{\sqrt{n}}\right)\] ### Exemplo

Operador Marca A Marca B
1 80 75
2 72 70
3 65 60
4 78 72
5 85 78
marca_A <- c(80, 72, 65, 78, 85)

marca_B <- c(75, 70, 60, 72, 78)
diff_AB <- marca_A - marca_B
summary(diff_AB)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       2       5       5       5       6       7
sd(diff_AB)
## [1] 1.870829
t.test(marca_A, marca_B,
       paired = T, 
       conf.level = 0.90)
## 
##  Paired t-test
## 
## data:  marca_A and marca_B
## t = 5.9761, df = 4, p-value = 0.00394
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
##  3.216369 6.783631
## sample estimates:
## mean of the differences 
##                       5

– Sim, uma vez que o valor zero não pertence ao seu respectivo intervalo de confiança.