Bastão de Asclépio & Distribuição Normal
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
options(warn=-1)
suppressMessages(library(aplpack, warn.conflicts=FALSE))
suppressMessages(library(calculus, warn.conflicts=FALSE))
suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(cellWise, warn.conflicts=FALSE))
suppressMessages(library(cluster, warn.conflicts=FALSE))
suppressMessages(library(DescTools, warn.conflicts=FALSE))
suppressMessages(library(diptest, warn.conflicts=FALSE))
suppressMessages(library(dplyr, warn.conflicts=FALSE))
suppressMessages(library(ellipse, warn.conflicts=FALSE))
suppressMessages(library(far, warn.conflicts=FALSE))
suppressMessages(library(fmsb, warn.conflicts=FALSE))
suppressMessages(library(GGally, warn.conflicts=FALSE))
suppressMessages(library(ggfortify, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(HSAUR2, warn.conflicts=FALSE))
suppressMessages(library(knitr, warn.conflicts=FALSE))
suppressMessages(library(lawstat, warn.conflicts=FALSE))
suppressMessages(library(lfda, warn.conflicts=FALSE))
suppressMessages(library(MASS, warn.conflicts=FALSE))
suppressMessages(library(MatchIt, warn.conflicts=FALSE)) # distancia robusta
suppressMessages(library(matlib, warn.conflicts=FALSE))
suppressMessages(library(matrixcalc, warn.conflicts=FALSE))
suppressMessages(library(MatrixModels, warn.conflicts=FALSE))
suppressMessages(library(matrixStats, warn.conflicts=FALSE))
suppressMessages(library(missMethods, warn.conflicts=FALSE))
suppressMessages(library(MomTrunc, warn.conflicts=FALSE))
suppressMessages(library(MVA, warn.conflicts=FALSE)) # An Introduction to Applied Multivariate Analysis with R
suppressMessages(library(MVar.pt, warn.conflicts=FALSE))
suppressMessages(library(mvdalab, warn.conflicts=FALSE))
# suppressMessages(library(MVLM, warn.conflicts=FALSE))
suppressMessages(library(MVN, warn.conflicts=FALSE))
suppressMessages(library(MVTests, warn.conflicts=FALSE)) # T^2 robusta
suppressMessages(library(mvtnorm, warn.conflicts=FALSE))
suppressMessages(library(norm, warn.conflicts=FALSE))
suppressMessages(library(plotly, warn.conflicts=FALSE))
suppressMessages(library(pracma, warn.conflicts=FALSE))
suppressMessages(library(qcc, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(reticulate, warn.conflicts=FALSE))
suppressMessages(library(rgl, warn.conflicts=FALSE))
suppressMessages(library(scatterplot3d, warn.conflicts=FALSE))
source("summarySEwithin2.R")
Trocar \bar
por \overline
Efficient Programming in R - Tsagris - 2025: Rfast
e
Rfast2
missMDA
EVALUATION OF APPROXIMATED AND EXACT MULTIVARIATE TESTS FOR MEAN VECTORS - A DATA SIMULATION STUDY - Lacerta et al - 2022
TVMM
: an R package for testing hypothesis on mean
vectors - Alves et al - 2023
DescTools::HotellingsT
A Hotelling Test Based on MCD - Willems et al - 2002.pdf
Wu, Y et al. (2006) A Multivariate Two-Sample Mean Test for Small Sample Size and Missing Data. Biometrics 62(3): 877-85.
Improvement on Chi-Squared Approximation by Monotone Transformation - Fujisawa - 1997.
Enoki, H & Aoshima, M () Transformations with Improved Chi-Squared Approximations.
P.O. Adebayo and G.M. Oyeyemi (2018) An Alternative Solution to Hotelling T square under the Heteroscedasticity of the dispersion Matrix. Research & Reviews: Journal of Statistics and Mathematical Sciences 4(3): 33-47
An Asymptotic Two-Sided Test in a Family of Multivariate Distribution - Bazyari et al - 2020
Multivariate multidistance tests for high-dimensional low sample size case-control studies - Marozzi - 2015: Table I. Cardiovascular and hemodynamic characteristics of the 20 subjects.
fit.lm <- lm(cbind(PC1,PC2)~Breed, data = Dados.org) print(anova.fit <- car::Anova(fit.lm)) print(effectsize::eta_squared(anova.fit, partial = TRUE, ci = 1 - alpha, alternative = "two"))
alphaBonf <- alpha/length(unique(Dados.org$Breed)) fit.lm <- lm(cbind(PC1,PC2)~Breed, data = subset(Dados.org, Breed!="Hereford")) print(anova.fit <- car::Anova(fit.lm)) T2H.fit <- mvdalab::MVComp(subset(Dados.org, Breed=="Angus", select=c(PC1,PC2)), subset(Dados.org, Breed=="Simental", select=c(PC1,PC2)), level = 1-alphaBonf) print(T2H.fit) plot(T2H.fit, Diff2Plot = c(1, 2), include.zero = TRUE) fit.lm <- lm(cbind(PC1,PC2)~Breed, data = subset(Dados.org, Breed!="Angus")) print(anova.fit <- car::Anova(fit.lm)) T2H.fit <- mvdalab::MVComp(subset(Dados.org, Breed=="Hereford", select=c(PC1,PC2)), subset(Dados.org, Breed=="Simental", select=c(PC1,PC2)), level = 1-alphaBonf) print(T2H.fit) plot(T2H.fit, Diff2Plot = c(1, 2), include.zero = TRUE) fit.lm <- lm(cbind(PC1,PC2)~Breed, data = subset(Dados.org, Breed!="Simental")) print(anova.fit <- car::Anova(fit.lm)) T2H.fit <- mvdalab::MVComp(subset(Dados.org, Breed=="Hereford", select=c(PC1,PC2)), subset(Dados.org, Breed=="Angus", select=c(PC1,PC2)), level = 1-alphaBonf) print(T2H.fit) plot(T2H.fit, Diff2Plot = c(1, 2), include.zero = TRUE)
print(rrcov::T2.test(Masc, mu = H0.M, conf.level = 1-alfa, method=“mcd”))
RPubs
“Não é paradoxo dizer que nos nossos momentos de inspiração mais teórica podemos estar o mais próximo possível de nossas aplicações mais práticas.”
WHITEHEAD, AN apud BOYER, CB (1974) História da matemática. São Paulo: Blücher/EDUSP, p. 419.
Análise estatística multivariada tem que produzir valor p para o teste de hipótese nula omnibus.
Este capítulo é o primeiro das seções metodológicas do livro. Agora usaremos os conceitos e resultados expostos nos Capítulos 1 a 4 para desenvolver técnicas de análise de dados. Grande parte de qualquer análise está relacionada com a inferência, ou seja, tirar conclusões válidas sobre uma população com base em informações de uma amostra.
Neste ponto, concentraremos nas inferências sobre um vetor de média populacional e suas partes componentes. Embora introduzamos a inferência estatística por meio de discussões iniciais sobre testes de hipóteses, nosso objetivo final é apresentar uma análise estatística completa das médias componentes com base em intervalos deconfiança simultâneos.
Uma das mensagens centrais da análise multivariada é que \(p\) variáveis correlacionadas devem ser analisadas conjuntamente. Este princípio é exemplificado pelos métodos apresentados neste capítulo.
Vamos começar relembrando a teoria univariada para determinar se um valor específico \(\mu_0\) é um valor plausível para a média populacional \(\mu\). Do ponto de vista de testes de hipóteses, esse problema pode ser formulado como um teste entre as hipóteses concorrentes:
\[ H_0: \mu = \mu_0 \]
vs.
\[ H_1: \mu \neq \mu_0 \]
Aqui, \(H_0\) é a hipótese nula e \(H_1\) é a hipótese alternativa (bidirecional). Se \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\), a estatística de teste apropriada é:
\[ T = \dfrac{\bar{X} - \mu_0}{S/\sqrt{n}} \]
em que \(\bar{X} = \dfrac{1}{n} \sum_{i=1}^{n} X_i\) e \(S^2 = \dfrac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\) são a média e a variância amostrais estocásticas, respectivamente.
Essa estatística de teste é uma variável aleatória que segue uma distribuição t de Student central com \(n - 1\) graus de liberdade. Rejeitamos \(H_0\), ou seja, que \(\mu_0\) é um valor plausível para \(\mu\), se o valor observado de \(|t|\) exceder um ponto percentual especificado de uma distribuição t de Student com \(n - 1\) graus de liberdade.
A rejeição de \(H_0\) quando \(|t|\) é grande é equivalente a rejeitar \(H_0\) se o quadrado de \(t\):
\[ t^2 = \left( \frac{\bar{x} - \mu_0}{s/\sqrt{n}} \right)^2 =n(\bar{x}-\mu_0)(s^2)^{-1}(\bar{x}-\mu_0) \tag{5-1} \]
for grande. O valor \(t^2\) na equação acima representa o quadrado da distância entre a média da amostra \(\bar{x}\) e o valor de teste \(\mu_0\). As unidades de distância são expressas em termos de \(s/\sqrt{n}\), ou seja, em desvio-padrão estimado de \(\bar{x}\). Uma vez que \(\bar{x}\) e \(s^2\) são estimativas, o teste se torna:
Rejeitar \(H_0\) em favor de \(H_1\) com um nível de significância \(\alpha\), se:
\[ n(\bar{x}-\mu_0)(s_2)^{-1}(\bar{x}-\mu_0) > t_{n-1}^{2}(1 - \alpha/2) \tag{5-2} \]
em que \(t_{n-1}(1 - \alpha/2)\) denota o quantil de \(100\;(1-\alpha/2)\) da distribuição t de Student central com \(n - 1\) graus de liberdade.
Se \(H_0\) não for rejeitada, concluímos que \(\mu_0\) é um valor plausível para a média da população normal. Existem outros valores de \(\mu\) que também são consistentes com os dados? A resposta é sim! Na verdade, sempre existe um conjunto de valores plausíveis para uma média da população normal. A partir da conhecida correspondência entre as regiões de não rejeição [sic: estava aceitação] para testes de \(H_0: \mu = \mu_0\) versus \(H_1: \mu \neq \mu_0\) e intervalos de confiança para \(\mu\), temos:
\[ \{\text{Não rejeitar } H_0: \mu = \mu_0 \text{ ao nível } \alpha \} \text{ ou } |t| \le t_{n-1}(\alpha/2)) \]
é equivalente a:
\[ \mu_0 \text{ está no intervalo de confiança de } 100(1 - \alpha)\% \text{ para } \mu, \\\text{ i.e., } \\\mu_0 \in\left[\bar{x} \pm t_{n-1}(\alpha/2)\dfrac{s}{\sqrt{n}}\right] \]
ou
\[ \bar{x} - t_{n-1}(1-\alpha/2)\dfrac{s}{\sqrt{n}}\le \mu_0 \le \bar{x} + t_{n-1}(1-\alpha/2)\dfrac{s}{\sqrt{n}} \tag{5-3} \]
O intervalo de confiança consiste em todos os valores \(\mu_0\) que não seriam rejeitados pelo teste de nível \(\alpha\) de \(H_0: \mu = \mu_0\).
Antes de selecionarmos a amostra, o intervalo de confiança de \(100(1 - \alpha)\%\) em (5-3) é um intervalo aleatório, uma vez que os pontos finais dependem das variáveis aleatórias \(\bar{X}\) e \(S\). A probabilidade de que o intervalo contenha \(\mu\) é \(1 - \alpha\); entre um grande número desses intervalos independentes, aproximadamente \(100(1 - \alpha)\%\) deles conterão \(\mu\).
Agora, considere o problema de determinar se um dado vetor \(\boldsymbol{\mu}_0\) de dimensão \(p \times 1\), em que \(p\) é o número de variáveis, é um valor plausível para a média de uma distribuição normal multivariada. Vamos proceder por analogia ao desenvolvimento univariado apresentado anteriormente.
Uma generalização natural da distância ao quadrado em (5-1) é seu análogo multivariado:
\[ \begin{align} T^2 &= (\bar{\mathbf{X}} - \boldsymbol{\mu}_0)^{\prime} \left(\dfrac{1}{n}\mathbf{S}\right)^{-1} (\bar{\mathbf{X}} - \boldsymbol{\mu}_0) \\ T^2 &= n(\bar{\mathbf{X}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{S}^{-1} (\bar{\mathbf{X}} - \boldsymbol{\mu}_0) \end{align} \tag{5-4} \]
em que \(\boldsymbol{\mu}_{0}^{\prime}=[\mu_{01}\; \mu_{02}\; \ldots\; \mu_{0p}]\).
A estatística \(T^2\) é chamada de \(T^2\) de Hotelling em homenagem a Harold Hotelling, um pioneiro na análise multivariada, que primeiro obteve sua distribuição amostral. Aqui, \((1/n)\mathbf{S}\) é a matriz de covariância estimada de \(\bar{\mathbf{X}}\) (consulte o Resultado 3.1).
Se a distância estatística observada \(T^2\) for muito grande — ou seja, se \(\bar{\mathbf{X}}\) estiver “muito longe” de \(\boldsymbol{\mu}_0\) — a hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) é rejeitada. Acontece que tabelas especiais de quantis de \(T^2\) não são necessárias para testes formais de hipóteses. Isso ocorre porque pode ser usada a distribuição \(F\) para realizar testes de hipótese nula envolvendo a estatística \(T^2\).
Se \(F\sim F_{p, n-p}\), então
\[ T^2=(n-1)\dfrac{p}{n-p} F\sim T^2_{p,n-1} \tag{5-5} \]
Sendo que:
\[ T^2_{p,n-1}(1-\alpha)=(n-1)\dfrac{p}{n-p} F_{p, n-p}(1-\alpha) \]
em que \(F_{p, n-p}\) é distribuição F de Fisher-Snedecor com \(p\) e \(n-p\) graus de liberdade do numerador e denominador, respectivamente.
Se \(n-p\gg30\), então
\[ T^2_{p,n-1}(1-\alpha) \approx \chi^2_p(1-\alpha) \]
De forma mais geral, temos que:
\[ T^2_{g_1,g_2}(1-\alpha)=g_2\dfrac{g_1}{g_2-g_1+1} F_{g_1, g_2-g_1+1}(1-\alpha) \]
# https://stats.stackexchange.com/questions/285425/limit-of-hotelling-t2-distribution
n_values <- 3:30 # Valores de n
p_values <- 2:10 # Valores de p
alpha <- 0.05 # Nível de significância
# Inicializar uma matriz para armazenar os valores críticos
critical_values <- matrix(NA, nrow = length(n_values), ncol = length(p_values))
# Preencher a matriz com os valores críticos
for (i in 1:length(n_values)) {
for (j in 1:length(p_values)) {
n <- n_values[i]
p <- p_values[j]
critical_values[i, j] <- ((p * (n - 1)) / (n - p)) *
qf(1 - alpha, p, n - p)
}
}
# Definir os nomes das linhas e colunas da tabela
rownames(critical_values) <- n_values
colnames(critical_values) <- p_values
# Exibir a tabela do quantil T^2(p,n-1,95%)
print(critical_values, digits=2)
2 3 4 5 6 7 8 9 10
3 798.0 NaN NaN NaN NaN NaN NaN NaN NaN
4 57.0 1941.4 NaN NaN NaN NaN NaN NaN NaN
5 25.5 115.0 3593 NaN NaN NaN NaN NaN NaN
6 17.4 46.4 192 5754 NaN NaN NaN NaN NaN
7 13.9 29.7 73 289 8423 NaN NaN NaN NaN
8 12.0 22.7 45 105 406 11602 NaN NaN NaN
9 10.8 19.0 33 63 143 542 15288 NaN NaN
10 10.0 16.8 27 45 83 187 697 19484 NaN
11 9.5 15.2 24 37 59 107 236 872 24188
12 9.0 14.2 21 31 47 75 133 291 1067
13 8.7 13.3 19 28 40 59 93 162 351
14 8.4 12.7 18 25 35 49 72 112 194
15 8.2 12.2 17 23 31 43 60 86 133
16 8.0 11.8 16 22 29 38 52 71 101
17 7.9 11.5 16 21 27 35 46 61 83
18 7.7 11.2 15 20 25 33 42 54 71
19 7.6 10.9 15 19 24 31 39 49 63
20 7.5 10.7 14 18 23 29 36 45 57
21 7.4 10.5 14 18 22 28 34 42 52
22 7.3 10.4 14 17 22 27 32 39 48
23 7.3 10.2 13 17 21 26 31 37 45
24 7.2 10.1 13 17 20 25 30 36 43
25 7.1 10.0 13 16 20 24 29 34 41
26 7.1 9.9 13 16 19 23 28 33 39
27 7.0 9.8 13 16 19 23 27 32 37
28 7.0 9.7 12 15 19 22 26 31 36
29 7.0 9.6 12 15 18 22 26 30 35
30 6.9 9.5 12 15 18 22 25 29 34
# Inicializar uma matriz para armazenar as diferenças em porcentagem
diff_percent <- matrix(NA, nrow = length(n_values), ncol = length(p_values))
# Preencher a matriz com as diferenças
for (i in 1:length(n_values)) {
for (j in 1:length(p_values)) {
n <- n_values[i]
p <- p_values[j]
diffperc <- (((p * (n - 1)) / (n - p)) *
qf(1 - alpha, p, n - p) -
qchisq(1 - alpha, p))/qchisq(1 - alpha, p)
diff_percent[i, j] <- diffperc
}
}
# Definir os nomes das linhas e colunas da tabela
rownames(diff_percent) <- n_values
colnames(diff_percent) <- p_values
# Exibir a tabela da variação porcentual dos quantis X^2(p, 95%) e T^2(p,n-1,95%)
print(diff_percent, digits=2)
2 3 4 5 6 7 8 9 10
3 132.19 NaN NaN NaN NaN NaN NaN NaN NaN
4 8.51 247.42 NaN NaN NaN NaN NaN NaN NaN
5 3.25 13.71 377.73 NaN NaN NaN NaN NaN NaN
6 1.90 4.94 19.29 518.76 NaN NaN NaN NaN NaN
7 1.32 2.80 6.69 25.15 667.98 NaN NaN NaN NaN
8 1.00 1.91 3.71 8.50 31.24 823.73 NaN NaN NaN
9 0.81 1.43 2.50 4.65 10.36 37.52 984.89 NaN NaN
10 0.67 1.15 1.87 3.11 5.61 12.27 43.97 1150.61 NaN
11 0.58 0.95 1.48 2.30 3.72 6.58 14.21 50.56 1320.25
12 0.51 0.81 1.22 1.82 2.74 4.34 7.57 16.19 57.27
13 0.45 0.71 1.04 1.50 2.16 3.19 4.97 8.57 18.20
14 0.41 0.63 0.91 1.27 1.77 2.50 3.64 5.60 9.59
15 0.37 0.56 0.80 1.10 1.50 2.05 2.84 4.09 6.24
16 0.34 0.51 0.72 0.97 1.30 1.73 2.33 3.19 4.54
17 0.31 0.47 0.65 0.87 1.14 1.50 1.96 2.60 3.54
18 0.29 0.43 0.59 0.79 1.02 1.32 1.69 2.19 2.89
19 0.27 0.40 0.55 0.72 0.92 1.17 1.49 1.89 2.43
20 0.25 0.37 0.51 0.66 0.84 1.06 1.33 1.66 2.09
21 0.24 0.35 0.47 0.61 0.77 0.97 1.20 1.48 1.83
22 0.22 0.33 0.44 0.57 0.71 0.89 1.09 1.33 1.63
23 0.21 0.31 0.41 0.53 0.66 0.82 1.00 1.21 1.47
24 0.20 0.29 0.39 0.50 0.62 0.76 0.92 1.11 1.34
25 0.19 0.28 0.37 0.47 0.58 0.71 0.86 1.02 1.22
26 0.18 0.26 0.35 0.44 0.55 0.67 0.80 0.95 1.13
27 0.18 0.25 0.33 0.42 0.52 0.63 0.75 0.89 1.05
28 0.17 0.24 0.32 0.40 0.49 0.59 0.70 0.83 0.98
29 0.16 0.23 0.30 0.38 0.47 0.56 0.66 0.78 0.91
30 0.15 0.22 0.29 0.36 0.44 0.53 0.63 0.74 0.86
n_values <- c(seq(30,1000,50),1000) # Valores de n
p_values <- seq(2,10,1) # Valores de p
alpha <- 0.05 # Nível de significância
# Inicializar uma matriz para armazenar os valores críticos
critical_values <- matrix(NA, nrow = length(n_values), ncol = length(p_values))
# Preencher a matriz com os valores críticos
for (i in 1:length(n_values)) {
for (j in 1:length(p_values)) {
n <- n_values[i]
p <- p_values[j]
critical_values[i, j] <- ((p * (n - 1)) / (n - p)) *
qf(1 - alpha, p, n - p)
}
}
# Definir os nomes das linhas e colunas da tabela
rownames(critical_values) <- n_values
colnames(critical_values) <- p_values
# Exibir a tabela do quantil T^2(p,n-1,95%)
print(critical_values, digits=4)
2 3 4 5 6 7 8 9 10
30 6.919 9.539 12.236 15.10 18.18 21.56 25.27 29.41 34.04
80 6.307 8.382 10.362 12.31 14.24 16.19 18.17 20.17 22.22
130 6.182 8.154 10.007 11.80 13.56 15.31 17.05 18.79 20.54
180 6.128 8.057 9.857 11.59 13.28 14.94 16.59 18.23 19.87
230 6.098 8.003 9.774 11.47 13.12 14.74 16.34 17.93 19.51
280 6.078 7.969 9.722 11.40 13.02 14.62 16.19 17.74 19.28
330 6.065 7.945 9.686 11.35 12.96 14.53 16.08 17.61 19.13
380 6.055 7.928 9.659 11.31 12.91 14.47 16.00 17.52 19.01
430 6.048 7.914 9.639 11.28 12.87 14.42 15.94 17.44 18.93
480 6.042 7.904 9.623 11.26 12.84 14.38 15.90 17.39 18.86
530 6.037 7.895 9.610 11.24 12.82 14.35 15.86 17.34 18.81
580 6.033 7.888 9.599 11.23 12.80 14.33 15.83 17.31 18.76
630 6.030 7.882 9.590 11.21 12.78 14.31 15.80 17.27 18.73
680 6.027 7.877 9.583 11.20 12.77 14.29 15.78 17.25 18.70
730 6.024 7.873 9.576 11.19 12.75 14.27 15.76 17.22 18.67
780 6.022 7.869 9.570 11.19 12.74 14.26 15.74 17.20 18.65
830 6.020 7.866 9.565 11.18 12.73 14.25 15.73 17.19 18.62
880 6.019 7.863 9.561 11.17 12.73 14.24 15.72 17.17 18.61
930 6.017 7.860 9.557 11.17 12.72 14.23 15.71 17.16 18.59
980 6.016 7.858 9.553 11.16 12.71 14.22 15.70 17.15 18.58
1000 6.016 7.857 9.552 11.16 12.71 14.22 15.69 17.14 18.57
# Inicializar uma matriz para armazenar as diferenças em porcentagem
diff_percent <- matrix(NA, nrow = length(n_values), ncol = length(p_values))
# Preencher a matriz com as diferenças
for (i in 1:length(n_values)) {
for (j in 1:length(p_values)) {
n <- n_values[i]
p <- p_values[j]
diffperc <- (((p * (n - 1)) / (n - p)) *
qf(1 - alpha, p, n - p) -
qchisq(1 - alpha, p))/qchisq(1 - alpha, p)
diff_percent[i, j] <- diffperc
}
}
# Definir os nomes das linhas e colunas da tabela
rownames(diff_percent) <- n_values
colnames(diff_percent) <- p_values
# Exibir a tabela da variação porcentual dos quantis X^2(p, 95%) e T^2(p,n-1,95%)
print(diff_percent, digits=2)
2 3 4 5 6 7 8 9 10
30 0.1549 0.2206 0.2897 0.3637 0.4442 0.532 0.630 0.738 0.860
80 0.0527 0.0726 0.0921 0.1116 0.1313 0.151 0.172 0.192 0.214
130 0.0318 0.0434 0.0547 0.0659 0.0770 0.088 0.099 0.110 0.122
180 0.0227 0.0310 0.0389 0.0467 0.0544 0.062 0.070 0.077 0.085
230 0.0177 0.0241 0.0302 0.0362 0.0421 0.048 0.054 0.060 0.065
280 0.0145 0.0197 0.0247 0.0295 0.0343 0.039 0.044 0.048 0.053
330 0.0123 0.0167 0.0209 0.0250 0.0290 0.033 0.037 0.041 0.045
380 0.0106 0.0144 0.0181 0.0216 0.0251 0.029 0.032 0.035 0.039
430 0.0094 0.0127 0.0159 0.0190 0.0221 0.025 0.028 0.031 0.034
480 0.0084 0.0114 0.0143 0.0170 0.0197 0.022 0.025 0.028 0.030
530 0.0076 0.0103 0.0129 0.0154 0.0179 0.020 0.023 0.025 0.027
580 0.0069 0.0094 0.0118 0.0140 0.0163 0.018 0.021 0.023 0.025
630 0.0064 0.0087 0.0108 0.0129 0.0150 0.017 0.019 0.021 0.023
680 0.0059 0.0080 0.0100 0.0120 0.0139 0.016 0.018 0.019 0.021
730 0.0055 0.0075 0.0093 0.0111 0.0129 0.015 0.016 0.018 0.020
780 0.0052 0.0070 0.0087 0.0104 0.0121 0.014 0.015 0.017 0.018
830 0.0048 0.0066 0.0082 0.0098 0.0113 0.013 0.014 0.016 0.017
880 0.0046 0.0062 0.0077 0.0092 0.0107 0.012 0.014 0.015 0.016
930 0.0043 0.0058 0.0073 0.0087 0.0101 0.011 0.013 0.014 0.015
980 0.0041 0.0055 0.0069 0.0083 0.0096 0.011 0.012 0.013 0.015
1000 0.0040 0.0054 0.0068 0.0081 0.0094 0.011 0.012 0.013 0.014
Suponha que \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Então, com \(\mathbf{\bar{X}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{X}_i\) e \(\boldsymbol{S} = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{X}_i - \mathbf{\bar{X}})(\mathbf{X}_i - \mathbf{\bar{X}})^{\prime}\),
\[ \alpha=P\left( T^2 > \dfrac{(n-1)p}{n-p} F_{p, n-p}(1-\alpha) \right) \tag{5-6} \]
em que \(F_{p, n-p}(1-\alpha)\) é o percentil \(100(1-\alpha)\)-ésimo da distribuição \(F\) com \(p\) e \(n - p\) graus de liberdade.
A afirmação (5-6) leva imediatamente a um teste da hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) contra \(H_1: \boldsymbol{\mu} \neq \boldsymbol{\mu}_0\). No nível de significância \(\alpha\), rejeitamos \(H_0\) em favor de \(H_1\) se o valor observado de \(T^2\) for maior que um valor crítico, dado por:
\[ T^2 = n (\mathbf{\bar{x}} - \boldsymbol{\mu}_0)^{\prime} \boldsymbol{s}^{-1} (\mathbf{\bar{x}} - \boldsymbol{\mu}_0) > \dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha) \]
É raro, em situações multivariadas, ficar satisfeito com um teste de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) em que todos os componentes do vetor de média são especificados sob a hipótese nula. Normalmente, é preferível encontrar regiões de valores de \(\boldsymbol{\mu}\) que sejam plausíveis à luz dos dados observados. Retornaremos a essa questão na Seção 5.4.
Não há necessidade de usar o quantil da distribuição \(T^2\) de Hotelling porque é facilmente calculável a partir do quantil da distribuição \(F\) de Fisher:
\[ \begin{align} T^2 &= n (\mathbf{\bar{x}} - \boldsymbol{\mu}_0)^{\prime} \boldsymbol{s}^{-1} (\mathbf{\bar{x}} - \boldsymbol{\mu}_0) > \frac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha) \\ \dfrac{n-p}{(n - 1)p}T^2 &= \dfrac{n-p}{(n - 1)p}n (\mathbf{\bar{x}} - \boldsymbol{\mu}_0)^{\prime} \boldsymbol{s}^{-1} (\mathbf{\bar{x}} - \boldsymbol{\mu}_0) > F_{p, n-p}(1-\alpha) \end{align} \]
Suponha que a matriz de dados para uma amostra aleatória de tamanho \(n = 3\) de uma população normal bivariada seja
\[ \boldsymbol{\mathcal{x}}=\left[ \begin{array}{cc} 6 & 9 \\ 10 & 6 \\ 8 & 3 \end{array} \right] \]
Avalie o \(T^2\) observado para \(\boldsymbol{\mu}_0^{\prime} = [9\; 5]\). Qual é quantil crítico de 95% neste caso?
\[ T^2= 3\begin{bmatrix} 8-9& 6-5 \end{bmatrix} \begin{bmatrix} \dfrac{1}{3}& \dfrac{1}{9}\\ \dfrac{1}{9}& \dfrac{4}{27} \end{bmatrix} \begin{bmatrix} 8-9 \\ 6-5 \end{bmatrix}=\dfrac{7}{9} \]
Portanto, \(F\) pode ser obtido da seguinte forma: \(\dfrac{(3-1)2}{3-2} F = 4 F = 7/9\). Portanto, \(F\approx0.19\). O quantil crítico de \(F_{2,1}(0.95)=199.5\).
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
p <- 2
n <- 3
alfa <- 0.05
H0 <- c(9, 5)
x <- matrix(c(6, 9,
10, 6,
8, 3),
nrow=3, byrow=TRUE)
centroide <- colMeans(x)
centroide
[1] 8 6
[,1] [,2]
[1,] 4 -3
[2,] -3 9
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")
T^2(2, 2, 0.95) = 798
T^2 = 0.7777778
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")
F(2, 1, 0.95) = 199.5
F(2, 1) = 0.1944444, p = 0.8485281
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("x1", "x2")
print(proportions(a.hat_abs), digits=2)
Importância
x1 0.86
x2 0.14
Note que \(F<F_{2, 1}(0.95)\). Desta forma, \(H_0\) não é rejeitada.
\[\Diamond\]
O próximo exemplo ilustra um teste da hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) usando dados coletados como parte de uma busca por novas técnicas de diagnóstico na Faculdade de Medicina da Universidade de Wisconsin.
A transpiração de 20 mulheres saudáveis foi analisada. Três componentes, \(X_1 =\) taxa de suor, \(X_2 =\) conteúdo de sódio, e \(X_3 =\) conteúdo de potássio, foram medidos, e os resultados, que chamamos de dados de suor, são apresentados na Tabela 5.1.
Teste a hipótese \(H_0: \boldsymbol{\mu}^{\prime} = [4\; 50\; 10]\) contra \(H_1: \boldsymbol{\mu}^{\prime} \neq [4\; 50\; 10]\) no nível de significância \(\alpha = 0.1\).
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-1.DAT", quote="\"", comment.char="")
names(x) <- paste0("x",1:3)
print.data.frame(x)
x1 x2 x3
1 3.7 48.5 9.3
2 5.7 65.1 8.0
3 3.8 47.2 10.9
4 3.2 53.2 12.0
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14.0
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
$multivariate_normality
Test Statistic p.value Method MVN
1 Henze-Zirkler 0.476 0.74 asymptotic ✓ Normal
$univariate_normality
Test Variable Statistic p.value Normality
1 Anderson-Darling x1 0.276 0.620 ✓ Normal
2 Anderson-Darling x2 0.166 0.929 ✓ Normal
3 Anderson-Darling x3 0.267 0.649 ✓ Normal
$descriptives
Variable n Mean Std.Dev Median Min Max 25th 75th Skew Kurtosis
1 x1 20 4.640 1.697 4.50 1.5 8.5 3.65 5.550 0.436 2.892
2 x2 20 45.400 14.135 47.30 13.5 71.6 36.70 54.450 -0.348 2.831
3 x3 20 9.965 1.905 9.75 7.1 14.0 8.35 11.225 0.368 2.220
$data
x1 x2 x3
1 3.7 48.5 9.3
2 5.7 65.1 8.0
3 3.8 47.2 10.9
4 3.2 53.2 12.0
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14.0
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
$subset
NULL
$outlierMethod
[1] "none"
attr(,"class")
[1] "mvn"
x1 x2 x3
4.640 45.400 9.965
x1 x2 x3
x1 2.879368 10.0100 -1.809053
x2 10.010000 199.7884 -5.640000
x3 -1.809053 -5.6400 3.627658
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")
T^2(3, 19, 0.9) = 8.172573
T^2 = 9.738773
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")
F(3, 17, 0.9) = 2.437434
F(3, 17) = 2.904546, p = 0.06492834
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 9.738773
F value = 2.905 , df1 = 3 , df2 = 17 , p-value: 0.0649
Descriptive Statistics
x1 x2 x3
N 20.00000 20.00000 20.000000
Means 4.64000 45.40000 9.965000
Sd 1.69687 14.13465 1.904641
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x1 3.555292 5.724708 4 FALSE
x2 36.364555 54.435445 50 FALSE
x3 8.747476 11.182524 10 FALSE
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("sweat rate", "sodium", "potassium")
print(proportions(a.hat_abs), digits=2)
Importância
sweat rate 0.700
sodium 0.063
potassium 0.237
Comparando o \(T^2\) observado de 9.74 com o valor crítico
\[ \dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha) = \dfrac{19 \times 3}{20 - 3} \times 2.44 = 3.353 \times 2.44 = 8.18 \]
vemos que \(T^2 = 9.74 > 8.18\), e consequentemente, rejeitamos \(H_0\) no nível de significância de 10%.
Observamos que \(H_0\) será rejeitada se uma ou mais das médias, ou alguma combinação de médias, diferir muito dos valores hipotetizados \([4, 50, 10]\). Neste ponto, não temos ideia de quais desses valores hipotetizados podem não ser suportados pelos dados.
Assumimos que os dados de suor são multivariados normais. (Veja o Exercício 5.4.)
\[\Diamond\]
Uma característica da estatística \(T^2\) é que ela é invariante (inalterada) sob mudanças nas unidades de medida para \(\underset{p\times 1}{\mathbf{X}}\) da forma (transformação linear)
\[ \mathbf{Y} = \mathbf{C} \mathbf{X} + \mathbf{d} \tag{5-9} \]
Em que \(\mathbf{C}\) é não singular.
Uma transformação linear das observações desse tipo ocorre quando uma constante \(b_i\) é subtraída da \(i\)-ésima variável para formar \(X_i - b_i\), e o resultado é multiplicado por uma constante \(a_i > 0\) para obter \(a_i(X_i - b_i)\). A pré-multiplicação das quantidades centradas e escaladas \(a_i(X_i - b_i)\) por qualquer matriz não singular resultará na Equação (5-9).
Como exemplo, as operações envolvidas na mudança de \(X_i\) para \(a_i(X_i - b_i)\) correspondem exatamente ao processo de conversão de temperatura de Fahrenheit para Celsius.
Dadas as observações \(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\) e a transformação em (5-9), segue imediatamente do Resultado 3.6 que:
\[ \begin{align} \bar{\mathbf{y}} &= \mathbf{C} \bar{\mathbf{x}} + \mathbf{d}\\ \mathbf{s}_\mathbf{y} &= \dfrac{1}{n} \sum_{i=1}^{n} (\mathbf{y}_i - \bar{\mathbf{y}}) (\mathbf{y}_i - \bar{\mathbf{y}})^{\prime} = \mathbf{C} \mathbf{s}_\mathbf{x} \mathbf{C}^{\prime} \end{align} \]
Além disso, por (2-24) e (2-45),
\[ \boldsymbol{\mu}_\mathbf{Y} = \mathbb{E}(\mathbf{Y}) = \mathbb{E}(\mathbf{C} \mathbf{X} + \mathbf{d}) = \mathbb{E}(\mathbf{C} \mathbf{X}) + \mathbb{E}(\mathbf{d}) = \mathbf{C} \boldsymbol{\mu}_\mathbf{X} + \mathbf{d} \]
Portanto, \(T^2\) calculado com os \(\mathbf{y}\) e um valor hipotetizado \(\boldsymbol{\mu}_{\mathbf{y},0} = \mathbf{C} \boldsymbol{\mu}_0 + \mathbf{d}\) é
\[ \begin{align} T^2 &= n(\bar{\mathbf{y}} - \boldsymbol{\mu}_{\mathbf{y},0})^{\prime} \mathbf{s}_{\mathbf{y}}^{-1} (\bar{\mathbf{y}} - \boldsymbol{\mu}_{\mathbf{y},0}) \\ &= n(\mathbf{C} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0))^{\prime} (\mathbf{C} \mathbf{s}_{\mathbf{x}} \mathbf{C}^{\prime})^{-1} (\mathbf{C} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0)) \\ &= n(\bar{\mathbf{x}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{C}^{\prime} (\mathbf{C} \mathbf{s}_{\mathbf{x}} \mathbf{C}^{\prime})^{-1} \mathbf{C} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0) \\ T^2&= n(\bar{\mathbf{x}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{s}_{\mathbf{x}}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0) \end{align} \]
A última expressão é reconhecida como o valor de \(T^2\) calculado com os \(\mathbf{x}\).
Introduzimos a estatística \(T^2\) por analogia com a distância quadrada univariada \(t^2\). Existe um princípio geral para a construção de procedimentos de teste chamado método da razão de verossimilhança (LR: Likelihood Ratio test), e a estatística \(T^2\) pode ser derivada como o teste de razão de verossimilhança de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\). A teoria geral dos testes de razão de verossimilhança está além do escopo deste livro. (Veja [3] para um tratamento do tópico.) Testes de razão de verossimilhança têm várias propriedades ótimas para amostras razoavelmente grandes, e eles são particularmente convenientes para hipóteses formuladas em termos de parâmetros normais multivariados.
Teste LR é UMP (Uniformly Most Powerful). De acordo com o Lema de Neyman-Pearson, o teste de razão de verossimilhança é um teste UMP para testar hipótese nula simples. Em outras palavras, quando estamos considerando hipóteses simples para tanto a hipótese nula \(H_0\) quanto a alternativa \(H_1\), o teste LR é o teste mais poderoso entre todos os testes possíveis de um dado tamanho do teste \(\alpha\). (ver Uniformly most powerful test:)
Sabemos de (4-18) que o máximo da verossimilhança normal multivariada, à medida que \(\boldsymbol{\mu}\) e \(\Sigma\) variam sobre seus possíveis valores, é dado por
O valor máximo da função de verossimilhança quando o vetor de média e a matriz de covariância populacionais são desconhecidos é \(\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}})\):
\[ \mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}})= |2\pi \hat{\mathbf{\Sigma}}|^{-n/2}\exp\left(-\dfrac{np}{2}\right) \tag{5-10} \]
Em que \(\hat{\boldsymbol{\mu}}=\frac{1}{n}\sum_{i=1}^{n}\mathbf{X}_i\) e \(\hat{\mathbf{\Sigma}}=\frac{1}{n}\sum_{i=1}^{n}{(\mathbf{x}_i-\bar{\mathbf{x}})(\mathbf{x}_i-\bar{\mathbf{x}})}^{\prime}\).
Portanto, este valor sem restrição torna-se automaticamente um valor de referência se quisermos testar a plausibilidade de um ou dos dois parâmetros.
Se quisermos testar a plausibilidade de \(\boldsymbol{\mu}_0\), i.e., um vetor de média conjecturado e, portanto, um vetor numérico.
O valor máximo da função de verossimilhança com a restrição do vetor de média conjecturado para teste estatístico e a matriz de covariância populacional desconhecida, mas agora função da média conjecturada, é \(\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}}_0)\):
\[ \mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}}_0)= |2\pi \hat{\mathbf{\Sigma}}_0|^{-n/2}\exp\left(-\dfrac{np}{2}\right) \tag{5-11} \]
Em que \(\hat{\mathbf{\Sigma}}_0=\frac{1}{n}\sum_{i=1}^{n}{(\mathbf{x}_i-\boldsymbol{\mu}_0)(\mathbf{x}_i-\boldsymbol{\mu}_0)}^{\prime}\)
Para determinar se \(\boldsymbol{\mu}_0\) é um valor plausível de \(\boldsymbol{\mu}\), o máximo de \(\mathcal{L}(\boldsymbol{\mu}_0, \mathbf{\Sigma})\) é comparado com o máximo irrestrito de \(\mathcal{L}(\boldsymbol{\mu},\mathbf{\Sigma})\). A razão resultante é chamada de estatística de razão de verossimilhança.
Usando as Equações (5-10) e (5-11), obtemos
\[ \Lambda = \dfrac{\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}}_0)}{\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}})} = \left(\dfrac{|\hat{\mathbf{\Sigma}}|}{|\hat{\mathbf{\Sigma}}_0|}\right)^{\frac{n}{2}} \tag{5-12} \]
A estatística equivalente \(\Lambda^{2/n} = \dfrac{|\hat{\mathbf{\Sigma}}|}{|\hat{\mathbf{\Sigma}}_0|}\) é chamada de lambda de Wilks. Se o valor observado dessa razão de verossimilhança for muito pequeno, a hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) é improvável de ser verdadeira e, portanto, é rejeitada.
Note-se que a estatística do teste de razão de verossimilhança é uma potência da razão das variâncias generalizadas. Felizmente, devido à seguinte relação entre \(T^2\) e \(\Lambda\), não precisamos da distribuição deste último para realizar o teste.
Resultado 5.1: Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Então, o teste em (5-7) baseado em \(T^2\) é equivalente ao teste de razão de verossimilhança de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) contra \(H_1\) porque:
\[ \Lambda^{2/n}=\left(1+\dfrac{T^2}{n-1}\right)^{-1} \tag{5-14} \]
Aqui \(H_0\) é rejeitada para valor pequeno de \(\Lambda^{2/n}\) ou, equivalentemente, valor grande de \(T^2\). Os valores críticos de \(T^2\) são determinados por (5-6).
\[\Diamond\]
A relação (5-14) mostra que \(T^2\) pode ser calculado a partir de dois determinantes, evitando assim o cálculo de \(\mathbf{s}^{-1}\). Resolvendo (5-14) para \(T^2\), temos
$ T^2 = (n-1)(-1) $
Teste de razão de verossimilhança é comum em análise multivariada. Suas propriedades ótimas para grandes amostras são válidas em contextos muito gerais, como indicaremos em breve. Eles são bem adequados para as situações de teste consideradas neste texto. Métodos de razão de verossimilhança produzem estatísticas de teste que se reduzem às estatísticas \(t\) e \(F\) familiares em situações univariadas, mas podem ser unificados por estatística de teste com distribuição exata \(T^2\) ou assintótica \(\chi^2\).
Para obter nosso principal método para fazer inferências a partir de uma amostra, precisamos estender o conceito de um intervalo de confiança univariado para uma região de confiança multivariada. Seja \(\boldsymbol{\theta}\) um vetor de parâmetros populacionais desconhecidos e \(\boldsymbol{\Theta}\) o conjunto de todos os possíveis valores de \(\boldsymbol{\theta}\). Uma região de confiança é uma região de prováveis valores de \(\boldsymbol{\theta}\). Essa região é determinada pelos dados e, por enquanto, a denotaremos por \(R(\boldsymbol{\mathcal{X}})\), em que \(\boldsymbol{\mathcal{X}} = [\mathbf{X}_1 \; \mathbf{X}_2 \; \cdots \; \mathbf{X}_n]^{\prime}\) é a matriz de dados estocástica.
A região \(R(\boldsymbol{\mathcal{X}})\) é dita ser uma região de confiança de \(100(1 - \alpha)\%\) se, antes da amostra ser selecionada,
\[ P[\boldsymbol{\theta}\in R(\boldsymbol{\mathcal{X}})] = 1 - \alpha \tag (5-17) \]
Essa probabilidade é calculada sob o verdadeiro, mas desconhecido, valor de \(\boldsymbol{\theta}\).
A região de confiança para a média \(\boldsymbol{\mu}\) de uma população normal p-dimensional está disponível a partir de (5-6). Antes da amostra ser selecionada, temos
\[ P\left(T^2=n (\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime} \mathbf{S}^{-1} (\bar{\mathbf{X}} - \boldsymbol{\mu}) \le \dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha) \right) = 1 - \alpha \]
Independentemente dos valores desconhecidos de \(\boldsymbol{\mu}\) e \(\mathbf{\Sigma}\). Em outras palavras, \(\bar{\mathbf{X}}\) estará dentro de
\[ \sqrt{\dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha)} \]
de \(\boldsymbol{\mu}\), com probabilidade \(1 - \alpha\), desde que a distância seja definida em termos de \(n \mathbf{S}^{-1}\). Para uma amostra específica, \(\mathbf{x}\) e \(\mathbf{s}\) podem ser calculados, e a desigualdade
\[ n (\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime} \mathbf{s}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}) \le \dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha) \tag{5-18} \]
definirá uma região de confiança de \(100(1-\alpha)\%\) para \(\boldsymbol{\mu}\). Neste caso, a região é um hiperelipsoide centrado em \(\bar{\mathbf{x}}\).
Para determinar se algum \(\boldsymbol{\mu}_0\) está dentro da região de confiança (é um valor plausível para \(\boldsymbol{\mu}\)), precisamos calcular a distância quadrada generalizada
\[ n (\bar{\mathbf{x}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{s}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0) \]
e compará-la com
\[ T^2_{p,n-1}(1-\alpha)=\dfrac{(n - 1)p}{n - p}F_{p,n-p}(1-\alpha) \]
Se a distância quadrada for maior do que \(T^2_{p,n-1}(1-\alpha)\), \(\boldsymbol{\mu}_0\) não está na região de confiança. Como isso é análogo ao teste de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) contra \(H_1: \boldsymbol{\mu} \neq \boldsymbol{\mu}_0\) [veja (5-7)], vemos que a região de confiança de (5-18) consiste em todos os vetores \(\boldsymbol{\mu}_0\) para os quais o teste \(T^2\) não rejeitaria \(H_0\) em favor de \(H_1\) no nível de significância \(\alpha\).
Para \(p \ge 4\), não podemos representar graficamente a região de confiança conjunta para \(\boldsymbol{\mu}\). No entanto, podemos calcular os eixos do hiperelipsoide de confiança e seus comprimentos relativos. Estes são determinados pelos autovalores \(\lambda_i\) e autovetores \(\mathbf{e}_i\) de \(\mathbf{s}\). Como em (4-7), as direções e comprimentos dos eixos de
\[ n (\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime} \mathbf{s}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}) \le c^2 = \dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha) \]
são determinados por
\[ c\sqrt{\frac{\lambda_i}{n}} = \sqrt{\lambda_i}\sqrt{\dfrac{(n - 1)}{n(n - p)}F_{p,n-p}(1-\alpha)} \]
unidades ao longo dos autovetores \(\mathbf{e}_i\). Começando no centro \(\mathbf{x}\), os eixos do elipsoide de confiança são
\[ \pm\sqrt{\lambda_i}\sqrt{\dfrac{(n - 1)p }{n(n - p)} F_{p,n-p}(1-\alpha)}\;\mathbf{e}_i\\ \mathbf{s} \mathbf{e}_i = \lambda_i \mathbf{e}_i\\ i = 1,2,\ldots,p \tag{5-19} \]
Se \(n-p\gg30\), então:
\[ \sqrt{\lambda_i}\sqrt{\dfrac{(n - 1)p }{n(n - p)} F_{p,n-p}(1-\alpha)}\;\mathbf{e}_i\approx \sqrt{\lambda_i}\sqrt{\dfrac{\chi^2(1-\alpha)}{n}}\;\mathbf{e}_i\xrightarrow[n\to\infty]{}0 \]
As razões dos \(\lambda_i\) ajudarão a identificar as quantidades relativas de alongamento ao longo de pares de eixos.
Dados sobre radiação de fornos de micro-ondas foram introduzidos nos Exemplos 4.10 e 4.17. Seja
\[ \begin{align} x_1 &= \sqrt[4]{\text{radiação medida com a porta fechada}}\\ x_2 &= \sqrt[4]{\text{radiação medida com a porta aberta}} \end{align} \]
Figura 5.1: Uma elipse de confiança de 95% para μ com base em dados de radiação de micro-ondas.
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x1 <- read.table("JW6Data/T4-1.DAT", quote="\"", comment.char="")
names(x1) <- paste0("x1",1:1)
x1rq <- x1$x1^(1/4) # radiação medida com a porta fechada
x2 <- read.table("JW6Data/T4-5.DAT", quote="\"", comment.char="")
names(x2) <- paste0("x2",1:1)
x2rq <- x2$x2^(1/4) # radiação medida com a porta aberta
x <- data.frame(x1rq, x2rq)
print(head(x))
x1rq x2rq
1 0.6223330 0.7400828
2 0.5477226 0.5477226
3 0.6513556 0.7400828
4 0.5623413 0.5623413
5 0.4728708 0.5623413
6 0.5885662 0.5885662
x1rq x2rq
37 0.6687403 0.6687403
38 0.7400828 0.7952707
39 0.7400828 0.7579289
40 0.7952707 0.7521206
41 0.7400828 0.5885662
42 0.4728708 0.5885662
x1rq x2rq
0.5642575 0.6029812
x1rq x2rq
x1rq 0.01435023 0.01171547
x2rq 0.01171547 0.01454530
H0 <- c(0.562, 0.589)
p <- dim(x)[2]
n <- dim(x)[1]
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")
T^2(2, 41, 0.95) = 6.62504
T^2 = 1.2573
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")
F(2, 40, 0.95) = 3.231727
F(2, 40) = 0.6133173, p = 0.5465654
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 1.2573
F value = 0.613 , df1 = 2 , df2 = 40 , p-value: 0.547
Descriptive Statistics
x1rq x2rq
N 42.0000000 42.0000000
Means 0.5642575 0.6029812
Sd 0.1197925 0.1206039
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x1rq 0.5166803 0.6118347 0.562 FALSE
x2rq 0.5550817 0.6508807 0.589 FALSE
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("x1rq", "x2rq")
print(proportions(a.hat_abs), digits=2)
Importância
x1rq 0.43
x2rq 0.57
[1] 0.026163638 0.002731895
azão da raiz quadrada dos autovalores = 3.094689
a <- sqrt(T2crit*eigen_result$values[1]/n) # (5-19)
b <- sqrt(T2crit*eigen_result$values[2]/n) # (5-19)
theta <- atan2(eigen_result$vectors[2, 1], eigen_result$vectors[1, 1])
# Grade de pontos para a elipse
theta_seq <- seq(0, 2 * pi, length.out = 100)
ellipse_x <- centroide[1] + a * cos(theta_seq) * cos(theta) -
b * sin(theta_seq) * sin(theta)
ellipse_y <- centroide[2] + a * cos(theta_seq) * sin(theta) +
b * sin(theta_seq) * cos(theta)
plot(ellipse_x, ellipse_y, type = "l", asp = 1,
xlab=expression(x[1]^(1/4)),
ylab=expression(x[2]^(1/4)),
main="Região elíptica de confiança de 95%",
col="black")
points(centroide[1], centroide[2], col = "black", pch = 19)
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))
c <- sqrt(T2crit/n)
car::ellipse(center=centroide,
shape=s,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab=expression(x[1]^(1/4)),
ylab=expression(x[2]^(1/4)),
main="Região elíptica de confiança de 95%")
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))
[,1] [,2]
x1rq 0.5166803 0.6118347
x2rq 0.5550817 0.6508807
Enquanto a região de confiança \(n(\mathbf{x} - \boldsymbol{\mu})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \boldsymbol{\mu}) \leq c^2\), para \(c\) uma constante, avalia corretamente o conhecimento conjunto sobre valores plausíveis de \(\boldsymbol{\mu}\), qualquer resumo de conclusões normalmente inclui intervalos de confiança sobre as componentes do vetor de média. Ao fazer isso, adotamos a postura de que todos os intervalos de confiança separados devem ser válidos simultaneamente com uma probabilidade especificada alta. É a garantia de uma probabilidade especificada contra qualquer intervalo de confiança ser incorreto que motiva o termo intervalos de confiança simultâneos. Começamos considerando intervalos de confiança simultâneos que estão intimamente relacionadas à região de confiança conjunta baseada na estatística \(T^2\).
Seja \(\mathbf{X} \sim \mathcal{N}_p(\boldsymbol{\mu}, \mathbf{\Sigma})\) e forme a combinação linear
\[ Z = \sum_{i=1}^{p}{a_iX_i} = \mathbf{a}^{\prime}\mathbf{X} \]
A partir de (2-43), temos
\[ \begin{align} \mu_Z &= \mathbb{E}(Z) = \mathbf{a}^{\prime}\boldsymbol{\mu} \\ \sigma_Z^2 &= \mathbb{V}(Z) = \mathbf{a}^{\prime}\mathbf{\Sigma}\mathbf{a} \end{align} \]
Além disso, pelo Resultado 4.2, \(Z ~\sim \mathcal{N}(\mathbf{a}^{\prime}\boldsymbol{\mu}, \mathbf{a}^{\prime}\mathbf{\Sigma}\mathbf{a})\). Se \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}\left(\boldsymbol{\mu}, \mathbf{\Sigma}\right)\), uma amostra correspondente de \(Z\) pode ser criada tomando combinações lineares. Assim,
\[ Z_j = \sum_{i=1}^{p}{a_iX_ji} = \mathbf{a}^{\prime}\mathbf{X}_j \\ j = 1, 2, \ldots, n \]
A média amostral e a variância dos valores observados \(z_1, z_2, \ldots, z_n\) são, por (3-36),
\[ \bar{z} = \mathbf{a}^{\prime}\bar{\mathbf{x}} \]
e
\[ s^2_Z = \mathbf{a}^{\prime}\mathbf{s}\mathbf{a} \]
em que \(\bar{\mathbf{x}}\) e \(\mathbf{s}\) são o vetor de média e a matriz de covariância amostais dos \(\mathbf{x}_i\), respectivamente.
Intervalos de confiança simultâneos podem ser desenvolvidos a partir de uma consideração dos intervalos de confiança para \(\mathbf{a}^{\prime}\boldsymbol{\mu}\) para várias escolhas de \(\mathbf{a}\). O argumento prossegue da seguinte forma.
Para $ $ fixo e \(\sigma^2_Z\) desconhecido, um intervalo de confiança de \(100(1 - \alpha)\%\) para \(\mu_Z = \mathbf{a}^{\prime}\boldsymbol{\mu}\) é baseado na razão t de Student.
\[ t=\dfrac{\bar{z}-\mu_z}{s_z/\sqrt{n}}=\dfrac{\sqrt{n}(\mathbf{a}^{\prime} -\mathbf{a}^{\prime}\boldsymbol{\mu})}{\sqrt{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}}} \tag{5-20} \]
e leva ao intervalo de confiança
\[ \text{IC}^{1-\alpha}(\mu_Z) = \left[\bar{z} \pm t_{n-1}(1-\alpha/2) \dfrac{s_Z}{\sqrt{n}}\right] \]
ou
\[ \text{IC}^{1-\alpha}(\mathbf{a}^{\prime}\boldsymbol{\mu})=\mathbf{a}^{\prime}\bar{\mathbf{x}} \pm t_{n-1}(1-\alpha/2) \dfrac{\sqrt{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}}}{\sqrt{n}} \tag{5-21} \]
A desigualdade (5-21) pode ser interpretada como uma afirmação sobre os componentes do vetor de média \(\boldsymbol{\mu}\). Por exemplo, com \(\mathbf{a}^{\prime} = [1\;0\;\cdots\;0]\), \(\mathbf{a}^{\prime}\boldsymbol{\mu} = \mu_1\), e (5-21) se torna o intervalo de confiança usual para uma média de população normal. (Note, neste caso, que \(\mathbf{a}^{\prime}\mathbf{s}\mathbf{a} = s_{11}\)). Claramente, poderíamos fazer várias afirmações de confiança sobre os componentes de \(\boldsymbol{\mu}\), cada uma com nível de confiança associado \(1 - \alpha\), escolhendo diferentes vetores de coeficientes \(\mathbf{a}\). No entanto, a confiança associada a todos os intervalos de confiança tomadas em conjunto não é \(1 - \alpha\).
Intuitivamente, seria desejável associar um coeficiente de confiança “coletivo” de \(1 - \alpha\) aos intervalos de confiança que podem ser gerados por todas as escolhas de \(\mathbf{a}\). No entanto, um preço deve ser pago pela conveniência de um grande coeficiente de confiança simultâneo: intervalos que são mais largos (menos precisos) do que o intervalo de \((5-21)\) para uma escolha específica de \(\mathbf{a}\).
Dado um conjunto de dados \(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\) e um \(\mathbf{a}\) particular, o intervalo de confiança em \((5-21)\) é o conjunto de valores \(\mathbf{a}^{\prime}\boldsymbol{\mu}\) para os quais
\[ |t| = \sqrt{n} \dfrac{|\mathbf{a}^{\prime}\bar{\mathbf{x}} - \mathbf{a}^{\prime}\boldsymbol{\mu}|}{\sqrt{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}}}\le t_{n-1}(1-\alpha/2) \]
ou, equivalentemente,
\[ t^2 = n\frac{(\mathbf{a}^{\prime}\bar{\mathbf{x}} - \mathbf{a}^{\prime}\boldsymbol{\mu})^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} = n\dfrac{(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} \le t_{n-1}^2(1-\alpha/2) \tag{5-22} \]
Sendo que:
\[ t_{n-1}^2(1-\alpha/2)=F_{1,n-1}(1-\alpha)=T^2_{1,n-1}(1-\alpha) \]
[1] 5.117355
[1] 5.117355
[1] TRUE
[1] FALSE
Uma região de confiança simultânea é dada pelo conjunto de valores de \(\mathbf{a}\) tal que \(t^2\) é relativamente pequeno para todas as escolhas de \(\mathbf{a}\). Parece razoável esperar que a constante \(t_{n-1}^2(1-\alpha/2)\) em (5-22) seja substituída por um valor maior, \(c^2\), quando os intervalos de confiança são desenvolvidos para muitas escolhas de \(\mathbf{a}\).
Considerando os valores de \(\mathbf{a}\) para os quais \(t^2 \le c^2\), somos naturalmente levados à determinação de
\[ \max_\mathbf{a}{t^2} = \max_\mathbf{a} \frac{n(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} \]
Usando o lema de maximização (2-50) com \(\mathbf{x} = \mathbf{a}\), \(\mathbf{d} = (\bar{\mathbf{x}} - \boldsymbol{\mu})\), e \(\mathbf{B} = \mathbf{s}\), obtemos
\[ \max_\mathbf{a} \dfrac{n(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} = n(\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime}\mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu}) = T^2 \tag{5-23} \]
com o máximo ocorrendo para \(\mathbf{a}^* = \mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu})\):
\[ \underset{\mathbf{a}}{\operatorname{argmax}} \dfrac{n(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} = \mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu}) \]
Resultado 5.3. Regiões de confiança \(T^2\) ou de Scheffé
Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}\left(\boldsymbol{\mu}, \mathbf{\Sigma}\right)\). Então, simultaneamente para todas as \(m<\infty\) combinações lineares das médias, \(\mathbf{a}_i\), os intervalos
\[ \begin{align} \text{IC}^{1-\alpha}(\mathbf{a}_i^{\prime}\boldsymbol{\mu})&= \left[\mathbf{a}_i^{\prime}\bar{\mathbf{x}} \pm q\sqrt{\dfrac{\mathbf{a}_i^{\prime}\mathbf{s}\mathbf{a}_i}{n}}\right]\\ q &= \sqrt{T^2_{p, n-1}(1-\alpha)}=\sqrt{\frac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)}\\ i&=1,2,\ldots,m \end{align} \]
contêm todas as \(m\) combinações lineares das médias, \(\mathbf{a}_i^{\prime}\boldsymbol{\mu}\), com probabilidade \(1-\alpha\).
\[\Diamond\]
É conveniente referir-se aos intervalos simultâneos do Resultado 5.3 como intervalos \(T^2\), uma vez que a probabilidade de cobertura é determinada pela distribuição de \(T^2\). As escolhas sucessivas \(\mathbf{a}^{\prime} = [1\; 0\; \cdots\; 0]\), \(\mathbf{a}^{\prime} = [0\; 1\; \cdots\; 0]\), e assim por diante até \(\mathbf{a}^{\prime} = [0\; 0\; \cdots\; 1]\) para os intervalos \(T^2\) nos permitem concluir que:
\[ \text{IC}^{1-\alpha}(\mu_i) = \left[\bar{x}_i \pm \sqrt{\dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{ii}}{n}}\right] \\ i=1,2,\ldots,p \tag{5-24} \]
todos são válidos simultaneamente com nível de confiança \(1 - \alpha\). Observe que, sem modificar o nível de confiança \(1 - \alpha\), podemos fazer intervalos de confiança das diferenças \(\mu_i - \mu_k\) correspondentes a \(\mathbf{a}^{\prime} = [0, \ldots, 0, a_i, 0, \ldots, 0, a_k, 0, \ldots, 0]\), em que \(a_i = 1\) e \(a_k = -1\). Neste caso, \(\mathbf{a}^{\prime}\mathbf{s}\mathbf{a} = s_{ii} - 2s_{ik} + s_{kk}\), e temos o intervalo de confiança
\[ \text{IC}^{1-\alpha}(\mu_i-\mu_k) = \left[\bar{x}_i - \bar{x}_k \pm \sqrt{\dfrac{(n - 1)p}{n - p}F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{ii} - 2s_{ik} + s_{kk}}{n}}\right] \tag{5-25} \]
Os intervalos de confiança \(T^2\) simultâneos são ideais para “exploração de dados”. O nível de confiança \(1 - \alpha\) permanece inalterado para qualquer escolha de \(\mathbf{a}\), então combinações lineares dos componentes que merecem inspeção com base em um exame dos dados podem ser estimadas.
Além disso, de acordo com os resultados no Suplemento 5A, podemos incluir os intervalos de confiança de \((\mu_i, \mu_k)\) pertencendo às elipses centradas na média amostral
\[ n \begin{bmatrix} \bar{x}_i -\mu_i & \bar{x}_k -\mu_k \end{bmatrix} \begin{bmatrix} s_{ii} & s_{ik} \\ s_{ik} & s_{kk} \end{bmatrix}^{-1} \begin{bmatrix} \bar{x}_i -\mu_i \\ \bar{x}_k -\mu_k \end{bmatrix} \le \dfrac{p(n - 1)}{n - p} F_{p, n-p}(1-\alpha) \tag{5-26} \]
e ainda manter o nível de confiança \((1 - \alpha)\) para todo o conjunto de intervalos de confiança.
Os intervalos de confiança \(T^2\) simultâneos para os componentes individuais de um vetor de média são apenas as projeções da região elíptica de confiança nos eixos dos componentes. Essa conexão entre as projeções do hiperelipsoide e os intervalos de confiança simultâneos dados por \((5-24)\) é ilustrada no próximo exemplo.
No Exemplo 5.3, obtivemos a elipse de confiança de 95% para as médias das raízes quartas das medições de radiação de micro-ondas com a porta fechada e aberta. Os intervalos \(T^2\) simultâneos de 95% para as duas componentes do vetor de média são, a partir de \((5-24)\):
\[ \begin{align} \text{IC}^{1-\alpha}(\mu_1) &= \left[\bar{x}_1 \pm \sqrt{\dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{11}}{n}}\right] \\ \text{IC}^{95\%}(\mu_1)&= \left[0.564 \pm \sqrt{\dfrac{(41)2}{40} F_{2, 40}(0.95)} \sqrt{\dfrac{0.0144}{42}}\right] \\ \text{IC}^{95\%}(\mu_1) &= [0.516, 0.612] \end{align} \]
e
\[ \begin{align} \text{IC}^{1-\alpha}(\mu_2) &= \left[\bar{x}_2 \pm \sqrt{\dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{22}}{n}}\right] \\ \text{IC}^{95\%}(\mu_2)&= \left[\bar{x}_2 \pm \sqrt{\dfrac{(41)2}{40} F_{2, 40}(0.95)} \sqrt{\dfrac{0.0146}{42}}\right] \\ \text{IC}^{95\%}(\mu_2) &= [0.555, 0.651] \end{align} \]
Na Figura 5.2, redesenhamos a elipse de confiança de 95% do Exemplo 5.3. Os intervalos simultâneos de 95% são mostrados como projeções desta elipse nos eixos das médias.
Figura 5.2 - Intervalos T2 simultâneos para as médias dos componentes como projeções do elipsoide de confiança - dados de radiação de micro-ondas.
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x1 <- read.table("JW6Data/T4-1.DAT", quote="\"", comment.char="")
names(x1) <- paste0("x1",1:1)
x1rq <- x1$x1^(1/4) # radiação medida com a porta fechada
x2 <- read.table("JW6Data/T4-5.DAT", quote="\"", comment.char="")
names(x2) <- paste0("x2",1:1)
x2rq <- x2$x2^(1/4) # radiação medida com a porta aberta
x <- data.frame(x1rq, x2rq)
print(head(x))
x1rq x2rq
1 0.6223330 0.7400828
2 0.5477226 0.5477226
3 0.6513556 0.7400828
4 0.5623413 0.5623413
5 0.4728708 0.5623413
6 0.5885662 0.5885662
x1rq x2rq
37 0.6687403 0.6687403
38 0.7400828 0.7952707
39 0.7400828 0.7579289
40 0.7952707 0.7521206
41 0.7400828 0.5885662
42 0.4728708 0.5885662
x1rq x2rq
0.5642575 0.6029812
x1rq x2rq
x1rq 0.01435023 0.01171547
x2rq 0.01171547 0.01454530
H0 <- c(0.562, 0.589)
p <- dim(x)[2]
n <- dim(x)[1]
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")
T^2(2, 41, 0.95) = 6.62504
T^2 = 1.2573
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")
F(2, 40, 0.95) = 3.231727
F(2, 40) = 0.6133173, p = 0.5465654
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 1.2573
F value = 0.613 , df1 = 2 , df2 = 40 , p-value: 0.547
Descriptive Statistics
x1rq x2rq
N 42.0000000 42.0000000
Means 0.5642575 0.6029812
Sd 0.1197925 0.1206039
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x1rq 0.5166803 0.6118347 0.562 FALSE
x2rq 0.5550817 0.6508807 0.589 FALSE
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("x1rq", "x2rq")
print(proportions(a.hat_abs), digits=2)
Importância
x1rq 0.43
x2rq 0.57
[1] 0.026163638 0.002731895
azão da raiz quadrada dos autovalores = 3.094689
a <- sqrt(T2crit*eigen_result$values[1]/n) # (5-19)
b <- sqrt(T2crit*eigen_result$values[2]/n) # (5-19)
theta <- atan2(eigen_result$vectors[2, 1], eigen_result$vectors[1, 1])
# Grade de pontos para a elipse
theta_seq <- seq(0, 2 * pi, length.out = 100)
ellipse_x <- centroide[1] + a * cos(theta_seq) * cos(theta) -
b * sin(theta_seq) * sin(theta)
ellipse_y <- centroide[2] + a * cos(theta_seq) * sin(theta) +
b * sin(theta_seq) * cos(theta)
plot(ellipse_x, ellipse_y, type = "l", asp = 1,
xlab=expression(x[1]^(1/4)),
ylab=expression(x[2]^(1/4)),
main="Região elíptica de confiança de 95%",
col="black")
points(centroide[1], centroide[2], col = "black", pch = 19)
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))
# Scheffé CI95%
abline(v=c(T2One$CI[1,1], T2One$CI[1,2]),
h=c(T2One$CI[2,1], T2One$CI[2,2]),
lty=2)
c <- sqrt(T2crit/n)
car::ellipse(center=centroide,
shape=s,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab=expression(x[1]^(1/4)),
ylab=expression(x[2]^(1/4)),
main="Região elíptica de confiança de 95%")
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))
# Scheffé CI95%
abline(v=c(T2One$CI[1,1], T2One$CI[1,2]),
h=c(T2One$CI[2,1], T2One$CI[2,2]),
lty=2)
[,1] [,2]
x1rq 0.5166803 0.6118347
x2rq 0.5550817 0.6508807
As pontuações obtidas por \(n = 87\) estudantes universitários no subteste \(X_1\) do Programa de Exame de Nível Universitário (CLEP) e nos subtestes \(X_2\) e \(X_3\) do Teste de Qualificação Universitária (CQT) são dadas na Tabela 5.2 na página 228 para $X_1 = $ ciências sociais e história, $X_2 = $ verbal, e \(X_3 =\) ciência. Esses dados nos dão a oportunidade de calcular os intervalos de confiança simultâneos de 95% para \(\mu_1\), \(\mu_2\) e \(\mu_3\).
Temos as seguintes estatísticas de amostra:
E obtemos os seguintes intervalos de confiança simultâneos de Scheffé de 95% [veja \((5-24)\)]:
\[ \begin{align} \text{IC}^{95\%}(\mu_1) &= [503.06, 550.12]\\ \text{IC}^{95\%}(\mu_2) &= [51.22, 58.16]\\ \text{IC}^{95\%}(\mu_3) &= [23.65, 26.61] \end{align} \]
Note que \(F_{3,84}(0.95)=2.7\).
Os intervalos de confiança \(T^2\) simultâneos (ou de Scheffé) acima são mais amplos do que os intervalos univariados porque todos os três devem ser válidos com 95% de confiança. Eles também podem ser mais amplos do que o necessário, porque, com a mesma confiança, podemos fazer afirmações sobre diferenças.
Por exemplo, com \(\mathbf{a^{\prime}} = [0\; 1\; -1]\), o intervalo para \(\mu_2 - \mu_3\) tem os pontos finais definidos por:
\[ \begin{align} \text{IC}^{1-\alpha}(\mu_2-\mu_3) &= \left[\bar{x}_2 - \bar{x}_3 \pm \sqrt{\dfrac{(n - 1)p}{n - p}F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{22} - 2s_{23} + s_{33}}{n}}\right] \\ \text{IC}^{95\%}(\mu_2-\mu_3) &= \left[54.69 - 25.13 \pm \sqrt{\dfrac{(86)3}{84}F_{3, 84}(0.95)} \sqrt{\dfrac{26.05 + 23.11 - 2(23.39)}{87}}\right] \\ \text{IC}^{95\%}(\mu_2-\mu_3) &=[26.44, 32.68] \end{align} \]
Esta elipse é mostrada na Figura 5.3, juntamente com as elipses de confiança de 95% para os outros dois pares de médias. As projeções dessas elipses nos eixos também são indicadas, e essas projeções são os intervalos \(T^2\) ou de Scheffé.
Figura 5.3 Elipses de confiança de 95% para pares de médias e os intervalos T2 simultâneos — dados de teste universitário.
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-2.DAT", quote="\"", comment.char="")
names(x) <- paste0("x1",1:3)
print(head(x))
x11 x12 x13
1 468 41 26
2 428 39 26
3 514 53 21
4 547 67 33
5 614 61 27
6 501 67 29
x11 x12 x13
82 561 59 34
83 614 70 23
84 527 49 30
85 474 41 16
86 441 47 26
87 607 67 32
x11 x12 x13
526.58621 54.68966 25.12644
x11 x12 x13
x11 5808.0593 597.83520 222.02967
x12 597.8352 126.05373 23.38853
x13 222.0297 23.38853 23.11173
H0 <- c(520, 54, 26.5)
p <- dim(x)[2]
n <- dim(x)[1]
T2crit <- (((n-1)*p)/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")
T^2(3, 86, 0.95) = 8.333483
T^2 = 16.37256
F <- ((n-p)/((n-1)*p))*T2
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")
F(3, 84, 0.95) = 2.713227
F(3, 84) = 5.3306, p = 0.002068136
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 16.37256
F value = 5.331 , df1 = 3 , df2 = 84 , p-value: 0.00207
Descriptive Statistics
x11 x12 x13
N 87.00000 87.00000 87.000000
Means 526.58621 54.68966 25.126437
Sd 76.21062 11.22737 4.807467
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x11 502.99940 550.17302 520.0 FALSE
x12 51.21484 58.16447 54.0 FALSE
x13 23.63855 26.61432 26.5 FALSE
a.hat_abs <- abs(solve(s)%*%centroide)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("hystory", "verbal", "science")
print(proportions(a.hat_abs), digits=2)
Importância
hystory 0.182
verbal 0.011
science 0.807
# http://www.sthda.com/english/wiki/a-complete-guide-to-3d-visualization-device-system-in-r-r-software-and-data-visualization
rgl::aspect3d(1,1,1)
c <- sqrt(T2crit/n)
rgl::plot3d(rgl::ellipse3d(x=s,
centre=centroide,
level=1-alfa,
t=c),
aspect=TRUE,
xlab="x1",
ylab="x2",
zlab="x3",
col="lightgray",
box=FALSE,
alpha=0.3,
add=FALSE)
rgl::points3d(centroide, size = 5,
color = "black")
rgl::text3d(centroide, texts = "centroid",
adj = c(0,0,0))
rgl::points3d(H0, size = 5,
color = "blue")
rgl::text3d(H0, texts = "H0",
adj = c(0,0,0))
rgl::rglwidget()
centroide12 <- colMeans(x[,c(1,2)])
s12 <- cov(x[,c(1,2)])
car::ellipse(center=centroide12,
shape=s12,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab=expression(mu[hystory]),
ylab=expression(mu[verbal]),
main="Região elíptica de confiança de 95%\n hystory vs. verbal")
abline(v=H0[1],h=H0[2],lty=2)
points(H0[1], H0[2], pch=9, col="black")
text(H0[1], H0[2], pos=3, expression(H[0]))
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 0.6499543
F value = 0.321 , df1 = 2 , df2 = 85 , p-value: 0.726
Descriptive Statistics
x11 x12
N 87.00000 87.00000
Means 526.58621 54.68966
Sd 76.21062 11.22737
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x11 506.10949 547.06292 520 FALSE
x12 51.67302 57.70629 54 FALSE
a.hat_abs <- abs(solve(s12)%*%centroide12)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("hystory", "verbal")
print(proportions(a.hat_abs), digits=2)
Importância
hystory 0.923
verbal 0.077
[,1] [,2]
x11 506.10949 547.06292
x12 51.67302 57.70629
centroide13 <- colMeans(x[,c(1,3)])
s13 <- cov(x[,c(1,3)])
car::ellipse(center=centroide13,
shape=s13,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab=expression(mu[hystory]),
ylab=expression(mu[science]),
main="Região elíptica de confiança de 95%\n hystory vs. science")
abline(v=H0[1],h=H0[3],lty=2)
points(H0[1], H0[3], pch=9, col="black")
text(H0[1], H0[3], pos=3, expression(H[0]))
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 16.36573
F value = 8.088 , df1 = 2 , df2 = 85 , p-value: 0.000609
Descriptive Statistics
x11 x13
N 87.00000 87.000000
Means 526.58621 25.126437
Sd 76.21062 4.807467
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x11 506.10949 547.06292 520.0 FALSE
x13 23.83474 26.41813 26.5 *TRUE*
a.hat_abs <- abs(solve(s13)%*%centroide13)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("hystory", "science")
print(proportions(a.hat_abs), digits=2)
Importância
hystory 0.19
science 0.81
[,1] [,2]
x11 506.10949 547.06292
x13 23.83474 26.41813
centroide23 <- colMeans(x[,c(2,3)])
s23 <- cov(x[,c(2,3)])
car::ellipse(center=centroide23,
shape=s23,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab=expression(mu[hystory]),
ylab=expression(mu[science]),
main="Região elíptica de confiança de 95%\n verbal vs. science")
abline(v=H0[2],h=H0[3],lty=2)
points(H0[2], H0[3], pch=9, col="black")
text(H0[2], H0[3], pos=3, expression(H[0]))
One Sample Hotelling T Square Test
Hotelling T Sqaure Statistic = 10.77717
F value = 5.326 , df1 = 2 , df2 = 85 , p-value: 0.00662
Descriptive Statistics
x12 x13
N 87.00000 87.000000
Means 54.68966 25.126437
Sd 11.22737 4.807467
Detection important variable(s)
Lower Upper Mu0 Important Variables?
x12 51.67302 57.70629 54.0 FALSE
x13 23.83474 26.41813 26.5 *TRUE*
a.hat_abs <- abs(solve(s23)%*%centroide23)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("verbal", "science")
print(proportions(a.hat_abs), digits=2)
Importância
verbal 0.26
science 0.74
[,1] [,2]
x12 51.67302 57.70629
x13 23.83474 26.41813
\[\Diamond\]
Embora, antes da amostragem, o i-ésimo intervalo tenha probabilidade \(1- \alpha\) de cobrir \(\mu_i\), não sabemos o que afirmar, em geral, sobre a probabilidade de todos os intervalos conterem seus respectivos \(\mu_i\). Como já apontamos, essa probabilidade não é \(1 - \alpha\).
Para esclarecer um pouco o problema, considere o caso especial em que as observações têm uma distribuição normal conjunta e
\[ \begin{bmatrix} \sigma^2_1 & 0 & \cdots & 0 \\ 0 & \sigma^2_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2_p \end{bmatrix} \]
Como as observações da primeira variável são independentes daquelas da segunda variável, e assim por diante, a regra do produto para eventos independentes pode ser aplicada. Antes da amostra ser selecionada,
\[ P[\text{todos os intervalos t em (5-27) contêm os } \mu_i] = \underbrace{(1- \alpha)(1- \alpha)\cdots(1- \alpha)}_{p} = (1- \alpha)^p \]
Se \(1 - \alpha = 0.95\) e \(p = 6\), essa probabilidade é \(0.95^6 \approx 0.74\).
Para garantir uma probabilidade de \(1 - \alpha\) de que todas as afirmações sobre as médias dos componentes sejam válidas simultaneamente, os intervalos individuais devem ser mais amplos do que os intervalos \(t\) separados; o quanto mais amplos depende tanto de \(p\) quanto de \(n\), bem como de \(1 - \alpha\).
Para \(1 - \alpha = 0.95\), \(n = 15\) e \(p = 4\), os multiplicadores de \(\sqrt{s^2_{ii}/n}\) em (5-24) e (5-27) são
\[ \sqrt{\dfrac{p(n - 1)}{n - p} F_{p, n-p}(1-\alpha)} = \sqrt{\dfrac{4(14)}{11} 3.36}=4.14 \]
e
\[ t_{n-1}(1-\alpha/2) = t_{14}(0.975) = 2.145 \]
respectivamente. Consequentemente, neste caso, os intervalos simultâneos são \(100(4.14 - 2.145)/2.145 = 93\%\) mais amplos do que aqueles derivados do método \(t\) um de cada vez.
A Tabela 5.3 fornece alguns multiplicadores de distância crítica para intervalos \(t\) um de cada vez, calculados de acordo com (5-21), bem como os intervalos \(t\) correspondentes simultâneos. Em geral, a largura dos intervalos \(T^2\), em relação aos intervalos \(t\), aumenta para um \(n\) fixo à medida que \(p\) aumenta e diminui para um \(p\) fixo à medida que \(n\) aumenta.
A Tabela 5.3 mostra os multiplicadores de distância crítica para intervalos \(t\) calculados individualmente e intervalos \(T^2\) simultâneos para valores selecionados de \(n\) e \(p\) com um nível de confiança de \(1 - \alpha = 0.95\).
\[ \begin{array}{lcccc} n & t_{n-1}(0.025) & \dfrac{4(n - 1)}{n - 4} F_{4, n-4}(0.95) & \dfrac{10(n - 1)}{n - 10} F_{10, n-10}(0.95) \\ \hline 15 & 2.145 & 4.14 & 11.52 \\ 25 & 2.064 & 3.60 & 6.39 \\ 50 & 2.010 & 3.31 & 5.05 \\ 100 & 1.970 & 3.19 & 4.61 \\ \infty & 1.960 & 3.08 & 4.28 \\ \end{array} \]
Notamos que os multiplicadores para os intervalos \(T^2\) são geralmente maiores do que para os intervalos \(t\), refletindo a necessidade de maior “largura” para manter o mesmo nível de confiança ao fazer várias comparações simultâneas.
A tabela 5.3 compara os intervalos de confiança calculados usando o método um-de-cada-vez \(t\) com os intervalos de confiança simultâneos \(T^2\). A comparação pode parecer injusta porque os intervalos \(T^2\) têm um nível de confiança associado de 0.95 para todas as componentes, enquanto o nível de confiança global para um conjunto de intervalos \(t\) individuais pode ser significativamente menor que 0.95, como já vimos.
Em outras palavras, os intervalos \(t\) individuais podem ser muito curtos para manter um nível de confiança geral quando estamos fazendo intervalos de confiança sobre várias médias ao mesmo tempo. No entanto, esses intervalos \(t\) ainda podem ser considerados as melhores informações possíveis sobre uma média específica, se essa for a única inferência a ser feita.
Além disso, há argumentos de que os intervalos \(t\) individuais podem representar mais precisamente as informações sobre as médias se forem calculados apenas quando o teste \(T^2\) rejeita a hipótese nula.
Os intervalos \(T^2\) podem ser demasiado amplos se aplicados apenas às médias das componentes individuais. Para ilustrar esse ponto, considera-se a elipse de confiança e os intervalos simultâneos em uma figura hipotética (Figura 5.2 no texto original). Se cada componente da média estiver dentro de seu respectivo intervalo \(T^2\), o vetor de médias estará dentro do retângulo formado por esses intervalos. Este retângulo contém a elipse de confiança e mais, tornando-o uma estimativa mais “larga” do que necessária. Isso nos leva a considerar outras abordagens para fazer comparações múltiplas, como o método de Bonferroni.
O método de Bonferroni de comparações múltiplas oferece uma alternativa aos intervalos de confiança simultâneos \(T^2\) quando a atenção está voltada para um pequeno número de intervalos de confiança individuais. Este método pode fornecer intervalos de confiança que são mais curtos (mais precisos) do que os intervalos \(T^2\).
O método de Bonferroni é baseado em uma desigualdade de probabilidade que leva o mesmo nome. Suponha que, antes da coleta de dados, deseja-se fazer intervalos de confiança sobre \(m\) combinações lineares diferentes \(\mathbf{a}^{\prime}_1 \boldsymbol{\mu}, \mathbf{a}^{\prime}_2 \boldsymbol{\mu}, \ldots, \mathbf{a}^{\prime}_m \boldsymbol{\mu}\). Seja \(\text{IC}^{1-\alpha_i}(\mathbf{a}^{\prime}_i \boldsymbol{\mu})\) o intervalo de confiança estocástico sobre \(\mathbf{a}^{\prime}_i \boldsymbol{\mu}\) com \(P\left[\mathbf{a}^{\prime}_i \boldsymbol{\mu}\in \text{IC}^{1-\alpha_i}(\mathbf{a}^{\prime}_i \boldsymbol{\mu})\right] = 1 - \alpha_i\), em que \(i = 1, 2, \ldots, m\).
A probabilidade de todas as afirmações \(C_i\) serem verdadeiras é dada por:
\[ P\left[\left\{\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i)\right\}_{i=1}^{m}\right] = 1 - P\left[\exists| \;\mu_i\notin \text{IC}^{1-\alpha_i}(\mu_i)\right] \]
Usando a desigualdade de Bonferroni, esta última probabilidade pode ser limitada superiormente como:
\[ P\left[\left\{\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i)\right\}_{i=1}^{m}\right]\ge 1 - \sum_{i=1}^{m} P(\mu_i\notin \text{IC}^{1-\alpha_i}(\mu_i)) = 1 - \sum_{i=1}^{m} (1 - P(\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i))) \]
Portanto:
\[ P\left[\left\{\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i)\right\}_{i=1}^{m}\right]\ge 1-\sum_{i=1}^{m}{\alpha_i}=1-\alpha \tag{5-28} \]
A desigualdade em (5-28), um caso especial da desigualdade de Bonferroni, permite que um pesquisador controle a probabilidade de erro do tipo I total \(\alpha_1 + \alpha_2 + \cdots + \alpha_m\), independentemente da estrutura de correlação por trás dos intervalos de confiança. Há também a flexibilidade de controlar a probabilidade de erro do tipo I para um grupo de intervalos de confiança importantes e equilibrá-la com outra escolha para os intervalos de confiança menos importantes.
Vamos desenvolver estimativas de intervalo simultâneas para o conjunto restrito composto pelos componentes \(\mu_i\) de \(\mu\). Na falta de informações sobre a importância relativa desses componentes, consideramos os intervalos \(t\) individuais:
\[ \text{IC}^{95\%}(\mu_i)=\left[\bar{X}_i\pm t_{n-1}\left(1-\dfrac{\alpha_i}{2}\right)\sqrt{\dfrac{S_{ii}}{n}}\right]\\ \alpha_i=\dfrac{\alpha}{m}\\ i=1,2,\ldots,m \]
\[ P\left(\left\{\mu_i\in \text{IC}^{95\%}(\mu_i)\right\}_{i=1}^{m}\right)\ge1-\sum_{i=1}^{m}{\dfrac{\alpha}{m}}=1-\alpha \]
Portanto, com um nível de confiança geral maior ou igual a \(1 - \alpha\), podemos construir as seguintes \(m = p\) intervalos de confiança:
\[ \text{IC}^{95\%}(\mu_i)=\left[\bar{x}_i\pm t_{n-1}\left(1-\dfrac{\alpha}{2p}\right)\sqrt{\dfrac{s_{ii}}{n}}\right]\\ i=1,2,\ldots,p \]
Os intervalos de confiança em (5-29) podem ser comparadas com aquelas em (5-24). O quantil \(t_{n-1}(1-\alpha/2p)\) substitui \(\sqrt{(n- 1)pF_{p,n-p}(1-\alpha)/(n - p)}\), mas, fora isso, os intervalos têm a mesma estrutura.
Vamos retornar aos dados de radiação de forno de micro-ondas nos Exemplos 5.3 e 5.4. Obteremos os intervalos de confiança simultâneos de Bonferroni de 95% para as médias \(\mu_1\) e \(\mu_2\) das raízes quartas das medidas com a porta fechada e aberta, usando \(\alpha = 0.05/2\), para \(i = 1,2\). Faremos uso dos resultados no Exemplo 5.3, observando que \(n = 42\) e \(t_{41}(1-0.05/4) = t_{41}(1-0.0125) = 2.327\), para obter
\[ \begin{align} \text{IC}^{97.5\%}(\mu_1)&=\bar{x}_1 \pm t_{41}(1-0.0125) \sqrt{\dfrac{0.0146}{42}} \\ &= 0.564 \pm 2.327 \sqrt{\dfrac{0.0146}{42}} \\ \text{IC}^{97.5\%}(\mu_1)&=[0.521, 0.607] \end{align} \]
e
\[ \begin{align} \text{IC}^{97.5\%}(\mu_2)&=\bar{x}_2 \pm t_{41}(1-0.0125) \sqrt{\dfrac{0.0146}{42}}\\ &= 0.603 \pm 2.327 \sqrt{\dfrac{0.0146}{42}}\\ \text{IC}^{97.5\%}(\mu_2)&=[0.560, 0.646] \\ \end{align} \]
A Figura 5.4 mostra os intervalos de confiança simultâneos \(T^2\) de 95% para \(\mu_1\) e \(\mu_2\) da Figura 5.2, juntamente com os intervalos de Bonferroni correspondentes. Para cada média de componente, o intervalo de Bonferroni fica dentro do intervalo \(T^2\). Consequentemente, a região retangular (conjunta) formada pelos dois intervalos de Bonferroni está contida na região retangular formada pelos dois intervalos \(T^2\). Se estamos interessados apenas nas médias componentes, os intervalos de Bonferroni fornecem estimativas mais precisas do que os intervalos \(T^2\). Por outro lado, a região de confiança de 95% para \(\mu\) fornece os valores plausíveis para os pares \((\mu_1, \mu_2)\) quando a correlação entre as variáveis medidas é levada em consideração.
Figura 5.4 - Os intervalos de confiança simultâneos T2 de 95% e Bonferroni de 95% para as médias componentes — dados de radiação de micro-ondas.
\[\Diamond\]
Os intervalos de Bonferroni para combinações lineares \(\mathbf{a}_i^{\prime} \boldsymbol{\mu}\) e os intervalos \(T^2\) análogos (lembre-se do Resultado 5.3) têm a mesma forma geral:
\[ \text{IC}^{1-\frac{\alpha}{2m}}(\mathbf{a}_i^{\prime} \boldsymbol{\mu})=\left[\mathbf{a}_i^{\prime} \mathbf{\bar{\mathbf{X}}} \pm \text{(valor crítico)}\sqrt{\dfrac{\mathbf{a}_i^{\prime}\mathbf{S}\mathbf{a}_i}{n}}\right]\\ i=1,2,\ldots,m \]
Consequentemente, em cada instância em que \(\alpha_i = \alpha/m\),
\[ \begin{align} \dfrac{\text{Amplitude do intervalo de t Bonferroni}}{\text{Amplitude do intervalo de } T^2} &= \dfrac{t_{n-1}\left(1-\dfrac{\alpha}{2m}\right)}{\sqrt{\dfrac{p(n-1)}{n-p}F_{p,n-p}(1-\alpha)}}\\ \dfrac{\text{Amplitude do intervalo de t Bonferroni}}{\text{Amplitude do intervalo de } T^2} &=\dfrac{\sqrt{T^2_{1,n-1}(1-\alpha/m)}}{\sqrt{T^2_{p,n-1}(1-\alpha)}} \end{align} \tag{5-30} \]
Isso não depende das quantidades aleatórias \(\mathbf{\bar{\mathbf{X}}}\) e \(\mathbf{S}\). Como já apontamos, para um pequeno número \(m\) de funções paramétricas especificadas \(\mathbf{a}^{\prime} \boldsymbol{\mu}\), os intervalos de Bonferroni sempre serão mais curtos. O quão mais curtos é indicado na Tabela 5.4 para \(n\) e \(p\) selecionados.
A Tabela 5.4 mostra a razão entre o comprimento do intervalo de Bonferroni e o comprimento do intervalo \(T^2\) para diferentes valores de \(n\) (tamanho da amostra) e \(p\) (número de variáveis). Os valores são calculados para um nível de confiança de \(1 - \alpha = 0.95\) e \(\alpha_i = 0.05/m\).
\(m=p\) | 2 | 4 | 10 |
---|---|---|---|
\(n\) | |||
15 | .88 | .69 | .29 |
25 | .90 | .75 | .48 |
50 | .91 | .78 | .58 |
100 | .91 | .80 | .62 |
\(\infty\) | .91 | .81 | .66 |
Vemos pela Tabela 5.4 que o método de Bonferroni fornece intervalos mais curtos quando \(m = p\). Por serem fáceis de aplicar e fornecerem os intervalos de confiança relativamente curtos necessários para inferência, frequentemente aplicaremos intervalos \(t\) simultâneos com base no método de Bonferroni.
Quando o tamanho da amostra é grande, testes de hipóteses e regiões de confiança para \(\boldsymbol{\mu}\) podem ser construídos sem a suposição de uma população normal. Como ilustrado nos Exercícios 5.15, 5.16 e 5.17, para um grande \(n\), somos capazes de fazer inferências sobre a média da população, mesmo que a distribuição parental seja discreta. Na verdade, sérias discrepâncias de uma população normal podem ser superadas por grandes tamanhos de amostra. Tanto os testes de hipóteses quanto os intervalos de confiança simultâneos possuirão então (aproximadamente) seus níveis nominais.
As vantagens associadas a grandes amostras podem ser parcialmente compensadas por uma perda de informações da amostra causada pelo uso apenas das estatísticas resumidas \(\bar{\mathbf{X}}\) e \(\mathbf{S}\). Por outro lado, uma vez que \((\bar{\mathbf{X}}, \mathbf{S})\) é um resumo suficiente para populações normais [veja (4-21)], quanto mais próxima a população subjacente for da normal multivariada, mais eficientemente a informação da amostra será utilizada nas inferências.
Todas as inferências com tamanho de amostra grande sobre \(\boldsymbol{\mu}\) são baseadas em uma distribuição qui-quadrado. A partir de (4-28), sabemos que \(n(\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \underset{a}{\sim} \chi^2_p\), e assim,
\[ P\left[n(\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \leq \chi^2_p(1-\alpha)\right] = 1 - \alpha \tag{5-31} \]
A Equação (5-31) leva imediatamente a teste de hipótese e regiões simultâneas de confiança com tamanho de amotra grande. Esses procedimentos são resumidos nos Resultados 5.4 e 5.5.
Resultado 5.4. Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Se \(n - p\gg30\), \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) é rejeitada em favor de \(H_1: \boldsymbol{\mu} \neq \boldsymbol{\mu}_0\), a um nível de significância de aproximadamente \(\alpha\), se
\[ n(\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime}\mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu}) \leq \chi^2_p(1-\alpha) \]
Aqui, \(\chi^2_p(1-\alpha)\) é o percentil de \((100(1-\alpha))\) de uma distribuição qui-quadrado com \(p\) graus de liberdade.
Comparando o teste no Resultado 5.4 com o teste teórico normal correspondente em (5-7), vemos que as estatísticas de teste têm a mesma estrutura, mas os valores críticos são diferentes. Uma análise mais detalhada, no entanto, revela que ambos os testes produzem essencialmente o mesmo resultado em situações em que o teste \(\chi^2\) do Resultado 5.4 é apropriado. Isso decorre diretamente do fato de que \((n - 1)pF_{p, n-p}(1-\alpha)/(n - p)\) e \(\chi^2_p(1-\alpha)\) são aproximadamente iguais para \(n\) grande em relação a \(p\), i.e., \(n-p\gg30\). (Veja Tabelas 3 e 4 no apêndice.)
Resultado 5.5. (Intervalos de confiança \(\chi^2\) ou de Scheffé)
Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Se \(n - p\gg30\),
\[ \text{IC}^{1-\alpha}\left(\mathbf{a}^{\prime}\boldsymbol{\mu}\right)=\left[\mathbf{a}^{\prime}\bar{\mathbf{X}}\pm \sqrt{\chi_p^2(1-\alpha)}\sqrt{\dfrac{\mathbf{a}^{\prime}\mathbf{S}\mathbf{a}}{n}}\right] \]
contém \(\mathbf{a}^{\prime}\boldsymbol{\mu}\) para todo \(\mathbf{a}\), com probabilidade aproximadamente \(1 - \alpha\). Consequentemente, podemos construir intervalos de confiança simultâneos de \(100(1 - \alpha) \%\):
\[ \text{IC}^{1-\alpha}\left(\mu_i\right)=\left[\bar{x}_i \pm \sqrt{\chi_p^2(1-\alpha)}\sqrt{\dfrac{s_{ii}}{n}} \right]\\ i = 1, 2, \ldots, p \]
e, além disso, para todos os pares \((\mu_i, \mu_k)\), \(i, k = 1, 2, \ldots, p\), as regiões elípticas centradas na média amostral são
\[ n \begin{bmatrix} \bar{x}_i -\mu_i & \bar{x}_k -\mu_k \end{bmatrix} \begin{bmatrix} s_{ii} & s_{ik} \\ s_{ik} & s_{kk} \end{bmatrix}^{-1} \begin{bmatrix} \bar{x}_i -\mu_i \\ \bar{x}_k -\mu_k \end{bmatrix} \le \chi_p^2(1-\alpha) \tag{5-26} \]
Prova. A primeira parte segue do Resultado 5A.1, com \(c^2 = \chi^2_p(\alpha)\). O nível de probabilidade é uma consequência de (5-31). As afirmações para os \(\mu_i\) são obtidas pelas escolhas especiais \(\mathbf{a}^{\prime} = [0,\ldots, 0, a_i, 0,\ldots , 0]\), em que \(a_i = 1\), \(i = 1, 2, ... , p\). As regiões elípticas para pares de médias são derivadas do Resultado 5A.2 com \(c^2 = \chi^2_p(\alpha)\). O nível global de confiança de aproximadamente \(1 - \alpha\) para todas as regiões de confiança é, mais uma vez, um resultado da teoria de distribuição de tamanho de amostra grande resumida em (5-31).
\[\Diamond\]
A questão de qual é um tamanho de amostra grande não é fácil de responder. Em uma ou duas dimensões, tamanhos de amostras na faixa de 30 a 50 geralmente podem ser considerados grandes. À medida que o número de características aumenta, certamente são necessários tamanhos de amostra maiores para que as distribuições assintóticas forneçam boas aproximações às verdadeiras distribuições de várias estatísticas de teste. Na ausência de estudos definitivos, simplesmente afirmamos que \(n - p\) deve ser grande e percebemos que o caso real é mais complicado. Uma aplicação com \(p = 2\) e tamanho de amostra 50 é muito diferente de uma aplicação com \(p = 52\) e tamanho de amostra 100, embora ambos tenham \(n - p = 48\).
É uma boa prática estatística submeter esses procedimentos de inferência de tamanho de amostra grande às mesmas verificações exigidas pelos métodos de teoria normal. Embora pequenos a moderados desvios da normalidade não causem dificuldades para \(n\) grande, desvios extremos podem causar problemas. Especificamente, a probabilidade do erro do tipo I pode estar muito distante do nível nominal \(\alpha\). Com base em teste de normalidade multivariada e outros dispositivos investigativos, outliers e outras formas de desvios extremos são indicadas ações corretivas apropriadas, incluindo transformações não lineares. Métodos para testar vetor de média de distribuição multivariada simétrica que são relativamente insensíveis a desvios da normalidade são discutidos em [11]. Em alguns casos, os Resultados 5.4 e 5.5 são úteis apenas para amostras muito grandes.
O próximo exemplo nos permite ilustrar a construção de intervalos de confiança simultâneos de grandes amostras para todos os componentes do vetor de média.
Para melhorar a qualidade de produtos e serviços, os dados precisam ser examinados quanto às causas da variação. Quando um processo de fabricação está produzindo itens continuamente ou quando estamos monitorando as atividades de um serviço, os dados devem ser coletados para avaliar as capacidades e estabilidade do processo. Quando um processo é estável, a variação é produzida por causas comuns que estão sempre presentes, e nenhuma causa é uma fonte principal de variação.
O objetivo de qualquer gráfico de controle é identificar ocorrências de causas especiais de variação que vêm de fora do processo usual. Essas causas de variação muitas vezes indicam a necessidade de um reparo oportuno, mas também podem sugerir melhorias no processo. Os gráficos de controle tornam a variação visível e permitem distinguir causas comuns de causas especiais de variação.
Um gráfico de controle tipicamente consiste em dados plotados em ordem temporal e linhas horizontais, chamadas de limites de controle, que indicam a quantidade de variação devido a causas comuns. Um gráfico de controle útil é o gráfico \(\bar{X}\). Para criar um gráfico \(\bar{X}\):
O desvio-padrão nos limites de controle é o desvio-padrão estimado das observações que estão sendo plotadas. Se as médias de subamostras de tamanho \(m\) são plotadas, então o desvio-padrão é o desvio-padrão da amostra dividido por \(\sqrt{m}\). Os limites de controle de mais e menos três desvios-padrão são escolhidos de modo que haja uma chance muito pequena, assumindo dados distribuídos normalmente, de sinalizar falsamente uma observação fora de controle - ou seja, uma observação sugerindo uma causa especial de variação.
O departamento de polícia de Madison, Wisconsin, monitora regularmente muitas de suas atividades como parte de um programa contínuo de melhoria de qualidade. A Tabela 5.8 apresenta os dados de cinco tipos diferentes de horas extras. Cada observação representa um total de 12 períodos de pagamento, ou cerca de meio ano.
Examinamos a estabilidade das horas extras de aparições legais. Um cálculo por computador fornece \(\bar{x}_1 = 3558\). Como valores individuais serão plotados, \(\bar{x}_1\) é o mesmo que \(\bar{\bar{x}}_1\). Além disso, o desvio-padrão da amostra é \(\sqrt{s_{11}}=607\), e os limites de controle são:
UCL (Limite de Controle Superior) = \(\bar{\bar{x}}_1 + 3\sqrt{s_{11}} = 3558 + 3(607) = 5379\)
LCL (Limite de Controle Inferior) = \(\bar{\bar{x}}_1 - 3\sqrt{s_{11}} = 3558 - 3(607) = 1737\).
x <- read.table("JW6Data/T5-8.dat", quote="\"", comment.char="")
names(x) <- paste0("x",1:5)
print.data.frame(x)
x1 x2 x3 x4 x5
1 3387 2200 1181 14861 236
2 3109 875 3532 11367 310
3 2670 957 2502 13329 1182
4 3125 1758 4510 12328 1208
5 3469 868 3032 12847 1385
6 3120 398 2130 13979 1053
7 3671 1603 1982 13528 1046
8 4531 523 4675 12699 1100
9 3678 2034 2354 13534 1349
10 3238 1136 4606 11609 1150
11 3135 5326 3044 14189 1216
12 5217 1658 3340 15052 660
13 3728 1945 2111 12236 299
14 3506 344 1291 15482 206
15 3824 807 1365 14900 239
16 3516 1223 1175 15078 161
As horas extras para aparições legais são estáveis durante o período em que os dados foram coletados. A variação nas horas extras parece ser devida a causas comuns, portanto, nenhuma variação de causa especial é indicada.
Com mais de uma característica importante, uma abordagem multivariada deve ser usada para monitorar a estabilidade do processo. Essa abordagem pode levar em conta as correlações entre as características e controlará a probabilidade geral de sinalizar falsamente uma causa especial de variação quando ela não está presente. Altas correlações entre as variáveis podem tornar impossível avaliar a taxa de erro geral que é implícita por um grande número de gráficos univariados.
Os dois gráficos multivariados mais comuns são (i) o gráfico no formato de elipse e (ii) o gráfico \(T^2\).
Dois casos que surgem na prática precisam ser tratados de maneira diferente:
Inicialmente, consideramos o uso de procedimentos de controle multivariado para uma amostra de observações multivariadas \(\mathbf{x}_1, \mathbf{x}_2,\ldots, \mathbf{x}_n\). Posteriormente, discutimos esses procedimentos quando as observações são médias de subgrupos.
Assumimos que \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Pelo Resultado 4.8,
\[ \mathbf{X}_j - \bar{\mathbf{X}} = \left(1-\dfrac{1}{n}\right)\mathbf{X}_j-\dfrac{1}{n}\mathbf{X}_1-\cdots-\dfrac{1}{n}\mathbf{X}_{j-1}-\dfrac{1}{n}\mathbf{X}_{j+1}-\cdots-\dfrac{1}{n}\mathbf{X}_{n} \]
tem
\[ \mathbb{E}\left(\mathbf{X}_j - \bar{\mathbf{X}}\right) =\mathbf{0} \]
e
\[ \mathbb{C}\left(\mathbf{X}_j - \bar{\mathbf{X}}\right) =\dfrac{n-1}{n}\mathbf{\Sigma} \]
Cada \(\mathbf{X}_j - \bar{\mathbf{X}}\) tem uma distribuição normal, mas \(\mathbf{X}_j - \bar{\mathbf{X}}\) não é independente da matriz de covariância da amostra \(\mathbf{S}\). No entanto, para definir os limites de controle, aproximamos que
\[ (\mathbf{X}_j - \bar{\mathbf{X}})^{\prime}\mathbf{S}^{-1}(\mathbf{X}_j - \bar{\mathbf{X}})\sim \chi^2_p \]
Gráfico no Formato de Elipse. O gráfico no formato de elipse para uma região de controle bivariada é o mais intuitivo dos gráficos, mas sua abordagem é limitada a duas variáveis. As duas características na \(i\)-ésima unidade são plotadas como um par \((x_{i1}, x_{i2})\). A elipse de qualidade de 95% consiste em todos os \(\mathbf{x}\) que satisfazem
\[ (\mathbf{x} - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \bar{\mathbf{x}})\le \chi^2_2(0.95) \]
Refiramo-nos ao Exemplo 5.8 e criamos uma elipse de qualidade para o par de características de horas extras (aparições legais, evento extraordinário). Um cálculo computacional fornece:
\[ \bar{x} = \begin{bmatrix} 3558 \\ 1478 \end{bmatrix} \]
e
\[ s = \begin{bmatrix} 367,884.7 & -72,093.8 \\ -72,093.8 & 1,399,053.1 \end{bmatrix} \]
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-8.dat", quote="\"", comment.char="")
names(x) <- paste0("x",1:5)
alfa <- 0.01
x12 <- x[,c(1,2)]
centroide <- colMeans(x12)
centroide
x1 x2
3557.750 1478.438
x1 x2
x1 367884.73 -72093.82
x2 -72093.82 1399053.06
n <- dim(x12)[1]
p <- dim(x12)[2]
X2crit <- qchisq(1-alfa,p)
cat("\nX^2(", p, ", ", 1-alfa,") = ", X2crit, sep="")
X^2(2, 0.99) = 9.21034
c <- sqrt(X2crit)
car::ellipse(center=centroide,
shape=s,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab = expression(x[1]), ylab = expression(x[2]),
main="Região elíptica de confiança de qualidade de 99%")
lines(x12$x1,x12$x2, type="p")
Ilustramos o gráfico no formato de elipse de qualidade usando a elipse de 99%, que consiste em todos os \(x\) que satisfazem:
\[ (\mathbf{x} - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \bar{\mathbf{x}})\le \chi^2_2(0.99) \]
Aqui \(p = 2\), então \(\chi_2^2{(0.99)} = 9.21\), e a elipse se torna:
\[ (\mathbf{x} - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \bar{\mathbf{x}})\le9.21 \]
Figura 5.6 A elipse de controle de qualidade de 99% para horas extras de aparições legais e evento extraordinário.
Observe que um ponto, indicado por uma seta, está definitivamente fora da elipse. Quando um ponto está fora da região de controle, gráficos individuais \(\bar{X}\) são construídos. O gráfico \(\bar{X}\) para \(x_1\) foi dado na Figura 5.5; aquele para \(x_2\) é mostrado na Figura 5.7.
Quando o limite de controle inferior é menor que zero para dados que devem ser não negativos, ele geralmente é definido como zero. O limite \(LCL = 0\) é mostrado pela linha tracejada na Figura 5.7.
Houve uma causa especial para o único ponto de horas extras de evento extraordinário que está fora do limite de controle superior na Figura 5.7? Durante esse período, os Estados Unidos bombardearam uma capital estrangeira, e os estudantes de Madison estavam protestando. A maioria das horas extras extraordinárias foi usada nesse período de quatro semanas. Embora, por sua própria definição, horas extras extraordinárias ocorram apenas quando eventos especiais ocorrem e, portanto, sejam imprevisíveis, elas ainda têm uma certa estabilidade.
Gráfico \(T^2\) [sic]. Um gráfico \(d^2\), mais conhecido como gráfico \(T^2\), pode ser aplicado a um grande número de características. Ao contrário do formato da elipse, ele não se limita a duas variáveis. Além disso, os pontos são exibidos em ordem cronológica, em vez de como um gráfico de dispersão, o que torna padrões e tendências visíveis.
Para o i-ésimo ponto, calculamos a estatística \(d^2\) (distância de Mahalanobis):
\[ d^2_i = (\mathbf{x}_i - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x}_i - \bar{\mathbf{x}}) \\ i=1,2,\ldots,n \tag{5-33} \]
Em seguida, plotamos os valores de \(d^2\) em um eixo de tempo. O limite de controle inferior é zero, e usamos o limite de controle superior
\[ UCL = \chi^2_p(0.95) \]
ou, às vezes, \(\chi^2_p(0.99)\).
Não há uma linha central no gráfico \(d^2\).
Usando os dados do departamento de polícia no Exemplo 5.8, construímos um gráfico \(d^2\) baseado nas duas variáveis \(X_1\) = horas de comparecimento legal e \(X_2\) = horas de evento extraordinário. Gráficos \(d^2\) com mais de duas variáveis são considerados no Exercício 5.26. Tomamos \(\alpha = 0.01\) para ser consistente com o gráfico de formato de elipse no Exemplo 5.9.
O gráfico \(d^2\) na Figura 5.8 revela que o par (comparecimento legal, evento extraordinário) horas para o período 11 está fora de controle. Uma investigação mais aprofundada, como no Exemplo 5.9, confirma que isso se deve ao grande valor das horas extras de evento extraordinário durante aquele período.
x1 x2
3557.750 1478.438
x1 x2
x1 367884.73 -72093.82
x2 -72093.82 1399053.06
d2 <- mahalanobis(x12, centroide, s)
n <- dim(x12)[1]
p <- dim(x12)[2]
X2crit <- qchisq(1-alfa,p)
cat("\nX^2(", p, ", ", 1-alfa,") = ", X2crit, sep="")
X^2(2, 0.99) = 9.21034
plot(1:n, d2,
ylab=expression(d^2),
xlab="Period",
main=expression(paste("Figura 5.8: ", alpha, " = 0.01")),
type="p")
lines(1:n, d2, type="l", lty=2)
abline(h=X2crit, lty=3)
Principal Component Analysis
Fit Summary:
Number of objects = 16
Number of Variables = 2
Percent Variation Explained:
Individual.Percent Cumulative.Percent Comp
1 55.025 55.025 1
2 44.975 100.000 2
Cross-Validation Results:
PRESS
1 30.000
2 34.485
3 30.000
Eigenvalues:
[1] 1.1 0.9
O objetivo agora é usar os dados \(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\), coletados quando um processo está estável, para definir uma região de controle para uma futura observação \(\mathbf{x}\) ou futuras observações. A região na qual uma futura observação é esperada é chamada de região de previsão ou predição. Se o processo for estável, consideramos que as observações são distribuídas independentemente como \(\mathcal{N}_p(\boldsymbol{\mu}, \mathbf{\Sigma})\). Como essas regiões são de importância mais geral do que apenas para monitorar a qualidade, fornecemos a teoria básica de distribuição como Resultado 5.6.
Resultado 5.6. Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\), e seja \(\mathbf{X}\) uma futura observação da mesma distribuição. Então,
\[ T^2 = \dfrac{n}{n + 1} (\mathbf{X} - \mathbf{\bar{X}})^{\prime}\mathbf{S}^{-1}(\mathbf{X} - \mathbf{\bar{X}}) \sim\dfrac{(n-1)p}{n-p} F_{p, n-p} \]
A região elíptica de predição de \(100(1 - \alpha)\%\) p-dimensional é dada por todos os \(\mathbf{x}\) que satisfazem:
\[ (\mathbf{x} - \mathbf{\bar{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \mathbf{\bar{x}}) \leq \dfrac{(n^2 - 1)p}{n(n-p)} F_{p, n-p}(1-\alpha) \tag{5-34} \]
\[\Diamond\]
No Exemplo 5.9, verificamos a estabilidade das horas extras de aparições legais e eventos extraordinários. Vamos usar esses dados para determinar uma região de controle para futuros pares de valores.
A partir do Exemplo 5.9 e da Figura 5.6, descobrimos que o par de valores para o período 11 estava fora de controle. Removemos esse ponto e determinamos a nova elipse de 99%. Todos os pontos estão então sob controle, então eles podem servir para determinar a região de previsão de 95% recém-definida para \(p = 2\). Esta elipse de controle é mostrada na Figura 5.12 junto com as 15 observações estáveis iniciais.
Qualquer observação futura que caia dentro da elipse é considerada estável ou sob controle. Uma observação fora da elipse representa uma possível observação fora de controle ou uma variação de causa especial.
Para cada nova observação \(\mathbf{x}\), plote
\[ T^2 = \dfrac{n}{n+1} (\mathbf{x} - \mathbf{\bar{x}})^{\prime}\mathbf{s}^{-1} (\mathbf{x} - \mathbf{\bar{x}}) \]
em ordem temporal.
Defina LCL (Limite de Controle Inferior) = 0 e
\[ UCL = \dfrac{(n-1)p}{n-p} F_{p, n-p}(1-\alpha) \]
Pontos acima do limite de controle superior representam uma possível variação de causa especial e sugerem que o processo em questão deve ser examinado para determinar se uma ação corretiva imediata é justificada.
Figura 5.12 A elipse de controle de 95% para futuras horas extras de aparições legais e eventos extraordinários.
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-8.dat", quote="\"", comment.char="")
names(x) <- paste0("x",1:5)
print.data.frame(x)
x1 x2 x3 x4 x5
1 3387 2200 1181 14861 236
2 3109 875 3532 11367 310
3 2670 957 2502 13329 1182
4 3125 1758 4510 12328 1208
5 3469 868 3032 12847 1385
6 3120 398 2130 13979 1053
7 3671 1603 1982 13528 1046
8 4531 523 4675 12699 1100
9 3678 2034 2354 13534 1349
10 3238 1136 4606 11609 1150
11 3135 5326 3044 14189 1216
12 5217 1658 3340 15052 660
13 3728 1945 2111 12236 299
14 3506 344 1291 15482 206
15 3824 807 1365 14900 239
16 3516 1223 1175 15078 161
x1 x2
3585.933 1221.933
x1 x2
x1 380545.64 46684.78
x2 46684.78 371081.64
n <- dim(x12)[1]
p <- dim(x12)[2]
T2crit <- (((n^2-1)*p)/((n-p)*n))*qf(1-alfa, p, n-p)
c <- sqrt(T2crit)
car::ellipse(center=centroide,
shape=s,
radius=c,
fill=TRUE,
fill.alpha=0.1,
grid=FALSE,
col="black",
add=FALSE,
xlab = expression(x[1]), ylab = expression(x[2]),
main="Região elíptica de confiança de qualidade de 95%\npara valores futuros de x1 e x2")
lines(x12$x1,x12$x2, type="p")
x_novo <- c(3500, 1000)
points(x_novo[1], x_novo[2], pch=4)
text(x_novo[1]+250, x_novo[2], "novo")
T2_novo <- as.numeric((n/(n+1))*t(x_novo-centroide)%*%solve(s)%*%(x_novo-centroide))
UCL95 <- (((n-1)*p)/(n-p))*qf(1-alfa,p, n-p)
print(T2_novo > UCL95)
[1] FALSE
Supõe-se que cada vetor aleatório de observações do processo seja distribuído de forma independente como \(\mathcal{N}_p(\mathbf{0}, \mathbf{\Sigma})\). O procedimento é diferente quando o procedimento de amostragem especifica que \(m > 1\) unidades sejam selecionadas, ao mesmo tempo, do processo. Da primeira amostra, determinamos sua média amostral \(\bar{\mathbf{X}}_1\) e a matriz de covariância \(\mathbf{S}_1\). Quando a população é normal, essas duas quantidades aleatórias são independentes.
Para uma média de subamostra geral \(\bar{\mathbf{X}}_j\), \(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}}\) tem uma distribuição normal com média \(\mathbf{0}\) e
\[ \mathbb{C}(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}}) = \dfrac{n-1}{nm}\mathbf{\Sigma} \]
Como será descrito na Seção 6.4, as covariâncias amostrais das \(n\) subamostras podem ser combinadas para fornecer uma única estimativa (chamada \(\mathbf{S}_\text{pooled}\) no Capítulo 6) da covariância comum \(\mathbf{\Sigma}\). Esta estimativa agrupada é
\[ \mathbf{S} = \dfrac{1}{n}\sum_{i=1}^{n}{\mathbf{S}_i} \]
Aqui, \((nm - n)\mathbf{S}\) é independente de cada \(\bar{\mathbf{X}}_j\) e, portanto, de sua média \(\bar{\bar{\mathbf{X}}}\). Além disso, \((nm - n)\mathbf{S}\) é distribuído como uma matriz aleatória de Wishart com \(nm - n\) graus de liberdade. Observe que estamos estimando \(\mathbf{\Sigma}\) internamente a partir dos dados coletados em qualquer período dado. Esses estimadores são combinados para fornecer um único estimador com um grande número de graus de liberdade. Consequentemente,
\[ T^2 = \dfrac{nm}{n-1}(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}}) \sim\dfrac{n(m - 1)p}{n(m - 1) - p + 1} F_{p,n(m - 1) - p + 1} \tag{5-35} \]
Uma vez que os dados são coletados a partir da operação estável de um processo, eles podem ser usados para definir limites de controle para futuras médias de subamostras observadas.
Se \(\bar{\mathbf{X}}\) é uma média de subamostra futura, então \(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}\) tem uma distribuição normal multivariada com média \(\mathbf{0}\) e
\[ \mathbb{C}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}) = \dfrac{n+1}{nm}\mathbf{\Sigma} \]
Consequentemente,
\[ T^2 = \dfrac{nm}{n+1}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}) \sim\dfrac{n(m - 1)p}{n(m - 1) - p + 1} F_{p,n(m - 1) - p + 1} \tag{5-37} \]
Gráfico T2 para Futuras Médias de Subamostras. Como antes, trazemos \(n/(n + 1)\) para o limite de controle e plotamos a quantidade:
\[ T^2 = m(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}) \]
para futuras médias da amostra em ordem cronológica. O limite de controle superior é então:
\[ \text{UCL} = \dfrac{(n + 1) (m - 1)p}{n(m - 1) - p + 1} F_{p,n(m-1)-p+1}(0.95) \]
O UCL é frequentemente aproximado como \(\chi_p^2(0.95)\) quando \(n\) é grande.
Pontos fora da elipse de previsão ou acima do UCL sugerem que os valores atuais das características de qualidade são diferentes de alguma forma daqueles do processo estável anterior. Isso pode ser bom ou ruim, mas quase certamente justifica uma busca cuidadosa pelas razões da mudança.
Frequentemente, alguns componentes de uma observação vetorial não estão disponíveis. Isso pode ocorrer devido a uma falha no equipamento de gravação ou devido à recusa de um respondente em responder a um item específico em um questionário de pesquisa. A melhor maneira de lidar com observações incompletas, ou valores ausentes, depende, em grande medida, do contexto experimental. Se o padrão de valores ausentes estiver fortemente ligado ao valor da resposta, como pessoas com rendas extremamente altas que se recusam a responder a uma pesquisa sobre salários, inferências subsequentes podem ser seriamente tendenciosas. Até o momento, nenhuma técnica estatística foi desenvolvida para esses casos. No entanto, somos capazes de tratar situações em que os dados estão ausentes aleatoriamente - isto é, casos em que o mecanismo de chance responsável pelos valores ausentes não é influenciado pelo valor das variáveis.
Uma abordagem geral para calcular estimativas de máxima verossimilhança a partir de dados incompletos é dada por Dempster, Laird e Rubin [5]. Sua técnica, chamada algoritmo EM, consiste em um cálculo iterativo envolvendo duas etapas. Chamamos-lhes de etapas de predição e estimação:
Etapa de predição. Dada uma estimativa \(\widetilde{\boldsymbol{\theta}}\) dos parâmetros desconhecidos, preveja a contribuição de qualquer observação ausente para as estatísticas suficientes (com dados completos).
Etapa de Estimação. Use as estatísticas suficientes previstas para calcular uma estimativa revisada dos parâmetros.
O cálculo alterna entre uma etapa e outra, até que as estimativas revisadas não difiram apreciavelmente da estimativa obtida na iteração anterior.
Quando as observações $ {i}{i=1}^{n} _p(, )$, o algoritmo de predição-estimação é baseado nas estatísticas suficientes de dados completos [veja (4-21)]
\[ \mathbf{T}_1 = \sum_{i=1}^{n}{ \mathbf{X}_i} = n\bar{\mathbf{X}} \]
e
\[ \mathbf{T}_2 = \sum_{i=1}^{n}{\mathbf{X}_i \mathbf{X}_i^{\prime}} = (n - 1) \mathbf{S} + n\bar{\mathbf{X}}\bar{\mathbf{X}}^{\prime} \]
Neste caso, o algoritmo procede da seguinte forma: Assumimos que a média da população e a variância - \(\boldsymbol{\mu}\) e \(\mathbf{\Sigma}\), respectivamente - são desconhecidas e devem ser estimadas.
Etapa de predição. Para cada vetor \(\mathbf{x}_i\) com valores ausentes, seja \(\mathbf{x}^{(1)}_i\) denotar os componentes ausentes e \(\mathbf{x}^{(2)}_i\) denotar aqueles componentes que estão disponíveis. Assim, \(\mathbf{x}^{\prime}=\left[\mathbf{x}^{(1){\prime}}_i, \mathbf{x}^{(2){\prime}}_i\right]\)
Dadas as estimativas $ $ e \(\mathbf{\Sigma}\) da etapa de estimação, use a média da distribuição normal condicional de \(\mathbf{x}^{(1)}\) dado \(\mathbf{x}^{(2)}\) para estimar os valores ausentes. Ou seja,
\[ \widetilde{\mathbf{x}}^{(1)}_i = E\left(\mathbf{X}^{(1)}_i \mid \mathbf{x}^{(2)}_i; \widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right) = \widetilde{\boldsymbol{\mu}}^{(1)} + \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1}\left(\mathbf{x}^{(2)}_i - \widetilde{\boldsymbol{\mu}}^{(2)}\right) \tag{5-38} \]
estima a contribuição de \(\mathbf{x}^{(1)}_i\) para \(\mathbf{T}_1\).
Em seguida, a contribuição prevista de \(\mathbf{x}^{(1)}_i\) para \(\mathbf{T}_2\) é
\[ \widetilde{\mathbf{x}^{(1)}_i\mathbf{x}^{(1){\prime}}_i}=E\left(\mathbf{X}^{(1)}_i\mathbf{X}^{(1){\prime}}_i \mid \mathbf{x}^{(2)}_i; \widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right) = \widetilde{\mathbf{\Sigma}}_{11} - \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1}\widetilde{\mathbf{\Sigma}}_{21} + \mathbf{x}^{(1)}_i\mathbf{x}^{(1){\prime}}_i \tag{5-39} \]
e
\[ \widetilde{\mathbf{x}^{(1)}_i\mathbf{x}^{(2){\prime}}_i}=E\left(\mathbf{X}^{(1)}_i\mathbf{X}^{(2){\prime}}_i \mid \mathbf{x}^{(2)}_i; \widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right) = \mathbf{x}^{(1)}_i\mathbf{x}^{(2){\prime}}_i \]
As contribuições em (5-38) e (5-39) são somadas sobre todos \(\mathbf{x}_i\) com componentes ausentes. Os resultados são combinados com os dados da amostra para produzir \(\widetilde{\mathbf{T}}_1\) e \(\widetilde{\mathbf{T}}_2\).
Etapa de Estimação. Calcule as estimativas revisadas de máxima verossimilhança (veja Resultado 4.11):
\[ \widetilde{\boldsymbol{\mu}} = \dfrac{1}{n} \widetilde{\mathbf{T}}_1 \quad\quad\quad \widetilde{\mathbf{\Sigma}} = \dfrac{1}{n} \widetilde{\mathbf{T}}_2 - \widetilde{\boldsymbol{\mu}} \widetilde{\boldsymbol{\mu}}^{\prime} \tag{5-40} \]
Ilustramos os aspectos computacionais do algoritmo de predição-estimação no Exemplo 5.13.
Estime a média da população normal \(\boldsymbol{\mu}\) e a covariância \(\mathbf{\Sigma}\) usando o conjunto de dados incompleto:
\[ \boldsymbol{\mathcal{x}}= \begin{bmatrix} - & 0 & 3 \\ 7 & 2 & 6 \\ 5 & 1 & 2 \\ - & - & 5 \end{bmatrix} \]
Aqui \(n = 4\), \(p = 3\), e partes dos vetores de observação \(\mathbf{x}_1\) e \(\mathbf{x}_4\) estão ausentes.
Obtemos as médias iniciais da amostra:
\[ \widetilde{\mu}_1 = \dfrac{7+5}{2} = 6, \quad \widetilde{\mu}_2 = \dfrac{0+2+1}{3} = 1, \quad \widetilde{\mu}_3 = \dfrac{3+6+2+5}{4} =4 \]
a partir das observações disponíveis. Substituindo essas médias por quaisquer valores ausentes, de forma que \(\widetilde{x}_{11} = 6\), por exemplo, podemos obter estimativas iniciais de covariância. Vamos construir essas estimativas usando o divisor \(n\) porque o algoritmo eventualmente produz a estimativa de máxima verossimilhança \(\hat{\mathbf{\Sigma}}\). Assim:
\[ \widetilde{\sigma}_{11} = \dfrac{(6 - 6)^2 + (7 - 6)^2 + (5 - 6)^2+ (6 - 6)^2}{4} = \dfrac{1}{2} \]
\[ \widetilde{\sigma}_{22} = \dfrac{1}{2} \]
\[ \widetilde{\sigma}_{33} = \dfrac{5}{2} \]
\[ \widetilde{\sigma}_{12} = \dfrac{(6 - 6)(0 - 1) + (7 - 6)(2 - 1) + (5 - 6)(1 - 1)+ (6 - 6)(1 - 1)}{4} = \dfrac{1}{4} \]
\[ \widetilde{\sigma}_{23} = \dfrac{3}{4} \]
\[ \widetilde{\sigma}_{13} = 1 \]
A etapa de predição consiste em usar as estimativas iniciais \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) para prever as contribuições dos valores ausentes para as estatísticas suficientes \(\mathbf{T}_1\) e \(\mathbf{T}_2\). [Veja (5-38) e (5-39)].
O primeiro componente de \(\mathbf{x}_1\) está ausente, então particionamos \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) como:
\[ \widetilde{\boldsymbol{\mu}} = \begin{bmatrix} \widetilde{\mu}_{1} \\ \cdots\\ \widetilde{\mu}_{2} \\ \widetilde{\mu}_{3} \end{bmatrix}= \begin{bmatrix} \widetilde{\mu}^{(1)}\\ \cdots\\ \widetilde{\boldsymbol{\mu}}^{(2)} \end{bmatrix} \]
\[ \widetilde{\mathbf{\Sigma}} = \begin{bmatrix} \widetilde{\sigma}_{11} & \vdots &\widetilde{\sigma}_{12} & \widetilde{\sigma}_{13} \\ \cdots & \vdots &\cdots & \cdots \\ \widetilde{\sigma}_{21} & \vdots &\widetilde{\sigma}_{22} & \widetilde{\sigma}_{23} \\ \widetilde{\sigma}_{31} & \vdots &\widetilde{\sigma}_{32} & \widetilde{\sigma}_{33} \\ \end{bmatrix} = \begin{bmatrix} \widetilde{\mathbf{\Sigma}}_{11} & \widetilde{\mathbf{\Sigma}}_{12} \\ \widetilde{\mathbf{\Sigma}}_{21} & \widetilde{\mathbf{\Sigma}}_{22} \end{bmatrix} \]
Usando a equação (5-38), a predição para o componente ausente de \(\widetilde{x}_{11}\) é:
\[ \widetilde{x}_{11} = \widetilde{\mu}_{1} + \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1} \begin{bmatrix} x_{12}-\widetilde{\mu}_{2}\\ x_{13}-\widetilde{\mu}_{3} \end{bmatrix}= 6+ \begin{bmatrix}\frac{1}{4}&1\end{bmatrix} \begin{bmatrix} \frac{1}{2}&\frac{3}{4}\\ \frac{3}{4}&\frac{5}{2} \end{bmatrix}^{-1} \begin{bmatrix}0-1\\3-4\end{bmatrix}= 5.73 \]
\[ \begin{align} \widetilde{x^2_{11}} &= \widetilde{\sigma}_{1} - \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1} \widetilde{\mathbf{\Sigma}}_{12}+\widetilde{x}^2_{11}\\ &= \dfrac{1}{2}- \begin{bmatrix}\dfrac{1}{4}&1\end{bmatrix} \begin{bmatrix} \dfrac{1}{2}&\dfrac{3}{4}\\ \dfrac{3}{4}&\dfrac{5}{2} \end{bmatrix}^{-1} \begin{bmatrix}\dfrac{1}{4}\\1\end{bmatrix}+5.73^2\\ \widetilde{x^2_{11}} &= 32.99 \end{align} \]
As primeiras duas componentes de \(\mathbf{x}_4\) está ausente, então particionamos \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) como:
\[ \widetilde{\boldsymbol{\mu}} = \begin{bmatrix} \widetilde{\mu}_{1} \\ \widetilde{\mu}_{2} \\ \cdots\\ \widetilde{\mu}_{3} \end{bmatrix}= \begin{bmatrix} \widetilde{\boldsymbol{\mu}}^{(1)} \\ \cdots\\ \widetilde{\mu}^{(2)}\\ \end{bmatrix} \]
\[ \widetilde{\mathbf{\Sigma}} = \begin{bmatrix} \widetilde{\sigma}_{11} &\widetilde{\sigma}_{12} & \vdots& \widetilde{\sigma}_{13} \\ \widetilde{\sigma}_{21} &\widetilde{\sigma}_{22} & \vdots& \widetilde{\sigma}_{23} \\ \cdots &\cdots & \vdots& \cdots \\ \widetilde{\sigma}_{31} &\widetilde{\sigma}_{32} & \vdots& \widetilde{\sigma}_{33} \\ \end{bmatrix} = \begin{bmatrix} \widetilde{\mathbf{\Sigma}}_{11} & \widetilde{\mathbf{\Sigma}}_{12} \\ \widetilde{\mathbf{\Sigma}}_{21} & \widetilde{\mathbf{\Sigma}}_{22} \end{bmatrix} \]
Usando a equação (5-38), a predição para o componente ausente de \(\widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}}\) é:
\[ \begin{align} \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}} &= \mathbb{E}\left(\begin{bmatrix}X_{41}\\ X_{42}\end{bmatrix} \Biggm| x_{43}=5;\widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right)\\ &=\begin{bmatrix}\widetilde{\mu}_{1}\\ \widetilde{\mu}_{2}\end{bmatrix} + \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1} (x_{43}-\widetilde{\mu}_{3})\\ &= \begin{bmatrix}6\\1\end{bmatrix}+ \begin{bmatrix}1\\\frac{3}{4}\end{bmatrix} \left(\frac{5}{2}\right)^{-1}(5-4)\\ \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}}&= \begin{bmatrix}6.4\\1.3\end{bmatrix} \end{align} \]
\[ \begin{align} \begin{bmatrix}\widetilde{x_{41}^2}&\widetilde{x_{41}x_{42}}\\ \widetilde{x_{41}x_{42}} &\widetilde{x_{42}^2}\end{bmatrix} &= \mathbb{E}\left( \begin{bmatrix} X_{41}^2&X_{41}X_{42}\\ X_{41}X_{42}&X_{42}^2 \end{bmatrix}\Biggm|x_{43}=5;\widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right)\\ &=\begin{bmatrix} \frac{1}{2} & \frac{1}{4}\\ \frac{1}{4} & \frac{1}{2} \end{bmatrix} - \begin{bmatrix}1\\\frac{3}{4}\end{bmatrix} \left(\frac{5}{2}\right)^{-1}\begin{bmatrix}1&\frac{3}{4}\end{bmatrix}+\begin{bmatrix}6.4\\1.3\end{bmatrix}\begin{bmatrix}6.4&1.3\end{bmatrix}\\ \begin{bmatrix}\widetilde{x_{41}^2}&\widetilde{x_{41}x_{42}}\\ \widetilde{x_{41}x_{42}} &\widetilde{x_{42}^2}\end{bmatrix} &= \begin{bmatrix} 41.06 & 8.27\\ 8.27 & 1.97 \end{bmatrix} \end{align} \]
\[ \begin{align} \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}x_{43}} &=\mathbb{E}\left(\begin{bmatrix}X_{41}\\X_{42}\end{bmatrix}\Biggm|x_{43}=5;\widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right)\\ &=\widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}}x_{43}\\ &=\begin{bmatrix}6.4\\1.3\end{bmatrix}5\\ \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}x_{43}}&=\begin{bmatrix}32.0\\6.5\end{bmatrix} \end{align} \]
Assim, as estatísticas suficientes completas previstas são:
\[ \begin{align}\widetilde{\mathbf{T}}_1&= \begin{bmatrix} \widetilde{x}_{11} + x_{21} + x_{31} + \widetilde{x}_{41}\\ x_{12} + x_{22} + x_{32} + \widetilde{x}_{42}\\ x_{13} + x_{23} + x_{33} + x_{43} \end{bmatrix}\\ &=\begin{bmatrix} 5.7+7+5+6.4\\ 0+2+1+1.3\\ 3+6+2+5 \end{bmatrix}\\ \widetilde{\mathbf{T}}_1&=\begin{bmatrix} 24.13\\ 4.3\\ 16 \end{bmatrix} \end{align} \]
\[ \begin{align}\widetilde{\mathbf{T}}_2&= \begin{bmatrix} \widetilde{x_{11}^2}+x_{21}^2+x_{31}^2+x_{41}^2 & & \\ \widetilde{x_{11}x_{12}} + x_{21}x_{22} + x_{31}x_{32}+\widetilde{x_{41}x_{42}} & x_{12}^2+x_{22}^2+x_{32}^2+\widetilde{x_{42}^2} & \\ \widetilde{x_{11}x_{13}} + x_{21}x_{23} + x_{31}x_{33}+\widetilde{x_{41}x_{43}} & x_{12}x_{13} + x_{22}x_{23} + x_{32}x_{33}+\widetilde{x_{42}x_{43}} & x_{13}^2+x_{23}^2+x_{33}^2+x_{43}^2 \end{bmatrix}\\ &=\begin{bmatrix} 32.99+7^2+5^2+41.06& &\\ 0+7\times2+5\times1+8.27& 0^2+2^2+1^2+1.97&\\ 17.18+7\times6+5\times2+32&0\times3+2\times6+1\times2+6.5&3^2+6^2+2^2+5^2 \end{bmatrix}\\ \widetilde{\mathbf{T}}_2&= \begin{bmatrix} 148.05&27.27&101.18\\ 27.27&6.97&20.50\\ 101.18&20.50&74.00 \end{bmatrix} \end{align} \]
Isso completa uma etapa de predição.
A próxima etapa de estimação, usando (5-40), fornece as estimativas revisadas:
\[ \widetilde{\boldsymbol{\mu}} = \dfrac{1}{n} \widetilde{\mathbf{T}}_1=\dfrac{1}{4} \begin{bmatrix} 24.13\\ 4.3\\ 16 \end{bmatrix}= \begin{bmatrix} 6.03\\ 1.08\\ 4.00 \end{bmatrix} \]
\[ \begin{align} \widetilde{\mathbf{\Sigma}} &= \dfrac{1}{n} \widetilde{\mathbf{T}}_2 - \widetilde{\boldsymbol{\mu}} \widetilde{\boldsymbol{\mu}}^{\prime}\\ &=\dfrac{1}{4}\begin{bmatrix} 148.05&27.27&101.18\\ 27.27&6.97&20.50\\ 101.18&20.50&74.00 \end{bmatrix}-\begin{bmatrix} 6.03\\ 1.08\\ 4.00 \end{bmatrix} \begin{bmatrix} 6.03&1.08&4.00 \end{bmatrix}\\ \widetilde{\mathbf{\Sigma}}&=\begin{bmatrix} 0.61&0.33&1.17\\ 0.33&0.59&0.83\\ 1.17&0.83&2.50 \end{bmatrix} \end{align} \]
Observe que \(\widetilde{\sigma}_{11} = 0.61\) e \(\widetilde{\sigma}_{22} = 0.59\) são maiores do que as estimativas iniciais correspondentes obtidas ao substituir as observações faltantes nas primeira e segunda variáveis pelas médias amostrais dos valores restantes. A terceira estimativa de variância \(\widetilde{\sigma}_{33}\) permanece inalterada, porque não é afetada pelos componentes ausentes. A iteração entre as etapas de predição e estimação continua até que os elementos de \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) permaneçam essencialmente inalterados. Cálculos desse tipo são facilmente tratados com um computador.
x1 x2 x3
1 NA 0 3
2 7 2 6
3 5 1 2
4 NA NA 5
ximput <- mvdalab::imputeEM(x)
ximput2 <- ximput$Imputed.DataFrames[[2]]
print(colMeans(x, na.rm=TRUE), digits=2)
x1 x2 x3
6 1 4
x1 x2 x3
6.1 1.0 4.0
x1 x2 x3
x1 2 1.0 4.0
x2 1 1.0 1.5
x3 4 1.5 3.3
x1 x2 x3
x1 0.80 0.44 1.6
x2 0.44 0.67 1.1
x3 1.62 1.06 3.3
Error in chol.default(S) : the leading minor of order 3 is not positive
[1] "Error in chol.default(S) : the leading minor of order 3 is not positive\n"
attr(,"class")
[1] "try-error"
attr(,"condition")
<simpleError in chol.default(S): the leading minor of order 3 is not positive>
x1 x2 x3
6 1 4
x1 x2 x3
6.0 1.3 4.0
x1 x2 x3
x1 2 1.0 4.0
x2 1 1.0 1.5
x3 4 1.5 3.3
x1 x2 x3
x1 0.78 0.60 1.6
x2 0.60 0.93 1.3
x3 1.61 1.34 3.3
Cuidado. O algoritmo de predição-estimação que discutimos foi desenvolvido com base na ideia de que as observações de componentes estão faltando aleatoriamente. Se os valores ausentes estiverem relacionados aos níveis de resposta, o tratamento dos valores ausentes conforme sugerido pode introduzir sérios vieses nos procedimentos de estimação. Normalmente, os valores ausentes estão relacionados às respostas que estão sendo medidas. Portanto, devemos ser céticos em relação a qualquer esquema computacional que preencha valores como se tivessem sido perdidos aleatoriamente. Quando mais do que alguns valores estão faltando, é imperativo que o investigador procure as causas sistemáticas que os criaram.
Para os métodos descritos neste capítulo, assumimos que as observações multivariadas \(\mathbf{X}_1, \mathbf{X}_2,\ldots, \mathbf{X}_n\) constituem uma amostra aleatória; ou seja, elas são independentes umas das outras. Se as observações são coletadas ao longo do tempo, essa suposição pode não ser válida. A presença de até mesmo uma quantidade moderada de dependência temporal entre as observações pode causar sérias dificuldades para testes, regiões de confiança e intervalos de confiança simultâneos, que são todos construídos assumindo que a independência é válida.
Vamos ilustrar a natureza da dificuldade quando a dependência temporal pode ser representada como um modelo autoregressivo multivariado de primeira ordem [AR(1)]. Suponha que o vetor aleatório \(p \times 1\), \(\mathbf{X}_t\), siga o modelo multivariado AR(1):
\[ \mathbf{X}_t - \boldsymbol{\mu} = \boldsymbol{\Phi}(\mathbf{X}_{t-1} - \boldsymbol{\mu}) + \boldsymbol{\epsilon}_t \tag{5-42} \]
em que os \(\boldsymbol{\epsilon}_t\) são independentes e identicamente distribuídos com \(\mathbb{E}(\boldsymbol{\epsilon}_t)=\mathbf{0}\) e \(\mathbb{C}(\boldsymbol{\epsilon}_t) = \mathbf{\Sigma}_\boldsymbol{\epsilon}\) e todos os autovalores da matriz de coeficientes \(\boldsymbol{\Phi}\) estão entre -1 e 1. Sob este modelo \(\mathbb{C}(\mathbf{X}_t, \mathbf{X}_{t-r}) = \boldsymbol{\Phi}^r \mathbf{\Sigma}_\mathbf{X}\) em que
\[ \mathbf{\Sigma}_\mathbf{X}=\sum_{i=0}^{\infty}{\boldsymbol{\Phi}^i\mathbf{\Sigma}_\boldsymbol{\epsilon}\boldsymbol{\Phi}^{{\prime}i}} \]
O modelo AR(1) (5-42) relaciona a observação no tempo \(t\) com a observação no tempo \(t - 1\) através da matriz de coeficientes \(\boldsymbol{\Phi}\). Além disso, o modelo autoregressivo diz que as observações são independentes, sob normalidade multivariada, se todas as entradas na matriz de coeficientes \(\boldsymbol{\Phi}\) são 0. O nome “modelo autoregressivo” vem do fato de que (5-42) parece uma versão multivariada de uma regressão com \(\mathbf{X}_t\) como a variável dependente e o valor anterior \(\mathbf{X}_{t-1}\) como a variável independente.
Conforme mostrado em Johnson e Langeland [8],
\[ \bar{\mathbf{X}} \xrightarrow[\mathcal{P}]{} \boldsymbol{\mu} \]
\[ \mathbf{S} = \dfrac{1}{n-1} \sum_{i=1}^{n} (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^{\prime} \xrightarrow[\mathcal{P}]{} \mathbf{\Sigma_X} \]
em que a seta acima indica convergência em probabilidade, e
\[ \mathbb{C}\left(n^{-1/2}\sum_{t=1}^{n}{\mathbf{X}_t}\right) \xrightarrow[\mathcal{P}]{} (\mathbf{I} - \boldsymbol{\Phi})^{-1}\mathbf{\Sigma_X} + \mathbf{\Sigma_X}(\mathbf{I} - \boldsymbol{\Phi}^{\prime})^{-1} - \mathbf{\Sigma_X} \tag{5-43} \]
Além disso, para um \(n\) grande, \(\sqrt{n} (\bar{\mathbf{X}} - \boldsymbol{\mu})\) é aproximadamente normal com média \(\mathbf{0}\) e matriz de covariância dada por (5-43).
Para simplificar os cálculos, suponha que o processo subjacente tenha \(\boldsymbol{\Phi} = \phi \mathbf{I}\) em que \(|\phi| < 1\). Agora, considere a elipsóide de confiança nominal de 95% de amostra grande para \(\boldsymbol{\mu}\).
\[ \left\{ \text{todo } \boldsymbol{\mu} \text{ tal que } n(\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \leq \chi^2_p(0.95) \right\} \]
Esta elipsóide tem probabilidade de cobertura de grande amostra de 0.95 se as observações forem independentes. Se as observações estiverem relacionadas pelo nosso modelo autorregressivo, no entanto, esta elipsóide tem probabilidade de cobertura de grande amostra
\[ P\left[\chi_p^2 \le (1 - \phi)(1 + \phi)^{-1}\chi^2_p(0.95)\right] \]
A Tabela 5.10 mostra como a probabilidade de cobertura está relacionada ao coeficiente \(\phi\) e ao número de variáveis \(p\).
De acordo com a Tabela 5.10, a probabilidade de cobertura pode cair muito, para 0.632, mesmo para o caso bivariado.
A suposição de independência é crucial, e os resultados baseados nesta suposição podem ser muito enganosos se as observações forem, de fato, dependentes.
Tabela 5.10 Probabilidade de Cobertura da Elipsóide de Confiança Nominal de 95%
\[ \begin{array}{|c|c|c|c|c|} \hline p / \phi & -.25 & 0 & .25 & .5 \\ \hline 1 & .989 & .950 & .871 & .742 \\ 2 & .993 & .950 & .834 & .632 \\ 5 & .998 & .950 & .751 & .405 \\ 10 & .999 & .950 & .641 & .193 \\ 15 & 1.000 & .950 & .548 & .090 \\ \hline \end{array} \]
5.1, 5.2, 5.3, 5.7, 5.9, 5.12, 5.13, 5.15, 5.16, 5.17, 5.20, 5.25
Soch, J et al. (2020) The Book of Statistical Proofs: https://statproofbook.github.io/
Batschelet, E (1978) Introdução à matemática para biocientistas. Tradução da 2ª ed. São Paulo: EDUSP e Rio de Janeiro: Interciência.
Batschelet, E (1979) Introduction to mathematics for life scientists. 3rd ed. NY: Springer.
Bickel, PJ & Doksum, KA (2001) Mathematical Statistics: Basic Ideas and Selected Topics, Volume I. USA: CRC.
Bilodeau, M & Brenner, D (1999) Theory of Multivariate Statistics. USA: Springer. T^2 de Hotelling
Denis, DJ (2021) Applied Univariate, Bivariate, and Multivariate Statistics Using Python: A Beginners Guide to Advanced Data Analysis. NJ: Wiley.
Genz, A (1992) Numerical Computation of Multivariate Normal Probabilities. Journal of Computational and Graphical Statistics 1(2): 141–149. https://doi.org/10.2307/1390838
Hardle, W & Hlavka, Z (2007) Multivariate Statistics - Exercises and Solutions. USA: Springer.
KASSAMBARA, A (2017) Practical guide to cluster analysis in R: Unsupervised machine learning. STHDA: http://www.sthda.com.
Kollo. T & von Rosen, D (2005) Advanced Multivariate Statistics with Matrices. USA: Springer.
Kutner, MH et al. (2005) Applied linear statistical model. 5th ed. NY: McGraw-Hill/Irwin.
MAIR, P (2018) Modern psychometrics with R. USA: Springer.
Manly, BFJ & Alberto, JAN (2017) Multivariate Statistical
Methods: A Primer using R. 4th ed. USA: CRC.
Matloff, N (2020) Probability and Statistics for Data Science: Math + R Data_. USA: CRC.
Mirman, D (2014) Growth Curve Analysis and Visualization Using R. USA: CRC.
Pessoa, DGC (2008) Exemplos do livro de Johnson e Wichern.
Rawlings, JO et al. (1998) Applied Regression Analysis: A Research Tool. USA: Springer. T^2 de Hotelling
Schumacker, RE (2016) Using R With Multivariate Statistics. USA: SAGE.
Siqueira, JO (2012) Fundamentos de métodos quantitativos: aplicados em Administração, Economia, Contabilidade e Atuária usando WolframAlpha e SCILAB. São Paulo: Saraiva. Soluções dos exercícios em https://www.researchgate.net/publication/326533772_Fundamentos_de_metodos_quantitativos_-_Solucoes.
Tay, A (2018) OLS using Matrix Algebra. http://www.mysmu.edu/faculty/anthonytay/MFE/OLS_using_Matrix_Algebra.pdf
Teichroew, D (1964) An introduction to management science: deterministic models. NJ: Wiley.
Timm, NH (2002) Applied Multivariate Analysis. USA: Springer. T^2 de Hotelling
Zelterman, D (2015) Applied Multivariate Statistics with R. USA: Springer.
Nguyen, M (2020) A Guide on Data Analysis. Bookdown. https://bookdown.org/mike/data_analysis/
Chaves Neto, A. CE-704 ANÁLISE MULTIVARIADA APLICADA À PESQUISA. https://docs.ufpr.br/~soniaisoldi/ce090/CE076AM_2010.pdf
ME 731 - Métodos em Análise Multivariada em R. https://www.ime.unicamp.br/~cnaber/Material_AM_2S_2020.htm
Nogueira, FE (2007) Modelos de regressão multivariada. Dissertação (Mestrado). https://teses.usp.br/teses/disponiveis/45/45133/tde-25062007-163150/publico/dissertacao_4.pdf
Análise Multivariada. https://www.professores.uff.br/samuelcampos/analise-multivariada/
Severn, K (2023) Multivariate Statistics. https://rich-d-wilkinson.github.io/MATH3030/
Powell, J (2019) Multivariate statistics in R. https://www.hiercourse.com/multivariate
Plotting PCA/clustering results using ggplot2 and ggfortify: https://rpubs.com/sinhrks/plot_pca
ggfortify : Extension to ggplot2 to handle some popular packages - R software and data visualization: http://www.sthda.com/english/wiki/ggfortify-extension-to-ggplot2-to-handle-some-popular-packages-r-software-and-data-visualization
A Little Book of Python for Multivariate Analysis: https://python-for-multivariate-analysis.readthedocs.io/index.html