Bastão de Asclépio & Distribuição Normal

Bastão de Asclépio & Distribuição Normal

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
options(warn=-1)
suppressMessages(library(aplpack, warn.conflicts=FALSE))
suppressMessages(library(calculus, warn.conflicts=FALSE))
suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(cellWise, warn.conflicts=FALSE))
suppressMessages(library(cluster, warn.conflicts=FALSE))
suppressMessages(library(DescTools, warn.conflicts=FALSE))
suppressMessages(library(diptest, warn.conflicts=FALSE))
suppressMessages(library(dplyr, warn.conflicts=FALSE))
suppressMessages(library(ellipse, warn.conflicts=FALSE))
suppressMessages(library(far, warn.conflicts=FALSE))
suppressMessages(library(fmsb, warn.conflicts=FALSE))
suppressMessages(library(GGally, warn.conflicts=FALSE))
suppressMessages(library(ggfortify, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(HSAUR2, warn.conflicts=FALSE))
suppressMessages(library(knitr, warn.conflicts=FALSE))
suppressMessages(library(lawstat, warn.conflicts=FALSE))
suppressMessages(library(lfda, warn.conflicts=FALSE))
suppressMessages(library(MASS, warn.conflicts=FALSE))
suppressMessages(library(MatchIt, warn.conflicts=FALSE)) # distancia robusta
suppressMessages(library(matlib, warn.conflicts=FALSE))
suppressMessages(library(matrixcalc, warn.conflicts=FALSE))
suppressMessages(library(MatrixModels, warn.conflicts=FALSE))
suppressMessages(library(matrixStats, warn.conflicts=FALSE))
suppressMessages(library(missMethods, warn.conflicts=FALSE))
suppressMessages(library(MomTrunc, warn.conflicts=FALSE))
suppressMessages(library(MVA, warn.conflicts=FALSE)) # An Introduction to Applied Multivariate Analysis with R
suppressMessages(library(MVar.pt, warn.conflicts=FALSE))
suppressMessages(library(mvdalab, warn.conflicts=FALSE))
# suppressMessages(library(MVLM, warn.conflicts=FALSE))
suppressMessages(library(MVN, warn.conflicts=FALSE))
suppressMessages(library(MVTests, warn.conflicts=FALSE)) # T^2 robusta
suppressMessages(library(mvtnorm, warn.conflicts=FALSE))
suppressMessages(library(norm, warn.conflicts=FALSE))
suppressMessages(library(plotly, warn.conflicts=FALSE))
suppressMessages(library(pracma, warn.conflicts=FALSE))
suppressMessages(library(qcc, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(reticulate, warn.conflicts=FALSE))
suppressMessages(library(rgl, warn.conflicts=FALSE))
suppressMessages(library(scatterplot3d, warn.conflicts=FALSE))
source("summarySEwithin2.R")

Adicionar

  • Trocar \bar por \overline

  • Efficient Programming in R - Tsagris - 2025: Rfast e Rfast2

  • missMDA

  • EVALUATION OF APPROXIMATED AND EXACT MULTIVARIATE TESTS FOR MEAN VECTORS - A DATA SIMULATION STUDY - Lacerta et al - 2022

  • TVMM: an R package for testing hypothesis on mean vectors - Alves et al - 2023

  • DescTools::HotellingsT

  • A Hotelling Test Based on MCD - Willems et al - 2002.pdf

  • Wu, Y et al. (2006) A Multivariate Two-Sample Mean Test for Small Sample Size and Missing Data. Biometrics 62(3): 877-85.

  • Improvement on Chi-Squared Approximation by Monotone Transformation - Fujisawa - 1997.

  • Enoki, H & Aoshima, M () Transformations with Improved Chi-Squared Approximations.

  • P.O. Adebayo and G.M. Oyeyemi (2018) An Alternative Solution to Hotelling T square under the Heteroscedasticity of the dispersion Matrix. Research & Reviews: Journal of Statistics and Mathematical Sciences 4(3): 33-47

  • An Asymptotic Two-Sided Test in a Family of Multivariate Distribution - Bazyari et al - 2020

  • Multivariate multidistance tests for high-dimensional low sample size case-control studies - Marozzi - 2015: Table I. Cardiovascular and hemodynamic characteristics of the 20 subjects.

Teste ominibus T2 de Hotelling

fit.lm <- lm(cbind(PC1,PC2)~Breed, data = Dados.org)
print(anova.fit <- car::Anova(fit.lm))
print(effectsize::eta_squared(anova.fit,
                              partial = TRUE,
                              ci = 1 - alpha,
                              alternative = "two"))

Teste post hoc T2 de Hotelling

alphaBonf <- alpha/length(unique(Dados.org$Breed))
fit.lm <- lm(cbind(PC1,PC2)~Breed,
             data = subset(Dados.org, Breed!="Hereford"))
print(anova.fit <- car::Anova(fit.lm))
T2H.fit <- mvdalab::MVComp(subset(Dados.org, Breed=="Angus",
                                     select=c(PC1,PC2)),
                              subset(Dados.org, Breed=="Simental",
                                     select=c(PC1,PC2)),
                              level = 1-alphaBonf)
print(T2H.fit)
plot(T2H.fit, Diff2Plot = c(1, 2), include.zero = TRUE)

fit.lm <- lm(cbind(PC1,PC2)~Breed,
             data = subset(Dados.org, Breed!="Angus"))
print(anova.fit <- car::Anova(fit.lm))
T2H.fit <- mvdalab::MVComp(subset(Dados.org, Breed=="Hereford",
                                  select=c(PC1,PC2)),
                           subset(Dados.org, Breed=="Simental",
                                  select=c(PC1,PC2)),
                           level = 1-alphaBonf)
print(T2H.fit)
plot(T2H.fit, Diff2Plot = c(1, 2), include.zero = TRUE)

fit.lm <- lm(cbind(PC1,PC2)~Breed,
             data = subset(Dados.org, Breed!="Simental"))
print(anova.fit <- car::Anova(fit.lm))
T2H.fit <- mvdalab::MVComp(subset(Dados.org, Breed=="Hereford",
                                  select=c(PC1,PC2)),
                           subset(Dados.org, Breed=="Angus",
                                  select=c(PC1,PC2)),
                           level = 1-alphaBonf)
print(T2H.fit)
plot(T2H.fit, Diff2Plot = c(1, 2), include.zero = TRUE)

‘mcd’ for minimum covariance determinant estimator

print(rrcov::T2.test(Masc, mu = H0.M, conf.level = 1-alfa, method=“mcd”))

Linear Algebra and Its Applications with R - Yoshida - 2021.pdf

  • 2.2.5 Conceptual Quizzes
  • 3.1 Introductory Example from Astronomy : library(conics)
  • 4.1 Introductory Example from Data Science: library(factoextra)
  • 6.2.2 Working Examples

Material

Pensamento

“Não é paradoxo dizer que nos nossos momentos de inspiração mais teórica podemos estar o mais próximo possível de nossas aplicações mais práticas.”

WHITEHEAD, AN apud BOYER, CB (1974) História da matemática. São Paulo: Blücher/EDUSP, p. 419.

Sumário

  1. Aspectos de análise multivariada
  2. Álgebra matricial e vetor estocástico
  3. Geometria amostral e amostragem aleatória
  4. Distribuição normal multivariada
  5. Inferência sobre vetor de média
  6. Comparação de várias médias multivariadas
  7. Modelo de regressão linear multivariada
  8. Componentes principais
  9. Análise de fatores e inferência sobre matriz de covariância
  10. Análise de correlação canônica
  11. Discriminação e classificação
  12. Clusterização, métodos de distância e ordination

Introdução

Análise estatística multivariada tem que produzir valor p para o teste de hipótese nula omnibus.

Este capítulo é o primeiro das seções metodológicas do livro. Agora usaremos os conceitos e resultados expostos nos Capítulos 1 a 4 para desenvolver técnicas de análise de dados. Grande parte de qualquer análise está relacionada com a inferência, ou seja, tirar conclusões válidas sobre uma população com base em informações de uma amostra.

Neste ponto, concentraremos nas inferências sobre um vetor de média populacional e suas partes componentes. Embora introduzamos a inferência estatística por meio de discussões iniciais sobre testes de hipóteses, nosso objetivo final é apresentar uma análise estatística completa das médias componentes com base em intervalos deconfiança simultâneos.

Uma das mensagens centrais da análise multivariada é que \(p\) variáveis correlacionadas devem ser analisadas conjuntamente. Este princípio é exemplificado pelos métodos apresentados neste capítulo.

Plausibilidade de \(\mu_0\) como um Valor para a Média de uma População Normal

Vamos começar relembrando a teoria univariada para determinar se um valor específico \(\mu_0\) é um valor plausível para a média populacional \(\mu\). Do ponto de vista de testes de hipóteses, esse problema pode ser formulado como um teste entre as hipóteses concorrentes:

\[ H_0: \mu = \mu_0 \]

vs. 

\[ H_1: \mu \neq \mu_0 \]

Aqui, \(H_0\) é a hipótese nula e \(H_1\) é a hipótese alternativa (bidirecional). Se \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\), a estatística de teste apropriada é:

\[ T = \dfrac{\bar{X} - \mu_0}{S/\sqrt{n}} \]

em que \(\bar{X} = \dfrac{1}{n} \sum_{i=1}^{n} X_i\) e \(S^2 = \dfrac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\) são a média e a variância amostrais estocásticas, respectivamente.

Essa estatística de teste é uma variável aleatória que segue uma distribuição t de Student central com \(n - 1\) graus de liberdade. Rejeitamos \(H_0\), ou seja, que \(\mu_0\) é um valor plausível para \(\mu\), se o valor observado de \(|t|\) exceder um ponto percentual especificado de uma distribuição t de Student com \(n - 1\) graus de liberdade.

A rejeição de \(H_0\) quando \(|t|\) é grande é equivalente a rejeitar \(H_0\) se o quadrado de \(t\):

\[ t^2 = \left( \frac{\bar{x} - \mu_0}{s/\sqrt{n}} \right)^2 =n(\bar{x}-\mu_0)(s^2)^{-1}(\bar{x}-\mu_0) \tag{5-1} \]

for grande. O valor \(t^2\) na equação acima representa o quadrado da distância entre a média da amostra \(\bar{x}\) e o valor de teste \(\mu_0\). As unidades de distância são expressas em termos de \(s/\sqrt{n}\), ou seja, em desvio-padrão estimado de \(\bar{x}\). Uma vez que \(\bar{x}\) e \(s^2\) são estimativas, o teste se torna:

Rejeitar \(H_0\) em favor de \(H_1\) com um nível de significância \(\alpha\), se:

\[ n(\bar{x}-\mu_0)(s_2)^{-1}(\bar{x}-\mu_0) > t_{n-1}^{2}(1 - \alpha/2) \tag{5-2} \]

em que \(t_{n-1}(1 - \alpha/2)\) denota o quantil de \(100\;(1-\alpha/2)\) da distribuição t de Student central com \(n - 1\) graus de liberdade.

Se \(H_0\) não for rejeitada, concluímos que \(\mu_0\) é um valor plausível para a média da população normal. Existem outros valores de \(\mu\) que também são consistentes com os dados? A resposta é sim! Na verdade, sempre existe um conjunto de valores plausíveis para uma média da população normal. A partir da conhecida correspondência entre as regiões de não rejeição [sic: estava aceitação] para testes de \(H_0: \mu = \mu_0\) versus \(H_1: \mu \neq \mu_0\) e intervalos de confiança para \(\mu\), temos:

\[ \{\text{Não rejeitar } H_0: \mu = \mu_0 \text{ ao nível } \alpha \} \text{ ou } |t| \le t_{n-1}(\alpha/2)) \]

é equivalente a:

\[ \mu_0 \text{ está no intervalo de confiança de } 100(1 - \alpha)\% \text{ para } \mu, \\\text{ i.e., } \\\mu_0 \in\left[\bar{x} \pm t_{n-1}(\alpha/2)\dfrac{s}{\sqrt{n}}\right] \]

ou

\[ \bar{x} - t_{n-1}(1-\alpha/2)\dfrac{s}{\sqrt{n}}\le \mu_0 \le \bar{x} + t_{n-1}(1-\alpha/2)\dfrac{s}{\sqrt{n}} \tag{5-3} \]

O intervalo de confiança consiste em todos os valores \(\mu_0\) que não seriam rejeitados pelo teste de nível \(\alpha\) de \(H_0: \mu = \mu_0\).

Antes de selecionarmos a amostra, o intervalo de confiança de \(100(1 - \alpha)\%\) em (5-3) é um intervalo aleatório, uma vez que os pontos finais dependem das variáveis aleatórias \(\bar{X}\) e \(S\). A probabilidade de que o intervalo contenha \(\mu\) é \(1 - \alpha\); entre um grande número desses intervalos independentes, aproximadamente \(100(1 - \alpha)\%\) deles conterão \(\mu\).

Agora, considere o problema de determinar se um dado vetor \(\boldsymbol{\mu}_0\) de dimensão \(p \times 1\), em que \(p\) é o número de variáveis, é um valor plausível para a média de uma distribuição normal multivariada. Vamos proceder por analogia ao desenvolvimento univariado apresentado anteriormente.

Uma generalização natural da distância ao quadrado em (5-1) é seu análogo multivariado:

\[ \begin{align} T^2 &= (\bar{\mathbf{X}} - \boldsymbol{\mu}_0)^{\prime} \left(\dfrac{1}{n}\mathbf{S}\right)^{-1} (\bar{\mathbf{X}} - \boldsymbol{\mu}_0) \\ T^2 &= n(\bar{\mathbf{X}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{S}^{-1} (\bar{\mathbf{X}} - \boldsymbol{\mu}_0) \end{align} \tag{5-4} \]

em que \(\boldsymbol{\mu}_{0}^{\prime}=[\mu_{01}\; \mu_{02}\; \ldots\; \mu_{0p}]\).

A estatística \(T^2\) é chamada de \(T^2\) de Hotelling em homenagem a Harold Hotelling, um pioneiro na análise multivariada, que primeiro obteve sua distribuição amostral. Aqui, \((1/n)\mathbf{S}\) é a matriz de covariância estimada de \(\bar{\mathbf{X}}\) (consulte o Resultado 3.1).

Se a distância estatística observada \(T^2\) for muito grande — ou seja, se \(\bar{\mathbf{X}}\) estiver “muito longe” de \(\boldsymbol{\mu}_0\) — a hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) é rejeitada. Acontece que tabelas especiais de quantis de \(T^2\) não são necessárias para testes formais de hipóteses. Isso ocorre porque pode ser usada a distribuição \(F\) para realizar testes de hipótese nula envolvendo a estatística \(T^2\).

Se \(F\sim F_{p, n-p}\), então

\[ T^2=(n-1)\dfrac{p}{n-p} F\sim T^2_{p,n-1} \tag{5-5} \]

Sendo que:

\[ T^2_{p,n-1}(1-\alpha)=(n-1)\dfrac{p}{n-p} F_{p, n-p}(1-\alpha) \]

em que \(F_{p, n-p}\) é distribuição F de Fisher-Snedecor com \(p\) e \(n-p\) graus de liberdade do numerador e denominador, respectivamente.

Se \(n-p\gg30\), então

\[ T^2_{p,n-1}(1-\alpha) \approx \chi^2_p(1-\alpha) \]

De forma mais geral, temos que:

\[ T^2_{g_1,g_2}(1-\alpha)=g_2\dfrac{g_1}{g_2-g_1+1} F_{g_1, g_2-g_1+1}(1-\alpha) \]

# https://stats.stackexchange.com/questions/285425/limit-of-hotelling-t2-distribution
n_values <- 3:30  # Valores de n
p_values <- 2:10  # Valores de p
alpha <- 0.05     # Nível de significância

# Inicializar uma matriz para armazenar os valores críticos
critical_values <- matrix(NA, nrow = length(n_values), ncol = length(p_values))

# Preencher a matriz com os valores críticos
for (i in 1:length(n_values)) {
  for (j in 1:length(p_values)) {
    n <- n_values[i]
    p <- p_values[j]
    critical_values[i, j] <- ((p * (n - 1)) / (n - p)) * 
      qf(1 - alpha, p, n - p)
  }
}

# Definir os nomes das linhas e colunas da tabela
rownames(critical_values) <- n_values
colnames(critical_values) <- p_values

# Exibir a tabela do quantil T^2(p,n-1,95%)
print(critical_values, digits=2)
       2      3    4    5    6     7     8     9    10
3  798.0    NaN  NaN  NaN  NaN   NaN   NaN   NaN   NaN
4   57.0 1941.4  NaN  NaN  NaN   NaN   NaN   NaN   NaN
5   25.5  115.0 3593  NaN  NaN   NaN   NaN   NaN   NaN
6   17.4   46.4  192 5754  NaN   NaN   NaN   NaN   NaN
7   13.9   29.7   73  289 8423   NaN   NaN   NaN   NaN
8   12.0   22.7   45  105  406 11602   NaN   NaN   NaN
9   10.8   19.0   33   63  143   542 15288   NaN   NaN
10  10.0   16.8   27   45   83   187   697 19484   NaN
11   9.5   15.2   24   37   59   107   236   872 24188
12   9.0   14.2   21   31   47    75   133   291  1067
13   8.7   13.3   19   28   40    59    93   162   351
14   8.4   12.7   18   25   35    49    72   112   194
15   8.2   12.2   17   23   31    43    60    86   133
16   8.0   11.8   16   22   29    38    52    71   101
17   7.9   11.5   16   21   27    35    46    61    83
18   7.7   11.2   15   20   25    33    42    54    71
19   7.6   10.9   15   19   24    31    39    49    63
20   7.5   10.7   14   18   23    29    36    45    57
21   7.4   10.5   14   18   22    28    34    42    52
22   7.3   10.4   14   17   22    27    32    39    48
23   7.3   10.2   13   17   21    26    31    37    45
24   7.2   10.1   13   17   20    25    30    36    43
25   7.1   10.0   13   16   20    24    29    34    41
26   7.1    9.9   13   16   19    23    28    33    39
27   7.0    9.8   13   16   19    23    27    32    37
28   7.0    9.7   12   15   19    22    26    31    36
29   7.0    9.6   12   15   18    22    26    30    35
30   6.9    9.5   12   15   18    22    25    29    34
# Inicializar uma matriz para armazenar as diferenças em porcentagem
diff_percent <- matrix(NA, nrow = length(n_values), ncol = length(p_values))

# Preencher a matriz com as diferenças
for (i in 1:length(n_values)) {
  for (j in 1:length(p_values)) {
    n <- n_values[i]
    p <- p_values[j]
    diffperc <- (((p * (n - 1)) / (n - p)) * 
      qf(1 - alpha, p, n - p) - 
      qchisq(1 - alpha, p))/qchisq(1 - alpha, p)
    diff_percent[i, j] <- diffperc
  }
}

# Definir os nomes das linhas e colunas da tabela
rownames(diff_percent) <- n_values
colnames(diff_percent) <- p_values

# Exibir a tabela da variação porcentual dos quantis X^2(p, 95%) e T^2(p,n-1,95%)
print(diff_percent, digits=2)
        2      3      4      5      6      7      8       9      10
3  132.19    NaN    NaN    NaN    NaN    NaN    NaN     NaN     NaN
4    8.51 247.42    NaN    NaN    NaN    NaN    NaN     NaN     NaN
5    3.25  13.71 377.73    NaN    NaN    NaN    NaN     NaN     NaN
6    1.90   4.94  19.29 518.76    NaN    NaN    NaN     NaN     NaN
7    1.32   2.80   6.69  25.15 667.98    NaN    NaN     NaN     NaN
8    1.00   1.91   3.71   8.50  31.24 823.73    NaN     NaN     NaN
9    0.81   1.43   2.50   4.65  10.36  37.52 984.89     NaN     NaN
10   0.67   1.15   1.87   3.11   5.61  12.27  43.97 1150.61     NaN
11   0.58   0.95   1.48   2.30   3.72   6.58  14.21   50.56 1320.25
12   0.51   0.81   1.22   1.82   2.74   4.34   7.57   16.19   57.27
13   0.45   0.71   1.04   1.50   2.16   3.19   4.97    8.57   18.20
14   0.41   0.63   0.91   1.27   1.77   2.50   3.64    5.60    9.59
15   0.37   0.56   0.80   1.10   1.50   2.05   2.84    4.09    6.24
16   0.34   0.51   0.72   0.97   1.30   1.73   2.33    3.19    4.54
17   0.31   0.47   0.65   0.87   1.14   1.50   1.96    2.60    3.54
18   0.29   0.43   0.59   0.79   1.02   1.32   1.69    2.19    2.89
19   0.27   0.40   0.55   0.72   0.92   1.17   1.49    1.89    2.43
20   0.25   0.37   0.51   0.66   0.84   1.06   1.33    1.66    2.09
21   0.24   0.35   0.47   0.61   0.77   0.97   1.20    1.48    1.83
22   0.22   0.33   0.44   0.57   0.71   0.89   1.09    1.33    1.63
23   0.21   0.31   0.41   0.53   0.66   0.82   1.00    1.21    1.47
24   0.20   0.29   0.39   0.50   0.62   0.76   0.92    1.11    1.34
25   0.19   0.28   0.37   0.47   0.58   0.71   0.86    1.02    1.22
26   0.18   0.26   0.35   0.44   0.55   0.67   0.80    0.95    1.13
27   0.18   0.25   0.33   0.42   0.52   0.63   0.75    0.89    1.05
28   0.17   0.24   0.32   0.40   0.49   0.59   0.70    0.83    0.98
29   0.16   0.23   0.30   0.38   0.47   0.56   0.66    0.78    0.91
30   0.15   0.22   0.29   0.36   0.44   0.53   0.63    0.74    0.86
n_values <- c(seq(30,1000,50),1000)  # Valores de n
p_values <- seq(2,10,1)  # Valores de p
alpha <- 0.05     # Nível de significância

# Inicializar uma matriz para armazenar os valores críticos
critical_values <- matrix(NA, nrow = length(n_values), ncol = length(p_values))

# Preencher a matriz com os valores críticos
for (i in 1:length(n_values)) {
  for (j in 1:length(p_values)) {
    n <- n_values[i]
    p <- p_values[j]
    critical_values[i, j] <- ((p * (n - 1)) / (n - p)) * 
      qf(1 - alpha, p, n - p)
  }
}

# Definir os nomes das linhas e colunas da tabela
rownames(critical_values) <- n_values
colnames(critical_values) <- p_values

# Exibir a tabela do quantil T^2(p,n-1,95%)
print(critical_values, digits=4)
         2     3      4     5     6     7     8     9    10
30   6.919 9.539 12.236 15.10 18.18 21.56 25.27 29.41 34.04
80   6.307 8.382 10.362 12.31 14.24 16.19 18.17 20.17 22.22
130  6.182 8.154 10.007 11.80 13.56 15.31 17.05 18.79 20.54
180  6.128 8.057  9.857 11.59 13.28 14.94 16.59 18.23 19.87
230  6.098 8.003  9.774 11.47 13.12 14.74 16.34 17.93 19.51
280  6.078 7.969  9.722 11.40 13.02 14.62 16.19 17.74 19.28
330  6.065 7.945  9.686 11.35 12.96 14.53 16.08 17.61 19.13
380  6.055 7.928  9.659 11.31 12.91 14.47 16.00 17.52 19.01
430  6.048 7.914  9.639 11.28 12.87 14.42 15.94 17.44 18.93
480  6.042 7.904  9.623 11.26 12.84 14.38 15.90 17.39 18.86
530  6.037 7.895  9.610 11.24 12.82 14.35 15.86 17.34 18.81
580  6.033 7.888  9.599 11.23 12.80 14.33 15.83 17.31 18.76
630  6.030 7.882  9.590 11.21 12.78 14.31 15.80 17.27 18.73
680  6.027 7.877  9.583 11.20 12.77 14.29 15.78 17.25 18.70
730  6.024 7.873  9.576 11.19 12.75 14.27 15.76 17.22 18.67
780  6.022 7.869  9.570 11.19 12.74 14.26 15.74 17.20 18.65
830  6.020 7.866  9.565 11.18 12.73 14.25 15.73 17.19 18.62
880  6.019 7.863  9.561 11.17 12.73 14.24 15.72 17.17 18.61
930  6.017 7.860  9.557 11.17 12.72 14.23 15.71 17.16 18.59
980  6.016 7.858  9.553 11.16 12.71 14.22 15.70 17.15 18.58
1000 6.016 7.857  9.552 11.16 12.71 14.22 15.69 17.14 18.57
# Inicializar uma matriz para armazenar as diferenças em porcentagem
diff_percent <- matrix(NA, nrow = length(n_values), ncol = length(p_values))

# Preencher a matriz com as diferenças
for (i in 1:length(n_values)) {
  for (j in 1:length(p_values)) {
    n <- n_values[i]
    p <- p_values[j]
    diffperc <- (((p * (n - 1)) / (n - p)) * 
                   qf(1 - alpha, p, n - p) - 
                   qchisq(1 - alpha, p))/qchisq(1 - alpha, p)
    diff_percent[i, j] <- diffperc
  }
}

# Definir os nomes das linhas e colunas da tabela
rownames(diff_percent) <- n_values
colnames(diff_percent) <- p_values

# Exibir a tabela da variação porcentual dos quantis X^2(p, 95%) e T^2(p,n-1,95%)
print(diff_percent, digits=2)
          2      3      4      5      6     7     8     9    10
30   0.1549 0.2206 0.2897 0.3637 0.4442 0.532 0.630 0.738 0.860
80   0.0527 0.0726 0.0921 0.1116 0.1313 0.151 0.172 0.192 0.214
130  0.0318 0.0434 0.0547 0.0659 0.0770 0.088 0.099 0.110 0.122
180  0.0227 0.0310 0.0389 0.0467 0.0544 0.062 0.070 0.077 0.085
230  0.0177 0.0241 0.0302 0.0362 0.0421 0.048 0.054 0.060 0.065
280  0.0145 0.0197 0.0247 0.0295 0.0343 0.039 0.044 0.048 0.053
330  0.0123 0.0167 0.0209 0.0250 0.0290 0.033 0.037 0.041 0.045
380  0.0106 0.0144 0.0181 0.0216 0.0251 0.029 0.032 0.035 0.039
430  0.0094 0.0127 0.0159 0.0190 0.0221 0.025 0.028 0.031 0.034
480  0.0084 0.0114 0.0143 0.0170 0.0197 0.022 0.025 0.028 0.030
530  0.0076 0.0103 0.0129 0.0154 0.0179 0.020 0.023 0.025 0.027
580  0.0069 0.0094 0.0118 0.0140 0.0163 0.018 0.021 0.023 0.025
630  0.0064 0.0087 0.0108 0.0129 0.0150 0.017 0.019 0.021 0.023
680  0.0059 0.0080 0.0100 0.0120 0.0139 0.016 0.018 0.019 0.021
730  0.0055 0.0075 0.0093 0.0111 0.0129 0.015 0.016 0.018 0.020
780  0.0052 0.0070 0.0087 0.0104 0.0121 0.014 0.015 0.017 0.018
830  0.0048 0.0066 0.0082 0.0098 0.0113 0.013 0.014 0.016 0.017
880  0.0046 0.0062 0.0077 0.0092 0.0107 0.012 0.014 0.015 0.016
930  0.0043 0.0058 0.0073 0.0087 0.0101 0.011 0.013 0.014 0.015
980  0.0041 0.0055 0.0069 0.0083 0.0096 0.011 0.012 0.013 0.015
1000 0.0040 0.0054 0.0068 0.0081 0.0094 0.011 0.012 0.013 0.014

Suponha que \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Então, com \(\mathbf{\bar{X}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{X}_i\) e \(\boldsymbol{S} = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{X}_i - \mathbf{\bar{X}})(\mathbf{X}_i - \mathbf{\bar{X}})^{\prime}\),

\[ \alpha=P\left( T^2 > \dfrac{(n-1)p}{n-p} F_{p, n-p}(1-\alpha) \right) \tag{5-6} \]

em que \(F_{p, n-p}(1-\alpha)\) é o percentil \(100(1-\alpha)\)-ésimo da distribuição \(F\) com \(p\) e \(n - p\) graus de liberdade.

A afirmação (5-6) leva imediatamente a um teste da hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) contra \(H_1: \boldsymbol{\mu} \neq \boldsymbol{\mu}_0\). No nível de significância \(\alpha\), rejeitamos \(H_0\) em favor de \(H_1\) se o valor observado de \(T^2\) for maior que um valor crítico, dado por:

\[ T^2 = n (\mathbf{\bar{x}} - \boldsymbol{\mu}_0)^{\prime} \boldsymbol{s}^{-1} (\mathbf{\bar{x}} - \boldsymbol{\mu}_0) > \dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha) \]

É raro, em situações multivariadas, ficar satisfeito com um teste de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) em que todos os componentes do vetor de média são especificados sob a hipótese nula. Normalmente, é preferível encontrar regiões de valores de \(\boldsymbol{\mu}\) que sejam plausíveis à luz dos dados observados. Retornaremos a essa questão na Seção 5.4.

Não há necessidade de usar o quantil da distribuição \(T^2\) de Hotelling porque é facilmente calculável a partir do quantil da distribuição \(F\) de Fisher:

\[ \begin{align} T^2 &= n (\mathbf{\bar{x}} - \boldsymbol{\mu}_0)^{\prime} \boldsymbol{s}^{-1} (\mathbf{\bar{x}} - \boldsymbol{\mu}_0) > \frac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha) \\ \dfrac{n-p}{(n - 1)p}T^2 &= \dfrac{n-p}{(n - 1)p}n (\mathbf{\bar{x}} - \boldsymbol{\mu}_0)^{\prime} \boldsymbol{s}^{-1} (\mathbf{\bar{x}} - \boldsymbol{\mu}_0) > F_{p, n-p}(1-\alpha) \end{align} \]

Exemplo 5.1: Avaliando \(T^2\)

Suponha que a matriz de dados para uma amostra aleatória de tamanho \(n = 3\) de uma população normal bivariada seja

\[ \boldsymbol{\mathcal{x}}=\left[ \begin{array}{cc} 6 & 9 \\ 10 & 6 \\ 8 & 3 \end{array} \right] \]

Avalie o \(T^2\) observado para \(\boldsymbol{\mu}_0^{\prime} = [9\; 5]\). Qual é quantil crítico de 95% neste caso?

\[ T^2= 3\begin{bmatrix} 8-9& 6-5 \end{bmatrix} \begin{bmatrix} \dfrac{1}{3}& \dfrac{1}{9}\\ \dfrac{1}{9}& \dfrac{4}{27} \end{bmatrix} \begin{bmatrix} 8-9 \\ 6-5 \end{bmatrix}=\dfrac{7}{9} \]

Portanto, \(F\) pode ser obtido da seguinte forma: \(\dfrac{(3-1)2}{3-2} F = 4 F = 7/9\). Portanto, \(F\approx0.19\). O quantil crítico de \(F_{2,1}(0.95)=199.5\).

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
p <- 2
n <- 3
alfa <- 0.05
H0 <- c(9, 5)
x <- matrix(c(6, 9,
              10, 6,
              8, 3),
            nrow=3, byrow=TRUE)
centroide <- colMeans(x)
centroide
[1] 8 6
s <- cov(x)
s
     [,1] [,2]
[1,]    4   -3
[2,]   -3    9
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")

T^2(2, 2, 0.95) = 798
T2 <- as.numeric(n*t(centroide-H0)%*%solve(s)%*%(centroide-H0))
cat("\nT^2 =", T2)

T^2 = 0.7777778
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")

F(2, 1, 0.95) = 199.5
pv <- 1-pf(F, p, n-p)
cat("\nF(", p, ", ", n-p, ") = ", F, ", p = ", pv, "\n", sep="")

F(2, 1) = 0.1944444, p = 0.8485281
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("x1", "x2")
print(proportions(a.hat_abs), digits=2)
   Importância
x1        0.86
x2        0.14

Note que \(F<F_{2, 1}(0.95)\). Desta forma, \(H_0\) não é rejeitada.

\[\Diamond\]

O próximo exemplo ilustra um teste da hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) usando dados coletados como parte de uma busca por novas técnicas de diagnóstico na Faculdade de Medicina da Universidade de Wisconsin.

Exemplo 5.2: Testando um vetor de média multivariado com \(T^2\)

A transpiração de 20 mulheres saudáveis foi analisada. Três componentes, \(X_1 =\) taxa de suor, \(X_2 =\) conteúdo de sódio, e \(X_3 =\) conteúdo de potássio, foram medidos, e os resultados, que chamamos de dados de suor, são apresentados na Tabela 5.1.

Teste a hipótese \(H_0: \boldsymbol{\mu}^{\prime} = [4\; 50\; 10]\) contra \(H_1: \boldsymbol{\mu}^{\prime} \neq [4\; 50\; 10]\) no nível de significância \(\alpha = 0.1\).

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-1.DAT", quote="\"", comment.char="")
names(x) <- paste0("x",1:3)
print.data.frame(x)
    x1   x2   x3
1  3.7 48.5  9.3
2  5.7 65.1  8.0
3  3.8 47.2 10.9
4  3.2 53.2 12.0
5  3.1 55.5  9.7
6  4.6 36.1  7.9
7  2.4 24.8 14.0
8  7.2 33.1  7.6
9  6.7 47.4  8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8  9.8
14 4.5 40.2  8.4
15 1.5 13.5 10.1
16 8.5 56.4  7.1
17 4.5 71.6  8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9  9.4
print(MVN::mvn(x))
$multivariate_normality
           Test Statistic p.value     Method      MVN
1 Henze-Zirkler     0.476    0.74 asymptotic ✓ Normal

$univariate_normality
              Test Variable Statistic p.value Normality
1 Anderson-Darling       x1     0.276   0.620  ✓ Normal
2 Anderson-Darling       x2     0.166   0.929  ✓ Normal
3 Anderson-Darling       x3     0.267   0.649  ✓ Normal

$descriptives
  Variable  n   Mean Std.Dev Median  Min  Max  25th   75th   Skew Kurtosis
1       x1 20  4.640   1.697   4.50  1.5  8.5  3.65  5.550  0.436    2.892
2       x2 20 45.400  14.135  47.30 13.5 71.6 36.70 54.450 -0.348    2.831
3       x3 20  9.965   1.905   9.75  7.1 14.0  8.35 11.225  0.368    2.220

$data
    x1   x2   x3
1  3.7 48.5  9.3
2  5.7 65.1  8.0
3  3.8 47.2 10.9
4  3.2 53.2 12.0
5  3.1 55.5  9.7
6  4.6 36.1  7.9
7  2.4 24.8 14.0
8  7.2 33.1  7.6
9  6.7 47.4  8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8  9.8
14 4.5 40.2  8.4
15 1.5 13.5 10.1
16 8.5 56.4  7.1
17 4.5 71.6  8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9  9.4

$subset
NULL

$outlierMethod
[1] "none"

attr(,"class")
[1] "mvn"
alfa <- 0.1
p <- dim(x)[2]
n <- dim(x)[1]
H0 <- c(4, 50, 10)
centroide <- colMeans(x)
centroide
    x1     x2     x3 
 4.640 45.400  9.965 
s <- cov(x)
s
          x1       x2        x3
x1  2.879368  10.0100 -1.809053
x2 10.010000 199.7884 -5.640000
x3 -1.809053  -5.6400  3.627658
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")

T^2(3, 19, 0.9) = 8.172573
T2 <- as.numeric(n*t(centroide-H0)%*%solve(s)%*%(centroide-H0))
cat("\nT^2 =", T2)

T^2 = 9.738773
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")

F(3, 17, 0.9) = 2.437434
pv <- 1-pf(F, p, n-p)
cat("\nF(", p, ", ", n-p, ") = ", F, ", p = ", pv, "\n", sep="")

F(3, 17) = 2.904546, p = 0.06492834
T2One <- MVTests::OneSampleHT2(x,
                               mu=H0,
                               alpha=alfa)  
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 9.738773 
 F value = 2.905 , df1 = 3 , df2 = 17 , p-value: 0.0649 

                  Descriptive Statistics

            x1       x2        x3
N     20.00000 20.00000 20.000000
Means  4.64000 45.40000  9.965000
Sd     1.69687 14.13465  1.904641


                Detection important variable(s)

       Lower     Upper Mu0 Important Variables?
x1  3.555292  5.724708   4                FALSE
x2 36.364555 54.435445  50                FALSE
x3  8.747476 11.182524  10                FALSE
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("sweat rate", "sodium", "potassium")
print(proportions(a.hat_abs), digits=2)
           Importância
sweat rate       0.700
sodium           0.063
potassium        0.237

Comparando o \(T^2\) observado de 9.74 com o valor crítico

\[ \dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha) = \dfrac{19 \times 3}{20 - 3} \times 2.44 = 3.353 \times 2.44 = 8.18 \]

vemos que \(T^2 = 9.74 > 8.18\), e consequentemente, rejeitamos \(H_0\) no nível de significância de 10%.

Observamos que \(H_0\) será rejeitada se uma ou mais das médias, ou alguma combinação de médias, diferir muito dos valores hipotetizados \([4, 50, 10]\). Neste ponto, não temos ideia de quais desses valores hipotetizados podem não ser suportados pelos dados.

Assumimos que os dados de suor são multivariados normais. (Veja o Exercício 5.4.)

\[\Diamond\]

Uma característica da estatística \(T^2\) é que ela é invariante (inalterada) sob mudanças nas unidades de medida para \(\underset{p\times 1}{\mathbf{X}}\) da forma (transformação linear)

\[ \mathbf{Y} = \mathbf{C} \mathbf{X} + \mathbf{d} \tag{5-9} \]

Em que \(\mathbf{C}\) é não singular.

Uma transformação linear das observações desse tipo ocorre quando uma constante \(b_i\) é subtraída da \(i\)-ésima variável para formar \(X_i - b_i\), e o resultado é multiplicado por uma constante \(a_i > 0\) para obter \(a_i(X_i - b_i)\). A pré-multiplicação das quantidades centradas e escaladas \(a_i(X_i - b_i)\) por qualquer matriz não singular resultará na Equação (5-9).

Como exemplo, as operações envolvidas na mudança de \(X_i\) para \(a_i(X_i - b_i)\) correspondem exatamente ao processo de conversão de temperatura de Fahrenheit para Celsius.

Dadas as observações \(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\) e a transformação em (5-9), segue imediatamente do Resultado 3.6 que:

\[ \begin{align} \bar{\mathbf{y}} &= \mathbf{C} \bar{\mathbf{x}} + \mathbf{d}\\ \mathbf{s}_\mathbf{y} &= \dfrac{1}{n} \sum_{i=1}^{n} (\mathbf{y}_i - \bar{\mathbf{y}}) (\mathbf{y}_i - \bar{\mathbf{y}})^{\prime} = \mathbf{C} \mathbf{s}_\mathbf{x} \mathbf{C}^{\prime} \end{align} \]

Além disso, por (2-24) e (2-45),

\[ \boldsymbol{\mu}_\mathbf{Y} = \mathbb{E}(\mathbf{Y}) = \mathbb{E}(\mathbf{C} \mathbf{X} + \mathbf{d}) = \mathbb{E}(\mathbf{C} \mathbf{X}) + \mathbb{E}(\mathbf{d}) = \mathbf{C} \boldsymbol{\mu}_\mathbf{X} + \mathbf{d} \]

Portanto, \(T^2\) calculado com os \(\mathbf{y}\) e um valor hipotetizado \(\boldsymbol{\mu}_{\mathbf{y},0} = \mathbf{C} \boldsymbol{\mu}_0 + \mathbf{d}\) é

\[ \begin{align} T^2 &= n(\bar{\mathbf{y}} - \boldsymbol{\mu}_{\mathbf{y},0})^{\prime} \mathbf{s}_{\mathbf{y}}^{-1} (\bar{\mathbf{y}} - \boldsymbol{\mu}_{\mathbf{y},0}) \\ &= n(\mathbf{C} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0))^{\prime} (\mathbf{C} \mathbf{s}_{\mathbf{x}} \mathbf{C}^{\prime})^{-1} (\mathbf{C} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0)) \\ &= n(\bar{\mathbf{x}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{C}^{\prime} (\mathbf{C} \mathbf{s}_{\mathbf{x}} \mathbf{C}^{\prime})^{-1} \mathbf{C} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0) \\ T^2&= n(\bar{\mathbf{x}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{s}_{\mathbf{x}}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0) \end{align} \]

A última expressão é reconhecida como o valor de \(T^2\) calculado com os \(\mathbf{x}\).

\(T^2\) de Hotelling e Testes de Razão de Verossimilhança

Introduzimos a estatística \(T^2\) por analogia com a distância quadrada univariada \(t^2\). Existe um princípio geral para a construção de procedimentos de teste chamado método da razão de verossimilhança (LR: Likelihood Ratio test), e a estatística \(T^2\) pode ser derivada como o teste de razão de verossimilhança de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\). A teoria geral dos testes de razão de verossimilhança está além do escopo deste livro. (Veja [3] para um tratamento do tópico.) Testes de razão de verossimilhança têm várias propriedades ótimas para amostras razoavelmente grandes, e eles são particularmente convenientes para hipóteses formuladas em termos de parâmetros normais multivariados.

Teste LR é UMP (Uniformly Most Powerful). De acordo com o Lema de Neyman-Pearson, o teste de razão de verossimilhança é um teste UMP para testar hipótese nula simples. Em outras palavras, quando estamos considerando hipóteses simples para tanto a hipótese nula \(H_0\) quanto a alternativa \(H_1\), o teste LR é o teste mais poderoso entre todos os testes possíveis de um dado tamanho do teste \(\alpha\). (ver Uniformly most powerful test:)

Sabemos de (4-18) que o máximo da verossimilhança normal multivariada, à medida que \(\boldsymbol{\mu}\) e \(\Sigma\) variam sobre seus possíveis valores, é dado por

O valor máximo da função de verossimilhança quando o vetor de média e a matriz de covariância populacionais são desconhecidos é \(\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}})\):

\[ \mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}})= |2\pi \hat{\mathbf{\Sigma}}|^{-n/2}\exp\left(-\dfrac{np}{2}\right) \tag{5-10} \]

Em que \(\hat{\boldsymbol{\mu}}=\frac{1}{n}\sum_{i=1}^{n}\mathbf{X}_i\) e \(\hat{\mathbf{\Sigma}}=\frac{1}{n}\sum_{i=1}^{n}{(\mathbf{x}_i-\bar{\mathbf{x}})(\mathbf{x}_i-\bar{\mathbf{x}})}^{\prime}\).

Portanto, este valor sem restrição torna-se automaticamente um valor de referência se quisermos testar a plausibilidade de um ou dos dois parâmetros.

Se quisermos testar a plausibilidade de \(\boldsymbol{\mu}_0\), i.e., um vetor de média conjecturado e, portanto, um vetor numérico.

O valor máximo da função de verossimilhança com a restrição do vetor de média conjecturado para teste estatístico e a matriz de covariância populacional desconhecida, mas agora função da média conjecturada, é \(\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}}_0)\):

\[ \mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}}_0)= |2\pi \hat{\mathbf{\Sigma}}_0|^{-n/2}\exp\left(-\dfrac{np}{2}\right) \tag{5-11} \]

Em que \(\hat{\mathbf{\Sigma}}_0=\frac{1}{n}\sum_{i=1}^{n}{(\mathbf{x}_i-\boldsymbol{\mu}_0)(\mathbf{x}_i-\boldsymbol{\mu}_0)}^{\prime}\)

Para determinar se \(\boldsymbol{\mu}_0\) é um valor plausível de \(\boldsymbol{\mu}\), o máximo de \(\mathcal{L}(\boldsymbol{\mu}_0, \mathbf{\Sigma})\) é comparado com o máximo irrestrito de \(\mathcal{L}(\boldsymbol{\mu},\mathbf{\Sigma})\). A razão resultante é chamada de estatística de razão de verossimilhança.

Usando as Equações (5-10) e (5-11), obtemos

\[ \Lambda = \dfrac{\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}}_0)}{\mathcal{L}(\hat{\boldsymbol{\mu}},\hat{\mathbf{\Sigma}})} = \left(\dfrac{|\hat{\mathbf{\Sigma}}|}{|\hat{\mathbf{\Sigma}}_0|}\right)^{\frac{n}{2}} \tag{5-12} \]

A estatística equivalente \(\Lambda^{2/n} = \dfrac{|\hat{\mathbf{\Sigma}}|}{|\hat{\mathbf{\Sigma}}_0|}\) é chamada de lambda de Wilks. Se o valor observado dessa razão de verossimilhança for muito pequeno, a hipótese \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) é improvável de ser verdadeira e, portanto, é rejeitada.

Note-se que a estatística do teste de razão de verossimilhança é uma potência da razão das variâncias generalizadas. Felizmente, devido à seguinte relação entre \(T^2\) e \(\Lambda\), não precisamos da distribuição deste último para realizar o teste.

Resultado 5.1: Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Então, o teste em (5-7) baseado em \(T^2\) é equivalente ao teste de razão de verossimilhança de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) contra \(H_1\) porque:

\[ \Lambda^{2/n}=\left(1+\dfrac{T^2}{n-1}\right)^{-1} \tag{5-14} \]

Aqui \(H_0\) é rejeitada para valor pequeno de \(\Lambda^{2/n}\) ou, equivalentemente, valor grande de \(T^2\). Os valores críticos de \(T^2\) são determinados por (5-6).

\[\Diamond\]

A relação (5-14) mostra que \(T^2\) pode ser calculado a partir de dois determinantes, evitando assim o cálculo de \(\mathbf{s}^{-1}\). Resolvendo (5-14) para \(T^2\), temos

$ T^2 = (n-1)(-1) $

Teste de razão de verossimilhança é comum em análise multivariada. Suas propriedades ótimas para grandes amostras são válidas em contextos muito gerais, como indicaremos em breve. Eles são bem adequados para as situações de teste consideradas neste texto. Métodos de razão de verossimilhança produzem estatísticas de teste que se reduzem às estatísticas \(t\) e \(F\) familiares em situações univariadas, mas podem ser unificados por estatística de teste com distribuição exata \(T^2\) ou assintótica \(\chi^2\).

Região de Confiança e Comparações Simultâneas dos Componentes do Vetor de Média

Para obter nosso principal método para fazer inferências a partir de uma amostra, precisamos estender o conceito de um intervalo de confiança univariado para uma região de confiança multivariada. Seja \(\boldsymbol{\theta}\) um vetor de parâmetros populacionais desconhecidos e \(\boldsymbol{\Theta}\) o conjunto de todos os possíveis valores de \(\boldsymbol{\theta}\). Uma região de confiança é uma região de prováveis valores de \(\boldsymbol{\theta}\). Essa região é determinada pelos dados e, por enquanto, a denotaremos por \(R(\boldsymbol{\mathcal{X}})\), em que \(\boldsymbol{\mathcal{X}} = [\mathbf{X}_1 \; \mathbf{X}_2 \; \cdots \; \mathbf{X}_n]^{\prime}\) é a matriz de dados estocástica.

A região \(R(\boldsymbol{\mathcal{X}})\) é dita ser uma região de confiança de \(100(1 - \alpha)\%\) se, antes da amostra ser selecionada,

\[ P[\boldsymbol{\theta}\in R(\boldsymbol{\mathcal{X}})] = 1 - \alpha \tag (5-17) \]

Essa probabilidade é calculada sob o verdadeiro, mas desconhecido, valor de \(\boldsymbol{\theta}\).

A região de confiança para a média \(\boldsymbol{\mu}\) de uma população normal p-dimensional está disponível a partir de (5-6). Antes da amostra ser selecionada, temos

\[ P\left(T^2=n (\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime} \mathbf{S}^{-1} (\bar{\mathbf{X}} - \boldsymbol{\mu}) \le \dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha) \right) = 1 - \alpha \]

Independentemente dos valores desconhecidos de \(\boldsymbol{\mu}\) e \(\mathbf{\Sigma}\). Em outras palavras, \(\bar{\mathbf{X}}\) estará dentro de

\[ \sqrt{\dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha)} \]

de \(\boldsymbol{\mu}\), com probabilidade \(1 - \alpha\), desde que a distância seja definida em termos de \(n \mathbf{S}^{-1}\). Para uma amostra específica, \(\mathbf{x}\) e \(\mathbf{s}\) podem ser calculados, e a desigualdade

\[ n (\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime} \mathbf{s}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}) \le \dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha) \tag{5-18} \]

definirá uma região de confiança de \(100(1-\alpha)\%\) para \(\boldsymbol{\mu}\). Neste caso, a região é um hiperelipsoide centrado em \(\bar{\mathbf{x}}\).

Para determinar se algum \(\boldsymbol{\mu}_0\) está dentro da região de confiança (é um valor plausível para \(\boldsymbol{\mu}\)), precisamos calcular a distância quadrada generalizada

\[ n (\bar{\mathbf{x}} - \boldsymbol{\mu}_0)^{\prime} \mathbf{s}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0) \]

e compará-la com

\[ T^2_{p,n-1}(1-\alpha)=\dfrac{(n - 1)p}{n - p}F_{p,n-p}(1-\alpha) \]

Se a distância quadrada for maior do que \(T^2_{p,n-1}(1-\alpha)\), \(\boldsymbol{\mu}_0\) não está na região de confiança. Como isso é análogo ao teste de \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) contra \(H_1: \boldsymbol{\mu} \neq \boldsymbol{\mu}_0\) [veja (5-7)], vemos que a região de confiança de (5-18) consiste em todos os vetores \(\boldsymbol{\mu}_0\) para os quais o teste \(T^2\) não rejeitaria \(H_0\) em favor de \(H_1\) no nível de significância \(\alpha\).

Para \(p \ge 4\), não podemos representar graficamente a região de confiança conjunta para \(\boldsymbol{\mu}\). No entanto, podemos calcular os eixos do hiperelipsoide de confiança e seus comprimentos relativos. Estes são determinados pelos autovalores \(\lambda_i\) e autovetores \(\mathbf{e}_i\) de \(\mathbf{s}\). Como em (4-7), as direções e comprimentos dos eixos de

\[ n (\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime} \mathbf{s}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}) \le c^2 = \dfrac{(n - 1)p}{n - p} F_{p,n-p}(1-\alpha) \]

são determinados por

\[ c\sqrt{\frac{\lambda_i}{n}} = \sqrt{\lambda_i}\sqrt{\dfrac{(n - 1)}{n(n - p)}F_{p,n-p}(1-\alpha)} \]

unidades ao longo dos autovetores \(\mathbf{e}_i\). Começando no centro \(\mathbf{x}\), os eixos do elipsoide de confiança são

\[ \pm\sqrt{\lambda_i}\sqrt{\dfrac{(n - 1)p }{n(n - p)} F_{p,n-p}(1-\alpha)}\;\mathbf{e}_i\\ \mathbf{s} \mathbf{e}_i = \lambda_i \mathbf{e}_i\\ i = 1,2,\ldots,p \tag{5-19} \]

Se \(n-p\gg30\), então:

\[ \sqrt{\lambda_i}\sqrt{\dfrac{(n - 1)p }{n(n - p)} F_{p,n-p}(1-\alpha)}\;\mathbf{e}_i\approx \sqrt{\lambda_i}\sqrt{\dfrac{\chi^2(1-\alpha)}{n}}\;\mathbf{e}_i\xrightarrow[n\to\infty]{}0 \]

As razões dos \(\lambda_i\) ajudarão a identificar as quantidades relativas de alongamento ao longo de pares de eixos.

Exemplo 5.3: Construindo uma região elíptica de confiança para \(\boldsymbol{\mu}\)

Dados sobre radiação de fornos de micro-ondas foram introduzidos nos Exemplos 4.10 e 4.17. Seja

\[ \begin{align} x_1 &= \sqrt[4]{\text{radiação medida com a porta fechada}}\\ x_2 &= \sqrt[4]{\text{radiação medida com a porta aberta}} \end{align} \]

Figura 5.1: Uma elipse de confiança de 95% para &mu; com base em dados de radiação de micro-ondas.

Figura 5.1: Uma elipse de confiança de 95% para μ com base em dados de radiação de micro-ondas.

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x1 <- read.table("JW6Data/T4-1.DAT", quote="\"", comment.char="")
names(x1) <- paste0("x1",1:1)
x1rq <- x1$x1^(1/4) # radiação medida com a porta fechada
x2 <- read.table("JW6Data/T4-5.DAT", quote="\"", comment.char="")
names(x2) <- paste0("x2",1:1)

x2rq <- x2$x2^(1/4) # radiação medida com a porta aberta
x <- data.frame(x1rq, x2rq)
print(head(x))
       x1rq      x2rq
1 0.6223330 0.7400828
2 0.5477226 0.5477226
3 0.6513556 0.7400828
4 0.5623413 0.5623413
5 0.4728708 0.5623413
6 0.5885662 0.5885662
print(tail(x))
        x1rq      x2rq
37 0.6687403 0.6687403
38 0.7400828 0.7952707
39 0.7400828 0.7579289
40 0.7952707 0.7521206
41 0.7400828 0.5885662
42 0.4728708 0.5885662
alfa <- 0.05
centroide <- colMeans(x)
centroide
     x1rq      x2rq 
0.5642575 0.6029812 
s <- cov(x)
s
           x1rq       x2rq
x1rq 0.01435023 0.01171547
x2rq 0.01171547 0.01454530
H0 <- c(0.562, 0.589)
p <- dim(x)[2]
n <- dim(x)[1]
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")

T^2(2, 41, 0.95) = 6.62504
T2 <- as.numeric(n*t(colMeans(x)-H0)%*%solve(s)%*%(colMeans(x)-H0))
cat("\nT^2 =", T2)

T^2 = 1.2573
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")

F(2, 40, 0.95) = 3.231727
pv <- 1-pf(F, p, n-p)
cat("\nF(", p, ", ", n-p, ") = ", F, ", p = ", pv, "\n", sep="")

F(2, 40) = 0.6133173, p = 0.5465654
T2One <- MVTests::OneSampleHT2(x,
                               mu=H0,
                               alpha=alfa) 
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 1.2573 
 F value = 0.613 , df1 = 2 , df2 = 40 , p-value: 0.547 

                  Descriptive Statistics

            x1rq       x2rq
N     42.0000000 42.0000000
Means  0.5642575  0.6029812
Sd     0.1197925  0.1206039


                Detection important variable(s)

         Lower     Upper   Mu0 Important Variables?
x1rq 0.5166803 0.6118347 0.562                FALSE
x2rq 0.5550817 0.6508807 0.589                FALSE
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("x1rq", "x2rq")
print(proportions(a.hat_abs), digits=2)
     Importância
x1rq        0.43
x2rq        0.57
eigen_result <- eigen(s)
eigvl <- eigen_result$values
eigvl
[1] 0.026163638 0.002731895
cat("\razão da raiz quadrada dos autovalores = ", 
    sqrt(eigvl[1]/eigvl[2]))
azão da raiz quadrada dos autovalores =  3.094689
a <- sqrt(T2crit*eigen_result$values[1]/n) # (5-19)
b <- sqrt(T2crit*eigen_result$values[2]/n) # (5-19)
theta <- atan2(eigen_result$vectors[2, 1], eigen_result$vectors[1, 1])

# Grade de pontos para a elipse
theta_seq <- seq(0, 2 * pi, length.out = 100)
ellipse_x <- centroide[1] + a * cos(theta_seq) * cos(theta) - 
  b * sin(theta_seq) * sin(theta)
ellipse_y <- centroide[2] + a * cos(theta_seq) * sin(theta) + 
  b * sin(theta_seq) * cos(theta)

plot(ellipse_x, ellipse_y, type = "l", asp = 1, 
     xlab=expression(x[1]^(1/4)), 
     ylab=expression(x[2]^(1/4)),
     main="Região elíptica de confiança de 95%",
     col="black")
points(centroide[1], centroide[2], col = "black", pch = 19)
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))

c <- sqrt(T2crit/n)
car::ellipse(center=centroide,
             shape=s,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab=expression(x[1]^(1/4)), 
             ylab=expression(x[2]^(1/4)), 
             main="Região elíptica de confiança de 95%")
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))

mvdalab::MVcis(x,
               level=1-alfa,
               Vars2Plot=c(1, 2), 
               include.zero=FALSE)

          [,1]      [,2]
x1rq 0.5166803 0.6118347
x2rq 0.5550817 0.6508807

Intervalos de Confiança Simultâneos

Enquanto a região de confiança \(n(\mathbf{x} - \boldsymbol{\mu})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \boldsymbol{\mu}) \leq c^2\), para \(c\) uma constante, avalia corretamente o conhecimento conjunto sobre valores plausíveis de \(\boldsymbol{\mu}\), qualquer resumo de conclusões normalmente inclui intervalos de confiança sobre as componentes do vetor de média. Ao fazer isso, adotamos a postura de que todos os intervalos de confiança separados devem ser válidos simultaneamente com uma probabilidade especificada alta. É a garantia de uma probabilidade especificada contra qualquer intervalo de confiança ser incorreto que motiva o termo intervalos de confiança simultâneos. Começamos considerando intervalos de confiança simultâneos que estão intimamente relacionadas à região de confiança conjunta baseada na estatística \(T^2\).

Seja \(\mathbf{X} \sim \mathcal{N}_p(\boldsymbol{\mu}, \mathbf{\Sigma})\) e forme a combinação linear

\[ Z = \sum_{i=1}^{p}{a_iX_i} = \mathbf{a}^{\prime}\mathbf{X} \]

A partir de (2-43), temos

\[ \begin{align} \mu_Z &= \mathbb{E}(Z) = \mathbf{a}^{\prime}\boldsymbol{\mu} \\ \sigma_Z^2 &= \mathbb{V}(Z) = \mathbf{a}^{\prime}\mathbf{\Sigma}\mathbf{a} \end{align} \]

Além disso, pelo Resultado 4.2, \(Z ~\sim \mathcal{N}(\mathbf{a}^{\prime}\boldsymbol{\mu}, \mathbf{a}^{\prime}\mathbf{\Sigma}\mathbf{a})\). Se \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}\left(\boldsymbol{\mu}, \mathbf{\Sigma}\right)\), uma amostra correspondente de \(Z\) pode ser criada tomando combinações lineares. Assim,

\[ Z_j = \sum_{i=1}^{p}{a_iX_ji} = \mathbf{a}^{\prime}\mathbf{X}_j \\ j = 1, 2, \ldots, n \]

A média amostral e a variância dos valores observados \(z_1, z_2, \ldots, z_n\) são, por (3-36),

\[ \bar{z} = \mathbf{a}^{\prime}\bar{\mathbf{x}} \]

e

\[ s^2_Z = \mathbf{a}^{\prime}\mathbf{s}\mathbf{a} \]

em que \(\bar{\mathbf{x}}\) e \(\mathbf{s}\) são o vetor de média e a matriz de covariância amostais dos \(\mathbf{x}_i\), respectivamente.

Intervalos de confiança simultâneos podem ser desenvolvidos a partir de uma consideração dos intervalos de confiança para \(\mathbf{a}^{\prime}\boldsymbol{\mu}\) para várias escolhas de \(\mathbf{a}\). O argumento prossegue da seguinte forma.

Para $ $ fixo e \(\sigma^2_Z\) desconhecido, um intervalo de confiança de \(100(1 - \alpha)\%\) para \(\mu_Z = \mathbf{a}^{\prime}\boldsymbol{\mu}\) é baseado na razão t de Student.

\[ t=\dfrac{\bar{z}-\mu_z}{s_z/\sqrt{n}}=\dfrac{\sqrt{n}(\mathbf{a}^{\prime} -\mathbf{a}^{\prime}\boldsymbol{\mu})}{\sqrt{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}}} \tag{5-20} \]

e leva ao intervalo de confiança

\[ \text{IC}^{1-\alpha}(\mu_Z) = \left[\bar{z} \pm t_{n-1}(1-\alpha/2) \dfrac{s_Z}{\sqrt{n}}\right] \]

ou

\[ \text{IC}^{1-\alpha}(\mathbf{a}^{\prime}\boldsymbol{\mu})=\mathbf{a}^{\prime}\bar{\mathbf{x}} \pm t_{n-1}(1-\alpha/2) \dfrac{\sqrt{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}}}{\sqrt{n}} \tag{5-21} \]

A desigualdade (5-21) pode ser interpretada como uma afirmação sobre os componentes do vetor de média \(\boldsymbol{\mu}\). Por exemplo, com \(\mathbf{a}^{\prime} = [1\;0\;\cdots\;0]\), \(\mathbf{a}^{\prime}\boldsymbol{\mu} = \mu_1\), e (5-21) se torna o intervalo de confiança usual para uma média de população normal. (Note, neste caso, que \(\mathbf{a}^{\prime}\mathbf{s}\mathbf{a} = s_{11}\)). Claramente, poderíamos fazer várias afirmações de confiança sobre os componentes de \(\boldsymbol{\mu}\), cada uma com nível de confiança associado \(1 - \alpha\), escolhendo diferentes vetores de coeficientes \(\mathbf{a}\). No entanto, a confiança associada a todos os intervalos de confiança tomadas em conjunto não é \(1 - \alpha\).

Intuitivamente, seria desejável associar um coeficiente de confiança “coletivo” de \(1 - \alpha\) aos intervalos de confiança que podem ser gerados por todas as escolhas de \(\mathbf{a}\). No entanto, um preço deve ser pago pela conveniência de um grande coeficiente de confiança simultâneo: intervalos que são mais largos (menos precisos) do que o intervalo de \((5-21)\) para uma escolha específica de \(\mathbf{a}\).

Dado um conjunto de dados \(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\) e um \(\mathbf{a}\) particular, o intervalo de confiança em \((5-21)\) é o conjunto de valores \(\mathbf{a}^{\prime}\boldsymbol{\mu}\) para os quais

\[ |t| = \sqrt{n} \dfrac{|\mathbf{a}^{\prime}\bar{\mathbf{x}} - \mathbf{a}^{\prime}\boldsymbol{\mu}|}{\sqrt{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}}}\le t_{n-1}(1-\alpha/2) \]

ou, equivalentemente,

\[ t^2 = n\frac{(\mathbf{a}^{\prime}\bar{\mathbf{x}} - \mathbf{a}^{\prime}\boldsymbol{\mu})^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} = n\dfrac{(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} \le t_{n-1}^2(1-\alpha/2) \tag{5-22} \]

Sendo que:

\[ t_{n-1}^2(1-\alpha/2)=F_{1,n-1}(1-\alpha)=T^2_{1,n-1}(1-\alpha) \]

alfa <- 0.05
n <- 10
p <- 1
gl1 <- p
gl2 <- n-1
t2 <- qt(1-alfa/2, gl2)^2
t2
[1] 5.117355
F <- qf(1-alfa, p, gl2)
F
[1] 5.117355
all.equal(t2, F)
[1] TRUE
identical(t2, F)
[1] FALSE

Uma região de confiança simultânea é dada pelo conjunto de valores de \(\mathbf{a}\) tal que \(t^2\) é relativamente pequeno para todas as escolhas de \(\mathbf{a}\). Parece razoável esperar que a constante \(t_{n-1}^2(1-\alpha/2)\) em (5-22) seja substituída por um valor maior, \(c^2\), quando os intervalos de confiança são desenvolvidos para muitas escolhas de \(\mathbf{a}\).

Considerando os valores de \(\mathbf{a}\) para os quais \(t^2 \le c^2\), somos naturalmente levados à determinação de

\[ \max_\mathbf{a}{t^2} = \max_\mathbf{a} \frac{n(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} \]

Usando o lema de maximização (2-50) com \(\mathbf{x} = \mathbf{a}\), \(\mathbf{d} = (\bar{\mathbf{x}} - \boldsymbol{\mu})\), e \(\mathbf{B} = \mathbf{s}\), obtemos

\[ \max_\mathbf{a} \dfrac{n(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} = n(\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime}\mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu}) = T^2 \tag{5-23} \]

com o máximo ocorrendo para \(\mathbf{a}^* = \mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu})\):

\[ \underset{\mathbf{a}}{\operatorname{argmax}} \dfrac{n(\mathbf{a}^{\prime}(\bar{\mathbf{x}} - \boldsymbol{\mu}))^2}{\mathbf{a}^{\prime}\mathbf{s}\mathbf{a}} = \mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu}) \]

Resultado 5.3. Regiões de confiança \(T^2\) ou de Scheffé

  • Demonstração também em Reis (2001, p. 125-8)

Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}\left(\boldsymbol{\mu}, \mathbf{\Sigma}\right)\). Então, simultaneamente para todas as \(m<\infty\) combinações lineares das médias, \(\mathbf{a}_i\), os intervalos

\[ \begin{align} \text{IC}^{1-\alpha}(\mathbf{a}_i^{\prime}\boldsymbol{\mu})&= \left[\mathbf{a}_i^{\prime}\bar{\mathbf{x}} \pm q\sqrt{\dfrac{\mathbf{a}_i^{\prime}\mathbf{s}\mathbf{a}_i}{n}}\right]\\ q &= \sqrt{T^2_{p, n-1}(1-\alpha)}=\sqrt{\frac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)}\\ i&=1,2,\ldots,m \end{align} \]

contêm todas as \(m\) combinações lineares das médias, \(\mathbf{a}_i^{\prime}\boldsymbol{\mu}\), com probabilidade \(1-\alpha\).

\[\Diamond\]

É conveniente referir-se aos intervalos simultâneos do Resultado 5.3 como intervalos \(T^2\), uma vez que a probabilidade de cobertura é determinada pela distribuição de \(T^2\). As escolhas sucessivas \(\mathbf{a}^{\prime} = [1\; 0\; \cdots\; 0]\), \(\mathbf{a}^{\prime} = [0\; 1\; \cdots\; 0]\), e assim por diante até \(\mathbf{a}^{\prime} = [0\; 0\; \cdots\; 1]\) para os intervalos \(T^2\) nos permitem concluir que:

\[ \text{IC}^{1-\alpha}(\mu_i) = \left[\bar{x}_i \pm \sqrt{\dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{ii}}{n}}\right] \\ i=1,2,\ldots,p \tag{5-24} \]

todos são válidos simultaneamente com nível de confiança \(1 - \alpha\). Observe que, sem modificar o nível de confiança \(1 - \alpha\), podemos fazer intervalos de confiança das diferenças \(\mu_i - \mu_k\) correspondentes a \(\mathbf{a}^{\prime} = [0, \ldots, 0, a_i, 0, \ldots, 0, a_k, 0, \ldots, 0]\), em que \(a_i = 1\) e \(a_k = -1\). Neste caso, \(\mathbf{a}^{\prime}\mathbf{s}\mathbf{a} = s_{ii} - 2s_{ik} + s_{kk}\), e temos o intervalo de confiança

\[ \text{IC}^{1-\alpha}(\mu_i-\mu_k) = \left[\bar{x}_i - \bar{x}_k \pm \sqrt{\dfrac{(n - 1)p}{n - p}F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{ii} - 2s_{ik} + s_{kk}}{n}}\right] \tag{5-25} \]

Os intervalos de confiança \(T^2\) simultâneos são ideais para “exploração de dados”. O nível de confiança \(1 - \alpha\) permanece inalterado para qualquer escolha de \(\mathbf{a}\), então combinações lineares dos componentes que merecem inspeção com base em um exame dos dados podem ser estimadas.

Além disso, de acordo com os resultados no Suplemento 5A, podemos incluir os intervalos de confiança de \((\mu_i, \mu_k)\) pertencendo às elipses centradas na média amostral

\[ n \begin{bmatrix} \bar{x}_i -\mu_i & \bar{x}_k -\mu_k \end{bmatrix} \begin{bmatrix} s_{ii} & s_{ik} \\ s_{ik} & s_{kk} \end{bmatrix}^{-1} \begin{bmatrix} \bar{x}_i -\mu_i \\ \bar{x}_k -\mu_k \end{bmatrix} \le \dfrac{p(n - 1)}{n - p} F_{p, n-p}(1-\alpha) \tag{5-26} \]

e ainda manter o nível de confiança \((1 - \alpha)\) para todo o conjunto de intervalos de confiança.

Os intervalos de confiança \(T^2\) simultâneos para os componentes individuais de um vetor de média são apenas as projeções da região elíptica de confiança nos eixos dos componentes. Essa conexão entre as projeções do hiperelipsoide e os intervalos de confiança simultâneos dados por \((5-24)\) é ilustrada no próximo exemplo.

Exemplo 5.4: Intervalos de confiança simultâneos como projeções da região elíptica de confiança

No Exemplo 5.3, obtivemos a elipse de confiança de 95% para as médias das raízes quartas das medições de radiação de micro-ondas com a porta fechada e aberta. Os intervalos \(T^2\) simultâneos de 95% para as duas componentes do vetor de média são, a partir de \((5-24)\):

\[ \begin{align} \text{IC}^{1-\alpha}(\mu_1) &= \left[\bar{x}_1 \pm \sqrt{\dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{11}}{n}}\right] \\ \text{IC}^{95\%}(\mu_1)&= \left[0.564 \pm \sqrt{\dfrac{(41)2}{40} F_{2, 40}(0.95)} \sqrt{\dfrac{0.0144}{42}}\right] \\ \text{IC}^{95\%}(\mu_1) &= [0.516, 0.612] \end{align} \]

e

\[ \begin{align} \text{IC}^{1-\alpha}(\mu_2) &= \left[\bar{x}_2 \pm \sqrt{\dfrac{(n - 1)p}{n - p} F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{22}}{n}}\right] \\ \text{IC}^{95\%}(\mu_2)&= \left[\bar{x}_2 \pm \sqrt{\dfrac{(41)2}{40} F_{2, 40}(0.95)} \sqrt{\dfrac{0.0146}{42}}\right] \\ \text{IC}^{95\%}(\mu_2) &= [0.555, 0.651] \end{align} \]

Na Figura 5.2, redesenhamos a elipse de confiança de 95% do Exemplo 5.3. Os intervalos simultâneos de 95% são mostrados como projeções desta elipse nos eixos das médias.

Figura 5.2 - Intervalos T<sup>2</sup> simultâneos para as médias dos componentes como projeções do elipsoide de confiança - dados de radiação de micro-ondas.

Figura 5.2 - Intervalos T2 simultâneos para as médias dos componentes como projeções do elipsoide de confiança - dados de radiação de micro-ondas.

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x1 <- read.table("JW6Data/T4-1.DAT", quote="\"", comment.char="")
names(x1) <- paste0("x1",1:1)
x1rq <- x1$x1^(1/4) # radiação medida com a porta fechada
x2 <- read.table("JW6Data/T4-5.DAT", quote="\"", comment.char="")
names(x2) <- paste0("x2",1:1)

x2rq <- x2$x2^(1/4) # radiação medida com a porta aberta
x <- data.frame(x1rq, x2rq)
print(head(x))
       x1rq      x2rq
1 0.6223330 0.7400828
2 0.5477226 0.5477226
3 0.6513556 0.7400828
4 0.5623413 0.5623413
5 0.4728708 0.5623413
6 0.5885662 0.5885662
print(tail(x))
        x1rq      x2rq
37 0.6687403 0.6687403
38 0.7400828 0.7952707
39 0.7400828 0.7579289
40 0.7952707 0.7521206
41 0.7400828 0.5885662
42 0.4728708 0.5885662
alfa <- 0.05
centroide <- colMeans(x)
centroide
     x1rq      x2rq 
0.5642575 0.6029812 
s <- cov(x)
s
           x1rq       x2rq
x1rq 0.01435023 0.01171547
x2rq 0.01171547 0.01454530
H0 <- c(0.562, 0.589)
p <- dim(x)[2]
n <- dim(x)[1]
T2crit <- ((n-1)*p/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")

T^2(2, 41, 0.95) = 6.62504
T2 <- as.numeric(n*t(colMeans(x)-H0)%*%solve(s)%*%(colMeans(x)-H0))
cat("\nT^2 =", T2)

T^2 = 1.2573
F <- T2/((n-1)*p/(n-p))
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")

F(2, 40, 0.95) = 3.231727
pv <- 1-pf(F, p, n-p)
cat("\nF(", p, ", ", n-p, ") = ", F, ", p = ", pv, "\n", sep="")

F(2, 40) = 0.6133173, p = 0.5465654
T2One <- MVTests::OneSampleHT2(x,
                               mu=H0,
                               alpha=alfa) 
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 1.2573 
 F value = 0.613 , df1 = 2 , df2 = 40 , p-value: 0.547 

                  Descriptive Statistics

            x1rq       x2rq
N     42.0000000 42.0000000
Means  0.5642575  0.6029812
Sd     0.1197925  0.1206039


                Detection important variable(s)

         Lower     Upper   Mu0 Important Variables?
x1rq 0.5166803 0.6118347 0.562                FALSE
x2rq 0.5550817 0.6508807 0.589                FALSE
a.hat_abs <- abs(solve(s)%*%(centroide-H0))
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("x1rq", "x2rq")
print(proportions(a.hat_abs), digits=2)
     Importância
x1rq        0.43
x2rq        0.57
eigen_result <- eigen(s)
eigvl <- eigen_result$values
eigvl
[1] 0.026163638 0.002731895
cat("\razão da raiz quadrada dos autovalores = ", 
    sqrt(eigvl[1]/eigvl[2]))
azão da raiz quadrada dos autovalores =  3.094689
a <- sqrt(T2crit*eigen_result$values[1]/n) # (5-19)
b <- sqrt(T2crit*eigen_result$values[2]/n) # (5-19)
theta <- atan2(eigen_result$vectors[2, 1], eigen_result$vectors[1, 1])

# Grade de pontos para a elipse
theta_seq <- seq(0, 2 * pi, length.out = 100)
ellipse_x <- centroide[1] + a * cos(theta_seq) * cos(theta) - 
  b * sin(theta_seq) * sin(theta)
ellipse_y <- centroide[2] + a * cos(theta_seq) * sin(theta) + 
  b * sin(theta_seq) * cos(theta)

plot(ellipse_x, ellipse_y, type = "l", asp = 1, 
     xlab=expression(x[1]^(1/4)), 
     ylab=expression(x[2]^(1/4)),
     main="Região elíptica de confiança de 95%",
     col="black")
points(centroide[1], centroide[2], col = "black", pch = 19)
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))
# Scheffé CI95%
abline(v=c(T2One$CI[1,1], T2One$CI[1,2]), 
       h=c(T2One$CI[2,1], T2One$CI[2,2]), 
       lty=2)

c <- sqrt(T2crit/n)
car::ellipse(center=centroide,
             shape=s,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab=expression(x[1]^(1/4)), 
             ylab=expression(x[2]^(1/4)), 
             main="Região elíptica de confiança de 95%")
points(H0[1], H0[2], pch=3, col="black")
text(H0[1], H0[2], pos=1, expression(H[0]))
# Scheffé CI95%
abline(v=c(T2One$CI[1,1], T2One$CI[1,2]), 
       h=c(T2One$CI[2,1], T2One$CI[2,2]), 
       lty=2)

mvdalab::MVcis(x,
               level=1-alfa,
               Vars2Plot=c(1, 2), 
               include.zero=FALSE)

          [,1]      [,2]
x1rq 0.5166803 0.6118347
x2rq 0.5550817 0.6508807

Exemplo 5.5: Construindo os intervalos de confiança simultâneos e elipses

As pontuações obtidas por \(n = 87\) estudantes universitários no subteste \(X_1\) do Programa de Exame de Nível Universitário (CLEP) e nos subtestes \(X_2\) e \(X_3\) do Teste de Qualificação Universitária (CQT) são dadas na Tabela 5.2 na página 228 para $X_1 = $ ciências sociais e história, $X_2 = $ verbal, e \(X_3 =\) ciência. Esses dados nos dão a oportunidade de calcular os intervalos de confiança simultâneos de 95% para \(\mu_1\), \(\mu_2\) e \(\mu_3\).

Temos as seguintes estatísticas de amostra:

  • Média de \(X_1\) (ciências sociais e história): 526.29
  • Média de \(X_2\) (verbal): 54.69
  • Média de \(X_3\) (ciência): 126.05

E obtemos os seguintes intervalos de confiança simultâneos de Scheffé de 95% [veja \((5-24)\)]:

\[ \begin{align} \text{IC}^{95\%}(\mu_1) &= [503.06, 550.12]\\ \text{IC}^{95\%}(\mu_2) &= [51.22, 58.16]\\ \text{IC}^{95\%}(\mu_3) &= [23.65, 26.61] \end{align} \]

Note que \(F_{3,84}(0.95)=2.7\).

Os intervalos de confiança \(T^2\) simultâneos (ou de Scheffé) acima são mais amplos do que os intervalos univariados porque todos os três devem ser válidos com 95% de confiança. Eles também podem ser mais amplos do que o necessário, porque, com a mesma confiança, podemos fazer afirmações sobre diferenças.

Por exemplo, com \(\mathbf{a^{\prime}} = [0\; 1\; -1]\), o intervalo para \(\mu_2 - \mu_3\) tem os pontos finais definidos por:

\[ \begin{align} \text{IC}^{1-\alpha}(\mu_2-\mu_3) &= \left[\bar{x}_2 - \bar{x}_3 \pm \sqrt{\dfrac{(n - 1)p}{n - p}F_{p, n-p}(1-\alpha)} \sqrt{\dfrac{s_{22} - 2s_{23} + s_{33}}{n}}\right] \\ \text{IC}^{95\%}(\mu_2-\mu_3) &= \left[54.69 - 25.13 \pm \sqrt{\dfrac{(86)3}{84}F_{3, 84}(0.95)} \sqrt{\dfrac{26.05 + 23.11 - 2(23.39)}{87}}\right] \\ \text{IC}^{95\%}(\mu_2-\mu_3) &=[26.44, 32.68] \end{align} \]

Esta elipse é mostrada na Figura 5.3, juntamente com as elipses de confiança de 95% para os outros dois pares de médias. As projeções dessas elipses nos eixos também são indicadas, e essas projeções são os intervalos \(T^2\) ou de Scheffé.

Figura 5.3 Elipses de confiança de 95% para pares de médias e os intervalos T<sup>2</sup> simultâneos — dados de teste universitário.

Figura 5.3 Elipses de confiança de 95% para pares de médias e os intervalos T2 simultâneos — dados de teste universitário.

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-2.DAT", quote="\"", comment.char="")
names(x) <- paste0("x1",1:3)
print(head(x))
  x11 x12 x13
1 468  41  26
2 428  39  26
3 514  53  21
4 547  67  33
5 614  61  27
6 501  67  29
print(tail(x))
   x11 x12 x13
82 561  59  34
83 614  70  23
84 527  49  30
85 474  41  16
86 441  47  26
87 607  67  32
alfa <- 0.05
centroide <- colMeans(x)
centroide
      x11       x12       x13 
526.58621  54.68966  25.12644 
s <- cov(x)
s
          x11       x12       x13
x11 5808.0593 597.83520 222.02967
x12  597.8352 126.05373  23.38853
x13  222.0297  23.38853  23.11173
H0 <- c(520, 54, 26.5)

p <- dim(x)[2]
n <- dim(x)[1]
T2crit <- (((n-1)*p)/(n-p))*qf(1-alfa, p, n-p)
cat("\nT^2(", p, ", ", n-1, ", ", 1-alfa,") = ", T2crit, sep="")

T^2(3, 86, 0.95) = 8.333483
T2 <- as.numeric(n*t(colMeans(x)-H0)%*%solve(s)%*%(colMeans(x)-H0))
cat("\nT^2 =", T2)

T^2 = 16.37256
F <- ((n-p)/((n-1)*p))*T2 
Fcrit <- qf(1-alfa, p, n-p)
cat("\nF(", p, ", ", n-p, ", ", 1-alfa,") = ", Fcrit, sep="")

F(3, 84, 0.95) = 2.713227
pv <- 1-pf(F, p, n-p)
cat("\nF(", p, ", ", n-p, ") = ", F, ", p = ", pv, "\n", sep="")

F(3, 84) = 5.3306, p = 0.002068136
T2One <- MVTests::OneSampleHT2(x,
                               mu=H0,
                               alpha=alfa) 
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 16.37256 
 F value = 5.331 , df1 = 3 , df2 = 84 , p-value: 0.00207 

                  Descriptive Statistics

            x11      x12       x13
N      87.00000 87.00000 87.000000
Means 526.58621 54.68966 25.126437
Sd     76.21062 11.22737  4.807467


                Detection important variable(s)

        Lower     Upper   Mu0 Important Variables?
x11 502.99940 550.17302 520.0                FALSE
x12  51.21484  58.16447  54.0                FALSE
x13  23.63855  26.61432  26.5                FALSE
a.hat_abs <- abs(solve(s)%*%centroide)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("hystory", "verbal", "science")
print(proportions(a.hat_abs), digits=2)
        Importância
hystory       0.182
verbal        0.011
science       0.807
# http://www.sthda.com/english/wiki/a-complete-guide-to-3d-visualization-device-system-in-r-r-software-and-data-visualization
rgl::aspect3d(1,1,1)
c <- sqrt(T2crit/n)
rgl::plot3d(rgl::ellipse3d(x=s, 
                           centre=centroide,
                           level=1-alfa,
                           t=c),
            aspect=TRUE,
            xlab="x1",
            ylab="x2",
            zlab="x3",
            col="lightgray", 
            box=FALSE,
            alpha=0.3, 
            add=FALSE)
rgl::points3d(centroide, size = 5, 
              color = "black")
rgl::text3d(centroide, texts = "centroid", 
            adj = c(0,0,0))
rgl::points3d(H0, size = 5, 
              color = "blue")
rgl::text3d(H0, texts = "H0", 
            adj = c(0,0,0))
rgl::rglwidget()
centroide12 <- colMeans(x[,c(1,2)])
s12 <- cov(x[,c(1,2)])
car::ellipse(center=centroide12,
             shape=s12,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab=expression(mu[hystory]), 
             ylab=expression(mu[verbal]),
             main="Região elíptica de confiança de 95%\n hystory vs. verbal")
abline(v=H0[1],h=H0[2],lty=2)
points(H0[1], H0[2], pch=9, col="black")
text(H0[1], H0[2], pos=3, expression(H[0]))

T2One <- MVTests::OneSampleHT2(x[,c(1,2)],
                               mu=H0[c(1,2)],
                               alpha=alfa)  
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 0.6499543 
 F value = 0.321 , df1 = 2 , df2 = 85 , p-value: 0.726 

                  Descriptive Statistics

            x11      x12
N      87.00000 87.00000
Means 526.58621 54.68966
Sd     76.21062 11.22737


                Detection important variable(s)

        Lower     Upper Mu0 Important Variables?
x11 506.10949 547.06292 520                FALSE
x12  51.67302  57.70629  54                FALSE
a.hat_abs <- abs(solve(s12)%*%centroide12)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("hystory", "verbal")
print(proportions(a.hat_abs), digits=2)
        Importância
hystory       0.923
verbal        0.077
mvdalab::MVcis(x[,c(1,2)],
               level=1-alfa,
               Vars2Plot=c(1, 2), 
               include.zero=FALSE)

         [,1]      [,2]
x11 506.10949 547.06292
x12  51.67302  57.70629
centroide13 <- colMeans(x[,c(1,3)])
s13 <- cov(x[,c(1,3)])
car::ellipse(center=centroide13,
             shape=s13,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab=expression(mu[hystory]), 
             ylab=expression(mu[science]),
             main="Região elíptica de confiança de 95%\n hystory vs. science")
abline(v=H0[1],h=H0[3],lty=2)
points(H0[1], H0[3], pch=9, col="black")
text(H0[1], H0[3], pos=3, expression(H[0]))

T2One <- MVTests::OneSampleHT2(x[,c(1,3)],
                               mu=H0[c(1,3)],
                               alpha=alfa) 
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 16.36573 
 F value = 8.088 , df1 = 2 , df2 = 85 , p-value: 0.000609 

                  Descriptive Statistics

            x11       x13
N      87.00000 87.000000
Means 526.58621 25.126437
Sd     76.21062  4.807467


                Detection important variable(s)

        Lower     Upper   Mu0 Important Variables?
x11 506.10949 547.06292 520.0                FALSE
x13  23.83474  26.41813  26.5               *TRUE*
a.hat_abs <- abs(solve(s13)%*%centroide13)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("hystory", "science")
print(proportions(a.hat_abs), digits=2)
        Importância
hystory        0.19
science        0.81
mvdalab::MVcis(x[,c(1,3)],
               level=1-alfa,
               Vars2Plot=c(1, 2), 
               include.zero=FALSE)

         [,1]      [,2]
x11 506.10949 547.06292
x13  23.83474  26.41813
centroide23 <- colMeans(x[,c(2,3)])
s23 <- cov(x[,c(2,3)])
car::ellipse(center=centroide23,
             shape=s23,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab=expression(mu[hystory]), 
             ylab=expression(mu[science]),
             main="Região elíptica de confiança de 95%\n verbal vs. science")
abline(v=H0[2],h=H0[3],lty=2)
points(H0[2], H0[3], pch=9, col="black")
text(H0[2], H0[3], pos=3, expression(H[0]))

T2One <- MVTests::OneSampleHT2(x[,c(2,3)],
                               mu=H0[c(2,3)],
                               alpha=alfa) 
summary(T2One)
       One Sample Hotelling T Square Test 

Hotelling T Sqaure Statistic = 10.77717 
 F value = 5.326 , df1 = 2 , df2 = 85 , p-value: 0.00662 

                  Descriptive Statistics

           x12       x13
N     87.00000 87.000000
Means 54.68966 25.126437
Sd    11.22737  4.807467


                Detection important variable(s)

       Lower    Upper  Mu0 Important Variables?
x12 51.67302 57.70629 54.0                FALSE
x13 23.83474 26.41813 26.5               *TRUE*
a.hat_abs <- abs(solve(s23)%*%centroide23)
colnames(a.hat_abs) <- "Importância"
rownames(a.hat_abs) <- c("verbal", "science")
print(proportions(a.hat_abs), digits=2)
        Importância
verbal         0.26
science        0.74
mvdalab::MVcis(x[,c(2,3)],
               level=1-alfa,
               Vars2Plot=c(1, 2), 
               include.zero=FALSE)

        [,1]     [,2]
x12 51.67302 57.70629
x13 23.83474 26.41813

\[\Diamond\]

Embora, antes da amostragem, o i-ésimo intervalo tenha probabilidade \(1- \alpha\) de cobrir \(\mu_i\), não sabemos o que afirmar, em geral, sobre a probabilidade de todos os intervalos conterem seus respectivos \(\mu_i\). Como já apontamos, essa probabilidade não é \(1 - \alpha\).

Para esclarecer um pouco o problema, considere o caso especial em que as observações têm uma distribuição normal conjunta e

\[ \begin{bmatrix} \sigma^2_1 & 0 & \cdots & 0 \\ 0 & \sigma^2_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2_p \end{bmatrix} \]

Como as observações da primeira variável são independentes daquelas da segunda variável, e assim por diante, a regra do produto para eventos independentes pode ser aplicada. Antes da amostra ser selecionada,

\[ P[\text{todos os intervalos t em (5-27) contêm os } \mu_i] = \underbrace{(1- \alpha)(1- \alpha)\cdots(1- \alpha)}_{p} = (1- \alpha)^p \]

Se \(1 - \alpha = 0.95\) e \(p = 6\), essa probabilidade é \(0.95^6 \approx 0.74\).

Para garantir uma probabilidade de \(1 - \alpha\) de que todas as afirmações sobre as médias dos componentes sejam válidas simultaneamente, os intervalos individuais devem ser mais amplos do que os intervalos \(t\) separados; o quanto mais amplos depende tanto de \(p\) quanto de \(n\), bem como de \(1 - \alpha\).

Para \(1 - \alpha = 0.95\), \(n = 15\) e \(p = 4\), os multiplicadores de \(\sqrt{s^2_{ii}/n}\) em (5-24) e (5-27) são

\[ \sqrt{\dfrac{p(n - 1)}{n - p} F_{p, n-p}(1-\alpha)} = \sqrt{\dfrac{4(14)}{11} 3.36}=4.14 \]

e

\[ t_{n-1}(1-\alpha/2) = t_{14}(0.975) = 2.145 \]

respectivamente. Consequentemente, neste caso, os intervalos simultâneos são \(100(4.14 - 2.145)/2.145 = 93\%\) mais amplos do que aqueles derivados do método \(t\) um de cada vez.

A Tabela 5.3 fornece alguns multiplicadores de distância crítica para intervalos \(t\) um de cada vez, calculados de acordo com (5-21), bem como os intervalos \(t\) correspondentes simultâneos. Em geral, a largura dos intervalos \(T^2\), em relação aos intervalos \(t\), aumenta para um \(n\) fixo à medida que \(p\) aumenta e diminui para um \(p\) fixo à medida que \(n\) aumenta.

A Tabela 5.3 mostra os multiplicadores de distância crítica para intervalos \(t\) calculados individualmente e intervalos \(T^2\) simultâneos para valores selecionados de \(n\) e \(p\) com um nível de confiança de \(1 - \alpha = 0.95\).

\[ \begin{array}{lcccc} n & t_{n-1}(0.025) & \dfrac{4(n - 1)}{n - 4} F_{4, n-4}(0.95) & \dfrac{10(n - 1)}{n - 10} F_{10, n-10}(0.95) \\ \hline 15 & 2.145 & 4.14 & 11.52 \\ 25 & 2.064 & 3.60 & 6.39 \\ 50 & 2.010 & 3.31 & 5.05 \\ 100 & 1.970 & 3.19 & 4.61 \\ \infty & 1.960 & 3.08 & 4.28 \\ \end{array} \]

Notamos que os multiplicadores para os intervalos \(T^2\) são geralmente maiores do que para os intervalos \(t\), refletindo a necessidade de maior “largura” para manter o mesmo nível de confiança ao fazer várias comparações simultâneas.

A tabela 5.3 compara os intervalos de confiança calculados usando o método um-de-cada-vez \(t\) com os intervalos de confiança simultâneos \(T^2\). A comparação pode parecer injusta porque os intervalos \(T^2\) têm um nível de confiança associado de 0.95 para todas as componentes, enquanto o nível de confiança global para um conjunto de intervalos \(t\) individuais pode ser significativamente menor que 0.95, como já vimos.

Em outras palavras, os intervalos \(t\) individuais podem ser muito curtos para manter um nível de confiança geral quando estamos fazendo intervalos de confiança sobre várias médias ao mesmo tempo. No entanto, esses intervalos \(t\) ainda podem ser considerados as melhores informações possíveis sobre uma média específica, se essa for a única inferência a ser feita.

Além disso, há argumentos de que os intervalos \(t\) individuais podem representar mais precisamente as informações sobre as médias se forem calculados apenas quando o teste \(T^2\) rejeita a hipótese nula.

Os intervalos \(T^2\) podem ser demasiado amplos se aplicados apenas às médias das componentes individuais. Para ilustrar esse ponto, considera-se a elipse de confiança e os intervalos simultâneos em uma figura hipotética (Figura 5.2 no texto original). Se cada componente da média estiver dentro de seu respectivo intervalo \(T^2\), o vetor de médias estará dentro do retângulo formado por esses intervalos. Este retângulo contém a elipse de confiança e mais, tornando-o uma estimativa mais “larga” do que necessária. Isso nos leva a considerar outras abordagens para fazer comparações múltiplas, como o método de Bonferroni.

Método de Bonferroni de comparações múltiplas

O método de Bonferroni de comparações múltiplas oferece uma alternativa aos intervalos de confiança simultâneos \(T^2\) quando a atenção está voltada para um pequeno número de intervalos de confiança individuais. Este método pode fornecer intervalos de confiança que são mais curtos (mais precisos) do que os intervalos \(T^2\).

O método de Bonferroni é baseado em uma desigualdade de probabilidade que leva o mesmo nome. Suponha que, antes da coleta de dados, deseja-se fazer intervalos de confiança sobre \(m\) combinações lineares diferentes \(\mathbf{a}^{\prime}_1 \boldsymbol{\mu}, \mathbf{a}^{\prime}_2 \boldsymbol{\mu}, \ldots, \mathbf{a}^{\prime}_m \boldsymbol{\mu}\). Seja \(\text{IC}^{1-\alpha_i}(\mathbf{a}^{\prime}_i \boldsymbol{\mu})\) o intervalo de confiança estocástico sobre \(\mathbf{a}^{\prime}_i \boldsymbol{\mu}\) com \(P\left[\mathbf{a}^{\prime}_i \boldsymbol{\mu}\in \text{IC}^{1-\alpha_i}(\mathbf{a}^{\prime}_i \boldsymbol{\mu})\right] = 1 - \alpha_i\), em que \(i = 1, 2, \ldots, m\).

A probabilidade de todas as afirmações \(C_i\) serem verdadeiras é dada por:

\[ P\left[\left\{\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i)\right\}_{i=1}^{m}\right] = 1 - P\left[\exists| \;\mu_i\notin \text{IC}^{1-\alpha_i}(\mu_i)\right] \]

Usando a desigualdade de Bonferroni, esta última probabilidade pode ser limitada superiormente como:

\[ P\left[\left\{\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i)\right\}_{i=1}^{m}\right]\ge 1 - \sum_{i=1}^{m} P(\mu_i\notin \text{IC}^{1-\alpha_i}(\mu_i)) = 1 - \sum_{i=1}^{m} (1 - P(\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i))) \]

Portanto:

\[ P\left[\left\{\mu_i\in \text{IC}^{1-\alpha_i}(\mu_i)\right\}_{i=1}^{m}\right]\ge 1-\sum_{i=1}^{m}{\alpha_i}=1-\alpha \tag{5-28} \]

A desigualdade em (5-28), um caso especial da desigualdade de Bonferroni, permite que um pesquisador controle a probabilidade de erro do tipo I total \(\alpha_1 + \alpha_2 + \cdots + \alpha_m\), independentemente da estrutura de correlação por trás dos intervalos de confiança. Há também a flexibilidade de controlar a probabilidade de erro do tipo I para um grupo de intervalos de confiança importantes e equilibrá-la com outra escolha para os intervalos de confiança menos importantes.

Vamos desenvolver estimativas de intervalo simultâneas para o conjunto restrito composto pelos componentes \(\mu_i\) de \(\mu\). Na falta de informações sobre a importância relativa desses componentes, consideramos os intervalos \(t\) individuais:

\[ \text{IC}^{95\%}(\mu_i)=\left[\bar{X}_i\pm t_{n-1}\left(1-\dfrac{\alpha_i}{2}\right)\sqrt{\dfrac{S_{ii}}{n}}\right]\\ \alpha_i=\dfrac{\alpha}{m}\\ i=1,2,\ldots,m \]

\[ P\left(\left\{\mu_i\in \text{IC}^{95\%}(\mu_i)\right\}_{i=1}^{m}\right)\ge1-\sum_{i=1}^{m}{\dfrac{\alpha}{m}}=1-\alpha \]

Portanto, com um nível de confiança geral maior ou igual a \(1 - \alpha\), podemos construir as seguintes \(m = p\) intervalos de confiança:

\[ \text{IC}^{95\%}(\mu_i)=\left[\bar{x}_i\pm t_{n-1}\left(1-\dfrac{\alpha}{2p}\right)\sqrt{\dfrac{s_{ii}}{n}}\right]\\ i=1,2,\ldots,p \]

Os intervalos de confiança em (5-29) podem ser comparadas com aquelas em (5-24). O quantil \(t_{n-1}(1-\alpha/2p)\) substitui \(\sqrt{(n- 1)pF_{p,n-p}(1-\alpha)/(n - p)}\), mas, fora isso, os intervalos têm a mesma estrutura.

Exemplo 5.6: Construindo intervalos de confiança simultâneos de Bonferroni e comparando-os com intervalos \(T^2\)

Vamos retornar aos dados de radiação de forno de micro-ondas nos Exemplos 5.3 e 5.4. Obteremos os intervalos de confiança simultâneos de Bonferroni de 95% para as médias \(\mu_1\) e \(\mu_2\) das raízes quartas das medidas com a porta fechada e aberta, usando \(\alpha = 0.05/2\), para \(i = 1,2\). Faremos uso dos resultados no Exemplo 5.3, observando que \(n = 42\) e \(t_{41}(1-0.05/4) = t_{41}(1-0.0125) = 2.327\), para obter

\[ \begin{align} \text{IC}^{97.5\%}(\mu_1)&=\bar{x}_1 \pm t_{41}(1-0.0125) \sqrt{\dfrac{0.0146}{42}} \\ &= 0.564 \pm 2.327 \sqrt{\dfrac{0.0146}{42}} \\ \text{IC}^{97.5\%}(\mu_1)&=[0.521, 0.607] \end{align} \]

e

\[ \begin{align} \text{IC}^{97.5\%}(\mu_2)&=\bar{x}_2 \pm t_{41}(1-0.0125) \sqrt{\dfrac{0.0146}{42}}\\ &= 0.603 \pm 2.327 \sqrt{\dfrac{0.0146}{42}}\\ \text{IC}^{97.5\%}(\mu_2)&=[0.560, 0.646] \\ \end{align} \]

A Figura 5.4 mostra os intervalos de confiança simultâneos \(T^2\) de 95% para \(\mu_1\) e \(\mu_2\) da Figura 5.2, juntamente com os intervalos de Bonferroni correspondentes. Para cada média de componente, o intervalo de Bonferroni fica dentro do intervalo \(T^2\). Consequentemente, a região retangular (conjunta) formada pelos dois intervalos de Bonferroni está contida na região retangular formada pelos dois intervalos \(T^2\). Se estamos interessados apenas nas médias componentes, os intervalos de Bonferroni fornecem estimativas mais precisas do que os intervalos \(T^2\). Por outro lado, a região de confiança de 95% para \(\mu\) fornece os valores plausíveis para os pares \((\mu_1, \mu_2)\) quando a correlação entre as variáveis medidas é levada em consideração.

Figura 5.4 - Os intervalos de confiança simultâneos T<sup>2</sup> de 95% e Bonferroni de 95% para as médias  componentes — dados de radiação de micro-ondas.

Figura 5.4 - Os intervalos de confiança simultâneos T2 de 95% e Bonferroni de 95% para as médias componentes — dados de radiação de micro-ondas.

\[\Diamond\]

Os intervalos de Bonferroni para combinações lineares \(\mathbf{a}_i^{\prime} \boldsymbol{\mu}\) e os intervalos \(T^2\) análogos (lembre-se do Resultado 5.3) têm a mesma forma geral:

\[ \text{IC}^{1-\frac{\alpha}{2m}}(\mathbf{a}_i^{\prime} \boldsymbol{\mu})=\left[\mathbf{a}_i^{\prime} \mathbf{\bar{\mathbf{X}}} \pm \text{(valor crítico)}\sqrt{\dfrac{\mathbf{a}_i^{\prime}\mathbf{S}\mathbf{a}_i}{n}}\right]\\ i=1,2,\ldots,m \]

Consequentemente, em cada instância em que \(\alpha_i = \alpha/m\),

\[ \begin{align} \dfrac{\text{Amplitude do intervalo de t Bonferroni}}{\text{Amplitude do intervalo de } T^2} &= \dfrac{t_{n-1}\left(1-\dfrac{\alpha}{2m}\right)}{\sqrt{\dfrac{p(n-1)}{n-p}F_{p,n-p}(1-\alpha)}}\\ \dfrac{\text{Amplitude do intervalo de t Bonferroni}}{\text{Amplitude do intervalo de } T^2} &=\dfrac{\sqrt{T^2_{1,n-1}(1-\alpha/m)}}{\sqrt{T^2_{p,n-1}(1-\alpha)}} \end{align} \tag{5-30} \]

Isso não depende das quantidades aleatórias \(\mathbf{\bar{\mathbf{X}}}\) e \(\mathbf{S}\). Como já apontamos, para um pequeno número \(m\) de funções paramétricas especificadas \(\mathbf{a}^{\prime} \boldsymbol{\mu}\), os intervalos de Bonferroni sempre serão mais curtos. O quão mais curtos é indicado na Tabela 5.4 para \(n\) e \(p\) selecionados.

A Tabela 5.4 mostra a razão entre o comprimento do intervalo de Bonferroni e o comprimento do intervalo \(T^2\) para diferentes valores de \(n\) (tamanho da amostra) e \(p\) (número de variáveis). Os valores são calculados para um nível de confiança de \(1 - \alpha = 0.95\) e \(\alpha_i = 0.05/m\).

\(m=p\) 2 4 10
\(n\)
15 .88 .69 .29
25 .90 .75 .48
50 .91 .78 .58
100 .91 .80 .62
\(\infty\) .91 .81 .66

Vemos pela Tabela 5.4 que o método de Bonferroni fornece intervalos mais curtos quando \(m = p\). Por serem fáceis de aplicar e fornecerem os intervalos de confiança relativamente curtos necessários para inferência, frequentemente aplicaremos intervalos \(t\) simultâneos com base no método de Bonferroni.

Inferência com Amostra Grande sobre um vetor de média

Quando o tamanho da amostra é grande, testes de hipóteses e regiões de confiança para \(\boldsymbol{\mu}\) podem ser construídos sem a suposição de uma população normal. Como ilustrado nos Exercícios 5.15, 5.16 e 5.17, para um grande \(n\), somos capazes de fazer inferências sobre a média da população, mesmo que a distribuição parental seja discreta. Na verdade, sérias discrepâncias de uma população normal podem ser superadas por grandes tamanhos de amostra. Tanto os testes de hipóteses quanto os intervalos de confiança simultâneos possuirão então (aproximadamente) seus níveis nominais.

As vantagens associadas a grandes amostras podem ser parcialmente compensadas por uma perda de informações da amostra causada pelo uso apenas das estatísticas resumidas \(\bar{\mathbf{X}}\) e \(\mathbf{S}\). Por outro lado, uma vez que \((\bar{\mathbf{X}}, \mathbf{S})\) é um resumo suficiente para populações normais [veja (4-21)], quanto mais próxima a população subjacente for da normal multivariada, mais eficientemente a informação da amostra será utilizada nas inferências.

Todas as inferências com tamanho de amostra grande sobre \(\boldsymbol{\mu}\) são baseadas em uma distribuição qui-quadrado. A partir de (4-28), sabemos que \(n(\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \underset{a}{\sim} \chi^2_p\), e assim,

\[ P\left[n(\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \leq \chi^2_p(1-\alpha)\right] = 1 - \alpha \tag{5-31} \]

A Equação (5-31) leva imediatamente a teste de hipótese e regiões simultâneas de confiança com tamanho de amotra grande. Esses procedimentos são resumidos nos Resultados 5.4 e 5.5.

Resultado 5.4. Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Se \(n - p\gg30\), \(H_0: \boldsymbol{\mu} = \boldsymbol{\mu}_0\) é rejeitada em favor de \(H_1: \boldsymbol{\mu} \neq \boldsymbol{\mu}_0\), a um nível de significância de aproximadamente \(\alpha\), se

\[ n(\bar{\mathbf{x}} - \boldsymbol{\mu})^{\prime}\mathbf{s}^{-1}(\bar{\mathbf{x}} - \boldsymbol{\mu}) \leq \chi^2_p(1-\alpha) \]

Aqui, \(\chi^2_p(1-\alpha)\) é o percentil de \((100(1-\alpha))\) de uma distribuição qui-quadrado com \(p\) graus de liberdade.

Comparando o teste no Resultado 5.4 com o teste teórico normal correspondente em (5-7), vemos que as estatísticas de teste têm a mesma estrutura, mas os valores críticos são diferentes. Uma análise mais detalhada, no entanto, revela que ambos os testes produzem essencialmente o mesmo resultado em situações em que o teste \(\chi^2\) do Resultado 5.4 é apropriado. Isso decorre diretamente do fato de que \((n - 1)pF_{p, n-p}(1-\alpha)/(n - p)\) e \(\chi^2_p(1-\alpha)\) são aproximadamente iguais para \(n\) grande em relação a \(p\), i.e., \(n-p\gg30\). (Veja Tabelas 3 e 4 no apêndice.)

Resultado 5.5. (Intervalos de confiança \(\chi^2\) ou de Scheffé)

Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Se \(n - p\gg30\),

\[ \text{IC}^{1-\alpha}\left(\mathbf{a}^{\prime}\boldsymbol{\mu}\right)=\left[\mathbf{a}^{\prime}\bar{\mathbf{X}}\pm \sqrt{\chi_p^2(1-\alpha)}\sqrt{\dfrac{\mathbf{a}^{\prime}\mathbf{S}\mathbf{a}}{n}}\right] \]

contém \(\mathbf{a}^{\prime}\boldsymbol{\mu}\) para todo \(\mathbf{a}\), com probabilidade aproximadamente \(1 - \alpha\). Consequentemente, podemos construir intervalos de confiança simultâneos de \(100(1 - \alpha) \%\):

\[ \text{IC}^{1-\alpha}\left(\mu_i\right)=\left[\bar{x}_i \pm \sqrt{\chi_p^2(1-\alpha)}\sqrt{\dfrac{s_{ii}}{n}} \right]\\ i = 1, 2, \ldots, p \]

e, além disso, para todos os pares \((\mu_i, \mu_k)\), \(i, k = 1, 2, \ldots, p\), as regiões elípticas centradas na média amostral são

\[ n \begin{bmatrix} \bar{x}_i -\mu_i & \bar{x}_k -\mu_k \end{bmatrix} \begin{bmatrix} s_{ii} & s_{ik} \\ s_{ik} & s_{kk} \end{bmatrix}^{-1} \begin{bmatrix} \bar{x}_i -\mu_i \\ \bar{x}_k -\mu_k \end{bmatrix} \le \chi_p^2(1-\alpha) \tag{5-26} \]

Prova. A primeira parte segue do Resultado 5A.1, com \(c^2 = \chi^2_p(\alpha)\). O nível de probabilidade é uma consequência de (5-31). As afirmações para os \(\mu_i\) são obtidas pelas escolhas especiais \(\mathbf{a}^{\prime} = [0,\ldots, 0, a_i, 0,\ldots , 0]\), em que \(a_i = 1\), \(i = 1, 2, ... , p\). As regiões elípticas para pares de médias são derivadas do Resultado 5A.2 com \(c^2 = \chi^2_p(\alpha)\). O nível global de confiança de aproximadamente \(1 - \alpha\) para todas as regiões de confiança é, mais uma vez, um resultado da teoria de distribuição de tamanho de amostra grande resumida em (5-31).

\[\Diamond\]

A questão de qual é um tamanho de amostra grande não é fácil de responder. Em uma ou duas dimensões, tamanhos de amostras na faixa de 30 a 50 geralmente podem ser considerados grandes. À medida que o número de características aumenta, certamente são necessários tamanhos de amostra maiores para que as distribuições assintóticas forneçam boas aproximações às verdadeiras distribuições de várias estatísticas de teste. Na ausência de estudos definitivos, simplesmente afirmamos que \(n - p\) deve ser grande e percebemos que o caso real é mais complicado. Uma aplicação com \(p = 2\) e tamanho de amostra 50 é muito diferente de uma aplicação com \(p = 52\) e tamanho de amostra 100, embora ambos tenham \(n - p = 48\).

É uma boa prática estatística submeter esses procedimentos de inferência de tamanho de amostra grande às mesmas verificações exigidas pelos métodos de teoria normal. Embora pequenos a moderados desvios da normalidade não causem dificuldades para \(n\) grande, desvios extremos podem causar problemas. Especificamente, a probabilidade do erro do tipo I pode estar muito distante do nível nominal \(\alpha\). Com base em teste de normalidade multivariada e outros dispositivos investigativos, outliers e outras formas de desvios extremos são indicadas ações corretivas apropriadas, incluindo transformações não lineares. Métodos para testar vetor de média de distribuição multivariada simétrica que são relativamente insensíveis a desvios da normalidade são discutidos em [11]. Em alguns casos, os Resultados 5.4 e 5.5 são úteis apenas para amostras muito grandes.

O próximo exemplo nos permite ilustrar a construção de intervalos de confiança simultâneos de grandes amostras para todos os componentes do vetor de média.

Gráfico de Controle de Qualidade Multivariada

Para melhorar a qualidade de produtos e serviços, os dados precisam ser examinados quanto às causas da variação. Quando um processo de fabricação está produzindo itens continuamente ou quando estamos monitorando as atividades de um serviço, os dados devem ser coletados para avaliar as capacidades e estabilidade do processo. Quando um processo é estável, a variação é produzida por causas comuns que estão sempre presentes, e nenhuma causa é uma fonte principal de variação.

O objetivo de qualquer gráfico de controle é identificar ocorrências de causas especiais de variação que vêm de fora do processo usual. Essas causas de variação muitas vezes indicam a necessidade de um reparo oportuno, mas também podem sugerir melhorias no processo. Os gráficos de controle tornam a variação visível e permitem distinguir causas comuns de causas especiais de variação.

Um gráfico de controle tipicamente consiste em dados plotados em ordem temporal e linhas horizontais, chamadas de limites de controle, que indicam a quantidade de variação devido a causas comuns. Um gráfico de controle útil é o gráfico \(\bar{X}\). Para criar um gráfico \(\bar{X}\):

  1. Plote as observações individuais ou médias de amostra em ordem cronológica
  2. Crie e plote a linha central \(\bar{\bar{x}}\), a média amostral de todas as observações.
  3. Calcule e plote os limites de controle dados por:
  • Limite de Controle Superior (UCL) = \(\bar{\bar{x}} + 3\) (desvio-padrão)
  • Limite de Controle Inferior (LCL) = \(\bar{\bar{x}} - 3\) (desvio-padrão)

O desvio-padrão nos limites de controle é o desvio-padrão estimado das observações que estão sendo plotadas. Se as médias de subamostras de tamanho \(m\) são plotadas, então o desvio-padrão é o desvio-padrão da amostra dividido por \(\sqrt{m}\). Os limites de controle de mais e menos três desvios-padrão são escolhidos de modo que haja uma chance muito pequena, assumindo dados distribuídos normalmente, de sinalizar falsamente uma observação fora de controle - ou seja, uma observação sugerindo uma causa especial de variação.

Exemplo 5.8: Criando um gráfico de controle univariado

O departamento de polícia de Madison, Wisconsin, monitora regularmente muitas de suas atividades como parte de um programa contínuo de melhoria de qualidade. A Tabela 5.8 apresenta os dados de cinco tipos diferentes de horas extras. Cada observação representa um total de 12 períodos de pagamento, ou cerca de meio ano.

Examinamos a estabilidade das horas extras de aparições legais. Um cálculo por computador fornece \(\bar{x}_1 = 3558\). Como valores individuais serão plotados, \(\bar{x}_1\) é o mesmo que \(\bar{\bar{x}}_1\). Além disso, o desvio-padrão da amostra é \(\sqrt{s_{11}}=607\), e os limites de controle são:

UCL (Limite de Controle Superior) = \(\bar{\bar{x}}_1 + 3\sqrt{s_{11}} = 3558 + 3(607) = 5379\)

LCL (Limite de Controle Inferior) = \(\bar{\bar{x}}_1 - 3\sqrt{s_{11}} = 3558 - 3(607) = 1737\).

x <- read.table("JW6Data/T5-8.dat", quote="\"", comment.char="")
names(x) <- paste0("x",1:5)
print.data.frame(x)
     x1   x2   x3    x4   x5
1  3387 2200 1181 14861  236
2  3109  875 3532 11367  310
3  2670  957 2502 13329 1182
4  3125 1758 4510 12328 1208
5  3469  868 3032 12847 1385
6  3120  398 2130 13979 1053
7  3671 1603 1982 13528 1046
8  4531  523 4675 12699 1100
9  3678 2034 2354 13534 1349
10 3238 1136 4606 11609 1150
11 3135 5326 3044 14189 1216
12 5217 1658 3340 15052  660
13 3728 1945 2111 12236  299
14 3506  344 1291 15482  206
15 3824  807 1365 14900  239
16 3516 1223 1175 15078  161
boxplot(x)

alfa <- 0.01
# Figura 5.5
invisible(qcc::qcc(x$x1, 
          type = "xbar.one",
          confidence.level=1-alfa))

As horas extras para aparições legais são estáveis durante o período em que os dados foram coletados. A variação nas horas extras parece ser devida a causas comuns, portanto, nenhuma variação de causa especial é indicada.

Com mais de uma característica importante, uma abordagem multivariada deve ser usada para monitorar a estabilidade do processo. Essa abordagem pode levar em conta as correlações entre as características e controlará a probabilidade geral de sinalizar falsamente uma causa especial de variação quando ela não está presente. Altas correlações entre as variáveis podem tornar impossível avaliar a taxa de erro geral que é implícita por um grande número de gráficos univariados.

Os dois gráficos multivariados mais comuns são (i) o gráfico no formato de elipse e (ii) o gráfico \(T^2\).

Dois casos que surgem na prática precisam ser tratados de maneira diferente:

  1. Monitorando a estabilidade de uma amostra dada de observações multivariadas
  2. Definindo uma região de controle para observações futuras

Inicialmente, consideramos o uso de procedimentos de controle multivariado para uma amostra de observações multivariadas \(\mathbf{x}_1, \mathbf{x}_2,\ldots, \mathbf{x}_n\). Posteriormente, discutimos esses procedimentos quando as observações são médias de subgrupos.

Gráfico para Monitorar uma Amostra de Observações Multivariadas Individuais quanto à Estabilidade

Assumimos que \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\). Pelo Resultado 4.8,

\[ \mathbf{X}_j - \bar{\mathbf{X}} = \left(1-\dfrac{1}{n}\right)\mathbf{X}_j-\dfrac{1}{n}\mathbf{X}_1-\cdots-\dfrac{1}{n}\mathbf{X}_{j-1}-\dfrac{1}{n}\mathbf{X}_{j+1}-\cdots-\dfrac{1}{n}\mathbf{X}_{n} \]

tem

\[ \mathbb{E}\left(\mathbf{X}_j - \bar{\mathbf{X}}\right) =\mathbf{0} \]

e

\[ \mathbb{C}\left(\mathbf{X}_j - \bar{\mathbf{X}}\right) =\dfrac{n-1}{n}\mathbf{\Sigma} \]

Cada \(\mathbf{X}_j - \bar{\mathbf{X}}\) tem uma distribuição normal, mas \(\mathbf{X}_j - \bar{\mathbf{X}}\) não é independente da matriz de covariância da amostra \(\mathbf{S}\). No entanto, para definir os limites de controle, aproximamos que

\[ (\mathbf{X}_j - \bar{\mathbf{X}})^{\prime}\mathbf{S}^{-1}(\mathbf{X}_j - \bar{\mathbf{X}})\sim \chi^2_p \]

Gráfico no Formato de Elipse. O gráfico no formato de elipse para uma região de controle bivariada é o mais intuitivo dos gráficos, mas sua abordagem é limitada a duas variáveis. As duas características na \(i\)-ésima unidade são plotadas como um par \((x_{i1}, x_{i2})\). A elipse de qualidade de 95% consiste em todos os \(\mathbf{x}\) que satisfazem

\[ (\mathbf{x} - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \bar{\mathbf{x}})\le \chi^2_2(0.95) \]

Exemplo 5.9: Um gráfico no formato de elipse para horas extras

Refiramo-nos ao Exemplo 5.8 e criamos uma elipse de qualidade para o par de características de horas extras (aparições legais, evento extraordinário). Um cálculo computacional fornece:

\[ \bar{x} = \begin{bmatrix} 3558 \\ 1478 \end{bmatrix} \]

e

\[ s = \begin{bmatrix} 367,884.7 & -72,093.8 \\ -72,093.8 & 1,399,053.1 \end{bmatrix} \]

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-8.dat", quote="\"", comment.char="")
names(x) <- paste0("x",1:5)
alfa <- 0.01
x12 <- x[,c(1,2)]
centroide <- colMeans(x12)
centroide
      x1       x2 
3557.750 1478.438 
s <- cov(x12)
s
          x1         x2
x1 367884.73  -72093.82
x2 -72093.82 1399053.06
n <- dim(x12)[1]
p <- dim(x12)[2]
X2crit <- qchisq(1-alfa,p)
cat("\nX^2(", p, ", ", 1-alfa,") = ", X2crit, sep="")

X^2(2, 0.99) = 9.21034
c <- sqrt(X2crit)
car::ellipse(center=centroide,
             shape=s,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab = expression(x[1]), ylab = expression(x[2]), 
             main="Região elíptica de confiança de qualidade de 99%")
lines(x12$x1,x12$x2, type="p")

invisible(T2 <- qcc::mqcc(x12, 
                          type="T2"))

invisible(qcc::ellipseChart(T2,
                            show.id=TRUE))

Ilustramos o gráfico no formato de elipse de qualidade usando a elipse de 99%, que consiste em todos os \(x\) que satisfazem:

\[ (\mathbf{x} - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \bar{\mathbf{x}})\le \chi^2_2(0.99) \]

Aqui \(p = 2\), então \(\chi_2^2{(0.99)} = 9.21\), e a elipse se torna:

\[ (\mathbf{x} - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \bar{\mathbf{x}})\le9.21 \]

Figura 5.6 A elipse de controle de qualidade de 99% para horas extras de aparições legais e evento extraordinário.

Figura 5.6 A elipse de controle de qualidade de 99% para horas extras de aparições legais e evento extraordinário.

Observe que um ponto, indicado por uma seta, está definitivamente fora da elipse. Quando um ponto está fora da região de controle, gráficos individuais \(\bar{X}\) são construídos. O gráfico \(\bar{X}\) para \(x_1\) foi dado na Figura 5.5; aquele para \(x_2\) é mostrado na Figura 5.7.

# Figura 5.7
alfa <- 0.01
invisible(qcc::qcc(x$x2, 
                   type = "xbar.one",
                   confidence.level=1-alfa))

Quando o limite de controle inferior é menor que zero para dados que devem ser não negativos, ele geralmente é definido como zero. O limite \(LCL = 0\) é mostrado pela linha tracejada na Figura 5.7.

Houve uma causa especial para o único ponto de horas extras de evento extraordinário que está fora do limite de controle superior na Figura 5.7? Durante esse período, os Estados Unidos bombardearam uma capital estrangeira, e os estudantes de Madison estavam protestando. A maioria das horas extras extraordinárias foi usada nesse período de quatro semanas. Embora, por sua própria definição, horas extras extraordinárias ocorram apenas quando eventos especiais ocorrem e, portanto, sejam imprevisíveis, elas ainda têm uma certa estabilidade.

Gráfico \(T^2\) [sic]. Um gráfico \(d^2\), mais conhecido como gráfico \(T^2\), pode ser aplicado a um grande número de características. Ao contrário do formato da elipse, ele não se limita a duas variáveis. Além disso, os pontos são exibidos em ordem cronológica, em vez de como um gráfico de dispersão, o que torna padrões e tendências visíveis.

Para o i-ésimo ponto, calculamos a estatística \(d^2\) (distância de Mahalanobis):

\[ d^2_i = (\mathbf{x}_i - \bar{\mathbf{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x}_i - \bar{\mathbf{x}}) \\ i=1,2,\ldots,n \tag{5-33} \]

Em seguida, plotamos os valores de \(d^2\) em um eixo de tempo. O limite de controle inferior é zero, e usamos o limite de controle superior

\[ UCL = \chi^2_p(0.95) \]

ou, às vezes, \(\chi^2_p(0.99)\).

Não há uma linha central no gráfico \(d^2\).

Exemplo 5.10: Um gráfico \(d^2\) para horas extras

Usando os dados do departamento de polícia no Exemplo 5.8, construímos um gráfico \(d^2\) baseado nas duas variáveis \(X_1\) = horas de comparecimento legal e \(X_2\) = horas de evento extraordinário. Gráficos \(d^2\) com mais de duas variáveis são considerados no Exercício 5.26. Tomamos \(\alpha = 0.01\) para ser consistente com o gráfico de formato de elipse no Exemplo 5.9.

O gráfico \(d^2\) na Figura 5.8 revela que o par (comparecimento legal, evento extraordinário) horas para o período 11 está fora de controle. Uma investigação mais aprofundada, como no Exemplo 5.9, confirma que isso se deve ao grande valor das horas extras de evento extraordinário durante aquele período.

alfa <- 0.01
x12 <- x[,c(1,2)]
centroide <- colMeans(x12)
centroide
      x1       x2 
3557.750 1478.438 
s <- cov(x12)
s
          x1         x2
x1 367884.73  -72093.82
x2 -72093.82 1399053.06
d2 <- mahalanobis(x12, centroide, s)
n <- dim(x12)[1]
p <- dim(x12)[2]
X2crit <- qchisq(1-alfa,p)
cat("\nX^2(", p, ", ", 1-alfa,") = ", X2crit, sep="")

X^2(2, 0.99) = 9.21034
plot(1:n, d2,
     ylab=expression(d^2), 
     xlab="Period", 
     main=expression(paste("Figura 5.8: ", alpha, " = 0.01")),
     type="p")
lines(1:n, d2, type="l", lty=2)
abline(h=X2crit, lty=3)

invisible(T2 <- qcc::mqcc(x12, 
                          type="T2"))

pc12 <- mvdalab::pcaFit(x12)
pc12
Principal Component Analysis

Fit Summary: 
Number of objects = 16 
Number of Variables = 2
Percent Variation Explained:
  Individual.Percent Cumulative.Percent Comp
1             55.025             55.025    1
2             44.975            100.000    2

Cross-Validation Results:
   PRESS
1 30.000
2 34.485
3 30.000

Eigenvalues:
[1] 1.1 0.9
mvdalab::T2(pc12, 
            conf=c(.95, .99),
            ncomp = p) #T2 plot

Regiões de Controle para Futuras Observações Individuais

O objetivo agora é usar os dados \(\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\), coletados quando um processo está estável, para definir uma região de controle para uma futura observação \(\mathbf{x}\) ou futuras observações. A região na qual uma futura observação é esperada é chamada de região de previsão ou predição. Se o processo for estável, consideramos que as observações são distribuídas independentemente como \(\mathcal{N}_p(\boldsymbol{\mu}, \mathbf{\Sigma})\). Como essas regiões são de importância mais geral do que apenas para monitorar a qualidade, fornecemos a teoria básica de distribuição como Resultado 5.6.

Resultado 5.6. Seja \(\{\mathbf{X}_i\}_{i=1}^{n} \sim \mathcal{N}_p\text{IID}(\boldsymbol{\mu}, \mathbf{\Sigma})\), e seja \(\mathbf{X}\) uma futura observação da mesma distribuição. Então,

\[ T^2 = \dfrac{n}{n + 1} (\mathbf{X} - \mathbf{\bar{X}})^{\prime}\mathbf{S}^{-1}(\mathbf{X} - \mathbf{\bar{X}}) \sim\dfrac{(n-1)p}{n-p} F_{p, n-p} \]

A região elíptica de predição de \(100(1 - \alpha)\%\) p-dimensional é dada por todos os \(\mathbf{x}\) que satisfazem:

\[ (\mathbf{x} - \mathbf{\bar{x}})^{\prime}\mathbf{s}^{-1}(\mathbf{x} - \mathbf{\bar{x}}) \leq \dfrac{(n^2 - 1)p}{n(n-p)} F_{p, n-p}(1-\alpha) \tag{5-34} \]

\[\Diamond\]

Exemplo 5.12: Uma elipse de controle para futuras horas extras

No Exemplo 5.9, verificamos a estabilidade das horas extras de aparições legais e eventos extraordinários. Vamos usar esses dados para determinar uma região de controle para futuros pares de valores.

A partir do Exemplo 5.9 e da Figura 5.6, descobrimos que o par de valores para o período 11 estava fora de controle. Removemos esse ponto e determinamos a nova elipse de 99%. Todos os pontos estão então sob controle, então eles podem servir para determinar a região de previsão de 95% recém-definida para \(p = 2\). Esta elipse de controle é mostrada na Figura 5.12 junto com as 15 observações estáveis iniciais.

Qualquer observação futura que caia dentro da elipse é considerada estável ou sob controle. Uma observação fora da elipse representa uma possível observação fora de controle ou uma variação de causa especial.

Para cada nova observação \(\mathbf{x}\), plote

\[ T^2 = \dfrac{n}{n+1} (\mathbf{x} - \mathbf{\bar{x}})^{\prime}\mathbf{s}^{-1} (\mathbf{x} - \mathbf{\bar{x}}) \]

em ordem temporal.

Defina LCL (Limite de Controle Inferior) = 0 e

\[ UCL = \dfrac{(n-1)p}{n-p} F_{p, n-p}(1-\alpha) \]

Pontos acima do limite de controle superior representam uma possível variação de causa especial e sugerem que o processo em questão deve ser examinado para determinar se uma ação corretiva imediata é justificada.

Figura 5.12 A elipse de controle de 95% para futuras horas extras de aparições legais e eventos extraordinários.

Figura 5.12 A elipse de controle de 95% para futuras horas extras de aparições legais e eventos extraordinários.

invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
x <- read.table("JW6Data/T5-8.dat", quote="\"", comment.char="")
names(x) <- paste0("x",1:5)
print.data.frame(x)
     x1   x2   x3    x4   x5
1  3387 2200 1181 14861  236
2  3109  875 3532 11367  310
3  2670  957 2502 13329 1182
4  3125 1758 4510 12328 1208
5  3469  868 3032 12847 1385
6  3120  398 2130 13979 1053
7  3671 1603 1982 13528 1046
8  4531  523 4675 12699 1100
9  3678 2034 2354 13534 1349
10 3238 1136 4606 11609 1150
11 3135 5326 3044 14189 1216
12 5217 1658 3340 15052  660
13 3728 1945 2111 12236  299
14 3506  344 1291 15482  206
15 3824  807 1365 14900  239
16 3516 1223 1175 15078  161
boxplot(x)

alfa <- 0.05
x12 <- x[,c(1,2)]
x12 <- x12[-11,]
centroide <- colMeans(x12)
centroide
      x1       x2 
3585.933 1221.933 
s <- cov(x12)
s
          x1        x2
x1 380545.64  46684.78
x2  46684.78 371081.64
n <- dim(x12)[1]
p <- dim(x12)[2]
T2crit <- (((n^2-1)*p)/((n-p)*n))*qf(1-alfa, p, n-p)
c <- sqrt(T2crit)
car::ellipse(center=centroide,
             shape=s,
             radius=c,
             fill=TRUE,
             fill.alpha=0.1,
             grid=FALSE,
             col="black",
             add=FALSE,
             xlab = expression(x[1]), ylab = expression(x[2]), 
             main="Região elíptica de confiança de qualidade de 95%\npara valores futuros de x1 e x2")
lines(x12$x1,x12$x2, type="p")
x_novo <- c(3500, 1000)
points(x_novo[1], x_novo[2], pch=4)
text(x_novo[1]+250, x_novo[2], "novo")

T2_novo <- as.numeric((n/(n+1))*t(x_novo-centroide)%*%solve(s)%*%(x_novo-centroide))
UCL95 <- (((n-1)*p)/(n-p))*qf(1-alfa,p, n-p)
print(T2_novo > UCL95)
[1] FALSE

Gráfico de controle com base em médias de subamostra

Supõe-se que cada vetor aleatório de observações do processo seja distribuído de forma independente como \(\mathcal{N}_p(\mathbf{0}, \mathbf{\Sigma})\). O procedimento é diferente quando o procedimento de amostragem especifica que \(m > 1\) unidades sejam selecionadas, ao mesmo tempo, do processo. Da primeira amostra, determinamos sua média amostral \(\bar{\mathbf{X}}_1\) e a matriz de covariância \(\mathbf{S}_1\). Quando a população é normal, essas duas quantidades aleatórias são independentes.

Para uma média de subamostra geral \(\bar{\mathbf{X}}_j\), \(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}}\) tem uma distribuição normal com média \(\mathbf{0}\) e

\[ \mathbb{C}(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}}) = \dfrac{n-1}{nm}\mathbf{\Sigma} \]

Como será descrito na Seção 6.4, as covariâncias amostrais das \(n\) subamostras podem ser combinadas para fornecer uma única estimativa (chamada \(\mathbf{S}_\text{pooled}\) no Capítulo 6) da covariância comum \(\mathbf{\Sigma}\). Esta estimativa agrupada é

\[ \mathbf{S} = \dfrac{1}{n}\sum_{i=1}^{n}{\mathbf{S}_i} \]

Aqui, \((nm - n)\mathbf{S}\) é independente de cada \(\bar{\mathbf{X}}_j\) e, portanto, de sua média \(\bar{\bar{\mathbf{X}}}\). Além disso, \((nm - n)\mathbf{S}\) é distribuído como uma matriz aleatória de Wishart com \(nm - n\) graus de liberdade. Observe que estamos estimando \(\mathbf{\Sigma}\) internamente a partir dos dados coletados em qualquer período dado. Esses estimadores são combinados para fornecer um único estimador com um grande número de graus de liberdade. Consequentemente,

\[ T^2 = \dfrac{nm}{n-1}(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}}_j - \bar{\bar{\mathbf{X}}}) \sim\dfrac{n(m - 1)p}{n(m - 1) - p + 1} F_{p,n(m - 1) - p + 1} \tag{5-35} \]

Região de Controle para Observação Futura de Subamostra

Uma vez que os dados são coletados a partir da operação estável de um processo, eles podem ser usados para definir limites de controle para futuras médias de subamostras observadas.

Se \(\bar{\mathbf{X}}\) é uma média de subamostra futura, então \(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}\) tem uma distribuição normal multivariada com média \(\mathbf{0}\) e

\[ \mathbb{C}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}) = \dfrac{n+1}{nm}\mathbf{\Sigma} \]

Consequentemente,

\[ T^2 = \dfrac{nm}{n+1}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}) \sim\dfrac{n(m - 1)p}{n(m - 1) - p + 1} F_{p,n(m - 1) - p + 1} \tag{5-37} \]

Gráfico T2 para Futuras Médias de Subamostras. Como antes, trazemos \(n/(n + 1)\) para o limite de controle e plotamos a quantidade:

\[ T^2 = m(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \bar{\bar{\mathbf{X}}}) \]

para futuras médias da amostra em ordem cronológica. O limite de controle superior é então:

\[ \text{UCL} = \dfrac{(n + 1) (m - 1)p}{n(m - 1) - p + 1} F_{p,n(m-1)-p+1}(0.95) \]

O UCL é frequentemente aproximado como \(\chi_p^2(0.95)\) quando \(n\) é grande.

Pontos fora da elipse de previsão ou acima do UCL sugerem que os valores atuais das características de qualidade são diferentes de alguma forma daqueles do processo estável anterior. Isso pode ser bom ou ruim, mas quase certamente justifica uma busca cuidadosa pelas razões da mudança.

Inferência sobre Vetor de Média Quando Algumas Observações Estão Ausentes

Frequentemente, alguns componentes de uma observação vetorial não estão disponíveis. Isso pode ocorrer devido a uma falha no equipamento de gravação ou devido à recusa de um respondente em responder a um item específico em um questionário de pesquisa. A melhor maneira de lidar com observações incompletas, ou valores ausentes, depende, em grande medida, do contexto experimental. Se o padrão de valores ausentes estiver fortemente ligado ao valor da resposta, como pessoas com rendas extremamente altas que se recusam a responder a uma pesquisa sobre salários, inferências subsequentes podem ser seriamente tendenciosas. Até o momento, nenhuma técnica estatística foi desenvolvida para esses casos. No entanto, somos capazes de tratar situações em que os dados estão ausentes aleatoriamente - isto é, casos em que o mecanismo de chance responsável pelos valores ausentes não é influenciado pelo valor das variáveis.

Uma abordagem geral para calcular estimativas de máxima verossimilhança a partir de dados incompletos é dada por Dempster, Laird e Rubin [5]. Sua técnica, chamada algoritmo EM, consiste em um cálculo iterativo envolvendo duas etapas. Chamamos-lhes de etapas de predição e estimação:

  1. Etapa de predição. Dada uma estimativa \(\widetilde{\boldsymbol{\theta}}\) dos parâmetros desconhecidos, preveja a contribuição de qualquer observação ausente para as estatísticas suficientes (com dados completos).

  2. Etapa de Estimação. Use as estatísticas suficientes previstas para calcular uma estimativa revisada dos parâmetros.

O cálculo alterna entre uma etapa e outra, até que as estimativas revisadas não difiram apreciavelmente da estimativa obtida na iteração anterior.

Quando as observações $ {i}{i=1}^{n} _p(, )$, o algoritmo de predição-estimação é baseado nas estatísticas suficientes de dados completos [veja (4-21)]

\[ \mathbf{T}_1 = \sum_{i=1}^{n}{ \mathbf{X}_i} = n\bar{\mathbf{X}} \]

e

\[ \mathbf{T}_2 = \sum_{i=1}^{n}{\mathbf{X}_i \mathbf{X}_i^{\prime}} = (n - 1) \mathbf{S} + n\bar{\mathbf{X}}\bar{\mathbf{X}}^{\prime} \]

Neste caso, o algoritmo procede da seguinte forma: Assumimos que a média da população e a variância - \(\boldsymbol{\mu}\) e \(\mathbf{\Sigma}\), respectivamente - são desconhecidas e devem ser estimadas.

Etapa de predição. Para cada vetor \(\mathbf{x}_i\) com valores ausentes, seja \(\mathbf{x}^{(1)}_i\) denotar os componentes ausentes e \(\mathbf{x}^{(2)}_i\) denotar aqueles componentes que estão disponíveis. Assim, \(\mathbf{x}^{\prime}=\left[\mathbf{x}^{(1){\prime}}_i, \mathbf{x}^{(2){\prime}}_i\right]\)

Dadas as estimativas $ $ e \(\mathbf{\Sigma}\) da etapa de estimação, use a média da distribuição normal condicional de \(\mathbf{x}^{(1)}\) dado \(\mathbf{x}^{(2)}\) para estimar os valores ausentes. Ou seja,

\[ \widetilde{\mathbf{x}}^{(1)}_i = E\left(\mathbf{X}^{(1)}_i \mid \mathbf{x}^{(2)}_i; \widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right) = \widetilde{\boldsymbol{\mu}}^{(1)} + \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1}\left(\mathbf{x}^{(2)}_i - \widetilde{\boldsymbol{\mu}}^{(2)}\right) \tag{5-38} \]

estima a contribuição de \(\mathbf{x}^{(1)}_i\) para \(\mathbf{T}_1\).

Em seguida, a contribuição prevista de \(\mathbf{x}^{(1)}_i\) para \(\mathbf{T}_2\) é

\[ \widetilde{\mathbf{x}^{(1)}_i\mathbf{x}^{(1){\prime}}_i}=E\left(\mathbf{X}^{(1)}_i\mathbf{X}^{(1){\prime}}_i \mid \mathbf{x}^{(2)}_i; \widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right) = \widetilde{\mathbf{\Sigma}}_{11} - \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1}\widetilde{\mathbf{\Sigma}}_{21} + \mathbf{x}^{(1)}_i\mathbf{x}^{(1){\prime}}_i \tag{5-39} \]

e

\[ \widetilde{\mathbf{x}^{(1)}_i\mathbf{x}^{(2){\prime}}_i}=E\left(\mathbf{X}^{(1)}_i\mathbf{X}^{(2){\prime}}_i \mid \mathbf{x}^{(2)}_i; \widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right) = \mathbf{x}^{(1)}_i\mathbf{x}^{(2){\prime}}_i \]

As contribuições em (5-38) e (5-39) são somadas sobre todos \(\mathbf{x}_i\) com componentes ausentes. Os resultados são combinados com os dados da amostra para produzir \(\widetilde{\mathbf{T}}_1\) e \(\widetilde{\mathbf{T}}_2\).

Etapa de Estimação. Calcule as estimativas revisadas de máxima verossimilhança (veja Resultado 4.11):

\[ \widetilde{\boldsymbol{\mu}} = \dfrac{1}{n} \widetilde{\mathbf{T}}_1 \quad\quad\quad \widetilde{\mathbf{\Sigma}} = \dfrac{1}{n} \widetilde{\mathbf{T}}_2 - \widetilde{\boldsymbol{\mu}} \widetilde{\boldsymbol{\mu}}^{\prime} \tag{5-40} \]

Ilustramos os aspectos computacionais do algoritmo de predição-estimação no Exemplo 5.13.

Exemplo 5.13: Ilustrando o algoritmo EM

Estime a média da população normal \(\boldsymbol{\mu}\) e a covariância \(\mathbf{\Sigma}\) usando o conjunto de dados incompleto:

\[ \boldsymbol{\mathcal{x}}= \begin{bmatrix} - & 0 & 3 \\ 7 & 2 & 6 \\ 5 & 1 & 2 \\ - & - & 5 \end{bmatrix} \]

Aqui \(n = 4\), \(p = 3\), e partes dos vetores de observação \(\mathbf{x}_1\) e \(\mathbf{x}_4\) estão ausentes.

Obtemos as médias iniciais da amostra:

\[ \widetilde{\mu}_1 = \dfrac{7+5}{2} = 6, \quad \widetilde{\mu}_2 = \dfrac{0+2+1}{3} = 1, \quad \widetilde{\mu}_3 = \dfrac{3+6+2+5}{4} =4 \]

a partir das observações disponíveis. Substituindo essas médias por quaisquer valores ausentes, de forma que \(\widetilde{x}_{11} = 6\), por exemplo, podemos obter estimativas iniciais de covariância. Vamos construir essas estimativas usando o divisor \(n\) porque o algoritmo eventualmente produz a estimativa de máxima verossimilhança \(\hat{\mathbf{\Sigma}}\). Assim:

\[ \widetilde{\sigma}_{11} = \dfrac{(6 - 6)^2 + (7 - 6)^2 + (5 - 6)^2+ (6 - 6)^2}{4} = \dfrac{1}{2} \]

\[ \widetilde{\sigma}_{22} = \dfrac{1}{2} \]

\[ \widetilde{\sigma}_{33} = \dfrac{5}{2} \]

\[ \widetilde{\sigma}_{12} = \dfrac{(6 - 6)(0 - 1) + (7 - 6)(2 - 1) + (5 - 6)(1 - 1)+ (6 - 6)(1 - 1)}{4} = \dfrac{1}{4} \]

\[ \widetilde{\sigma}_{23} = \dfrac{3}{4} \]

\[ \widetilde{\sigma}_{13} = 1 \]

A etapa de predição consiste em usar as estimativas iniciais \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) para prever as contribuições dos valores ausentes para as estatísticas suficientes \(\mathbf{T}_1\) e \(\mathbf{T}_2\). [Veja (5-38) e (5-39)].

O primeiro componente de \(\mathbf{x}_1\) está ausente, então particionamos \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) como:

\[ \widetilde{\boldsymbol{\mu}} = \begin{bmatrix} \widetilde{\mu}_{1} \\ \cdots\\ \widetilde{\mu}_{2} \\ \widetilde{\mu}_{3} \end{bmatrix}= \begin{bmatrix} \widetilde{\mu}^{(1)}\\ \cdots\\ \widetilde{\boldsymbol{\mu}}^{(2)} \end{bmatrix} \]

\[ \widetilde{\mathbf{\Sigma}} = \begin{bmatrix} \widetilde{\sigma}_{11} & \vdots &\widetilde{\sigma}_{12} & \widetilde{\sigma}_{13} \\ \cdots & \vdots &\cdots & \cdots \\ \widetilde{\sigma}_{21} & \vdots &\widetilde{\sigma}_{22} & \widetilde{\sigma}_{23} \\ \widetilde{\sigma}_{31} & \vdots &\widetilde{\sigma}_{32} & \widetilde{\sigma}_{33} \\ \end{bmatrix} = \begin{bmatrix} \widetilde{\mathbf{\Sigma}}_{11} & \widetilde{\mathbf{\Sigma}}_{12} \\ \widetilde{\mathbf{\Sigma}}_{21} & \widetilde{\mathbf{\Sigma}}_{22} \end{bmatrix} \]

Usando a equação (5-38), a predição para o componente ausente de \(\widetilde{x}_{11}\) é:

\[ \widetilde{x}_{11} = \widetilde{\mu}_{1} + \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1} \begin{bmatrix} x_{12}-\widetilde{\mu}_{2}\\ x_{13}-\widetilde{\mu}_{3} \end{bmatrix}= 6+ \begin{bmatrix}\frac{1}{4}&1\end{bmatrix} \begin{bmatrix} \frac{1}{2}&\frac{3}{4}\\ \frac{3}{4}&\frac{5}{2} \end{bmatrix}^{-1} \begin{bmatrix}0-1\\3-4\end{bmatrix}= 5.73 \]

\[ \begin{align} \widetilde{x^2_{11}} &= \widetilde{\sigma}_{1} - \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1} \widetilde{\mathbf{\Sigma}}_{12}+\widetilde{x}^2_{11}\\ &= \dfrac{1}{2}- \begin{bmatrix}\dfrac{1}{4}&1\end{bmatrix} \begin{bmatrix} \dfrac{1}{2}&\dfrac{3}{4}\\ \dfrac{3}{4}&\dfrac{5}{2} \end{bmatrix}^{-1} \begin{bmatrix}\dfrac{1}{4}\\1\end{bmatrix}+5.73^2\\ \widetilde{x^2_{11}} &= 32.99 \end{align} \]

As primeiras duas componentes de \(\mathbf{x}_4\) está ausente, então particionamos \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) como:

\[ \widetilde{\boldsymbol{\mu}} = \begin{bmatrix} \widetilde{\mu}_{1} \\ \widetilde{\mu}_{2} \\ \cdots\\ \widetilde{\mu}_{3} \end{bmatrix}= \begin{bmatrix} \widetilde{\boldsymbol{\mu}}^{(1)} \\ \cdots\\ \widetilde{\mu}^{(2)}\\ \end{bmatrix} \]

\[ \widetilde{\mathbf{\Sigma}} = \begin{bmatrix} \widetilde{\sigma}_{11} &\widetilde{\sigma}_{12} & \vdots& \widetilde{\sigma}_{13} \\ \widetilde{\sigma}_{21} &\widetilde{\sigma}_{22} & \vdots& \widetilde{\sigma}_{23} \\ \cdots &\cdots & \vdots& \cdots \\ \widetilde{\sigma}_{31} &\widetilde{\sigma}_{32} & \vdots& \widetilde{\sigma}_{33} \\ \end{bmatrix} = \begin{bmatrix} \widetilde{\mathbf{\Sigma}}_{11} & \widetilde{\mathbf{\Sigma}}_{12} \\ \widetilde{\mathbf{\Sigma}}_{21} & \widetilde{\mathbf{\Sigma}}_{22} \end{bmatrix} \]

Usando a equação (5-38), a predição para o componente ausente de \(\widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}}\) é:

\[ \begin{align} \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}} &= \mathbb{E}\left(\begin{bmatrix}X_{41}\\ X_{42}\end{bmatrix} \Biggm| x_{43}=5;\widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right)\\ &=\begin{bmatrix}\widetilde{\mu}_{1}\\ \widetilde{\mu}_{2}\end{bmatrix} + \widetilde{\mathbf{\Sigma}}_{12}\widetilde{\mathbf{\Sigma}}_{22}^{-1} (x_{43}-\widetilde{\mu}_{3})\\ &= \begin{bmatrix}6\\1\end{bmatrix}+ \begin{bmatrix}1\\\frac{3}{4}\end{bmatrix} \left(\frac{5}{2}\right)^{-1}(5-4)\\ \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}}&= \begin{bmatrix}6.4\\1.3\end{bmatrix} \end{align} \]

\[ \begin{align} \begin{bmatrix}\widetilde{x_{41}^2}&\widetilde{x_{41}x_{42}}\\ \widetilde{x_{41}x_{42}} &\widetilde{x_{42}^2}\end{bmatrix} &= \mathbb{E}\left( \begin{bmatrix} X_{41}^2&X_{41}X_{42}\\ X_{41}X_{42}&X_{42}^2 \end{bmatrix}\Biggm|x_{43}=5;\widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right)\\ &=\begin{bmatrix} \frac{1}{2} & \frac{1}{4}\\ \frac{1}{4} & \frac{1}{2} \end{bmatrix} - \begin{bmatrix}1\\\frac{3}{4}\end{bmatrix} \left(\frac{5}{2}\right)^{-1}\begin{bmatrix}1&\frac{3}{4}\end{bmatrix}+\begin{bmatrix}6.4\\1.3\end{bmatrix}\begin{bmatrix}6.4&1.3\end{bmatrix}\\ \begin{bmatrix}\widetilde{x_{41}^2}&\widetilde{x_{41}x_{42}}\\ \widetilde{x_{41}x_{42}} &\widetilde{x_{42}^2}\end{bmatrix} &= \begin{bmatrix} 41.06 & 8.27\\ 8.27 & 1.97 \end{bmatrix} \end{align} \]

\[ \begin{align} \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}x_{43}} &=\mathbb{E}\left(\begin{bmatrix}X_{41}\\X_{42}\end{bmatrix}\Biggm|x_{43}=5;\widetilde{\boldsymbol{\mu}}, \widetilde{\mathbf{\Sigma}}\right)\\ &=\widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}}x_{43}\\ &=\begin{bmatrix}6.4\\1.3\end{bmatrix}5\\ \widetilde{\begin{bmatrix}x_{41}\\x_{42} \end{bmatrix}x_{43}}&=\begin{bmatrix}32.0\\6.5\end{bmatrix} \end{align} \]

Assim, as estatísticas suficientes completas previstas são:

\[ \begin{align}\widetilde{\mathbf{T}}_1&= \begin{bmatrix} \widetilde{x}_{11} + x_{21} + x_{31} + \widetilde{x}_{41}\\ x_{12} + x_{22} + x_{32} + \widetilde{x}_{42}\\ x_{13} + x_{23} + x_{33} + x_{43} \end{bmatrix}\\ &=\begin{bmatrix} 5.7+7+5+6.4\\ 0+2+1+1.3\\ 3+6+2+5 \end{bmatrix}\\ \widetilde{\mathbf{T}}_1&=\begin{bmatrix} 24.13\\ 4.3\\ 16 \end{bmatrix} \end{align} \]

\[ \begin{align}\widetilde{\mathbf{T}}_2&= \begin{bmatrix} \widetilde{x_{11}^2}+x_{21}^2+x_{31}^2+x_{41}^2 & & \\ \widetilde{x_{11}x_{12}} + x_{21}x_{22} + x_{31}x_{32}+\widetilde{x_{41}x_{42}} & x_{12}^2+x_{22}^2+x_{32}^2+\widetilde{x_{42}^2} & \\ \widetilde{x_{11}x_{13}} + x_{21}x_{23} + x_{31}x_{33}+\widetilde{x_{41}x_{43}} & x_{12}x_{13} + x_{22}x_{23} + x_{32}x_{33}+\widetilde{x_{42}x_{43}} & x_{13}^2+x_{23}^2+x_{33}^2+x_{43}^2 \end{bmatrix}\\ &=\begin{bmatrix} 32.99+7^2+5^2+41.06& &\\ 0+7\times2+5\times1+8.27& 0^2+2^2+1^2+1.97&\\ 17.18+7\times6+5\times2+32&0\times3+2\times6+1\times2+6.5&3^2+6^2+2^2+5^2 \end{bmatrix}\\ \widetilde{\mathbf{T}}_2&= \begin{bmatrix} 148.05&27.27&101.18\\ 27.27&6.97&20.50\\ 101.18&20.50&74.00 \end{bmatrix} \end{align} \]

Isso completa uma etapa de predição.

A próxima etapa de estimação, usando (5-40), fornece as estimativas revisadas:

\[ \widetilde{\boldsymbol{\mu}} = \dfrac{1}{n} \widetilde{\mathbf{T}}_1=\dfrac{1}{4} \begin{bmatrix} 24.13\\ 4.3\\ 16 \end{bmatrix}= \begin{bmatrix} 6.03\\ 1.08\\ 4.00 \end{bmatrix} \]

\[ \begin{align} \widetilde{\mathbf{\Sigma}} &= \dfrac{1}{n} \widetilde{\mathbf{T}}_2 - \widetilde{\boldsymbol{\mu}} \widetilde{\boldsymbol{\mu}}^{\prime}\\ &=\dfrac{1}{4}\begin{bmatrix} 148.05&27.27&101.18\\ 27.27&6.97&20.50\\ 101.18&20.50&74.00 \end{bmatrix}-\begin{bmatrix} 6.03\\ 1.08\\ 4.00 \end{bmatrix} \begin{bmatrix} 6.03&1.08&4.00 \end{bmatrix}\\ \widetilde{\mathbf{\Sigma}}&=\begin{bmatrix} 0.61&0.33&1.17\\ 0.33&0.59&0.83\\ 1.17&0.83&2.50 \end{bmatrix} \end{align} \]

Observe que \(\widetilde{\sigma}_{11} = 0.61\) e \(\widetilde{\sigma}_{22} = 0.59\) são maiores do que as estimativas iniciais correspondentes obtidas ao substituir as observações faltantes nas primeira e segunda variáveis pelas médias amostrais dos valores restantes. A terceira estimativa de variância \(\widetilde{\sigma}_{33}\) permanece inalterada, porque não é afetada pelos componentes ausentes. A iteração entre as etapas de predição e estimação continua até que os elementos de \(\widetilde{\boldsymbol{\mu}}\) e \(\widetilde{\mathbf{\Sigma}}\) permaneçam essencialmente inalterados. Cálculos desse tipo são facilmente tratados com um computador.

x <- data.frame(x1 = c(NA, 7, 5, NA),
                x2 = c(0, 2, 1, NA),
                x3 = c(3, 6, 2, 5))
print(x)
  x1 x2 x3
1 NA  0  3
2  7  2  6
3  5  1  2
4 NA NA  5
ximput <- mvdalab::imputeEM(x)
ximput2 <- ximput$Imputed.DataFrames[[2]]
print(colMeans(x, na.rm=TRUE), digits=2)
x1 x2 x3 
 6  1  4 
print(colMeans(ximput2), digits=2)
 x1  x2  x3 
6.1 1.0 4.0 
print(cov(x, use="pairwise.complete.obs"), digits=2)
   x1  x2  x3
x1  2 1.0 4.0
x2  1 1.0 1.5
x3  4 1.5 3.3
print(cov(ximput2), digits=2)
     x1   x2  x3
x1 0.80 0.44 1.6
x2 0.44 0.67 1.1
x3 1.62 1.06 3.3
print(try(psych::corFiml(x,
                         covar=TRUE)))
Error in chol.default(S) : the leading minor of order 3 is not positive
[1] "Error in chol.default(S) : the leading minor of order 3 is not positive\n"
attr(,"class")
[1] "try-error"
attr(,"condition")
<simpleError in chol.default(S): the leading minor of order 3 is not positive>
ximput <- missMethods::impute_EM(x)
print(colMeans(x, na.rm=TRUE), digits=2)
x1 x2 x3 
 6  1  4 
print(colMeans(ximput), digits=2)
 x1  x2  x3 
6.0 1.3 4.0 
print(cov(x, use="pairwise.complete.obs"), digits=2)
   x1  x2  x3
x1  2 1.0 4.0
x2  1 1.0 1.5
x3  4 1.5 3.3
print(cov(ximput), digits=2)
     x1   x2  x3
x1 0.78 0.60 1.6
x2 0.60 0.93 1.3
x3 1.61 1.34 3.3

Cuidado. O algoritmo de predição-estimação que discutimos foi desenvolvido com base na ideia de que as observações de componentes estão faltando aleatoriamente. Se os valores ausentes estiverem relacionados aos níveis de resposta, o tratamento dos valores ausentes conforme sugerido pode introduzir sérios vieses nos procedimentos de estimação. Normalmente, os valores ausentes estão relacionados às respostas que estão sendo medidas. Portanto, devemos ser céticos em relação a qualquer esquema computacional que preencha valores como se tivessem sido perdidos aleatoriamente. Quando mais do que alguns valores estão faltando, é imperativo que o investigador procure as causas sistemáticas que os criaram.

Dificuldades Devido à Dependência Temporal em Observações Multivariadas

Para os métodos descritos neste capítulo, assumimos que as observações multivariadas \(\mathbf{X}_1, \mathbf{X}_2,\ldots, \mathbf{X}_n\) constituem uma amostra aleatória; ou seja, elas são independentes umas das outras. Se as observações são coletadas ao longo do tempo, essa suposição pode não ser válida. A presença de até mesmo uma quantidade moderada de dependência temporal entre as observações pode causar sérias dificuldades para testes, regiões de confiança e intervalos de confiança simultâneos, que são todos construídos assumindo que a independência é válida.

Vamos ilustrar a natureza da dificuldade quando a dependência temporal pode ser representada como um modelo autoregressivo multivariado de primeira ordem [AR(1)]. Suponha que o vetor aleatório \(p \times 1\), \(\mathbf{X}_t\), siga o modelo multivariado AR(1):

\[ \mathbf{X}_t - \boldsymbol{\mu} = \boldsymbol{\Phi}(\mathbf{X}_{t-1} - \boldsymbol{\mu}) + \boldsymbol{\epsilon}_t \tag{5-42} \]

em que os \(\boldsymbol{\epsilon}_t\) são independentes e identicamente distribuídos com \(\mathbb{E}(\boldsymbol{\epsilon}_t)=\mathbf{0}\) e \(\mathbb{C}(\boldsymbol{\epsilon}_t) = \mathbf{\Sigma}_\boldsymbol{\epsilon}\) e todos os autovalores da matriz de coeficientes \(\boldsymbol{\Phi}\) estão entre -1 e 1. Sob este modelo \(\mathbb{C}(\mathbf{X}_t, \mathbf{X}_{t-r}) = \boldsymbol{\Phi}^r \mathbf{\Sigma}_\mathbf{X}\) em que

\[ \mathbf{\Sigma}_\mathbf{X}=\sum_{i=0}^{\infty}{\boldsymbol{\Phi}^i\mathbf{\Sigma}_\boldsymbol{\epsilon}\boldsymbol{\Phi}^{{\prime}i}} \]

O modelo AR(1) (5-42) relaciona a observação no tempo \(t\) com a observação no tempo \(t - 1\) através da matriz de coeficientes \(\boldsymbol{\Phi}\). Além disso, o modelo autoregressivo diz que as observações são independentes, sob normalidade multivariada, se todas as entradas na matriz de coeficientes \(\boldsymbol{\Phi}\) são 0. O nome “modelo autoregressivo” vem do fato de que (5-42) parece uma versão multivariada de uma regressão com \(\mathbf{X}_t\) como a variável dependente e o valor anterior \(\mathbf{X}_{t-1}\) como a variável independente.

Conforme mostrado em Johnson e Langeland [8],

\[ \bar{\mathbf{X}} \xrightarrow[\mathcal{P}]{} \boldsymbol{\mu} \]

\[ \mathbf{S} = \dfrac{1}{n-1} \sum_{i=1}^{n} (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^{\prime} \xrightarrow[\mathcal{P}]{} \mathbf{\Sigma_X} \]

em que a seta acima indica convergência em probabilidade, e

\[ \mathbb{C}\left(n^{-1/2}\sum_{t=1}^{n}{\mathbf{X}_t}\right) \xrightarrow[\mathcal{P}]{} (\mathbf{I} - \boldsymbol{\Phi})^{-1}\mathbf{\Sigma_X} + \mathbf{\Sigma_X}(\mathbf{I} - \boldsymbol{\Phi}^{\prime})^{-1} - \mathbf{\Sigma_X} \tag{5-43} \]

Além disso, para um \(n\) grande, \(\sqrt{n} (\bar{\mathbf{X}} - \boldsymbol{\mu})\) é aproximadamente normal com média \(\mathbf{0}\) e matriz de covariância dada por (5-43).

Para simplificar os cálculos, suponha que o processo subjacente tenha \(\boldsymbol{\Phi} = \phi \mathbf{I}\) em que \(|\phi| < 1\). Agora, considere a elipsóide de confiança nominal de 95% de amostra grande para \(\boldsymbol{\mu}\).

\[ \left\{ \text{todo } \boldsymbol{\mu} \text{ tal que } n(\bar{\mathbf{X}} - \boldsymbol{\mu})^{\prime}\mathbf{S}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \leq \chi^2_p(0.95) \right\} \]

Esta elipsóide tem probabilidade de cobertura de grande amostra de 0.95 se as observações forem independentes. Se as observações estiverem relacionadas pelo nosso modelo autorregressivo, no entanto, esta elipsóide tem probabilidade de cobertura de grande amostra

\[ P\left[\chi_p^2 \le (1 - \phi)(1 + \phi)^{-1}\chi^2_p(0.95)\right] \]

A Tabela 5.10 mostra como a probabilidade de cobertura está relacionada ao coeficiente \(\phi\) e ao número de variáveis \(p\).

De acordo com a Tabela 5.10, a probabilidade de cobertura pode cair muito, para 0.632, mesmo para o caso bivariado.

A suposição de independência é crucial, e os resultados baseados nesta suposição podem ser muito enganosos se as observações forem, de fato, dependentes.

Tabela 5.10 Probabilidade de Cobertura da Elipsóide de Confiança Nominal de 95%

\[ \begin{array}{|c|c|c|c|c|} \hline p / \phi & -.25 & 0 & .25 & .5 \\ \hline 1 & .989 & .950 & .871 & .742 \\ 2 & .993 & .950 & .834 & .632 \\ 5 & .998 & .950 & .751 & .405 \\ 10 & .999 & .950 & .641 & .193 \\ 15 & 1.000 & .950 & .548 & .090 \\ \hline \end{array} \]

Questões

5.1, 5.2, 5.3, 5.7, 5.9, 5.12, 5.13, 5.15, 5.16, 5.17, 5.20, 5.25

Bibliografia

  • Livro-texto:
    • JOHNSON, RA & WICHERN, DW (2007) Applied multivariate statistical analysis. 6th ed. NJ: Prentice Hall.
    • JOHNSON, RA & WICHERN, DW (2007) Applied multivariate statistical analysis: Solutions Manual. 6th ed. NJ: Prentice Hall.
    • JOHNSON, RA & WICHERN, DW (2002) Applied multivariate statistical analysis. 5th ed. NJ: Prentice Hall.
  • ANDERSON, TW (2003) An introduction to multivariate statistical analysis. 3rd ed. NY: Wiley.
  • EVERITT, BS & HOTHORN, T (2011) An introduction to applied multivariate analysis with R. USA: Springer.
  • FLURY, B (1997) A first course in multivariate statistics. NY: Springer-Verlag.
  • HARDLE, W & SIMAR, L (2015) Applied multivariate statistical analysis. 4th ed. NY: Springer-Verlag.
  • JAMES, G; WITTEN, D; HASTIE, T; & TIBSHIRANI, R (2021) An Introduction to statistical learning with applications in R. 2nd ed. USA: Springer.
  • MARDIA, KV, KENT, JT & BIBBY, JM (2003) Multivariate analysis. UK: Academic.
  • MORRISON, DF (1990) Multivariate statistical methods. 3rd ed. NY: McGraw-Hill.
  • REIS, E (2001) Estatística multivariada aplicada. 2a ed. Lisboa: Sílabo.
  • REIS, SF (1988) Morfometria e Estatística Multivariada em Biologia Evolutiva. Revista Brasileira de Zoologia 5(4): 571-80.
  • RENCHER, AC & CHRISTENSEN, WF (2012) Methods of multivariate analysis. 3rd ed. NJ: Wiley.
  • SAVILLE, DJ & WOOD, GR (1996) Statistical methods: a geometric primer.USA: Lawrence Erlbaum.
  • SOUZA, J (1997) Estatística econômica e social. RJ: Campus.
  • SRIVASTAVA, MS & CARTER, EM (1983) An Introduction to applied multivariate Statistics. North Holland.
  • SRIVASTAVA, MS (2006) Methods of multivariate statistics. NY: Wiley.
  • WICKENS, TD (1995) The geometry of multivariate Statistics. USA: Lawrence Erlbaum.


Bibliografia adicional

  • Soch, J et al. (2020) The Book of Statistical Proofs: https://statproofbook.github.io/

  • Batschelet, E (1978) Introdução à matemática para biocientistas. Tradução da 2ª ed. São Paulo: EDUSP e Rio de Janeiro: Interciência.

  • Batschelet, E (1979) Introduction to mathematics for life scientists. 3rd ed. NY: Springer.

  • Bickel, PJ & Doksum, KA (2001) Mathematical Statistics: Basic Ideas and Selected Topics, Volume I. USA: CRC.

  • Bilodeau, M & Brenner, D (1999) Theory of Multivariate Statistics. USA: Springer. T^2 de Hotelling

  • Denis, DJ (2021) Applied Univariate, Bivariate, and Multivariate Statistics Using Python: A Beginners Guide to Advanced Data Analysis. NJ: Wiley.

  • Genz, A (1992) Numerical Computation of Multivariate Normal Probabilities. Journal of Computational and Graphical Statistics 1(2): 141–149. https://doi.org/10.2307/1390838

  • Hardle, W & Hlavka, Z (2007) Multivariate Statistics - Exercises and Solutions. USA: Springer.

  • KASSAMBARA, A (2017) Practical guide to cluster analysis in R: Unsupervised machine learning. STHDA: http://www.sthda.com.

  • Kollo. T & von Rosen, D (2005) Advanced Multivariate Statistics with Matrices. USA: Springer.

  • Kutner, MH et al. (2005) Applied linear statistical model. 5th ed. NY: McGraw-Hill/Irwin.

  • MAIR, P (2018) Modern psychometrics with R. USA: Springer.

  • Manly, BFJ & Alberto, JAN (2017) Multivariate Statistical Methods: A Primer using R. 4th ed. USA: CRC.

  • Matloff, N (2020) Probability and Statistics for Data Science: Math + R Data_. USA: CRC.

  • Mirman, D (2014) Growth Curve Analysis and Visualization Using R. USA: CRC.

  • Pessoa, DGC (2008) Exemplos do livro de Johnson e Wichern.

  • Rawlings, JO et al. (1998) Applied Regression Analysis: A Research Tool. USA: Springer. T^2 de Hotelling

  • Schumacker, RE (2016) Using R With Multivariate Statistics. USA: SAGE.

  • Siqueira, JO (2012) Fundamentos de métodos quantitativos: aplicados em Administração, Economia, Contabilidade e Atuária usando WolframAlpha e SCILAB. São Paulo: Saraiva. Soluções dos exercícios em https://www.researchgate.net/publication/326533772_Fundamentos_de_metodos_quantitativos_-_Solucoes.

  • Tay, A (2018) OLS using Matrix Algebra. http://www.mysmu.edu/faculty/anthonytay/MFE/OLS_using_Matrix_Algebra.pdf

  • Teichroew, D (1964) An introduction to management science: deterministic models. NJ: Wiley.

  • Timm, NH (2002) Applied Multivariate Analysis. USA: Springer. T^2 de Hotelling

  • Zelterman, D (2015) Applied Multivariate Statistics with R. USA: Springer.


Aplicativos

Análise estatística multivariada em R e Python na internet