logo

Introducción

En el módulo anterior trabajamos las propiedades más relevantes de la distribución normal multivariada, los diferentes procesos para evaluar la normalidad y las transformaciones más comunes para buscar la normalidad en un vector de datos.

En este módulo, trabajaremos dos partes, en la primera parte presentaremos inferencia sobre el vector de medias, revisando la estimación de los parámetros, propiedades de los estimadores y pruebas de hipótesis sobre el vector de medias o dos vectores de medias.

En la segunda parte, inferencia sobre la matriz de covarianza, revisando su distribución muestral, propiedades y pruebas de hipótesis sobre una o dos poblaciones.

Estimación de parámetros

A partir de una muestra aleatoria de una población normal \(p\) variada se obtienen los estimadores de \(\mu\) y \(\Sigma\), por el método de máxima verosimilitud. Es decir, se buscan los valores de \(\mu\) y \(\Sigma\) que maximizan la probabilidad de que la muestra aleatoria \(x_1,x_2,\dots , x_n\) proceda de esta población.

Realizando el proceso algebraico de la estimación de parámetros por medio de máxima verosimilitud, se consigue que: \[ \widehat{\mu} = \overline{\bf x}, \quad \widehat{\Sigma} =S \]

Propiedades de las estimadores

Los estimadores de máxima verosimilitud tienen las siguientes propiedades:

  1. Teorema de Fisher: si tenemos una muestra aleatoria tomada de una población normal, \({\bf x}_1, {\bf x}_2, \dots,{\bf x}_n \sim N_p(\mu,\Sigma)\), entonces: \[\begin{align*} \overline{\bf x} & \sim N_p\left(\mu,\frac{1}{n}\Sigma\right) \\ nS & \sim W_p(\Sigma, n − 1) \end{align*}\] donde, \(W_p\) es la distribución Wishart.

  2. Teorema central de límite: el vector de medias \(\overline{\bf x}\) de una muestra aleatoria de tamaño \(n\) tomada de una población no necesariamente normal, con vector de medias \(\mu\) y matriz de covarianza \(\Sigma\), \[\overline{\bf x} \xrightarrow[n\longrightarrow \infty]{d} N_p\left(\mu,\frac{1}{n}\Sigma\right)\] donde \(\xrightarrow{d}\) significa convergencia en distribución. Equivalentemente, se puede escribir como distribución asintótica: \(\Sigma\), \[\overline{\bf x} \stackrel{d}{\approx} N_p\left(\mu,\frac{1}{n}\Sigma\right)\]

  3. Si tenemos una muestra aleatoria tomada de una población normal, \({\bf x}_1, {\bf x}_2, \dots,{\bf x}_n \sim N_p(\mu,\Sigma)\), entonces: \[n(\overline{\bf x}-\mu)^t \Sigma^{-1} (\overline{\bf x}-\mu) \sim \chi^2_p\] donde, \(\chi_p^2\) la distribución Chi-cuadrada.

  4. Si tenemos una muestra aleatoria tomada de una población normal, \({\bf x}_1, {\bf x}_2, \dots,{\bf x}_n \sim N_p(\mu,\Sigma)\), pero \(\Sigma\) es desconocida, se tiene que: \[ n(\overline{\bf x}-\mu)^t S^{-1} (\overline{\bf x}-\mu) \sim T^2(p,n-1) \] donde, \(T^2(p,n-1)\) es la distribución \(T^2\) de Hotelling.

  5. Si tenemos dos muestras aleatorias independientes \({\bf x}_1, {\bf x}_2, \dots,{\bf x}_{n_1} \sim N_p(\mu_1,\Sigma)\), \({\bf y}_1, {\bf y}_2, \dots,{\bf y}_{n_2} \sim N_p(\mu_2,\Sigma)\), entonces: \[ \dfrac{n_1 n_2}{n_1+n_2}(\overline{\bf x}-\overline{\bf y})^t S_p^{-1} (\overline{\bf x}-\overline{\bf y}) \sim T^2(p,n_1+n_2 - 2) \] donde, \(S_p=\frac{1}{n_1+n_2}(n_1S_1+n_2S_2)\), es una media ponderada de las matrices de covarianza.

  6. En general, \(T^2(p,n)\) es proporcional a una distribución \(F\) de Fisher. Esto es: \[ \dfrac{n-p}{p(n-1)}T^2 \sim F(p,n-p) \]

Nota importante: las propiedades 4 y 5 sobre la distribución \(T^2\) de Hotelling se utilizarán en pruebas de hipótesis multivariadas sobre vectores de medias, de forma análoga a como se utiliza la distribución \(t\)-Student en el caso univariado.

Paralelismos entre el caso univariado y el multivariado de las distribuciones relacionadas con la normal.

Caso univariado Caso multivariado
\(N(\mu,\sigma^2)\) \(N_p(\mu,\Sigma)\)
\(\chi^2_n\) \(W_p(\Sigma,n)\)
\(t\) \(T^2\)

Pruebas de hipótesis para datos multivariados

En el contexto multivariado los contrastes de hipótesis son más complejos que los univariados. La distribución normal \(p\)–variada tiene \(p\)–medias, \(p\)–varianzas y \(p \choose 2\) covarianzas, así, el número total de parámetros es \(\frac{1}{2}p(p+3)\). Por ejemplo, si se quisieran hacer pruebas univariadas para una base de datos que contienen \(p = 5\), se deben desarrollar pruebas sobre \(20\) parámetros univariados; \(5\) para las medias, \(5\) para la varianzas y \(10\) para las covarianzas.

Ventajas de las pruebas multivariadas

  1. El desarrollo de \(p\)–pruebas univariadas incrementa la tasa de error Tipo I, mientras que con las pruebas multivariadas ésta se mantiene.

  2. Las pruebas univariadas no consideran la posible correlación existente entre las variables, en contraposición, las pruebas multivariadas emplean esta información contenida en la matriz de covarianza.

  3. En la mayoría de los casos las pruebas multivariadas han mostrado ser más potentes que las univaridas. Esto se debe a que los pequeños efectos de algunas variables se combinan conjuntamente.

  4. Muchas pruebas multivariadas involucran medias de combinaciones lineales de variables, las cuales pueden resultar más reveladoras de la forma como las variables “se unen” para rechazar la hipótesis.

1. Prueba de hipótesis para un vector de medias

La prueba de hipótesis se plantearía como: \[\begin{align*} H_0: \mu & = \mu_0 \end{align*}\] donde \(\mu_0\) es un vector específico. Para esta prueba, existen dos posibilidades: que la matriz de covarianza \(\Sigma\) sea conocida o desconocida.

Matriz de covarianza conocida

Para este primer caso, como se mencionó en la tercera propiedad de los estimadores, se tiene que: \[ n(\overline{\bf x}-\mu)^t \Sigma^{-1} (\overline{\bf x}-\mu) \sim \chi_p^2 \] La expresión a la izquierda es la distancia de Mahalanobis o medida de discrepancia entre el vector de medias muestral y el vector de medias poblacional. Por lo tanto, se usa como región de rechazo el conjunto de puntos tales que: \[ \chi_0^2 \geq \chi_{(1-\alpha,p)}^2 \] donde \(\chi_0^2\) es el estadístico de prueba y \(\chi_{(1-\alpha,p)}^2\) es el valor crítico.

Matriz de covarianza desconocida

En la mayoría de las situaciones prácticas, rara vez se conoce la matriz de covarianza. Es decir, esta matriz es desconocida.

En una población normal univariada, el problema de verificar si la media es igual a cierto valor específico, cuando se desconoce la varianza, se realiza con ayuda de la variable aleatoria: \[ t_{n-1} = \dfrac{\overline{x}-\mu_0}{s/\sqrt{n}} \] la cual tiene una distribución \(t\)-Student con \(n-1\) grados de libertad. Una expresión análoga se obtiene en el campo multivariado, ésta se conoce como estadístico \(T^2\) de Hotelling: \[ T^2=n(\overline{\bf x}-\mu_0)^t S^{-1} (\overline{\bf x}-\mu_0) \] donde \(S\) es la matriz de covarianza muestral.

Así como se muestra que la estadística univariada \(t\)-Student es un caso especial de la distribución \(F\) a través de la relación: \[ t^2_{(n)}= F_{(1,n)} \] la distribución del estadístico \(T^2\) de Hotelling se relaciona con la \(F\) de la siguiente manera: \[ \dfrac{n-p}{p(n-1)}T^2 \sim F(p,n-p) \]

Ejemplo 1:

En la siguiente tabla se registra la estatura \(x_1\) (en pulgadas) y el peso \(x_2\) (en libras) para una muestra de \(20\) estudiantes de secundaria. Se asume que esta muestra es generada en una población normal bivariada \(N_2(\mu,\Sigma)\), donde: \[ \Sigma = \begin{pmatrix} 20 & 100 \\ 100 & 1000 \\ \end{pmatrix} \] Supongamos que se quiere verificar la hipótesis que la estatura media es \(70\) y el peso medio es \(170\). Es decir: \[\begin{align*} H_0 : \mu & = (70, 170) \\ H_a : \mu & \not = (70,170) \end{align*}\]

Estudiante Estatura \((x_1)\) Peso \((x_2)\) Estudiante Estatura \((x_1)\) Peso \((x_2)\)
1 69 153 11 72 140
2 74 175 12 79 265
3 68 155 13 74 185
4 70 135 14 67 112
5 72 172 15 66 140
6 67 150 16 71 150
7 66 115 17 74 165
8 70 137 18 75 185
9 76 200 19 75 210
10 68 130 20 76 220

Desarrollemos la prueba con ayuda de R.

# Información del problema
n        <- 20
Estatura <- c(69,74,68,70,72,67,66,70,76,68,72,79,74,67,66,71,74,75,75,76)
Peso     <- c(153,175,155,135,172,150,115,137,200,130,140,265,185,112,140,150,165,185,210,220)
# Datos
data <- cbind(Estatura,Peso)
# Matriz de covarianza
Sigma <- matrix(c(20,100,100,1000),ncol=2)
# Vector de medias específico a probar
mu0   <- as.vector(c(70,170))

Calculamos el vector de medias muestrales:

# Vector de medias
xbar  <- as.vector(apply(data,2,mean))
xbar
## [1]  71.45 164.70

Calculamos el estadístico de prueba:

X0   <- n*t((xbar-mu0)) %*% solve(Sigma) %*% (xbar-mu0)
round(X0,2)
##      [,1]
## [1,]  8.4

Suponiendo \(\alpha=0.05\), calculamos el valor crítico:

a     <- 0.05
Xc    <- qchisq(1-a,2)
round(Xc,2)
## [1] 5.99

Ahora, como \(\chi_0^2=8.4 \geq \chi_c^2=5.99\), rechazamos la hipótesis nula.

Si quisieramos concluir la prueba por medio del \(p\)-value, sería:

p_value <- 1-pchisq(X0,2)
p_value
##           [,1]
## [1,] 0.0149761

Como \(\alpha>p-vale\), conseguimos la misma conclusión.

En la siguiente figura se muestra la región de rechazo. Si \(\overline{\bf x}\) se ubica dentro de la elipse, \(H_0\) no se rechazaría. Es decir, la distancia de Mahalanobis tiene en cuenta tanto la distancia a \(\mu_0\) como la dirección de ubicación. Esto debido a la influencia de la correlación entre las variables.

Si se trabajaran las pruebas para cada parámetro por separado, tendriamos: \[ H_{01} : \mu_1 = 70 \quad \text{y} \quad H_{02} : \mu_2 = 170 \] Se trabaja con el valor crítico \(z_{\alpha/2}=1.96\). Las pruebas estadística univariadas serían: \[\begin{align*} z_1 & = \dfrac{\overline{x}_1-\mu_{01}}{\sigma_1/\sqrt{n}} = \dfrac{71.45-70}{\sqrt{20}/\sqrt{20}} = 1.45 < 1.96 \\ z_2 & = \dfrac{\overline{x}_2-\mu_{02}}{\sigma_2/\sqrt{n}} = \dfrac{164.5-170}{\sqrt{1000}/\sqrt{20}} = -0.75 > -1.96 \end{align*}\]

De esta manera, en los dos casos no se rechazarían las respectivas hipótesis nulas. Es decir, ninguna de las medias muestrales, \(\overline{x}_1\) y \(\overline{x}_2\), están suficientemente alejada del valor supuesto como para provocar su rechazo.

La discrepancia en resultados se puede explicar debido a la alta correlación positivista entre las variables que no se tiene en cuenta en las pruebas univariadas.

r   <- cor(Estatura,Peso)
round(r,2)
## [1] 0.89

Esto se expuso en la tercera ventaja de las pruebas multivariadas.

Ejemplo 2:

Un proceso industrial fabrica elementos cuyas características de calidad se miden por un vector de tres variables. Cuando el proceso está en estado de control, los valores medios de las variables deben ser \((12, 4, 2)\). Para comprobar si el proceso funciona adecuadamente, se toma una muestra de \(20\) elementos y se miden las tres características, encontrando que: \[ \overline{\bf x}= (11.5,4.3,1.2) \] y \[ S = \begin{pmatrix} 10 & 4 & -5 \\ 4 & 12 & -3 \\ -5 & -3 & 4 \end{pmatrix} \]

Desarrollemos la prueba con ayuda de R.

# Información del problema
n        <- 20
p        <- 3
# Vector de medias específico a probar
mu0   <- as.vector(c(12,4,2))
# Vector de medias muestral
xbar  <- as.vector(c(11.5,4.3,1.2))
# Matriz de covarianza muestral
S <- matrix(c(10,4,-5,4,12,-3,-5,-3,4),ncol=3)

Calculamos el estadístico de prueba:

T0   <- n*t((xbar-mu0)) %*% solve(S) %*% (xbar-mu0)
F0   <- ((n-p)/(p*(n-1)))*T0
round(F0,2)
##      [,1]
## [1,] 4.56

Suponiendo que \(\alpha=0.03\), calculamos el valor crítico:

a     <- 0.03
Fc    <- qf(1-a,p,n-p)
round(Fc,2)
## [1] 3.79

Como \(F_0=4.56 \geq Fc=3.79\), rechazamos la hipótesis nula. Es decir, se considera que el proceso no esta en estado de control.

Si queremos concluir la prueba por medio del \(p\)-value, debemos calcularlo:

p_value <- 1-pf(F0,p,n-p)
p_value
##            [,1]
## [1,] 0.01613019

Como \(\alpha>p-vale\), conseguimos la misma conclusión. Para entender un poco mejor esta conclusión, podríamos analizar la matriz de covarianza. Observemos que la covarianza entre la primera y la tercera variable es negativa. Esto quiere decir que si observamos un valor por debajo de la media de la primera variable, esperamos que aparezca un valor por encima de la media en la tercera variable. En la muestra ocurre lo contrario y esto contribuye a sugerir un desplazamiento de la media del proceso.

2. Prueba de hipótesis de diferencia de vectores de medias

Para el caso de dos poblaciones \(p\)–dimensionales normales e independientes, con vectores de medias \(\mu_1\) y \(\mu_2\) respectivamente, donde se considera el problema de contrastar la hipótesis: \[ H_0: \mu_1=\mu_2, \quad \text{equivalente a} \quad H_0: \mu_1-\mu_2=0 \] Para esta prueba, existen cuatro posibilidades: que las matrices de covarianza sean conocidas o desconocidas y a su vez, se pueden suponer iguales o diferentes. Trabajaremos dos casos de estos cuatro.

Matrices de covarianza iguales y conocidas

Supongamos que tenemos dos muestras aleatorias independientes con matrices de covarianza iguales y conocidas, \(\Sigma_1=\Sigma_2=\Sigma\) conocida. Por lo tanto, como vimos en la propiedad 2, se tiene que \(\overline{\bf x}_1 \sim N_p \left(\mu_1,\frac{1}{n_1} \Sigma \right)\) y \(\overline{\bf x}_2 \sim N_p \left(\mu_2,\frac{1}{n_2} \Sigma \right)\). Además, por propiedades de la normal, se tiene que: \[ \overline{\bf x}_1-\overline{\bf x}_2 \sim N_p\left(\mu_1-\mu_2,\dfrac{n_1+n_2}{n_1n_2}\Sigma\right) \] La región de rechazo es determinada por: \[ \chi_0^2 = \dfrac{n_1n_2}{n_1+n_2}\left(\overline{\bf x}_1-\overline{\bf x}_2\right)^t \Sigma^{-1} \left(\overline{\bf x}_1-\overline{\bf x}_2\right) \geq \chi_{(1-\alpha,p)}^2 \]

Matrices de covarianza desconocidas, asumiendo igualdad

Supongamos que tenemos dos muestras aleatorias independientes con matrices de covarianza desconocidas, pero asumimos su igualdad. (Esta suposición se podría desarrollar como una prueba aparte sobre igualdad de matrices de covarianza que se trabajará en el próximo módulo) Entonces la matriz de covarianza \(\Sigma\), se estima en forma conjunta con las matrices de covarianza muestrales; así: \[ S_p = \dfrac{(n_1-1)S_2+(n_2-1)S_2}{n_1+n_2-2} \] El estadístico, \[ T^2 = \dfrac{n_1n_2}{n_1+n_2}\left(\overline{\bf x}_1-\overline{\bf x}_2\right)^t S_p^{-1} \left(\overline{\bf x}_1-\overline{\bf x}_2\right) \] se distribuye \(T^2\) de Hotelling, con \(p\) y \(n_1+n_2-2\) grados de libertad.

Ejemplo 3:

Cuatro pruebas psicológicas fueron aplicadas sobre 32 hombres y 32 mujeres. Las variables a considerar son: \(x_1\): nconsistencias pictóricas, \(x_2\): reconocimiento de herramientas, \(x_3\): forma de emplear el papel, \(x_4\): vocabulario.

Se asume que cada grupo de personas es una muestra aleatoria de una población multivariada, con distribución normal con matriz de covarianza \(\Sigma\), desconocida pero asumiendo igualdad, para las dos poblaciones. El experimento se llevó a cabo de tal forma que las poblaciones (hombres y mujeres) resultaran independientes. El interés se dirige a contrastar la hipótesis: “mujeres y hombres tienen respuestas, en promedio, igual con respecto a cada uno de los cuatro atributos considerados”. Es decir: \[ H_0: \mu_1=\mu_2 \] Los respectivos vectores de medias y matrices de covarianza son: \[\begin{align*} \bar{X}_1 &= \begin{pmatrix} 15.97 \\ 15.91 \\ 27.19 \\ 22.75 \end{pmatrix} & S_1 &= \begin{pmatrix} 5.192 & 4.545 & 6.522 & 5.250 \\ 4.545 & 13.18 & 6.760 & 6.266 \\ 6.522 & 6.760 & 28.67 & 14.47 \\ 5.250 & 6.266 & 14.47 & 16.65 \end{pmatrix} \\ \bar{X}_2 &= \begin{pmatrix} 12.34 \\ 13.91 \\ 16.59 \\ 21.94 \end{pmatrix} & S_2 &= \begin{pmatrix} 9.136 & 7.549 & 5.531 & 4.151 \\ 7.549 & 18.60 & 5.446 & 5.446 \\ 5.531 & 5.446 & 13.55 & 13.55 \\ 4.151 & 5.446 & 13.55 & 28.00 \end{pmatrix} \end{align*}\]

Desarrollemos la prueba en R:

# Información
n1     <- 32
n2     <- 32
p      <- 4
# Vectores de medias muestrales
xbar1    <- as.vector(c(15.97,15.91,27.19,22.75))
xbar2    <- as.vector(c(12.34,13.91,16.59,21.94))
# Matrices de covarianza muestrales
S1     <- matrix(c(
          5.192, 4.545, 6.522, 5.250,
          4.545, 13.18, 6.760, 6.266,
          6.522, 6.760, 28.67, 14.47,
          5.250, 6.266, 14.47, 16.65), 
          nrow = 4, byrow = TRUE)
S2     <- matrix(c(
          9.136, 7.549, 5.531, 4.151,
          7.549, 18.60, 5.446, 5.446,
          5.531, 5.446, 13.55, 13.55,
          4.151, 5.446, 13.55, 28.00), 
          nrow = 4, byrow = TRUE)

Calculamos la matriz de covarianza conjunta.

Sp     <- ((n1-1)*S1 + (n2-1)*S2)/(n1+n2-2)
Sp
##        [,1]   [,2]    [,3]    [,4]
## [1,] 7.1640  6.047  6.0265  4.7005
## [2,] 6.0470 15.890  6.1030  5.8560
## [3,] 6.0265  6.103 21.1100 14.0100
## [4,] 4.7005  5.856 14.0100 22.3250

El estadístico es:

dif    <- xbar1 - xbar2
T0     <-  ((n1*n2)/(n1+n2))*t(dif)%*%solve(Sp)%*%dif
T0
##          [,1]
## [1,] 136.6746

Entonces, el valor de prueba es:

F0     <- ((n1+n2-2-p)/(p*(n1+n2-2-1)))*T0
round(F0,2)
##       [,1]
## [1,] 32.49

Suponiendo que \(\alpha=0.05\), calculamos el valor crítico:

a     <- 0.05
Fc    <- qf(1-a,p,(n1+n2-2-p))
round(Fc,2)
## [1] 2.53

Como \(F_0=32.49 \geq Fc=2.53\), rechazamos la hipótesis nula. Es decir, podemos concluir que mujeres y hombres tienen respuestas, en promedio, diferentes con respecto a cada uno de los cuatro atributos considerados.

Ejercicios:

  1. Se tiene la matriz de datos: \[ X = \begin{pmatrix} 6 & 9 \\ 10 & 6 \\ 8 & 3 \\ \end{pmatrix} \] Pruebe si el vector de medias muestrales igual al vector \(\mu_0=(9,5)\), usando el nivel de significancia \(\alpha=0.01\).

  2. Se tiene la matriz de datos: \[ X = \begin{pmatrix} 2 & 12 \\ 8 & 9 \\ 6 & 9 \\ 8 & 10 \\ \end{pmatrix} \] Pruebe si el vector de medias muestrales igual al vector \(\mu_0=(7,11)\), usando el nivel de significancia \(\alpha=0.03\).

  3. Se analizó la transpiración de 20 mujeres saludables. Se midieron tres componentes: \(x_1\): tasa de sudoración, \(x_2\): contenido de sodio y \(x_3\): contenido de potasio, y los resultados, se presentan continuación.

Individuo \(x_1\) \(x_2\) \(x_3\)
1 3.7 48.5 9.3
2 5.7 65.1 8
3 3.8 47.2 10.9
4 3.2 53.2 12
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4

Pruebe si el vector de medias es igual a \(\mu_0=(4,50,10)\), con un nivel de significancia \(\alpha=0.03\).

  1. Tenemos una muestra de 15 mujeres y 12 hombres. En la tabla siguiente se presenta la media de los valores de las diferentes variables medidas.
Total est pes pie lbr aes dcr lrt
Mujeres 168.78 63.89 38.98 73.46 45.85 57.24 43.09
hombres 177.58 74.25 41.67 77.75 49.00 58.00 45.62

Las matrices de covarianza son: \[ S_M = \begin{pmatrix} 37.64 & & & & & & \\ 22.10 & 80.4 & & & & & \\ 6.38 & 7.36 & 1.92 & & & & \\ 15.65 & 12.94& 3.06 & 7.41 & & & \\ 9.49 & 14.39& 1.49 & 3.99 & 9.42 & & \\ 2.75 & 7.20 & 0.76 & 1.17 & 2.559& 2.94 &\\ 9.02 & 9.31 & 1.98 & 4.53 & 1.12 & 0.95 & 3.78 \end{pmatrix} \] y \[ S_H = \begin{pmatrix} 45.53 & & & & & & \\ 48.84 & 74.20 & & & & & \\ 9.48 & 9.63 & 2.79 & & & & \\ 14.34 & 19.34& 2.09 & 12.57 & & & \\ 14.86 & 19.77& 3.23 & 6.18 & 6.77 & & \\ 9.45 & 9.90 & 1.86 & 2.36 & 3.02 & 3.13 &\\ 8.92 & 5.23 & 2.31 & 1.21 & 1.84 & 2.63 & 6.14 \end{pmatrix} \]

Pruebe si existen diferencias detectables entre las dos muestras, con un nivel de significancia \(\alpha=0.06\).

\[ \]