Conceptos básicas de Estadística Multivariada

Alex Zambrano

alexzambrano@usantotomas.edu.co

Conceptos generales

Dadas p variables aleatorias usuales \(X_1, X_2,\ldots, X_p\) se entenderá por variable aleatoria p-variada o vector aleatorio p-dimensional al vector columna \({\boldsymbol{X}}=(X_1,X_2,\ldots,X_p)'\).

En primer lugar aquella en la cual todas las componentes \(X_i\) del vector son variables de tipo numérico y en segundo lugar, aquella en la cual todas las componentes son variables categóricas.

El valor esperado de \({\boldsymbol{X}}\), notado \(E({\boldsymbol{X}})\), es el vector esperados de cada una de las variables aleatorias, así: \[ {\boldsymbol{\mu}}=E({\boldsymbol{X}})=\begin{bmatrix} E(X_1)\\E(X_2)\\\vdots\\ E(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\ \mu_p \end{bmatrix}. \] La matriz de varianzas y covarianzas de \({\boldsymbol{X}}\), en adelante matriz de covarianzas, la cual se nota \(\text{Cov}({\boldsymbol{X}}) =\text{Var}({\boldsymbol{X}})=\Sigma\), está dada por: \[ {\boldsymbol{\Sigma}}=\text{Cov}({\boldsymbol{X}})=E({\boldsymbol{X}}{\boldsymbol{X}}')-{\boldsymbol{\mu}}{\boldsymbol{\mu}}' \] Propiedades

  1. La matriz \({\boldsymbol{\Sigma}}\) es simétrica; es decir, \({\boldsymbol{\Sigma}}'={\boldsymbol{\Sigma}}\), puesto que \(\sigma_{ij}=\sigma_{ji}\).
  2. Los elementos de la diagonal de \({\boldsymbol{\Sigma}}\) corresponden a la varianza de loas respectivas variables \(\sigma_{ij}=\sigma_i^2\).
  3. Toda matriz de covarianzas es definida no negativa (\(|{\boldsymbol{\Sigma}}|\geq0\)). Y es definida positiva, cuando el vector aleatorio se continuo.
  4. Si \(E({\boldsymbol{X}})={\boldsymbol{\mu}}\) y \(\text{Cov}({\boldsymbol{X}})={\boldsymbol{\Sigma}}\), entonces: \[ E({\boldsymbol{A}}{\boldsymbol{X}}+{\boldsymbol{b}})={\boldsymbol{A}}{\boldsymbol{\mu}}+{\boldsymbol{b}}\quad\text{ y }\quad\text{Cov}({\boldsymbol{A}}{\boldsymbol{X}}+{\boldsymbol{b}})={\boldsymbol{A}}{\boldsymbol{\Sigma}}{\boldsymbol{A}}' \] con \({\boldsymbol{A}}_{q\times p}\) matriz de constantes y \({\boldsymbol{b}}_{q\times 1}\) también de constantes.

Una alternativa es usar la matriz de correlación, en la cual sus entradas son adimensionales, pues está definida como \[ R=\text{diag}({\boldsymbol{\Sigma}})^{-1/2}{\boldsymbol{\Sigma}}\text{diag}({\boldsymbol{\Sigma}})^{-1/2} \]

Sea \(x_{ij}\) la observación del \(i\)-ésimo individuo. la \(j\)-ésima variable. Se define la matriz de datos multivariados \(\mathbb{X}\) como \[ \mathbb{X}=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np}\\ \end{bmatrix} \]

La matriz \(\mathbb{X}\) también puede definirse como el arreglo de vectores fila o vectores columna. E \(i\)-ésimo vector se nota por \({\boldsymbol{X}}_{(i)}\) y el \(j\)-ésimo vector columna se nota por \({\boldsymbol{X}}^{(j)}\).

Se define la media muestral de la \(j\)-ésima variable por \[ \bar{x}_j=\frac{1}{n}\sum_{i=1}^nx_{ij},\quad\text{ con } i=1,2,\ldots,p. \] El vector formado por las \(p\) medias muestrales es el vector de promedios o de medias. \[ \bar{{\boldsymbol{X}}}'=\frac{1}{n}{\boldsymbol{1}}'\mathbb{X}=(\bar{x}_1,\bar{x}_2,\ldots,\bar{x}_p) \] donde \({\boldsymbol{1}}\) es el vector columna de \(n\) unos.

Se define la covarianzas muestral entre la variable columna \(j\) y la variable columna \(k\) como: \[ s_{jk}=\frac{1}{n-1}\sum_{i=1}^n(x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k)\quad\text{ para }\quad j=1,2,\ldots,p; k=1,2,\ldots,p \] La matriz constituida por las covarianzas \(s_{ij}\), es la matriz de covarianzas muestral, está es: \[ {\boldsymbol{S}}=\frac{1}{n}\mathbb{X}'\left(\text{I}_{n}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\right)\mathbb{X} \]

Demostración

Es fácil probar que \[ \frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}=\begin{bmatrix} \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_p \\ \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_p\\ \vdots & \vdots & \ddots & \vdots \\ \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_p \end{bmatrix} \] Restando el anterior resultado a \(\mathbb{X}\) tenemos la matriz de desviaciones de tamaño \(n\times p\) \[ \mathbb{X}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}= \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \\ \end{bmatrix} \]

Ahora, la matriz \((n-1){\boldsymbol{S}}\) representa la suma de cuadrados y el producto cruzado de la matriz transpuesta anterior por ella misma así

\[ \begin{aligned} (n-1){\boldsymbol{S}} &=\begin{bmatrix} x_{11}-\bar{x}_1 & x_{21}-\bar{x}_1 & \cdots & x_{n1}-\bar{x}_1 \\ x_{12}-\bar{x}_2 & x_{22}-\bar{x}_2 & \cdots & x_{n2}-\bar{x}_2 \\ \vdots & \vdots & \ddots & \vdots \\ x_{1p}-\bar{x}_p & x_{2p}-\bar{x}_p & \cdots & x_{np}-\bar{x}_p \\ \end{bmatrix} \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \\ \end{bmatrix}\\ &=\left(\mathbb{X}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}\right)'\left(\mathbb{X}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}\right)\\ &=\mathbb{X}'\left({\boldsymbol{I}}_n-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\right)\mathbb{X} \end{aligned} \]

En algunas circunstancias se necesita disponer de un solo número que señale la dispersión de los datos multivariados; la varianza generalizada y la variabilidad total son dos de tales parámetros.

La varianza total se define como la traza de la matriz \({\boldsymbol{S}}\)., y se nota \[ VT=\text{tr}({\boldsymbol{S}})=\sum_{j=1}^ps_j^2. \] La variación total es de interés para el análisis de componentes principales y análisis factorial. El problema con la variación total es que no toma en cuenta las correlaciones entre las variables.

La varianza generalizada se define como el determinante de la matriz \({\boldsymbol{s}}\), y se nota \[ VG=|{\boldsymbol{S}}|. \] Esta es una medida que expresa mejor la variabilidad global.

También a partir de la matriz \({\boldsymbol{S}}\) se puede obtener la matriz de correlación \({\boldsymbol{R}}\), cuyos elementos son los coeficientes de correlación lineal entre cada par de variables. Cada elemento \(\text{Cor}(X_j,X_k)=r_{ji}\) de \({\boldsymbol{R}}\) es de la forma \[ r_{jk}=\frac{s_{jk}}{\sqrt{s_{jj}s_{kk}}}, \] Así la matriz de correlación se obtiene como \[ {\boldsymbol{R}}={\boldsymbol{D}}^{-1/2}{\boldsymbol{S}}{\boldsymbol{D}}^{-1/2} \] donde \({\boldsymbol{D}}^{-1/2}\) es la matriz diagonal con los inversos de las desviaciones estándar sobre la diagonal; es decir, \({\boldsymbol{D}}^{-1/2}=\text{diag}(1/s_j)\).

Ejemplo

Se obtuvo una selección de cuatro recibos de una librería universitaria para investigar la naturaleza de las ventas de libros. Cada recibo entregó, entre otras cosas, el número de libros vendidos y el monto total de cada venta. Sea la primera variable las ventas totales (\(X_1\)) en dólares y la segunda sea el número de libros vendidos (\(X_2\)). \[ \mathbb{X}=\begin{bmatrix} 42 & 4 \\ 52 & 5 \\ 48 & 4 \\ 58 & 3 \\ \end{bmatrix} \]

Calcule el vector de medias, la matriz de varianzas y la matriz de correlaciones utilizando las funciones descritas anteriormente.

También la varianza total y la varianza generalizada.

Distancias

Dados dos puntos (objetos) de \(\mathbb{R}^p\), \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\), se define una distancia o métrica, entre ellos si hemos definido una función \(d\) que cumpla las siguientes propiedades:

  1. \(d:\mathbb{R}^p\times\mathbb{R}^p\rightarrow\mathbb{R}^+\), es decir, dados dos puntos en el espacio de dimensión \(p\) su distancia con esta función es un número no negativo, \(d_{h,i}\geq 0\).

  2. \(d_{i,i}= 0\), \(\forall i\), la distancia entre un elemento y el mismo es cero.

  3. \(d_{i,h}=d_{h,i}\), la distancia es una función simétrica en sus argumentos.

  4. \(d_{i,h}\leq d_{i,j} + d_{j,h}\), la distancia debe cumplir la desigualdad triangular.

Distancia euclidiana

Dados dos puntos (objetos) de \(\mathbb{R}^p\), \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\), se define la distancia euclidiana como el número \[ d_{h,i}=\left(\sum_{j=1}^p (x_{hj}-x_{ij})^2\right)^{1/2} \]

Otra forma de describir lo anterior de manera matricial es la siguiente \[ d_{h,i}=\left[\left({\boldsymbol{X}}_h-{\boldsymbol{X}}_i\right)'\left({\boldsymbol{X}}_h-{\boldsymbol{X}}_i\right)\right]^{1/2} \]

Ejemplo

Sea \(x\) la estatura de una persona en metros e \(y\) su peso en kilogramos. Compare la distancia entre tres personas: \(A(1.8,80)\), \(B(1.7,72)\) y \(C(1.65,81)\).

Distancia de Mahalanobis

La distancia euclidiana depende mucho de las unidades de medida, y cuando no existe una unidad fija natural, no está justificado utilizarla. Además, muchas veces las variables tienden a estar correlacionadas, cosa que no se tiene en cuenta en la anterior distancia.

La distancia de Mahalanobis entre los objetos \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\) se define mediante la siguiente forma cuadrática \[ D_{h,i}^2=({\boldsymbol{X}}_h-{\boldsymbol{X}}_i)'{\boldsymbol{S}}^{-1}({\boldsymbol{X}}_h-{\boldsymbol{X}}_i) \]

Ejemplo

Del ejemplo anterior, suponga que las desviaciones estándar de las variables altura y peso son 10 cm y 10 kg y el coeficiente de correlación es de 0.7.

La distancia de Mahalanobis es usada frecuentemente para medir la distancia entre una observación multivariada (individuo) y el centro de la población de donde procede la observación. Si \({\boldsymbol{X}}_i=(x_{i1},\ldots,x_{ip})'\) representa un individuo partícula, seleccionando aleatoriamente de una población con centro \({\boldsymbol{\mu}}=(\mu_1,\ldots,\mu_p)'\) y matriz de covarianzas \({\boldsymbol{\Sigma}}\), entonces, \[ D^2_i=({\boldsymbol{X}}_i-{\boldsymbol{\mu}})'{\boldsymbol{\Sigma}}^{-1}({\boldsymbol{X}}_i-{\boldsymbol{\mu}}) \] se considera como una medida de la distancia entre el individuo y el centroide de la población.

Ejemplo

Del ejemplo anterior, encuentre la distancia de mahalanobis de cada individuo con respecto al vector de medias \({\boldsymbol{\mu}}=(1.72,67)'\)

La distribución ji-cuadrado se presenta asociada con la distancia de Mahalanobis. Si se considera n vector aleatorio conformado por \(p\) variables aleatorias normales e independientes; es decir, \({\boldsymbol{X}}=(X_1,\ldots,X_p)'\), con \(X_j\sim N(\mu_j,\sigma_j^2)\) para \(j=1,\ldots,p\), entonces, la distancia estandarizada viene dada por: \[ ({\boldsymbol{X}}-{\boldsymbol{\mu}})'{\boldsymbol{D}}^{-1}({\boldsymbol{X}}-{\boldsymbol{\mu}})=\sum_{j=1}^p\left(\frac{X_j-\mu_j}{\sigma}\right)^2=\sum_{j=1}^p Z_j^2\sim\chi^2_{(p)} \]

donde \(Z_j\sim N(0,1)\) y \(D=\text{diag}(\sigma_j^2)\).

Otras distancias

La distancia de Minkowski entre un par de objetos \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\) se define por: \[ d_{h,i}=\left(\sum_{j=1}^p|x_{hj}-x_{ij}|^r\right)^{1/r} \]

donde \(d_{h,i}\) denota la distancia entre el objeto \(h\) y el objeto \(i\).

Datos Faltantes

Frecuentemente ocurre que un número de entradas en la matriz de datos son vacíos o faltantes, lo cual produce observaciones o registros incompletos. Por ejemplo,

Una alternativa es la estimación de las observaciones faltantes (“llenar huecos”); este proceso se le llama imputación.

Existen varias técnicas de imputación propuestas en los últimos años. La más simple es reemplazar un valor faltante por el promedio de los valores presetntes en la variable correspondiente.

Otro método de estimación consta de una serie de regresiones múltiples en la cual cada variable que tenga valores faltantes se trata como la variable dependiente y las demás como variables regresoreas o explicativas, emulando empíricamente el algoritmo EM. El procedimiento se desarrolla así:

Ejemplo

A continuación se tiene una matriz de datos que tiene 4 variables y 10 observaciones, la cual tiene información faltante en las observaciones \(x_{11}\) y \(x_{23}\).

##      X1    X2   X3     X4
## 1    NA 73.87 6.29 146.49
## 2  1.40 69.49   NA 142.80
## 3  1.19 53.07 4.51 118.15
## 4  1.38 66.30 6.02 138.95
## 5  1.43 64.70 6.19 138.83
## 6  0.90 53.83 3.87 114.57
## 7  1.75 63.37 5.87 133.12
## 8  1.71 75.30 8.19 159.47
## 9  1.15 74.21 6.68 148.76
## 10 1.87 70.18 7.23 146.59

Utilizando el algoritmo EM estime las observaciones eliminadas.

## 
## Call:
## lm(formula = X1 ~ X2 + X3 + X4, data = datos.comp)
## 
## Coefficients:
## (Intercept)           X2           X3           X4  
##     7.18133      0.04505      1.14595     -0.11398
## 
## Call:
## lm(formula = X3 ~ X1 + X2 + X4, data = datos.comp)
## 
## Coefficients:
## (Intercept)           X1           X2           X4  
##    -6.47171      0.68970     -0.05265      0.10918

Al realizar este proceso varias veces notamos que los resultados tienden a estabilizarse

##          [,1]     [,2]
## [1,] 1.022297 6.426679
## [2,] 1.022536 6.418342
## [3,] 1.024399 6.417161
## [4,] 1.025599 6.416753
## [5,] 1.026296 6.416540

Y la comparar estos valores con las estimaciones de las medias notamos que los resultados son mejores

##         X1         X2         X3         X4 
##   1.380825  66.431319   6.127844 138.773388