Dadas p variables aleatorias usuales \(X_1, X_2,\ldots, X_p\) se entenderá por variable aleatoria p-variada o vector aleatorio p-dimensional al vector columna \({\boldsymbol{X}}=(X_1,X_2,\ldots,X_p)'\).
En primer lugar aquella en la cual todas las componentes \(X_i\) del vector son variables de tipo numérico y en segundo lugar, aquella en la cual todas las componentes son variables categóricas.
El valor esperado de \({\boldsymbol{X}}\), notado \(E({\boldsymbol{X}})\), es el vector esperados de cada una de las variables aleatorias, así: \[ {\boldsymbol{\mu}}=E({\boldsymbol{X}})=\begin{bmatrix} E(X_1)\\E(X_2)\\\vdots\\ E(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\ \mu_p \end{bmatrix}. \] La matriz de varianzas y covarianzas de \({\boldsymbol{X}}\), en adelante matriz de covarianzas, la cual se nota \(\text{Cov}({\boldsymbol{X}}) =\text{Var}({\boldsymbol{X}})=\Sigma\), está dada por: \[ {\boldsymbol{\Sigma}}=\text{Cov}({\boldsymbol{X}})=E({\boldsymbol{X}}{\boldsymbol{X}}')-{\boldsymbol{\mu}}{\boldsymbol{\mu}}' \] Propiedades
Una alternativa es usar la matriz de correlación, en la cual sus entradas son adimensionales, pues está definida como \[ R=\text{diag}({\boldsymbol{\Sigma}})^{-1/2}{\boldsymbol{\Sigma}}\text{diag}({\boldsymbol{\Sigma}})^{-1/2} \]
Sea \(x_{ij}\) la observación del \(i\)-ésimo individuo. la \(j\)-ésima variable. Se define la matriz de datos multivariados \(\mathbb{X}\) como \[ \mathbb{X}=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np}\\ \end{bmatrix} \]
La matriz \(\mathbb{X}\) también puede definirse como el arreglo de vectores fila o vectores columna. E \(i\)-ésimo vector se nota por \({\boldsymbol{X}}_{(i)}\) y el \(j\)-ésimo vector columna se nota por \({\boldsymbol{X}}^{(j)}\).
Se define la media muestral de la \(j\)-ésima variable por \[ \bar{x}_j=\frac{1}{n}\sum_{i=1}^nx_{ij},\quad\text{ con } i=1,2,\ldots,p. \] El vector formado por las \(p\) medias muestrales es el vector de promedios o de medias. \[ \bar{{\boldsymbol{X}}}'=\frac{1}{n}{\boldsymbol{1}}'\mathbb{X}=(\bar{x}_1,\bar{x}_2,\ldots,\bar{x}_p) \] donde \({\boldsymbol{1}}\) es el vector columna de \(n\) unos.
Se define la covarianzas muestral entre la variable columna \(j\) y la variable columna \(k\) como: \[ s_{jk}=\frac{1}{n-1}\sum_{i=1}^n(x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k)\quad\text{ para }\quad j=1,2,\ldots,p; k=1,2,\ldots,p \] La matriz constituida por las covarianzas \(s_{ij}\), es la matriz de covarianzas muestral, está es: \[ {\boldsymbol{S}}=\frac{1}{n}\mathbb{X}'\left(\text{I}_{n}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\right)\mathbb{X} \]
Es fácil probar que \[ \frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}=\begin{bmatrix} \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_p \\ \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_p\\ \vdots & \vdots & \ddots & \vdots \\ \bar{x}_1 & \bar{x}_2 & \cdots & \bar{x}_p \end{bmatrix} \] Restando el anterior resultado a \(\mathbb{X}\) tenemos la matriz de desviaciones de tamaño \(n\times p\) \[ \mathbb{X}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}= \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \\ \end{bmatrix} \]
Ahora, la matriz \((n-1){\boldsymbol{S}}\) representa la suma de cuadrados y el producto cruzado de la matriz transpuesta anterior por ella misma así
\[ \begin{aligned} (n-1){\boldsymbol{S}} &=\begin{bmatrix} x_{11}-\bar{x}_1 & x_{21}-\bar{x}_1 & \cdots & x_{n1}-\bar{x}_1 \\ x_{12}-\bar{x}_2 & x_{22}-\bar{x}_2 & \cdots & x_{n2}-\bar{x}_2 \\ \vdots & \vdots & \ddots & \vdots \\ x_{1p}-\bar{x}_p & x_{2p}-\bar{x}_p & \cdots & x_{np}-\bar{x}_p \\ \end{bmatrix} \begin{bmatrix} x_{11}-\bar{x}_1 & x_{12}-\bar{x}_2 & \cdots & x_{1p}-\bar{x}_p \\ x_{21}-\bar{x}_1 & x_{22}-\bar{x}_2 & \cdots & x_{2p}-\bar{x}_p \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}-\bar{x}_1 & x_{n2}-\bar{x}_2 & \cdots & x_{np}-\bar{x}_p \\ \end{bmatrix}\\ &=\left(\mathbb{X}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}\right)'\left(\mathbb{X}-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\mathbb{X}\right)\\ &=\mathbb{X}'\left({\boldsymbol{I}}_n-\frac{1}{n}{\boldsymbol{1}}{\boldsymbol{1}}'\right)\mathbb{X} \end{aligned} \]
En algunas circunstancias se necesita disponer de un solo número que señale la dispersión de los datos multivariados; la varianza generalizada y la variabilidad total son dos de tales parámetros.
La varianza total se define como la traza de la matriz \({\boldsymbol{S}}\)., y se nota \[ VT=\text{tr}({\boldsymbol{S}})=\sum_{j=1}^ps_j^2. \] La variación total es de interés para el análisis de componentes principales y análisis factorial. El problema con la variación total es que no toma en cuenta las correlaciones entre las variables.
La varianza generalizada se define como el determinante de la matriz \({\boldsymbol{s}}\), y se nota \[ VG=|{\boldsymbol{S}}|. \] Esta es una medida que expresa mejor la variabilidad global.
Está bien definida, ya que el terminante de la matriz de varianzas y covarianzas es siempre no negativo.
Es una media del área (para \(p=2\)), volumen (para \(p=3\)) o hipervolumen (para \(p>3\)) ocupado por el conjunto de datos.
También a partir de la matriz \({\boldsymbol{S}}\) se puede obtener la matriz de correlación \({\boldsymbol{R}}\), cuyos elementos son los coeficientes de correlación lineal entre cada par de variables. Cada elemento \(\text{Cor}(X_j,X_k)=r_{ji}\) de \({\boldsymbol{R}}\) es de la forma \[ r_{jk}=\frac{s_{jk}}{\sqrt{s_{jj}s_{kk}}}, \] Así la matriz de correlación se obtiene como \[ {\boldsymbol{R}}={\boldsymbol{D}}^{-1/2}{\boldsymbol{S}}{\boldsymbol{D}}^{-1/2} \] donde \({\boldsymbol{D}}^{-1/2}\) es la matriz diagonal con los inversos de las desviaciones estándar sobre la diagonal; es decir, \({\boldsymbol{D}}^{-1/2}=\text{diag}(1/s_j)\).
Se obtuvo una selección de cuatro recibos de una librería universitaria para investigar la naturaleza de las ventas de libros. Cada recibo entregó, entre otras cosas, el número de libros vendidos y el monto total de cada venta. Sea la primera variable las ventas totales (\(X_1\)) en dólares y la segunda sea el número de libros vendidos (\(X_2\)). \[ \mathbb{X}=\begin{bmatrix} 42 & 4 \\ 52 & 5 \\ 48 & 4 \\ 58 & 3 \\ \end{bmatrix} \]
Calcule el vector de medias, la matriz de varianzas y la matriz de correlaciones utilizando las funciones descritas anteriormente.
También la varianza total y la varianza generalizada.
Dados dos puntos (objetos) de \(\mathbb{R}^p\), \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\), se define una distancia o métrica, entre ellos si hemos definido una función \(d\) que cumpla las siguientes propiedades:
\(d:\mathbb{R}^p\times\mathbb{R}^p\rightarrow\mathbb{R}^+\), es decir, dados dos puntos en el espacio de dimensión \(p\) su distancia con esta función es un número no negativo, \(d_{h,i}\geq 0\).
\(d_{i,i}= 0\), \(\forall i\), la distancia entre un elemento y el mismo es cero.
\(d_{i,h}=d_{h,i}\), la distancia es una función simétrica en sus argumentos.
\(d_{i,h}\leq d_{i,j} + d_{j,h}\), la distancia debe cumplir la desigualdad triangular.
Dados dos puntos (objetos) de \(\mathbb{R}^p\), \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\), se define la distancia euclidiana como el número \[ d_{h,i}=\left(\sum_{j=1}^p (x_{hj}-x_{ij})^2\right)^{1/2} \]
Otra forma de describir lo anterior de manera matricial es la siguiente \[ d_{h,i}=\left[\left({\boldsymbol{X}}_h-{\boldsymbol{X}}_i\right)'\left({\boldsymbol{X}}_h-{\boldsymbol{X}}_i\right)\right]^{1/2} \]
Sea \(x\) la estatura de una persona en metros e \(y\) su peso en kilogramos. Compare la distancia entre tres personas: \(A(1.8,80)\), \(B(1.7,72)\) y \(C(1.65,81)\).
La distancia euclidiana depende mucho de las unidades de medida, y cuando no existe una unidad fija natural, no está justificado utilizarla. Además, muchas veces las variables tienden a estar correlacionadas, cosa que no se tiene en cuenta en la anterior distancia.
La distancia de Mahalanobis entre los objetos \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\) se define mediante la siguiente forma cuadrática \[ D_{h,i}^2=({\boldsymbol{X}}_h-{\boldsymbol{X}}_i)'{\boldsymbol{S}}^{-1}({\boldsymbol{X}}_h-{\boldsymbol{X}}_i) \]
Del ejemplo anterior, suponga que las desviaciones estándar de las variables altura y peso son 10 cm y 10 kg y el coeficiente de correlación es de 0.7.
La distancia de Mahalanobis es usada frecuentemente para medir la distancia entre una observación multivariada (individuo) y el centro de la población de donde procede la observación. Si \({\boldsymbol{X}}_i=(x_{i1},\ldots,x_{ip})'\) representa un individuo partícula, seleccionando aleatoriamente de una población con centro \({\boldsymbol{\mu}}=(\mu_1,\ldots,\mu_p)'\) y matriz de covarianzas \({\boldsymbol{\Sigma}}\), entonces, \[ D^2_i=({\boldsymbol{X}}_i-{\boldsymbol{\mu}})'{\boldsymbol{\Sigma}}^{-1}({\boldsymbol{X}}_i-{\boldsymbol{\mu}}) \] se considera como una medida de la distancia entre el individuo y el centroide de la población.
Del ejemplo anterior, encuentre la distancia de mahalanobis de cada individuo con respecto al vector de medias \({\boldsymbol{\mu}}=(1.72,67)'\)
La distribución ji-cuadrado se presenta asociada con la distancia de Mahalanobis. Si se considera n vector aleatorio conformado por \(p\) variables aleatorias normales e independientes; es decir, \({\boldsymbol{X}}=(X_1,\ldots,X_p)'\), con \(X_j\sim N(\mu_j,\sigma_j^2)\) para \(j=1,\ldots,p\), entonces, la distancia estandarizada viene dada por: \[ ({\boldsymbol{X}}-{\boldsymbol{\mu}})'{\boldsymbol{D}}^{-1}({\boldsymbol{X}}-{\boldsymbol{\mu}})=\sum_{j=1}^p\left(\frac{X_j-\mu_j}{\sigma}\right)^2=\sum_{j=1}^p Z_j^2\sim\chi^2_{(p)} \]
donde \(Z_j\sim N(0,1)\) y \(D=\text{diag}(\sigma_j^2)\).
La distancia de Minkowski entre un par de objetos \({\boldsymbol{X}}_h=(x_{h1},\ldots, x_{hp})\) y \({\boldsymbol{X}}_i=(x_{i1},\ldots, x_{ip})\) se define por: \[ d_{h,i}=\left(\sum_{j=1}^p|x_{hj}-x_{ij}|^r\right)^{1/r} \]
donde \(d_{h,i}\) denota la distancia entre el objeto \(h\) y el objeto \(i\).
Frecuentemente ocurre que un número de entradas en la matriz de datos son vacíos o faltantes, lo cual produce observaciones o registros incompletos. Por ejemplo,
En un laboratorio puede ocurrir un accidente el cual produce información incompleta sobre algunas unidades experimentales.
Ante una encuenta una persona muede negarse a dar cierta informacion.
En el proceso de captura por medio magnético de la información se pueden cometer errores de omisión.
Una alternativa es la estimación de las observaciones faltantes (“llenar huecos”); este proceso se le llama imputación.
Existen varias técnicas de imputación propuestas en los últimos años. La más simple es reemplazar un valor faltante por el promedio de los valores presetntes en la variable correspondiente.
Otro método de estimación consta de una serie de regresiones múltiples en la cual cada variable que tenga valores faltantes se trata como la variable dependiente y las demás como variables regresoreas o explicativas, emulando empíricamente el algoritmo EM. El procedimiento se desarrolla así:
La matriz de datos se particiona en dos, una parte contiene todas las filas u observaciones que tienen entradas faltantes y la otra contiene las observaciones que están completas. Supóngase que \(x_{ij}\), que corresponde al datos del individuo \(i\) en la variable \(j\), es una datos faltante. Entonces. empleado la matriz de observaciones completas, la variable \(X_j\) es regresada sobres las otras variables para obtener el siguiente modelo de prediccción: \[ \hat{X}_j=b_0 + b_1X_1 + \cdots + b_{j-1}X_{j-1} + b_{j+1}X_{j+1}+ \cdots + b_pX_p \] Las observaciones faltantes de la \(i\)-ésima fila son reemplazadas según la ecuación anterior para obtener el valor de predicción \(\hat{x}_{ij}\).
Este procedmiento se desarrolla en forma iterativa de la siguiente manera: estimar todos los datos faltantes desde la respectiva ecuación de regresión. Después de “tapar todos los huecos” usar la matriz de datos que completó para estimar nuevas ecuaciones de predicción. Con estás ecuaciones de predicción calcular nuevamtne los valores \(\hat{x}_{ij}\) para las entradas faltantes.
Usar nuevamente la matriz de datos completa en la segunda etapa para predecir los nuevos valores \(\hat{x}_{ij}\) correspondientes a los datos faltantes.
Continuar este proceso hasta que se observe una convergencia o estabilización de los valroes estimados.
A continuación se tiene una matriz de datos que tiene 4 variables y 10 observaciones, la cual tiene información faltante en las observaciones \(x_{11}\) y \(x_{23}\).
## X1 X2 X3 X4
## 1 NA 73.87 6.29 146.49
## 2 1.40 69.49 NA 142.80
## 3 1.19 53.07 4.51 118.15
## 4 1.38 66.30 6.02 138.95
## 5 1.43 64.70 6.19 138.83
## 6 0.90 53.83 3.87 114.57
## 7 1.75 63.37 5.87 133.12
## 8 1.71 75.30 8.19 159.47
## 9 1.15 74.21 6.68 148.76
## 10 1.87 70.18 7.23 146.59
Utilizando el algoritmo EM estime las observaciones eliminadas.
##
## Call:
## lm(formula = X1 ~ X2 + X3 + X4, data = datos.comp)
##
## Coefficients:
## (Intercept) X2 X3 X4
## 7.18133 0.04505 1.14595 -0.11398
##
## Call:
## lm(formula = X3 ~ X1 + X2 + X4, data = datos.comp)
##
## Coefficients:
## (Intercept) X1 X2 X4
## -6.47171 0.68970 -0.05265 0.10918
Al realizar este proceso varias veces notamos que los resultados tienden a estabilizarse
## [,1] [,2]
## [1,] 1.022297 6.426679
## [2,] 1.022536 6.418342
## [3,] 1.024399 6.417161
## [4,] 1.025599 6.416753
## [5,] 1.026296 6.416540
Y la comparar estos valores con las estimaciones de las medias notamos que los resultados son mejores
## X1 X2 X3 X4
## 1.380825 66.431319 6.127844 138.773388