El álgebra de matrices desempeña un papel fundamental en el análisis de datos multivariado, ya que proporciona herramientas matemáticas para manipular, transformar y analizar conjuntos de datos con múltiples variables. Algunos de los conceptos y técnicas clave son:
Representación de datos: los datos multivariados se pueden representar de manera eficiente utilizando matrices y vectores. Cada observación se puede considerar como un vector fila, y las variables se almacenan como columnas en una matriz. Los vectores también se utilizan para representar observaciones unidimensionales.
Transformaciones lineales: muchas técnicas de análisis multivariado involucran transformaciones lineales de los datos. Estas transformaciones se pueden expresar en términos de operaciones matriciales básicas, como la suma, resta y multiplicación.
Descomposiciones matriciales: las descomposiciones matriciales, como la descomposición en valores singulares (SVD) y la descomposición en valores propios, son herramientas esenciales en el análisis multivariado. Estas descomposiciones permiten reducir la dimensionalidad e identificar patrones.
Covarianza y Correlación: las medidas de covarianza y correlación entre variables se pueden expresar en términos de matrices y vectores. Estas matrices son fundamentales en el análisis multivariado, ya que capturan las relaciones estadísticas entre variables.
Por lo tanto, el álgebra de matrices es una herramienta esencial en el análisis de datos multivariado, ya que proporciona un marco teórico y poderoso para abordar una variedad de técnicas y conceptos en el procesamiento y la interpretación de datos con múltiples variables.
Geométricamente un dato numérico puede representarse como un punto en un espacio de dimensión uno. Ahora, si elegimos una recta con origen y dirección definidos, podemos asociar a cada punto de la recta la magnitud del segmento que une el origen con el punto. Un conjunto de \(n\) números reales puede representarse como \(n\) puntos sobre una recta, pero también, y esta representación es muy útil, puede verse como un punto en el espacio \(n\) dimensional, \((\mathbb{R}^n)\).
Existe una correspondencia entre las propiedades del conjunto de datos y las propiedades del vector asociado. La media de los datos es proporcional a la proyección del vector de datos sobre la dirección del vector constante. La desviación estándar es la distancia promedio entre el vector de datos y el vector constante. La dependencia lineal entre dos variables se mide por la covarianza. Con variables estandarizadas la covarianza se reduce al coeficiente de correlación, que es equivalente al producto escalar de dos vectores de norma unitaria.
Definiremos el vector \({\bf x}\) como el segmento orientado que une el origen de coordenadas con el punto \({\bf x}\). La dirección es importante, porque no es lo mismo el vector \({\bf x}\) que \({\bf −x}\). Con esta correspondencia, a cada punto del espacio \(\mathbb{R}^n\) le asociamos un vector. En adelante, representaremos un vector mediante \({\bf x}\), para diferenciarlo del valor \(x\), y llamaremos \(\mathbb{R}^n\) al espacio de todos los vectores de \(n\) coordenadas o componentes.
En Estadística, podemos asociar a los valores de una variable con \(n\) elementos, un vector en \(\mathbb{R}^n\), cuyo componente \(i\)-ésimo es el valor de la variable del elemento \(i\). Por ejemplo, si medimos las edades de tres personas en una clase y obtenemos los valores 20, 19 y 21 años, esta muestra se representa por el vector tridimensional
\[ {\bf x} = \begin{bmatrix} 20 \\19\\21 \end{bmatrix}, \] donde, por ejemplo 19 sería la edad del segundo sujeto. Para guardar un vector en R simplemente escribimos el siguiente código:
x <- c(20,19,21)
x
## [1] 20 19 21
cbind(x)
## x
## [1,] 20
## [2,] 19
## [3,] 21
La suma (o diferencia) de dos vectores \({\bf x}\), \({\bf y}\), ambos en \(\mathbb{R}^n\), se define como un nuevo vector con componentes iguales a la suma (diferencia) de los componentes de los sumandos:
\[ \underbrace{\begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix}}_{\bf x} + \underbrace{\begin{bmatrix} y_1 \\ \vdots \\ x_n \end{bmatrix}}_{\bf y} = \underbrace{\begin{bmatrix} x_1 + y_1 \\ \vdots \\ x_n + y_n \end{bmatrix}}_{{\bf x} +{\bf y}} \]
Un ejemplo de suma de dos vectores en R, sería:
x <- c(20, 19, 21)
y <- c(18, 25, 34)
cbind(x+y)
## [,1]
## [1,] 38
## [2,] 44
## [3,] 55
Es bastante sencillo comprobar que la suma de vectores cumple las siguientes propiedades:
La suma de dos vectores corresponde a la idea intuitiva de trasladar un vector al extremo del otro y construir la línea que va desde el origen del primero al extremo del segundo. Por ejemplo, la suma de los vectores \({\bf x}=\begin{bmatrix} 4 \\ 0 \end{bmatrix}\) e \({\bf y}=\begin{bmatrix} 6 \\ 4 \end{bmatrix}\),
\[{\bf x} +{\bf y} = \begin{bmatrix} 4 \\ 0 \end{bmatrix} + \begin{bmatrix} 6 \\ 4 \end{bmatrix} = \begin{bmatrix} 10 \\ 4 \end{bmatrix}\] se puede ver geométricamente en la siguiente figura:
La operación suma (o diferencia) de dos vectores da lugar a otro vector y estadísticamente corresponde a generar una nueva variable como resultado de la operación de las dos anteriores. Por ejemplo, si \({\bf x}\) representa el número de trabajadores hombres en una empresa e \({\bf y}\) el número de trabajadoras, la variable \({\bf x} + {\bf y}\) representa el número total de trabajadores y la variable \({\bf x} − {\bf y}\) la diferencia de trabajadores entre hombres y mujeres de la empresa.
El producto de una constante por un vector, es un nuevo vector cuyos componentes son los del vector inicial multiplicados por la constante.
\[{\bf z} = k{\bf x} = \begin{bmatrix} k x_1 \\ \vdots \\ k x_n \end{bmatrix} \] Multiplicar por una constante equivale a un cambio en las unidades de medición. Por ejemplo, si en lugar de medir el número de trabajadores en unidades (variable \({\bf x}=5400\)) lo hacemos en miles (variable \({\bf z}=5.4\)) entonces la variable \({\bf z} = {\bf x}/1000\).
Un ejemplo del producto de un vector por un escalar en R, sería:
k <- 5
x <- c(20, 19, 21)
z <- k*x
cbind(z)
## z
## [1,] 100
## [2,] 95
## [3,] 105
El vector transpuesto \({\bf x}^t\), del vector \({\bf x}\), es un vector con los mismos componentes, pero escritos ahora en forma de fila: \[ {\bf x}^t = \left[x_1, \cdots, x_n\right]\] Al transponer un vector columna se obtiene un vector fila y viceversa.
Un ejemplo en R, sería:
x <- c(20, 19, 21)
# vector x
cbind(x)
## x
## [1,] 20
## [2,] 19
## [3,] 21
# vector transpuesto
t(x)
## [,1] [,2] [,3]
## [1,] 20 19 21
El producto escalar o producto interno de dos vectores \({\bf x}\), \({\bf y}\), ambos en \(\mathbb{R}^n\), es el escalar obtenido al sumar los productos de sus componentes.
\[{\bf x} \cdot {\bf y} = x_1y_1+\cdots+x_ny_n= \sum_{i=1}^n x_iy_i\]
Por notación matemática, este producto debería escribirse como: \({\bf x}^t \cdot {\bf y}\). Es decir, el producto escalar o producto interno esta definido entre un vector fila por un vector columna. Es fácil verificar que \({\bf x}^t \cdot {\bf y}= {\bf y}^t \cdot {\bf x}\).
En R, existen varias opciones de realizar esta operación:
x <- c(20, 19, 21)
y <- c(18, 25, 34)
# Option 1
x%*%y
## [,1]
## [1,] 1549
# Option 2
t(x)%*%y
## [,1]
## [1,] 1549
# Option 3
t(y)%*%x
## [,1]
## [1,] 1549
La norma o longitud de un vector \({\bf x}\), es la raíz cuadrada del producto interno \({\bf x}^t \cdot {\bf x}\). Se denota como \(\parallel {\bf x} \parallel\).
\[\parallel {\bf x} \parallel= \sqrt{{\bf x}^t \cdot {\bf x}} = \sqrt{x_1^2 + \dots + x_n^2 } \] En otras palabras, la norma es la longitud del segmento que une el origen con el punto \({\bf x}\). Por ejemplo, la norma del vector \({\bf x}= \begin{bmatrix} 3 \\ 4 \end{bmatrix}\) es:
\[ \parallel {\bf x}\parallel = \sqrt{3^2 + 4^2} = \sqrt{25}=5,\] Geométricamente, podemos representarlo en la siguiente figura:
que corresponde a la longitud de la hipotenusa en el triángulo rectángulo formado por el vector y sus proyecciones sobre los ejes.
El producto escalar de dos vectores también puede calcularse como el producto de las normas de los vectores por el coseno del ángulo que forman.
\[{\bf x}^t \cdot {\bf y} = \parallel {\bf x} \parallel \parallel {\bf y} \parallel \cos \theta,\] siendo \(\theta\) el ángulo que forman los dos vectores.
Dos vectores son ortogonales, o perpendiculares, si y sólo si su producto escalar es cero. Es decir, si \(\theta = 90^{\circ}\), el coseno del ángulo sera cero \((\cos 90^{\circ}=0)\) y también lo será el producto escalar \(({\bf x}^t \cdot {\bf y}=0)\). Por lo tanto, los dos vectores serán ortogonales, o perpendiculares.
Generalizando esta idea, se puede definir el ángulo entre dos vectores \({\bf x}\) e \({\bf y}\) como:
\[\cos \theta = \dfrac{{\bf x}^t \cdot {\bf y}}{\parallel {\bf x} \parallel \parallel {\bf y} \parallel } \]
Un ejemplo es R, sobre el cálculo del ángulo entre dos vectores, puede ser:
x <- c(5,0)
y <- c(0,3)
num <- t(x)%*%y
den <- (t(x)%*%x)*(t(y)%*%y)
# coseno inverso
acos(num/den)
## [,1]
## [1,] 1.570796
pi/2
## [1] 1.570796
Podemos conluir que los vectores del ejemplo son ortogonales.
El producto escalar tiene una clara interpretación estadística:
\[ \text{proj}_{\bf 1} {\bf x} = \left(\dfrac{ {\bf x}^t \cdot {\bf 1}}{\parallel {\bf 1}\parallel^2 }\right) {\bf 1}= \left(\dfrac{\displaystyle\sum_{i=1}^n x_i}{n} \right) {\bf 1}=\overline{x} \,{\bf 1}\]
\[\dfrac{1}{\sqrt{n}} \parallel {\bf x} - \overline{x} \, {\bf 1}\parallel = \sqrt{\dfrac{\displaystyle\sum_{i=1}^n (x_i-\overline{x})^2}{n}}\]
\[\dfrac{1}{\sqrt{n}} \left({\bf x} - \overline{x} \, {\bf 1}\right)^t \dfrac{1}{\sqrt{n}} \left({\bf y} - \overline{y} \, {\bf 1}\right) = \dfrac{\displaystyle\sum_{i=1}^n (x_i-\overline{x}) (y_i-\overline{y})}{n} \]
Un conjunto de vectores \({\bf x}_1,\dots, {\bf x}_p\) es linealmente dependiente si existen escalares \(c_1,\dots, c_p\), no todos nulos, tales que:
\[c_1 {\bf x}_1 + \cdots + c_p {\bf x}_p= {\bf 0}\] En particular el vector de ceros, \({\bf 0}\), es siempre linealmente dependiente de cualquier otro vector \({\bf x}\) no nulo. En efecto, aplicando la definición siempre podemos escribir para cualquier escalar \(c\) no nulo.
\[ 0{\bf x} + c {\bf 0}= {\bf 0} \]
Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno de ellos como combinación lineal de los demás.
Si un conjunto de vectores no es linealmente dependiente, diremos que los vectores son linealmente independientes. En el espacio \(\mathbb{R}^p\) el número máximo de vectores linealmente independientes es \(p\). En efecto, si tenemos un conjunto de \(p + h\) vectores donde existen, al menos, \(p\) linealmente independientes \(({\bf x}_i, i = 1, \dots, p)\) podemos expresar cualquier otro vector del conjunto, \({\bf x}_p+1\), como:
\[{\bf x}_{p+1} = \sum_{i=1}^p c_i {\bf x}_i\] y resolviendo este sistema de \(p\) ecuaciones y \(p\) incógnitas obtendremos los coeficientes \(c_i\). Por tanto, el máximo número de vectores linealmente independientes es \(p\).
En Estadística un conjunto de vectores linealmente independientes corresponde a un conjunto de variables que no están relacionadas linealmente de forma exacta. Por ejemplo, si dos variables miden la misma magnitud pero en unidades distintas serán linealmente dependientes. También serán linealmente dependientes si el conjunto de variables incluye una que se ha generado como una combinación lineal de las otras.
Dado un conjunto de \(p\) vectores linealmente independientes \(({\bf x}_1,\dots, {\bf x}_p)\), en \(\mathbb{R}^n\), con \(p \leq n\), llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos los vectores \({\bf z}\), en \(\mathbb{R}^n\), que pueden expresarse como combinación lineal de éstos.
\[{\bf z} = c_1{\bf x}_1 + \cdots + c_p {\bf x}_p\]
El conjunto \(({\bf x}_1,\dots, {\bf x}_p)\) se llama base generadora del espacio, o simplemente base del espacio.
Diremos que un vector \({\bf x}\) es ortogonal a un subespacio \(E_p\) si \({\bf x}\) es ortogonal a todo vector de \(E_p\), es decir, si \({\bf y} \in E_p\), entonces:
\[{\bf y}^t {\bf x} = {\bf 0}\]\[{\bf a} = \begin{bmatrix} 1 \\ 2 \end{bmatrix}, \quad {\bf b} = \begin{bmatrix} 2 \\ 1 \end{bmatrix}, \quad {\bf c} = \begin{bmatrix} -2 \\ 1 \end{bmatrix}\]