En este capítulo se presentan algunos conceptos de tipo matemático y estadístico necesarios para comprender los fundamentos de los métodos mulivariantes.
Empezamos repasando algunas definiciones básicas de matrices y vectores.
A continuación planteamos la siguiente cuestión: ¿en qué medida se parece un caso o individuo a otro, teniendo en cuenta todas las variables en conjunto? Para poder contestar a esta pregunta, ofrecemos unas definiciones alternativas de distancias.
En otro apartado presentamos los instrumentos para describir cómo se comportan en conjunto las \(p\) variables, en el grupo de nuestros n individuos. Para esto, se generalizan los conceptos de media, covarianza y correlación en un entorno multivariante.
El conjunto de los \(n\) individuos puede considerarse una «nube» de \(n\) puntos en el espacio definido por las variables.
Más adelante veremos como se describe la posición y la forma de esa nube.
El apartado posterior nos proporciona una representación alternativa de los datos; en ella las variables constituyen una nube de p puntos en el espacio de los individuos.
Finalmente, el último apartado del capítulo expone los fundamentos matemáticos para la obtención de los factores en todos los métodos factoriales multivariantes.
El insumo para los métodos de estadística descriptiva multivariada es una tabla de datos. La tabla se constituye en un producto intermedio dentro de un proyecto de investigación y puede tener distintos orígenes. La tabla por si sola no tiene ningún interés de análisis sino que lo tiene en cuanto forma parte de un contexto de investigación. En algunos casos representa el mayor costo dentro del presupuesto de investigación, por ejemplo, el 80 %.
Una matriz de orden \((n,p)\) es una tabla de \(n*p\) valores dispuestos en \(n\) filas y \(p\) colum nas: \(A = [A_{ij}]\) donde A., es el elemento que ocupa la fila \(i\) columna \(j\) de la matriz \(A\).
\[\left(\begin{array}{ccc} 0.89 & 0.44 & 1\\ -0.44 & -0.89&9 \end{array}\right)\]
Se llama diagonal principal de una matriz cuadrada de orden \(n\) a los elementos de la fila \(i\) y columna \(i\) \((i = 1, 2,... n)\). Una matriz diagonal es la que contiene ceros fuera de la diagonal principal, por ejemplo: \[\left(\begin{array}{cc} 10 & 0\\ 0 & 5 \end{array}\right)\]
La traza de una matriz cuadrada es la suma de los elementos de su diagonal principal. Por ejemplo, la traza de la matriz anterior es 10+5=4.
podemos tener diagonal en una matriz no cuadrada?
El rango de una matriz es el máximo número de columnas (o de filas) linealmente independientes que contiene. Siempre es menor o igual que el mínimo de su número de filas y de columnas. Por ejemplo, una matriz de orden (2,3) como máximo puede tener rango 2.
Sean A y B:
\[A=\left(\begin{array}{ccc} 1 & 4&2\\ 7 & 3&1 \end{array}\right)\]
\[B=\left(\begin{array}{ccc} 1 & 4&2\\ 3 & 12&6 \end{array}\right)\] Calcule el rango de A y B.
La matriz identidad (I) de orden n es una m atriz cuadrada de orden n que contiene unos en la diagonal principal y ceros fuera de ella.
\[I=\left(\begin{array}{ccc} 1 & 0&0\\ 0 & 1&0\\ 0 & 0&1\\ \end{array}\right)\]
Para sumar o restar matrices, se sum an o restan elem ento a elemento. Han de tener el m ism o orden. Sum amos, p o r ejemplo, las m atrices A y B siguientes: \[{\displaystyle A={\begin{bmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{bmatrix}}}\]
\[{\displaystyle B={\begin{bmatrix}b_{11}&b_{12}\\b_{21}&b_{22}\end{bmatrix}}}\] \[{\displaystyle A+B={\begin{bmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{bmatrix}}+{\begin{bmatrix}b_{11}&b_{12}\\b_{21}&b_{22}\end{bmatrix}}={\begin{bmatrix}a_{11}+b_{11}&a_{12}+b_{12}\\a_{21}+b_{21}&a_{22}+b_{22}\end{bmatrix}}={\begin{bmatrix}c_{11}&c_{12}\\c_{21}&c_{22}\end{bmatrix}}}\]
\[{\displaystyle A-B={\begin{bmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{bmatrix}}-{\begin{bmatrix}b_{11}&b_{12}\\b_{21}&b_{22}\end{bmatrix}}={\begin{bmatrix}a_{11}-b_{11}&a_{12}-b_{12}\\a_{21}-b_{21}&a_{22}-b_{22}\end{bmatrix}}={\begin{bmatrix}d_{11}&d_{12}\\d_{21}&d_{22}\end{bmatrix}}}\]
Un escalar es un número. El producto de un escalar «a» por una matriz A es otra m atriz del mismo orden cuyos elementos son el producto \[{\displaystyle kA={\begin{bmatrix}ka_{11}&ka_{12}\\ka_{21}&ka_{22}\end{bmatrix}}}\]
\[{\displaystyle AB_{}^{}=} {\displaystyle {\begin{pmatrix}a_{11}&\cdots &a_{1n}\\\vdots &\ddots &\vdots \\a_{m1}&\cdots &a_{mn}\end{pmatrix}}\cdot } {\displaystyle {\begin{pmatrix}b_{11}&\cdots &b_{1p}\\\vdots &\ddots &\vdots \\b_{n1}&\cdots &b_{np}\end{pmatrix}}=} {\displaystyle {\begin{pmatrix}a_{11}b_{11}+\cdots +a_{1n}b_{n1}&\cdots &a_{11}b_{1p}+\cdots +a_{1n}b_{np}\\\vdots &\ddots &\vdots \\a_{m1}b_{11}+\cdots +a_{mn}b_{n1}&\cdots &a_{m1}b_{1p}+\cdots +a_{mn}b_{np}\end{pmatrix}}} {\displaystyle {\begin{pmatrix}a_{11}b_{11}+\cdots +a_{1n}b_{n1}&\cdots &a_{11}b_{1p}+\cdots +a_{1n}b_{np}\\\vdots &\ddots &\vdots \\a_{m1}b_{11}+\cdots +a_{mn}b_{n1}&\cdots &a_{m1}b_{1p}+\cdots +a_{mn}b_{np}\end{pmatrix}}}\]
El producto de dos matrices generalmente no es conmutativo, es decir, AB ≠ BA. \[{\displaystyle AB_{}^{}=} {\displaystyle {\begin{pmatrix}1&1\\0&1\end{pmatrix}}\cdot } {\displaystyle {\begin{pmatrix}1&0\\1&1\end{pmatrix}}=} {\displaystyle {\begin{pmatrix}2&1\\1&1\end{pmatrix}}}\] y por el contrario
\[{\displaystyle BA_{}^{}=} {\displaystyle {\begin{pmatrix}1&0\\1&1\end{pmatrix}}\cdot } {\displaystyle {\begin{pmatrix}1&1\\0&1\end{pmatrix}}=} {\displaystyle {\begin{pmatrix}1&1\\1&2\end{pmatrix}}}\]
La división entre matrices, es decir, la operación que podría producir el cociente \(A / B\), no se encuentra definida. Sin embargo, existe el concepto de matriz inversa, sólo aplicable a las matrices invertibles.
Dada una matriz de 2x2 con determinante no nulo: \[{\displaystyle \mathbf {A} ^{-1}={\begin{bmatrix}a&b\\c&d\end{bmatrix}}^{-1}={\frac {1}{\det(\mathbf {A} )}}{\begin{bmatrix}\,\,\,d&\!\!-c\\-b&\,a\\\end{bmatrix}}^{T}={\frac {1}{\det(\mathbf {A} )}}{\begin{bmatrix}\,\,\,d&\!\!-b\\-c&\,a\\\end{bmatrix}}={\frac {1}{ad-bc}}{\begin{bmatrix}\,\,\,d&\!\!-b\\-c&\,a\\\end{bmatrix}}}\]
Está definida siempre y cuando {ad-bc0} ad-bc 0. Así por ejemplo la inversa de la matriz
\[{\displaystyle {\begin{bmatrix}2&1\\5&3\end{bmatrix}}\mapsto {\begin{bmatrix}2&1\\5&3\end{bmatrix}}^{-1}={\begin{bmatrix}3&-1\\-5&2\end{bmatrix}}} \]
ya que
\[{\displaystyle {\begin{bmatrix}2&1\\5&3\end{bmatrix}}{\begin{bmatrix}3&-1\\-5&2\end{bmatrix}}={\begin{bmatrix}1&0\\0&1\end{bmatrix}}}\]
El producto punto en un espacio
\[A • B = |A| |B| cos(\theta)\] \[|A| cos(θ)\] es la proyección escalar de \(A\) en \(B\). Cuanta sombra proyecta \(A\) en \(B\).
El producto escalar de dos vectores en un espacio euclídeo se define como el producto de sus módulos por el coseno del ángulo {} que forman.
\[{\displaystyle \mathbf {A} \cdot \mathbf {B} =|\mathbf {A} ||\mathbf {B} |\cos \theta =A\,B\,\cos \theta } \mathbf{A} \cdot \mathbf{B}= |\mathbf{A}| |\mathbf{B}| \cos \theta = A \,B \,\cos \theta\]
Ángulos entre dos vectores La expresión geométrica del producto escalar permite calcular el coseno del ángulo existente entre los vectores, mediante la siguiente definición formal: que nos dice que la multiplicación de un escalar denominado K tiene que ser diferente de cero.
\[{\displaystyle \cos \theta ={\mathbf {A} \cdot \mathbf {B} \over {\big |}\mathbf {A} {\big |}\,{\big |}\mathbf {B} {\big |}}}\]
>Y si no hay sombra?
Son ortogonales! independientes en jerga estadistica.
Cualquier función matemática o aplicación \({\displaystyle d(a,b)}\) de ${XX} $ en \({\displaystyle \mathbb {R} }\) que verifique las siguientes condiciones:
en un espacio bidimensional, la distancia euclidiana entre dos puntos P1 y P2, de coordenadas cartesianas (x1, y1) y (x2, y2) respectivamente, es:
\[{\displaystyle d_{E}((x1, y1)(x2, y2) )={\sqrt {(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}}}\]
Corresponde a la noción de distancia geográfica.
La talla en cm (X,) y el peso en kg (X J de 3 (=n) pacientes varones se transcriben a continuación y se representan en el gráfico 4.
La distancia euclídea ordinaria entre los pacientes 1 y 2 se calcula de acuerdo con la definición (5):
a<-data.frame(paciente=c("Paciente1","Paciente2","Paciente3"),altura=c(170,180,185), edad=c(85,75,80))
a
## paciente altura edad
## 1 Paciente1 170 85
## 2 Paciente2 180 75
## 3 Paciente3 185 80
plot(a$altura, a$edad)
text(a$altura, a$edad, labels=a$paciente, cex= 0.7)
lines(a$altura[1:2],a$edad[1:2])
\[d(Paciente1\ y\ paciente2) = \sqrt{(170-180)^2 + (85-75)^2} = \sqrt{100+100} = 14,14\] ##### Ejercicio Calcule la distancia de los pacientes 2 y 3. Comente cuales pacientes están más cerca.
\[{\displaystyle d_{E}((x1, y1)(x2, y2) )={{((x_{2}-x_{1})^{h}+(y_{2}-y_{1})^{h}}})^{1/h}}\]
para \(h=1\) se tiene la distancia de Manhattan o distancia de taxista
Las distancias definidas previamente tienen las siguientes salvedades:
Para evitar cue la importancia de cada variable quede determinada por la unidad de medida que se use, conviene utilizar siempre datos homogéneos. Cuando las unidades originales de medida no lo son, es recom endable estandarizar previamente todas las variables. En el apartado siguiente se insiste en este aspecto.
Las definiciones anteriores de distancia no tienen sentido si las variables son cualitativas, es decir, cuando su escala es nominal u ordinal, ya que en este caso los datos son simples códigos arbitrarios no susceptibles de ser sumados o restados.
Las medidas que hemos definido miden la distancia entre cada par de individuos, sin tener en cuenta la situación de éstos respecto al conjunto total de los \(n\) individuos con los que se trabaja.
Aunque solamente hemos definido distancias válidas para datos cuantitativos, existen definiciones válidas para datos cualitativos, medidas que estudiaremos posteriormente. A manera de abrebocas:
La distancia Ji-cuadrado entre distribuciones de frecuencia, que se emplea en el analisis de Correspondenciás mide la distancia entre dos categorías de una variable cualitativa teniendo én cuenta la distribución de todos los individuos.
La distancia de Mahalanobis mide, la distancia entre dos puntos o individuos teniendo en cuenta la distribución continua de probabilidad de las p variables. Es decir como covarian conjuntamente. El peso de una persona no es independiente de su altura, las definiciones anteriores ombian ese hecho. En la sección sobre Análisis Discriminante, se define apropiadamente esta distancia.
Por lo general las variables de una tabla de datos tienen unidades distintas, cabe recordar que las medidas descriptivas como la covarianza y la media se ven afectadas por las unidades, por lo cual para hacer comparaciones conviene trabajar con valores estandarizados.
El valor para el individuo i de la variable j estandarizada (Z.p se obdene restando al dato original la m edia y dividiendo entre la desviación típica:
\[ \displaystyle Z_{ij}=\frac{X_{ij}-X_i}{\sigma_i}\]
Por construcción, una variable estandarizada tiene de media cero y de desviación estándar igual a uno.
La media X de la variable j-ésim a se define como la suma de sus valores para todos los individuos ponderada con las masas respectivas, y nos da la posición del individuo medio:
\[\displaystyle X={\begin{bmatrix} \bar X_{1}\\\vdots \\ \bar X_{n}\end{bmatrix}}={\begin{bmatrix} \bar {\bar {X}_1}=\frac {1}{n}\sum _{i=1}^{n}x_{i1}\\\vdots \\ \bar {\bar {X}_n}=\frac {1}{n}\sum _{i=1}^{n}x_{in}\end{bmatrix}}\]
\({\displaystyle {\bar {X}}=\frac {1}{n}}\sum _{i=1}^{n}x_{i}\)
La matriz de covarianza es una matriz que contiene la covarianza entre los elementos de un vector. Es la generalización natural a dimensiones superiores del concepto de varianza de una variable aleatoria escalar.
Si las entradas del vector-columna
\[{\displaystyle X={\begin{bmatrix}X_{1}\\\vdots \\X_{n}\end{bmatrix}}}\]
son variables aleatorias, cada una con varianza finita, entonces la matriz de covarianza Σ es la matriz cuya entrada (i, j) es la covarianza
\[{\displaystyle \Sigma _{ij}=\mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})\end{bmatrix}}}\]
donde
\[{\displaystyle \mu _{i}=\mathrm {E} (X_{i})\} \] es el valor esperado de la entrada i-ésima del vector X. En otras palabras, tenemos
\[{\displaystyle \Sigma ={\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}}.}\]
Como una generalización de la varianza La anterior definición es equivalente a la igualdad matricial
\[{\displaystyle \Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]} \]
Por tanto, se entiende que esto generaliza a mayores dimensiones el concepto de varianza de una variable aleatoria escalar X, definida como
\[{\displaystyle \sigma ^{2}=\mathrm {var} (X)=\mathrm {E} [(X-\mu )^{2}],\,} \]
donde
\[{\displaystyle \mu =\mathrm {E} (X).\,}\]
Es la matriz \(corr\) cuadrada y simétrica de orden \(p\), cuyo elemento \(r_{ij}\) es el coeficiente de correlación lineal entre las variables i y j. Puesto que la correlación entre cualquier variable y ella misma es perfecta, Cómo deberían ser los elementos de la diagonal de la matriz de correlación?
La diagonal principal de R contiene unos R_{jj} = 1
\[{\displaystyle \operatorname {corr} (\mathbf {X} )={\begin{bmatrix}1&{\frac {\operatorname {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]}{\sigma (X_{1})\sigma (X_{2})}}&\cdots &{\frac {\operatorname {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]}{\sigma (X_{1})\sigma (X_{n})}}\\\\{\frac {\operatorname {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]}{\sigma (X_{2})\sigma (X_{1})}}&1&\cdots &{\frac {\operatorname {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]}{\sigma (X_{2})\sigma (X_{n})}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\operatorname {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]}{\sigma (X_{n})\sigma (X_{1})}}&{\frac {\operatorname {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]}{\sigma (X_{n})\sigma (X_{2})}}&\cdots &1\end{bmatrix}}.}\]
Recordemos la definición de promedio ponderado
Está dado por la fórmula: \[{\bar {x}}={\frac {\sum _{{i=1}}^{n}x_{i}w_{i}}{\sum _{{i=1}}^{n}w_{i}}}={\frac {x_{1}w_{1}+x_{2}w_{2}+x_{3}w_{3}+...+x_{n}w_{n}}{w_{1}+w_{2}+w_{3}+...+w_{n}}}\]
Dónde \(w_i\) es un peso que indica la importancia relativa de la i-ésima observación.
Como vimos anteriormente, podemos generalizar la definición anterior a varias variables y acuñar la definición de centro de gravedad
Sobre la nube de individuos se definen el centro de gravedad, que generaliza el concepto de media como una medida de localización multivariada. El centro de gravedad g, cuando los individuos tienen el mismo peso (1/n), es la suma de los n vectores individuo, notados \(y\)i, multiplicada por el escalar \(1/n\):
\[g=\frac{1}{n}\sum_i^n Y_i\]
El centro de gravedad se constituye en un individuo artificial, denominado típico porque es el punto de referencia para comparar a los demás. El centrado de los individuos permite trasladar el cero de la representación al centro de gravedad.
\[\displaystyle Inercia(N_n)=\frac{1}{n}\sum_i^n p_i d^2(i,g)\]
La noción física de momento de inercia alrededor de un punto se utiliza como medida de dispersión de la nube de puntos alrededor de su centro de gravedad y se denomina inercia. Si cada individuo i se dota del peso \(p_i\), la inercia de la nube es:
\[\displaystyle Inercia(N_I)=\frac{1}{n}\sum_i^n\sum_j^p y^2_{C_{ij}}=\sum_i^n\frac{1}{n}\sum_j^p y^2_{C_{ij}}=\sum_j^p\sigma^2_j\]
La información que queda en la nube de puntos es su forma, que está dada por las relaciones de distancias entre los puntos. La fórmula anterior permite ver que la inercia es la suma de las varianzas de las variables, las cuales influyen en el análisis en proporción a su varianza. Las varianzas dependen de las unidades de medida de las variables, por lo tanto al cambiar la escala cambia su varianza. La influencia de esas unidades de medida se elimina con la operación de reducido que es dividir cada columna de la matriz de datos centrados por la desviaciòn estándar de la variable correspondiente (Estandarización).
Con el conjunto de datos sobre enfermedad cardiaca calcule - Vector de medias - Matriz de varianzas y covarianzas - Grafico de matriz de varianzas y covarianzas - Matriz de correlaciones
https://archive.ics.uci.edu/ml/datasets/Heart+Disease
heart.data <- read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data",header=FALSE,sep=",",na.strings = '?')
names(heart.data) <- c( "age", "sex", "cp", "trestbps", "chol","fbs", "restecg",
"thalach","exang", "oldpeak","slope", "ca", "thal", "num")
En el primer caso la representación geométrica es un conjunto de \(n\) puntos en un sistema de \(p\) ejes ortogonales, cada uno asociado a una variable, y las coordenadas de un individuo son los \(p\) valores que toma para las variables.
library(scatterplot3d)
a<-data.frame(var1=c(2,4),var2=c(5,2),var3=c(1,6))
scatterplot3d(a)
b<-t(a)
plot(b)
text(b[,1],b[,2], labels=row.names(b), cex= 1.1)
Al conjunto de los p vectores en \(R^n\) se denomina “nube de variables” y se puede pensar que su representación son flechas que empiezan en el origen de los \(n\) ejes y terminan en el punto cuyas coordenadas son los \(n\) valores que toma la respectiva variable. Cada uno de los \(n\) ejes se asocia a un individuo.
#install.packages("scatterplot3d")
a<-data.frame(var1=c(2,4),var2=c(5,2),var3=c(1,6))
scatterplot3d(a,xlim = c(0,7),ylim=c(0,7),zlim=c(0,7))
Los m étodos m ultivariantes factoriales (ACP, AFC, Análisis de Correspondencias) obtienen nuevas variables sintéticas o ejes resumen a partir de las originales p ara proyectar a los individuos sobre estos nuevos ejes. Se trata de buscar el eje que tenga un contenido máximo de inform ación; aquél que posea la inercia máxima.
El objetivo geométrico de los métodos en ejes principales es buscar un nuevo sistema de ejes de tal manera que la mayoría de la inercia se concentre en los primeros ejes. Es decir se trata de descomponer la inercia de la nube de puntos en ejes ortogonales ordenados, de tal manera que en el primer eje esté la mayor inercia posible, en el segundo la mayor inercia residual posible, etc.
El conjunto de datos contiene 50 muestras de cada una de tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos de cada muestra: el largo y ancho del sépalo y pétalo, en centímetros. Basado en la combinación de estos cuatro rasgos, Fisher desarrolló un modelo discriminante lineal para distinguir entre una especie y otra.
Setosa
Versicolor
virginica
data(iris)
# this is a little tweak so that things line up nicely later on
# iris$Species0<-iris$Species
iris$Species <- factor(iris$Species,
levels = c("versicolor","virginica","setosa"))
pc <- princomp(iris[,1:4], cor=TRUE, scores=TRUE)
#install.packages("rgl")
library(rgl)
plot3d(pc$scores[,1:3], col=as.numeric(iris$Species))
plot3d(pc$scores[,1:3], col=as.numeric(iris$Species))
text3d(pc$scores[,1:3],texts=rownames(iris))
text3d(pc$loadings[,1:3], texts=rownames(pc$loadings), col="red")
coords <- NULL
for (i in 1:nrow(pc$loadings)) {
coords <- rbind(coords, rbind(c(0,0,0),pc$loadings[i,1:3]))
}
lines3d(coords, col="red", lwd=4)
plot(pc,type="lines")
biplot(pc)