El modelo
Generalidades
Se exponen los principios fundamentales del análisis de correspondencia simple, junto con un ejemplo que destaca la relevancia de esta técnica en contextos específicos, ilustrando la relación entre variables nominales en un mapa perceptual y la interacción entre sus categorías.
El análisis de correspondencia simple aborda la exploración de tablas cruzadas, donde las celdas reflejan algún tipo de relación entre las filas y columnas de una matriz. Este método condensa la información contenida en una tabla de contingencia, ofreciendo dos enfoques interpretativos. Por un lado, se visualiza como una herramienta para representar las variables en un espacio de menor dimensión, y por otro, como un método objetivo para asignar valores numéricos a variables cualitativas.
Un ejemplo paradigmático de aplicación del análisis de correspondencia simple se encuentra en los cursos introductorios de estadística, particularmente en los problemas que abordan la independencia entre dos variables categóricas.
Supongamos la presencia de dos variables categóricas, X e Y, con I y J categorías respectivamente, definidas en una población. La pregunta clave es determinar si estas variables son independientes. Bajo la hipótesis nula:
H0:Las variables X y Y son estadísticamente independientes
versus la hipótesis alternativa:
H1:Las variables X y Y no son estadísticamente independientes.
Matrices de frecuencias absolutas
Supongamos que disponemos de una tabla de contingencia que surge de n elementos seleccionados de una población, donde las variables categóricas X y Y están definidas. La intersección entre una fila i y una columna j representa la frecuencia de individuos que pertenecen a la categoría i de la variable X y a la categoría j de la variable Y simultáneamente, con i=1,…,K y j=1,…,J. Esto se ilustra en la matriz de frecuencias absolutas siguiente, que será referida como F:
F=(X∖Y12…J1F11F12…F1J2F21F22…F2J⋮MFK1FK2…FKJ)=(Fij)I×J
Ejemplo.
Véase la Figura 2.1.
Matrices de frecuencias relativas
Sea
n:=J∑i=1K∑j=1Fij
Multiplicar la matriz F por 1n nos proporciona la matriz de frecuencias relativas P=1nF, donde P es la matriz de frecuencias relativas conocida como matriz de correspondencia y n=1TK×1F1J×1 representa el número total de individuos en la tabla.
Es claro que las frecuencias absolutas no son adecuadas para comparar filas o columnas, por lo que se recurre a la matriz de frecuencias relativas (matriz de correspondencia) P. Esta matriz se define explícitamente como la matriz de orden K×J que centra la tabla siguiente:
P=(X∖Y12…JMarginal fila1p11p12…p1Jf12p21p22…p2Jf2⋮⋮KpK1pK2…pKJfKMarginal columnac1c2…cJ1),
donde
pij=Fijn,fi=J∑j=1pij,cj=K∑i=1pijyJ∑j=1cj=K∑i=1fi=J∑i=1K∑j=1pij=1.
Ejemplo.
Véase la Figura 2.2.
Marginales
Denotaremos como fi la frecuencia marginal de la i-ésima fila y como cj la frecuencia marginal de la j-ésima columna, donde i=1,…,K y j=1,…,J, o de manera vectorial:
f=P1J×1yc=PT1K×1,
vectores que representan las frecuencias marginales de filas y columnas, respectivamente.
Independencia
El estadístico
Es conocido que el estadístico más frecuentemente empleado para analizar la independencia estadística entre dos variables categóricas es:
X2(K−1)×(J−1)=J∑i=1K∑j=1(Fij−E[Fij)]2E(Fij)=n2J∑i=1K∑j=1[Fijn−E(Fijn)]2E(Fij)=J∑i=1K∑j=1[Fijn−E(Fijn)]2E[Fijn]=n2J∑i=1K∑j=1(pij−eij)2eij,
donde:
E(Fij) representa la frecuencia absoluta esperada en la casilla (i,j) de la matriz F, y
eij es la frecuencia relativa esperada en la casilla (i,j) de la matriz de correspondencia P.
Observemos que, de (3.1), se tiene que
1nX2(K−1)×(J−1)=J∑i=1K∑j=1(pij−eij)2eij.
Para el ejemplo:
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 1240, df = 12, p-value < 2.2e-16
Matrices de residuos estandarizados
Si definimos Df y Dc como las matrices diagonales Df=diag(f)I×I y Dc=diag(c)J×J, representando las frecuencias marginales de filas y columnas respectivamente, entonces la matriz
S=D−1/2f(P−fcT)D−1/2c
es la matriz de residuos estandarizados. Se puede demostrar que
SSTySTS
son matrices simétricas, cuya traza es precisamente el estadístico de prueba en la prueba de independencia para dos variables categóricas, es decir,
traza(SST)=traza(STS)J∑i=1K∑j=1(pij−ficj)2eij.
Descomposición en valores singulares
Si realizamos la descomposición en valores singulares de la matriz S, obtenemos:
S=UDλVT,
donde
UUT=IK,VVT=IJyDλ=diag(λ1,λ2,…,)K×J,
siendo Dλ una matriz diagonal y los λi, i=1,…,rang(S)=t, las raíces cuadradas positivas de los t valores propios de las matrices simétricas SST y STS. Los t primeros vectores de las matrices ortogonales U y V son los vectores propios de las matrices S′S y SS′, respectivamente.
Base
Los t primeros vectores de U constituyen una base para el subespacio generado por las filas de P y los t primeros vectores de la matriz V constituyen una base para el subespacio generado por las columnas de P. Es decir, si construimos las matrices Ut×t, Vt×t y Dλ,t×t, la matriz
St×t=Ut×tDλ,t×tVt×t
será la matriz de rango mínimo que mejor se aproxima a la matriz S.
Problema CA
Así, el problema de análisis de correspondencia simple se puede expresar como un problema de mínimos cuadrados ponderados para determinar la matriz ˆe=(ˆeij)=fc, de rango reducido que minimiza la
traza(SST)=traza(STS)J∑i=1K∑j=1(pij−ficj)2eij.
Distancias chi-cuadradas
Distancia entre filas o columnas
Es la distancia entre filas y columnas de la matriz de datos. Para explicarla, nuevamente, consideremos la matriz P. Supongamos que las filas i y j tienen la siguiente configuración:
i
|
0.015
|
0.02
|
0.01
|
0.02
|
fi=0.075
|
j
|
0.0015
|
0.002
|
0.001
|
0.002
|
fj=0.0075
|
Aparentemente, la fila i parece más densa que la fila j. En la fila i se encuentra el 7.5 de la población, mientras que en la fila j solo el 0.75. Si no consideramos el tamaño, las frecuencias relativas intrafila son idénticas en cada fila. Por lo tanto, para analizar las diferencias relativas entre filas, debemos corregir el efecto tamaño. Esto se logra considerando la matriz cuyos elementos son de la forma pij/fi para las filas y pij/cj para las columnas, obteniendo así dos matrices.
Otro problema al que nos enfrentamos es si las filas i,j y k de la matriz ponderada por las marginales de las filas son:
i
|
0.15
|
0.02
|
0.10
|
0.43
|
0.30
|
j
|
0.15
|
0.02
|
0.10
|
0.44
|
0.29
|
k
|
0.15
|
0.01
|
0.10
|
0.44
|
0.30
|
Observe que la distancia euclidiana entre las filas i y j, y entre las filas i y k, se definen como:
d2e(i,j)=J∑l=1(pilfi−pjlfj)2=(0.43−0.44)2+(0.30−0.29)2=0.0002d2e(i,k)=J∑l=1(pilfi−pklfk)2=(0.43−0.44)2+(0.02−0.01)2=0.0002,
Esto es claramente problemático, ya que no es lo mismo una discrepancia de 0.01 entre 0.29 y 0.30, que entre 0.01 y 0.02.
Distancia entre filas
Una forma de corregir este problema es ponderando cada elemento de la suma por el marginal de la columna correspondiente:
d2(fi,fj)=J∑l=11cl(pilfi−pjlfj)2=(fi−fj)TD−1c(fi−fj),
Donde:
fi y fj son los vectores cuyos elementos son las filas i y j, respectivamente, de la matriz P; y
Dc es una matriz diagonal con elementos cl. A esta distancia se le conoce con el nombre de distancia chi-cuadrado.
Distancia entre columnas
Utilizando un procedimiento análogo se obtienen las distancias chi-cuadrado entre dos columnas j y k de esa matriz de datos, así:
d2(cj,ck)=K∑l=11fl(pljcj−plkck)2=(cj−ck)TD−1f(cj−ck),
donde:
fj y fk son los vector cuyos elementos son las columnas i y j, respectivamente, de la matriz P; y
Df, es una matriz diagonal con elementos fl.
Distancia (observaciones)
Primero.
Note que los valores de las distancias anteriores miden la distancia entre dos distribuciones multinomiales. Es decir, permiten comparar los histogramas (distribuciones empíricas) por cada par de filas o columnas.
Segundo.
Observe también que esta distancia chi-cuadrado es equivalente a la distancia euclidiana, si se toma como puntos en el caso de las filas, para las filas i y K, las de coordenadas:
Wi=(pi1fi√c1,…,piJfi√cJ)yWj=(pk1fk√c1,…,pkJfk√cJ),
respectivamente.
Centro de gravedad
Es importante resaltar que las distancias no se calculan entre las filas o las columnas, sino que se expresan en relación con su centro de masa, que podemos definir como el promedio ponderado de esa columna por su masa.
En el caso de las columnas, esto se convierte en el vector de columnas generado por las marginales de las filas, f.
De manera similar, en el caso de las filas, el vector de filas generado por las marginales de las columnas, c.
Esto es aplicable cuando se analiza la matriz de perfiles (distancia chi-cuadrado) para las filas.
Si el análisis se realiza con la matriz cuyos elementos son de la forma Wi, i=1,…,K (utilizando la distancia euclidiana), el centro de masa para las filas sería √√c, como se muestra a continuación:
Para calcular el centro de masa √c de la nube de puntos generada por las filas W1,…,WK, ponderando con los pesos de las columnas correspondientes, tendríamos para la i-ésima coordenada del vector √c, i=1,…,J:
√ci=f1(p1if1√ci)+f2(p2if2√ci)+⋯+fK(pKifK√ci)=1√ci(f1i+f2i+⋯+fKi)=1√cici=√ci
Distancia perfil al centro de gravedad
La distancia del perfil de fila i a su centro de gravedad (chi-cuadrado) se define como:
d2(fi,c)=K∑l=11cl(pilfi−cl)2=K∑l=1(pilfi√cl−√cl)2=de(fi,c).
Al calcular la distancia entre una fila y su centro de gravedad, en realidad estamos calculando una parte de la varianza o una covarianza. En resumen, la dispersión total de las filas es la suma ponderada de las diferencias al cuadrado de cada elemento de la fila respecto al centro de gravedad.
Inercia
La cantidad χ2/N se denomina inercia total. Esta inercia se descompone en un total de k valores característicos (propios), cada uno de los cuales constituye la inercia principal de una dimensión.
Inercia total de las filas
Si denotamos la inercia total de las filas como If, entonces puede calcularse de la siguiente manera:
If=K∑i=1fid2(fi,c)=K∑i=1J∑j=1fi1fj(pijfi−cj)2=K∑i=1J∑j=1(pij−fi×cj)2fi×cj=tra(STS).
Inercia total de las columnas
De manera análoga, la dispersión total de las columnas Ic, se define como:
Ic=J∑j=1cjd2(cj,f)=J∑j=1K∑i=1cj1ci(pijcj−fi)2=J∑j=1K∑i=1(pij−fi×cj)2fi×cj=tra(SST)=If.
Se observa que la dispersión total de las filas es igual a la de las columnas.
Matrices de inercia
Las matrices Σf=STS y Σc=SST se denominan matrices de inercia de las filas y columnas, respectivamente.
Varianzas de filas y columnas
Los elementos de la diagonal de la matriz Σ representan las varianzas de las filas o columnas. además, su suma constituye la dispersión explicada por cada factor en el nuevo espacio. Los autovalores indican qué parte de esa dispersión está explicada por cada factor.
Coordenadas de los puntos
i en RJ
Con el fin de obtener sus valores y vectores propios, que permitirán calcular las coordenadas de los puntos i en RJ, para el espacio de J dimensiones que definen los puntos fila, es necesario diagonalizar la matriz Σf. Estas coordenadas tienen la siguiente forma:
Fα(i)=J∑j=1μαj(fijfi√cj−√cj)
o en forma matricial como:
R=(Fα(i))K×t=D−1f(F−fc)D−1/2cU,
donde:
μα es el vector propio (columnas de la matriz U) de Σf, correspondiente al factor α, α=1,…,t.
Fα(i) es la proyección del punto fila
(fi1fi√c1−√c1,fi2fi√c2−√c2,…,fiQfi√cQ−√cQ)
sobre el vector uα.
j en RK
De manera similar, se obtienen las coordenadas para los puntos j de RK:
Cα(j)=∑i=1(pijcj√fi−√fi)ναi,
en forma matricial como:
C=(Cα(j))P×t=D−1c(F−fc)′D−1/2fV,
donde να es el vector propio (columnas de la matriz V) de Σc, correspondiente al factor α,α=1,…,t. También podemos expresar estas coordenadas como:
Fα(i)=√λα√fiναi
y
Cα(j)=√λα√cjυαj,
donde λα, es el valor propio asociado al factor α.
Reconstrucción de la matriz de correspondencia
Para reconstruir la matriz de correspondencia P, podemos resolver las ecuaciones (3.2) y (3.3) para P, obteniendo la siguiente ecuación:
P=fc+D1/2fUDVTD1/2c,
o en términos de sus elementos:
pij=ficj+(0,0,…,√fi⏟Posicióni,…,0)UDVT(0,0,…,√cj⏟Posiciónj,…,0)T=ficj[1+∑α=11√λαFα(i)Gα(j)]
