Loading [MathJax]/jax/output/HTML-CSS/jax.js

  • Teoría
    • Dr. rer. nat. Humberto LLinás Solano
  • 1 Introducción
    • 1.0.1 Preliminares
    • 1.0.2 Propósito/objetivo
  • 2 El modelo
    • 2.0.1 Generalidades
    • 2.0.2 Matrices de frecuencias absolutas
    • 2.0.3 Matrices de frecuencias relativas
    • 2.0.4 Marginales
  • 3 Independencia
    • 3.0.1 El estadístico
    • 3.0.2 Matrices de residuos estandarizados
    • 3.0.3 Descomposición en valores singulares
    • 3.0.4 Base
    • 3.0.5 Problema CA
  • 4 Perfiles fila y columnas
  • 5 Perfiles fila
    • 5.0.1 Matriz de perfiles filas
    • 5.0.2 Diagrama de perfiles fila
  • 6 Perfiles columna
    • 6.0.1 Matriz de perfiles columna
    • 6.0.2 Diagrama de perfiles columna
  • 7 Distancias chi-cuadradas
    • 7.0.1 Distancia entre filas o columnas
    • 7.0.2 Distancia entre filas
    • 7.0.3 Distancia entre columnas
    • 7.0.4 Distancia (observaciones)
    • 7.0.5 Centro de gravedad
    • 7.0.6 Distancia perfil al centro de gravedad
  • 8 Inercia
    • 8.0.1 Inercia total de las filas
    • 8.0.2 Inercia total de las columnas
    • 8.0.3 Matrices de inercia
    • 8.0.4 Varianzas de filas y columnas
  • 9 Coordenadas de los puntos
    • 9.0.1 i en RJ
    • 9.0.2 j en RK
  • 10 Reconstrucción de la matriz de correspondencia
  • 11 Contribuciones absolutas y relativas
    • 11.0.1 Contribuciones: generalidades
    • 11.0.2 Contribuciones: resumen:
  • 12 Ejercicios
hllinas2023

1 Introducción

1.0.1 Preliminares

El análisis de correspondencia (CA) es una técnica relacionada con el análisis de componentes principales (PCA) pero aplicable a variables cualitativas. Véase la Figura 1.1.

**Resumen y visualización de datos multivariados**

Figure 1.1: Resumen y visualización de datos multivariados

1.0.2 Propósito/objetivo

  1. Ayuda a resumir y visualizar datos en gráficos bidimensionales, especialmente en tablas de contingencia.

  2. Proporciona coordenadas para puntos de fila y columna, lo que permite visualizar asociaciones entre categorías.

  3. En este documento, se explica la teoría correspondiente.

  4. En otro documento, se explica cómo realizar CA utilizando paquetes de R como FactoMineR y factoextra, y cómo interpretar los resultados, incluyendo la identificación de variables importantes y la gestión de valores atípicos.

2 El modelo

2.0.1 Generalidades

Se exponen los principios fundamentales del análisis de correspondencia simple, junto con un ejemplo que destaca la relevancia de esta técnica en contextos específicos, ilustrando la relación entre variables nominales en un mapa perceptual y la interacción entre sus categorías.

El análisis de correspondencia simple aborda la exploración de tablas cruzadas, donde las celdas reflejan algún tipo de relación entre las filas y columnas de una matriz. Este método condensa la información contenida en una tabla de contingencia, ofreciendo dos enfoques interpretativos. Por un lado, se visualiza como una herramienta para representar las variables en un espacio de menor dimensión, y por otro, como un método objetivo para asignar valores numéricos a variables cualitativas.

Un ejemplo paradigmático de aplicación del análisis de correspondencia simple se encuentra en los cursos introductorios de estadística, particularmente en los problemas que abordan la independencia entre dos variables categóricas.

Supongamos la presencia de dos variables categóricas, X e Y, con I y J categorías respectivamente, definidas en una población. La pregunta clave es determinar si estas variables son independientes. Bajo la hipótesis nula:

H0:Las variables X y Y son estadísticamente independientes

versus la hipótesis alternativa:

H1:Las variables X y Y no son estadísticamente independientes.

2.0.2 Matrices de frecuencias absolutas

Supongamos que disponemos de una tabla de contingencia que surge de n elementos seleccionados de una población, donde las variables categóricas X y Y están definidas. La intersección entre una fila i y una columna j representa la frecuencia de individuos que pertenecen a la categoría i de la variable X y a la categoría j de la variable Y simultáneamente, con i=1,,K y j=1,,J. Esto se ilustra en la matriz de frecuencias absolutas siguiente, que será referida como F:

F=(XY12J1F11F12F1J2F21F22F2JMFK1FK2FKJ)=(Fij)I×J

Ejemplo.

Véase la Figura 2.1.

**Matriz $F$ (Frecuencias absolutas)**

Figure 2.1: Matriz F (Frecuencias absolutas)

2.0.3 Matrices de frecuencias relativas

Sea

n:=Ji=1Kj=1Fij

Multiplicar la matriz F por 1n nos proporciona la matriz de frecuencias relativas P=1nF, donde P es la matriz de frecuencias relativas conocida como matriz de correspondencia y n=1TK×1F1J×1 representa el número total de individuos en la tabla.

Es claro que las frecuencias absolutas no son adecuadas para comparar filas o columnas, por lo que se recurre a la matriz de frecuencias relativas (matriz de correspondencia) P. Esta matriz se define explícitamente como la matriz de orden K×J que centra la tabla siguiente:

P=(XY12JMarginal fila1p11p12p1Jf12p21p22p2Jf2KpK1pK2pKJfKMarginal columnac1c2cJ1),

donde

pij=Fijn,fi=Jj=1pij,cj=Ki=1pijyJj=1cj=Ki=1fi=Ji=1Kj=1pij=1.

Ejemplo.

Véase la Figura 2.2.

**Matriz $P$ (Frecuencias relativas)**

Figure 2.2: Matriz P (Frecuencias relativas)

2.0.4 Marginales

Denotaremos como fi la frecuencia marginal de la i-ésima fila y como cj la frecuencia marginal de la j-ésima columna, donde i=1,,K y j=1,,J, o de manera vectorial:

f=P1J×1yc=PT1K×1,

vectores que representan las frecuencias marginales de filas y columnas, respectivamente.

3 Independencia

3.0.1 El estadístico

Es conocido que el estadístico más frecuentemente empleado para analizar la independencia estadística entre dos variables categóricas es:

X2(K1)×(J1)=Ji=1Kj=1(FijE[Fij)]2E(Fij)=n2Ji=1Kj=1[FijnE(Fijn)]2E(Fij)=Ji=1Kj=1[FijnE(Fijn)]2E[Fijn]=n2Ji=1Kj=1(pijeij)2eij,

donde:

  • E(Fij) representa la frecuencia absoluta esperada en la casilla (i,j) de la matriz F, y

  • eij es la frecuencia relativa esperada en la casilla (i,j) de la matriz de correspondencia P.

Observemos que, de (3.1), se tiene que

1nX2(K1)×(J1)=Ji=1Kj=1(pijeij)2eij.

Para el ejemplo:

## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 1240, df = 12, p-value < 2.2e-16

3.0.2 Matrices de residuos estandarizados

Si definimos Df y Dc como las matrices diagonales Df=diag(f)I×I y Dc=diag(c)J×J, representando las frecuencias marginales de filas y columnas respectivamente, entonces la matriz

S=D1/2f(PfcT)D1/2c

es la matriz de residuos estandarizados. Se puede demostrar que

SSTySTS

son matrices simétricas, cuya traza es precisamente el estadístico de prueba en la prueba de independencia para dos variables categóricas, es decir,

traza(SST)=traza(STS)Ji=1Kj=1(pijficj)2eij.

3.0.3 Descomposición en valores singulares

Si realizamos la descomposición en valores singulares de la matriz S, obtenemos:

S=UDλVT,

donde

UUT=IK,VVT=IJyDλ=diag(λ1,λ2,,)K×J,

siendo Dλ una matriz diagonal y los λi, i=1,,rang(S)=t, las raíces cuadradas positivas de los t valores propios de las matrices simétricas SST y STS. Los t primeros vectores de las matrices ortogonales U y V son los vectores propios de las matrices SS y SS, respectivamente.

3.0.4 Base

Los t primeros vectores de U constituyen una base para el subespacio generado por las filas de P y los t primeros vectores de la matriz V constituyen una base para el subespacio generado por las columnas de P. Es decir, si construimos las matrices Ut×t, Vt×t y Dλ,t×t, la matriz

St×t=Ut×tDλ,t×tVt×t

será la matriz de rango mínimo que mejor se aproxima a la matriz S.

3.0.5 Problema CA

Así, el problema de análisis de correspondencia simple se puede expresar como un problema de mínimos cuadrados ponderados para determinar la matriz ˆe=(ˆeij)=fc, de rango reducido que minimiza la

traza(SST)=traza(STS)Ji=1Kj=1(pijficj)2eij.

4 Perfiles fila y columnas

Se hallan dividiendo la frecuencia relativa entre el total de fila o columna correspondiente. Los perfiles de fila y columna se pueden comparar con las distribuciones correspondientes de columna y fila, considerando su respectiva importancia, para evaluar su desviación de la independencia.

5 Perfiles fila

5.0.1 Matriz de perfiles filas

Ejemplo.

Véase la Figura 5.1.

**Matriz de perfiles fila**

Figure 5.1: Matriz de perfiles fila

5.0.2 Diagrama de perfiles fila

En la representación del perfil del color de ojos en relación con el color del cabello, se observa una similitud considerable entre los perfiles de ojos claros y ojos azules, que es similar (aunque ligeramente menor) a la similitud o proximidad entre los perfiles de ojos medios y oscuros (ver Figura 5.2).

**Histograma de perfiles fila**

Figure 5.2: Histograma de perfiles fila

->

6 Perfiles columna

6.0.1 Matriz de perfiles columna

Ejemplo.

Véase la Figura 6.1.

**Matriz de perfiles columna**

Figure 6.1: Matriz de perfiles columna

6.0.2 Diagrama de perfiles columna

En el análisis del perfil de color del cabello, se observa una similitud notable entre los perfiles de cabello rubio y rojo, así como entre los cabellos oscuro y negro. Por otro lado, el perfil de cabello medio se distingue notablemente de los demás perfiles. Esto se puede apreciar en la Figura 6.2.

**Histograma de perfiles columna**

Figure 6.2: Histograma de perfiles columna

7 Distancias chi-cuadradas

7.0.1 Distancia entre filas o columnas

Es la distancia entre filas y columnas de la matriz de datos. Para explicarla, nuevamente, consideremos la matriz P. Supongamos que las filas i y j tienen la siguiente configuración:

i 0.015 0.02 0.01 0.02 fi=0.075
j 0.0015 0.002 0.001 0.002 fj=0.0075

Aparentemente, la fila i parece más densa que la fila j. En la fila i se encuentra el 7.5 de la población, mientras que en la fila j solo el 0.75. Si no consideramos el tamaño, las frecuencias relativas intrafila son idénticas en cada fila. Por lo tanto, para analizar las diferencias relativas entre filas, debemos corregir el efecto tamaño. Esto se logra considerando la matriz cuyos elementos son de la forma pij/fi para las filas y pij/cj para las columnas, obteniendo así dos matrices.

Otro problema al que nos enfrentamos es si las filas i,j y k de la matriz ponderada por las marginales de las filas son:

i 0.15 0.02 0.10 0.43 0.30
j 0.15 0.02 0.10 0.44 0.29
k 0.15 0.01 0.10 0.44 0.30

Observe que la distancia euclidiana entre las filas i y j, y entre las filas i y k, se definen como:

d2e(i,j)=Jl=1(pilfipjlfj)2=(0.430.44)2+(0.300.29)2=0.0002d2e(i,k)=Jl=1(pilfipklfk)2=(0.430.44)2+(0.020.01)2=0.0002,

Esto es claramente problemático, ya que no es lo mismo una discrepancia de 0.01 entre 0.29 y 0.30, que entre 0.01 y 0.02.

7.0.2 Distancia entre filas

Una forma de corregir este problema es ponderando cada elemento de la suma por el marginal de la columna correspondiente:

d2(fi,fj)=Jl=11cl(pilfipjlfj)2=(fifj)TD1c(fifj),

Donde:

  • fi y fj son los vectores cuyos elementos son las filas i y j, respectivamente, de la matriz P; y

  • Dc es una matriz diagonal con elementos cl. A esta distancia se le conoce con el nombre de distancia chi-cuadrado.

7.0.3 Distancia entre columnas

Utilizando un procedimiento análogo se obtienen las distancias chi-cuadrado entre dos columnas j y k de esa matriz de datos, así:

d2(cj,ck)=Kl=11fl(pljcjplkck)2=(cjck)TD1f(cjck),

donde:

  • fj y fk son los vector cuyos elementos son las columnas i y j, respectivamente, de la matriz P; y

  • Df, es una matriz diagonal con elementos fl.

7.0.4 Distancia (observaciones)

Primero.

Note que los valores de las distancias anteriores miden la distancia entre dos distribuciones multinomiales. Es decir, permiten comparar los histogramas (distribuciones empíricas) por cada par de filas o columnas.

Segundo.

Observe también que esta distancia chi-cuadrado es equivalente a la distancia euclidiana, si se toma como puntos en el caso de las filas, para las filas i y K, las de coordenadas:

Wi=(pi1fic1,,piJficJ)yWj=(pk1fkc1,,pkJfkcJ), respectivamente.

7.0.5 Centro de gravedad

Es importante resaltar que las distancias no se calculan entre las filas o las columnas, sino que se expresan en relación con su centro de masa, que podemos definir como el promedio ponderado de esa columna por su masa.

  • En el caso de las columnas, esto se convierte en el vector de columnas generado por las marginales de las filas, f.

  • De manera similar, en el caso de las filas, el vector de filas generado por las marginales de las columnas, c.

Esto es aplicable cuando se analiza la matriz de perfiles (distancia chi-cuadrado) para las filas.

Si el análisis se realiza con la matriz cuyos elementos son de la forma Wi, i=1,,K (utilizando la distancia euclidiana), el centro de masa para las filas sería c, como se muestra a continuación:

Para calcular el centro de masa c de la nube de puntos generada por las filas W1,,WK, ponderando con los pesos de las columnas correspondientes, tendríamos para la i-ésima coordenada del vector c, i=1,,J:

ci=f1(p1if1ci)+f2(p2if2ci)++fK(pKifKci)=1ci(f1i+f2i++fKi)=1cici=ci

7.0.6 Distancia perfil al centro de gravedad

La distancia del perfil de fila i a su centro de gravedad (chi-cuadrado) se define como:

d2(fi,c)=Kl=11cl(pilficl)2=Kl=1(pilficlcl)2=de(fi,c).

Al calcular la distancia entre una fila y su centro de gravedad, en realidad estamos calculando una parte de la varianza o una covarianza. En resumen, la dispersión total de las filas es la suma ponderada de las diferencias al cuadrado de cada elemento de la fila respecto al centro de gravedad.

8 Inercia

La cantidad χ2/N se denomina inercia total. Esta inercia se descompone en un total de k valores característicos (propios), cada uno de los cuales constituye la inercia principal de una dimensión.

8.0.1 Inercia total de las filas

Si denotamos la inercia total de las filas como If, entonces puede calcularse de la siguiente manera:

If=Ki=1fid2(fi,c)=Ki=1Jj=1fi1fj(pijficj)2=Ki=1Jj=1(pijfi×cj)2fi×cj=tra(STS).

8.0.2 Inercia total de las columnas

De manera análoga, la dispersión total de las columnas Ic, se define como:

Ic=Jj=1cjd2(cj,f)=Jj=1Ki=1cj1ci(pijcjfi)2=Jj=1Ki=1(pijfi×cj)2fi×cj=tra(SST)=If.

Se observa que la dispersión total de las filas es igual a la de las columnas.

8.0.3 Matrices de inercia

Las matrices Σf=STS y Σc=SST se denominan matrices de inercia de las filas y columnas, respectivamente.

  • Σf es para el espacio que define los puntos fi de RJ.

  • Σc es para el espacio que define los puntos cj de RK.

8.0.4 Varianzas de filas y columnas

Los elementos de la diagonal de la matriz Σ representan las varianzas de las filas o columnas. además, su suma constituye la dispersión explicada por cada factor en el nuevo espacio. Los autovalores indican qué parte de esa dispersión está explicada por cada factor.

9 Coordenadas de los puntos

9.0.1 i en RJ

Con el fin de obtener sus valores y vectores propios, que permitirán calcular las coordenadas de los puntos i en RJ, para el espacio de J dimensiones que definen los puntos fila, es necesario diagonalizar la matriz Σf. Estas coordenadas tienen la siguiente forma:

Fα(i)=Jj=1μαj(fijficjcj)

o en forma matricial como:

R=(Fα(i))K×t=D1f(Ffc)D1/2cU,

donde:

  • μα es el vector propio (columnas de la matriz U) de Σf, correspondiente al factor α, α=1,,t.

  • Fα(i) es la proyección del punto fila

(fi1fic1c1,fi2fic2c2,,fiQficQcQ)

sobre el vector uα.

9.0.2 j en RK

De manera similar, se obtienen las coordenadas para los puntos j de RK:

Cα(j)=i=1(pijcjfifi)ναi,

en forma matricial como:

C=(Cα(j))P×t=D1c(Ffc)D1/2fV,

donde να es el vector propio (columnas de la matriz V) de Σc, correspondiente al factor α,α=1,,t. También podemos expresar estas coordenadas como:

Fα(i)=λαfiναi y Cα(j)=λαcjυαj,

donde λα, es el valor propio asociado al factor α.

10 Reconstrucción de la matriz de correspondencia

Para reconstruir la matriz de correspondencia P, podemos resolver las ecuaciones (3.2) y (3.3) para P, obteniendo la siguiente ecuación:

P=fc+D1/2fUDVTD1/2c,

o en términos de sus elementos:

pij=ficj+(0,0,,fiPosicióni,,0)UDVT(0,0,,cjPosiciónj,,0)T=ficj[1+α=11λαFα(i)Gα(j)]

11 Contribuciones absolutas y relativas

11.0.1 Contribuciones: generalidades

Las contribuciones ayudan a interpretar los ejes. Por ejemplo,

  1. La contribución absoluta de la fila i a un factor α indica la inercia explicada por ese factor generado por la fila i.

  2. La suma de todas las contribuciones absolutas de las filas para un factor es igual a la inercia del factor.

  3. Por lo tanto, al dividir la contribución absoluta de cada fila entre la inercia correspondiente al factor, obtenemos el porcentaje de variabilidad en el factor debido a esa fila, conocido como contribución relativa de la fila a la inercia del factor:

11.0.2 Contribuciones: resumen:

La contribución absoluta del punto i a la inercia λα es

fiF2α(i) La contribución relativa del punto i a la inercia λα es

fiF2α(i)λα

La contribución relativa del factor α a la inercia total es

λαtj=1λj

12 Ejercicios

Pendiente

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
