24/9/2020

Análisis de correspondencias

  • Es una técnica que trabaja con información organizada en tablas de contingencia.
  • Es una herramienta útil para el análisis de datos categóricos.
  • Trabaja con frecuencias absolutas y con frecuencias relativas.
  • Busca la mejor representación de datos organizados en filas y columnas.
  • Puede trabajar con tablas bidimensionales (Correspondencias simples) o con tablas con 3 o más entradas (Correspondencias múltiples).

Análisis de correspondencias simples

  • Obtiene dimensiones que explican la asociación entre filas (i) y columnas (j).
  • La asociación se explica a partir de una Chi-cuadrado (\(\chi ^2\)).
  • El número máximo de dimensiones es igual al número de categorias de la variable con menos categorias.
  • Describe la próximidad entre perfiles fila y perfiles columna.
  • La matriz de datos debe contar con entradas no negativas.
  • Se cuenta con una matriz de frecuencias absolutas y una matriz de frecuencias relativas.

Valores en la tabla de contingencia

Frecuencias absolutas

  • Individuos fila:

\(n_i= \sum_{j=1}^cn_{ij}\)

para \(j = 1, ..., n\)

  • Individuos columna:

\(n_j= \sum_{i=1}^fn_{ij}\)

para \(i = 1, ..., n\)

  • Total individuos:

\(N = \sum_{i=1}^f\sum_{j=1}^cn_{ij}\)

N\(=\sum_{j=1}^nn_{.j}=\sum_{i=1}^cn_{i.}\)

Ftecuencias relativas

  • Frecuencia relativa por celda: \(fr_{ij}=\frac{n_{ij}}{N}\)
  • Frecuencia relativa fila: \(fr_{i.}=\sum_{j=1}^cfr_{ij}=\frac{n_{i.}}{N}\)
  • Frecuencia relativa columna: \(fr_{.j}=\sum_{i=1}^ffr_{ij}=\frac{n_{.j}}{N}\)
  • Frecuencia rel condicional fila: \(fr_{j \mid i}=\frac{n_{ij}}{n_{i.}}=\frac{fr_{ij}}{fr_{i.}}\)
  • Frecuencia reñ condicional columna: \(fr_{i\mid j}=\frac{n_{ij}}{n_{.j}}=\frac{fr_{ij}}{fr_{.j}}\)

Aplicación - Introducción

Como parte de la Encuesta de Salud Bienestar y Envejecimiento - SABE realizada en Colombia en el año 2015 se recogio información sobre el área de residencia, el sexo, el estrato, si saben leer, si saben escribir, si trabajan, si logran usar sin ayuda la nevera, la lavadora y el horno microondas, y si presentaban deterioro cognitivo a una muestra probabilistica de 23542 adultos mayores del país, el objetivo del estudio era conocer el la relación que existia entre las diferentes variables recolectadas y el deterioro cognitivo.

summary(detcog[,-c(4,5)])
##      Area                Estrato          Sexo       Sabe_leer  Sabe_escribir
##  Urbano:17081   Estrato 1    :10240   Hombre:10053   Si:18470   Si:18211     
##  Rural : 6461   Estrato 2    : 8981   Mujer :13489   No: 5072   No: 5331     
##                 Estrato 3    : 3588                                          
##                 Estrato 4    :  568                                          
##                 Estrato 5 y 6:  165                                          
##  Sin_ayuda_nevera Sin_ayuda_lavadora Sin_ayuda_microondas Deterioro 
##  No: 3311         No:12063           No:18585             Si: 6111  
##  Si:20231         Si:11479           Si: 4957             No:17431  
##                                                                     
##                                                                     
## 

Aplicación - Tablas de frecuencias absolutas

Dada la información recolectada se desea conocer la relación entre el deterioro cognitivo y si los adultos mayores usan la nevera sin ayuda, y entre el estrato y el deterior, para lo cual se construyen a continuación las tablas de frecuencias.

t1 <- table(detcog$Sin_ayuda_nevera,detcog$Deterioro);addmargins(t1)
##      
##          Si    No   Sum
##   No   1660  1651  3311
##   Si   4451 15780 20231
##   Sum  6111 17431 23542
t2 <- table(detcog$Estrato,detcog$Deterioro);addmargins(t2)
##                
##                    Si    No   Sum
##   Estrato 1      3223  7017 10240
##   Estrato 2      2119  6862  8981
##   Estrato 3       669  2919  3588
##   Estrato 4        84   484   568
##   Estrato 5 y 6    16   149   165
##   Sum            6111 17431 23542

Aplicación - Tablas de frecuencias relativas

A continuación se presentan las tablas de frecuencias relativas para el caso anterior.

addmargins(prop.table(t1*100))
##      
##               Si         No        Sum
##   No  0.07051228 0.07012998 0.14064226
##   Si  0.18906635 0.67029139 0.85935774
##   Sum 0.25957863 0.74042137 1.00000000
addmargins(prop.table(t2*100))
##                
##                           Si           No          Sum
##   Estrato 1     0.1369042562 0.2980630363 0.4349672925
##   Estrato 2     0.0900093450 0.2914790587 0.3814884037
##   Estrato 3     0.0284172967 0.1239911647 0.1524084615
##   Estrato 4     0.0035680911 0.0205590009 0.0241270920
##   Estrato 5 y 6 0.0006796364 0.0063291139 0.0070087503
##   Sum           0.2595786254 0.7404213746 1.0000000000

Aplicación - Perfiles fila

A continuación se obtienen las frecuencias relativas condicionadas por fila

addmargins(tcf1 <- prop.table(t1,1))
##      
##              Si        No       Sum
##   No  0.5013591 0.4986409 1.0000000
##   Si  0.2200089 0.7799911 1.0000000
##   Sum 0.7213680 1.2786320 2.0000000
addmargins(tcf2 <- prop.table(t2,1))
##                
##                        Si        No       Sum
##   Estrato 1     0.3147461 0.6852539 1.0000000
##   Estrato 2     0.2359425 0.7640575 1.0000000
##   Estrato 3     0.1864548 0.8135452 1.0000000
##   Estrato 4     0.1478873 0.8521127 1.0000000
##   Estrato 5 y 6 0.0969697 0.9030303 1.0000000
##   Sum           0.9820005 4.0179995 5.0000000

Perfil Columna

A continuación se obtienen las frecuencias relativas condicionadas por columna.

addmargins(tc1 <- prop.table(t1,2))
##      
##               Si         No        Sum
##   No  0.27164130 0.09471631 0.36635761
##   Si  0.72835870 0.90528369 1.63364239
##   Sum 1.00000000 1.00000000 2.00000000
addmargins(tc2 <- prop.table(t2,2))
##                
##                          Si          No         Sum
##   Estrato 1     0.527409589 0.402558660 0.929968249
##   Estrato 2     0.346751759 0.393666456 0.740418215
##   Estrato 3     0.109474718 0.167460272 0.276934990
##   Estrato 4     0.013745704 0.027766623 0.041512327
##   Estrato 5 y 6 0.002618229 0.008547989 0.011166219
##   Sum           1.000000000 1.000000000 2.000000000

Análisis de correspondencias simples

Se busca encontrar la asociación entre variables ubicadas en una tabla 2 x2, lo cual se realiza a partir de las distancias Chi-cuadrado.

  • Chi-cuadrado para filas

** Chi-cuadrado para columnas

Aplicación - Correspondencias simples

Se trabaja el análisis para la asociación entre el deterioro y el uso de la nevera sin apoyo.

acs <- ca(addmargins(t1))
summary(acs)
## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.012444 21.0  100.0  *************************
##  2      00000000  0.0  100.0                           
##         -------- -----                                 
##  Total: 0.012444 100.0                                 
## 
## 
## Rows:
##     name   mass  qlt  inr    k=1  cor ctr    k=2  cor ctr  
## 1 |   No |   70 1000  859 | -390 1000 859 |    0    0 141 |
## 2 |   Si |  430 1000  141 |   64 1000 141 |    0    0 859 |
## 3 |  Sum |  500 <NA>    0 |    0 <NA>   0 |    0 <NA>   0 |
## 
## Columns:
##     name   mass  qlt  inr    k=1  cor ctr    k=2  cor ctr  
## 1 |   Si |  130 1000  740 | -266 1000 740 |    0    0 260 |
## 2 |   No |  370 1000  260 |   93 1000 260 |    0    0 740 |
## 3 |  Sum |  500 <NA>    0 |    0 <NA>   0 |    0 <NA>   0 |

Aplicación - Correspondencias simples gráfica

plot(acs)

Análisis de correspondencias múltiplpes

  • Las filas representan entradas de los sujetos y las columnas modalidades de variables categóricas.
  • El análisis permite trabajar con tablas disyuntivas completas.
  • Trabaja a partir de los perfiles fila y los perfiles columna.
  • La distancia entre los perfiles esta dada por la Chi-Cuadrado \(\chi ^ 2\).

Distancias Chi-cuadrado para el ACM

  • Modalidades:

    \(d^2(j,j')=\sum_{i=1}^nn(\frac{x_{ij}}{x_{.j}}-\frac{x_{ij'}}{x_{.j'}})^2\)

  • Individuos:

    \(d^2(i,i')=\frac{1}{k}\sum_{j=1}^k\frac{n}{x_{.j}}(x_{ij}-x_{i'j})^2\)

Propiedades del ACM

  • Representación gráfica de variables emparejadas.
  • La distancia de una modalidad al origen muestra su grado de participación.
  • Es una descomposición de la varianza o la inercia explicada.
  • La distancia al origen muestra la influencia de una variable en el factor.

Interpretación

  • La distancia entre los individuos representa la semejanza entre ellos, individuos cercanos son similares entre sí mientras que individuos alejados son diferentes entre sí.
  • La distancia entre las modalidades de variables distintas representa la asociación entre estas, las variables cercanas entre sí se encuentran asociadas mientras que las más lejanas muestran independencia.
  • La distancia entre modalidades de una misma variable representa las similitud o diferencia de los grupos de sujetos que seleccionaron cada categoria.

Aplicación - Correspondencias múltiples

Se desea evaluar la relación que existe entre el deterioro cognitivo, el sexo, el área, el estrato, si la persona sabe leer, si la persona sabe escribir y si requiere ayuda para usar la nevera, la lavadora y el microondas, de acuerdo con os datos obtenidos en la SABE - Colombia 2015.

detcog.acm<- detcog[,c(1:3,6:11)]
names(detcog.acm) <- c("Area","Estrato","Sexo","Leer","Escribir",
                       "Nevera","Lavadora","Microondas","Deterioro")
summary(detcog.acm)
##      Area                Estrato          Sexo       Leer       Escribir  
##  Urbano:17081   Estrato 1    :10240   Hombre:10053   Si:18470   Si:18211  
##  Rural : 6461   Estrato 2    : 8981   Mujer :13489   No: 5072   No: 5331  
##                 Estrato 3    : 3588                                       
##                 Estrato 4    :  568                                       
##                 Estrato 5 y 6:  165                                       
##  Nevera     Lavadora   Microondas Deterioro 
##  No: 3311   No:12063   No:18585   Si: 6111  
##  Si:20231   Si:11479   Si: 4957   No:17431  
##                                             
##                                             
## 

Aplicación - Resumen ACM

acm <- MCA(detcog.acm,graph = FALSE)
acm$eig
##         eigenvalue percentage of variance cumulative percentage of variance
## dim 1  0.323441225             24.2580918                          24.25809
## dim 2  0.156261266             11.7195949                          35.97769
## dim 3  0.117343538              8.8007654                          44.77845
## dim 4  0.111208474              8.3406356                          53.11909
## dim 5  0.111152945              8.3364708                          61.45556
## dim 6  0.110118354              8.2588765                          69.71444
## dim 7  0.105935647              7.9451736                          77.65961
## dim 8  0.087865997              6.5899498                          84.24956
## dim 9  0.078194781              5.8646086                          90.11417
## dim 10 0.067530360              5.0647770                          95.17894
## dim 11 0.057175811              4.2881858                          99.46713
## dim 12 0.007104935              0.5328701                         100.00000

Aplicación - Coordenadas

acm$var$coord
##                    Dim 1       Dim 2       Dim 3       Dim 4        Dim 5
## Urbano        -0.2934877  0.23361616 -0.24439954  0.04719895 -0.010803657
## Rural          0.7758960 -0.61761302  0.64612112 -0.12478025  0.028561719
## Estrato 1      0.5431274 -0.21809777  0.57283808  0.15630619 -0.217812165
## Estrato 2     -0.2115781 -0.01693211 -0.64149016 -0.69343211  0.668298638
## Estrato 3     -0.7899560  0.46824744 -0.56694201  1.07756907 -1.533398332
## Estrato 4     -1.0897995  0.92915959  2.07310272  3.26904098  3.945734801
## Estrato 5 y 6 -1.2610501  1.07608502  4.55773807 -6.64239234 -3.096591790
## Hombre         0.1381798 -0.52429471  0.19626717  0.14772814 -0.101515292
## Mujer         -0.1029818  0.39074318 -0.14627280 -0.11009793  0.075656700
## Leer_Si       -0.4069036 -0.27873531 -0.05184951  0.01685872  0.002539433
## Leer_No        1.4817646  1.01503180  0.18881318 -0.06139207 -0.009247502
## Escribir_Si   -0.4196574 -0.28975139 -0.04806997  0.01824116  0.002466216
## Escribir_No    1.4335736  0.98980727  0.16420974 -0.06231285 -0.008424733
## Nevera_No      1.2778953 -0.56615004 -0.29977280  0.35920804 -0.011459948
## Nevera_Si     -0.2091400  0.09265596  0.04906074 -0.05878789  0.001875532
## Lavadora_No    0.5890098 -0.41554529 -0.22000045  0.07461303  0.004225291
## Lavadora_Si   -0.6189760  0.43668637  0.23119308 -0.07840900 -0.004440255
## Microondas_No  0.2799182 -0.18023781 -0.13348966 -0.02938380  0.001720097
## Microondas_Si -1.0494814  0.67575543  0.50048523  0.11016704 -0.006449062
## Deterioro_Si   0.8588103  0.37232956 -0.58850139  0.15329296  0.014973552
## Deterioro_No  -0.3010837 -0.13053215  0.20631817 -0.05374180 -0.005249462

Aplicación - Contribución

acm$var$contrib
##                    Dim 1        Dim 2      Dim 3       Dim 4        Dim 5
## Urbano         2.1469007  2.815670725  4.1036377  0.16149316 8.465411e-03
## Rural          5.6757793  7.443812360 10.8488216  0.42694083 2.238008e-02
## Estrato 1      4.4078029  1.471177977 13.5150816  1.06176535 2.062801e+00
## Estrato 2      0.5866580  0.007776957 14.8648197 18.32773678 1.703174e+01
## Estrato 3      3.2672097  2.376107315  4.6385760 17.68149264 3.582247e+01
## Estrato 4      0.9843745  1.481125152  9.8184952 25.76115426 3.754891e+01
## Estrato 5 y 6  0.3828841  0.577085172 13.7859794 30.89649720 6.718078e+00
## Hombre         0.2800940  8.346596799  1.5575642  0.93110445 4.398978e-01
## Mujer          0.2087468  6.220500972  1.1608120  0.69392787 3.278444e-01
## Leer_Si        4.4624028  4.334247266  0.1997152  0.02227883 5.057474e-04
## Leer_No       16.2501142 15.783428036  0.7272753  0.08112972 1.841710e-03
## Escribir_Si    4.6799617  4.617933228  0.1692530  0.02571669 4.703152e-04
## Escribir_No   15.9870159 15.775123244  0.5781779  0.08784968 1.606624e-03
## Nevera_No      7.8898453  3.205420909  1.1967366  1.81312412 1.846365e-03
## Nevera_Si      1.2912500  0.524598321  0.1958576  0.29673540 3.021756e-04
## Lavadora_No    6.1068768  6.291509421  2.3483207  0.28501052 9.144537e-04
## Lavadora_Si    6.4175672  6.611593183  2.4677927  0.29951058 9.609770e-04
## Microondas_No  2.1249244  1.823547822  1.3320262  0.06810122 2.334864e-04
## Microondas_Si  7.9668591  6.836924807  4.9940905  0.25532804 8.753972e-04
## Deterioro_Si   6.5769651  2.558763243  8.5126001  0.60944280 5.817751e-03
## Deterioro_No   2.3057675  0.897057093  2.9843669  0.21365986 2.039601e-03

Aplicación - Gráfica

plot.MCA(acm, axes=c(1, 2), new.plot=TRUE, col.ind="black", col.ind.sup="blue",
         col.var="#0000a0", col.quali.sup="darkgreen",habillage = "quali",
         label=c("ind.sup","quali.sup", "var"), invisible=c("ind"),
         title="Análisis de correspondencias múltiples")

Gracias