El modelo
Generalidades
Se exponen los principios fundamentales del análisis de correspondencia simple, junto con un ejemplo que destaca la relevancia de esta técnica en contextos específicos, ilustrando la relación entre variables nominales en un mapa perceptual y la interacción entre sus categorías.
El análisis de correspondencia simple aborda la exploración de tablas cruzadas, donde las celdas reflejan algún tipo de relación entre las filas y columnas de una matriz. Este método condensa la información contenida en una tabla de contingencia, ofreciendo dos enfoques interpretativos. Por un lado, se visualiza como una herramienta para representar las variables en un espacio de menor dimensión, y por otro, como un método objetivo para asignar valores numéricos a variables cualitativas.
Un ejemplo paradigmático de aplicación del análisis de correspondencia simple se encuentra en los cursos introductorios de estadística, particularmente en los problemas que abordan la independencia entre dos variables categóricas.
Supongamos la presencia de dos variables categóricas, \(X\) e \(Y\), con \(I\) y \(J\) categorías respectivamente, definidas en una población. La pregunta clave es determinar si estas variables son independientes. Bajo la hipótesis nula:
\[ H0 : \;\mbox{Las variables X y Y son estadísticamente independientes}\]
versus la hipótesis alternativa:
\[H1 :\;\mbox{Las variables X y Y no son estadísticamente independientes}.\]
Matrices de frecuencias absolutas
Supongamos que disponemos de una tabla de contingencia que surge de \(n\) elementos seleccionados de una población, donde las variables categóricas \(X\) y \(Y\) están definidas. La intersección entre una fila \(i\) y una columna \(j\) representa la frecuencia de individuos que pertenecen a la categoría \(i\) de la variable \(X\) y a la categoría \(j\) de la variable \(Y\) simultáneamente, con \(i = 1, \ldots, K\) y \(j = 1, \ldots, J\). Esto se ilustra en la matriz de frecuencias absolutas siguiente, que será referida como \(F\):
\[F=\begin{pmatrix}
X \setminus Y & 1 & 2 & \ldots & J\\
\hline
1 & F_{11} & F_{12} & \ldots & F_{1J} \\
2 & F_{21} & F_{22} & \ldots & F_{2J} \\
\vdots & & & & \\
M & F_{K1} & F_{K2} & \ldots & F_{KJ}
\end{pmatrix}= (F_{ij})_{I \times J}\]
Ejemplo.
Véase la Figura 2.1.
Matrices de frecuencias relativas
Sea
\[n \; := \; \sum\limits_{i=1}^{J} \sum\limits_{j=1}^{K}F_{ij}\]
Multiplicar la matriz \(F\) por \(\frac{1}{n}\) nos proporciona la matriz de frecuencias relativas \(P=\frac{1}{n}F\), donde \(P\) es la matriz de frecuencias relativas conocida como matriz de correspondencia y \(n = 1_{K\times 1}^T\, F\, 1_{J \times 1}\) representa el número total de individuos en la tabla.
Es claro que las frecuencias absolutas no son adecuadas para comparar filas o columnas, por lo que se recurre a la matriz de frecuencias relativas (matriz de correspondencia) \(P\). Esta matriz se define explícitamente como la matriz de orden \(K \times J\) que centra la tabla siguiente:
\[P= \begin{pmatrix}
X\setminus Y & 1 & 2 & \ldots & J & \mbox{Marginal fila}\\
\hline
1 & p_{11} & p_{12} & \ldots & p_{1J} & f_1 \\
2 & p_{21} & p_{22} & \ldots & p_{2J} & f_2\\
\vdots & & & & & \vdots \\
K & p_{K1} & p_{K2} & \ldots & p_{KJ} & f_K\\
\hline
\mbox{Marginal columna} & c_1 & c_2 & \ldots & c_J & 1
\end{pmatrix},\]
donde
\[\begin{align*}
p_{ij} &= \; \frac{F_{ij}}{n},\\
f_i &= \sum\limits_{j=1}^{J}p_{ij},\qquad
c_j = \sum\limits_{i=1}^{K}p_{ij} \quad \mbox{y}\\
\sum\limits_{j=1}^{J}c_j &= \sum\limits_{i=1}^{K}f_i \;= \; \sum\limits_{i=1}^{J}\sum\limits_{j=1}^{K}p_{ij}=1.
\end{align*}\]
Ejemplo.
Véase la Figura 2.2.
Marginales
Denotaremos como \(f_i\) la frecuencia marginal de la i-ésima fila y como \(c_j\) la frecuencia marginal de la \(j\)-ésima columna, donde \(i=1,\ldots, K\) y \(j=1,\ldots, J\), o de manera vectorial:
\[ f = P\, 1_{J\times 1} \qquad\mbox{y}\qquad c = P^T\, 1_{K\times 1}, \]
vectores que representan las frecuencias marginales de filas y columnas, respectivamente.
Independencia
El estadístico
Es conocido que el estadístico más frecuentemente empleado para analizar la independencia estadística entre dos variables categóricas es:
\[\begin{align}
X_{(K-1)\times (J-1)}^2 &= \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(F_{ij}-E\left[F_{ij})\right]^2}{E(F_{ij})} = n^2 \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{\left[\frac{F_{ij}}{n}-E( \frac{F_{ij}}{n})\right]^2}{E(F_{ij})} \notag\\
&= \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{\left[\frac{F_{ij}}{n} - E(\frac{F_{ij}}{n})\right]^2}{E\left[\frac{F_{ij}}{n}\right]} = n^2 \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(p_{ij} - e_{ij})^2}{e_{ij}}, \tag{3.1}
\end{align}\]
donde:
\(E(F_{ij})\) representa la frecuencia absoluta esperada en la casilla \((i,j)\) de la matriz \(F\), y
\(e_{ij}\) es la frecuencia relativa esperada en la casilla \((i, j)\) de la matriz de correspondencia \(P\).
Observemos que, de (3.1), se tiene que
\[ \frac{1}{n} X_{(K-1)\times (J-1)}^2= \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(p_{ij} - e_{ij})^2}{e_{ij}}. \]
Para el ejemplo:
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 1240, df = 12, p-value < 2.2e-16
Matrices de residuos estandarizados
Si definimos \(D_f\) y \(D_c\) como las matrices diagonales \(D_f = \text{diag}(f)_{I\times I}\) y \(D_c = \text{diag}(c)_{J\times J}\), representando las frecuencias marginales de filas y columnas respectivamente, entonces la matriz
\[\begin{equation}
S = D_f^{-1/2} (P-f\; c^T) D_c^{-1/2} \tag{3.2}
\end{equation}\]
es la matriz de residuos estandarizados. Se puede demostrar que
\[S\, S^T\quad \text{y} \quad S^T\, S\]
son matrices simétricas, cuya traza es precisamente el estadístico de prueba en la prueba de independencia para dos variables categóricas, es decir,
\[\text{traza}(SS^T) = \text{traza}(S^TS) \sum_{i=1}^{J}\, \sum_{j=1}^{K} \frac{(p_{ij} \; - \; f_i \, c_j)^2}{e_{ij}}.\]
Descomposición en valores singulares
Si realizamos la descomposición en valores singulares de la matriz \(S\), obtenemos:
\[\begin{equation}
S \;=\; U\,D_{\lambda}\, V^T,\tag{3.3}
\end{equation}\]
donde
\[UU^T = I_K, \; VV^T = I_J \quad \text{y} \quad D_\lambda = \text{diag}(\lambda_1,\lambda_2, \ldots,)_{K\times J},\]
siendo \(D_\lambda\) una matriz diagonal y los \(\lambda_i\), \(i = 1, \ldots, \text{rang}(S) = t\), las raíces cuadradas positivas de los \(t\) valores propios de las matrices simétricas \(S\,S^T\) y \(S^T\,S\). Los \(t\) primeros vectores de las matrices ortogonales \(U\) y \(V\) son los vectores propios de las matrices \(S'S\) y \(SS'\), respectivamente.
Base
Los \(t\) primeros vectores de \(U\) constituyen una base para el subespacio generado por las filas de \(P\) y los \(t\) primeros vectores de la matriz \(V\) constituyen una base para el subespacio generado por las columnas de \(P\). Es decir, si construimos las matrices \(U_{t\times t}\), \(V_{t\times t}\) y \(D_\lambda,_{t\times t}\), la matriz
\[S_{t\times t} \;=\; U_{t\times t}\, D_\lambda,_{t\times t}\, V_{t\times t}\]
será la matriz de rango mínimo que mejor se aproxima a la matriz \(S\).
Problema CA
Así, el problema de análisis de correspondencia simple se puede expresar como un problema de mínimos cuadrados ponderados para determinar la matriz \(\widehat{e} = (\widehat{e}_{ij}) = f\,c\), de rango reducido que minimiza la
\[\text{traza}(S\, S^T) \;=\; \text{traza}(S^T\, S) \, \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(p_{ij} \;-\; f_i \,c_j)^2}{e_{ij}}.\]
Distancias chi-cuadradas
Distancia entre filas o columnas
Es la distancia entre filas y columnas de la matriz de datos. Para explicarla, nuevamente, consideremos la matriz \(P\). Supongamos que las filas \(i\) y \(j\) tienen la siguiente configuración:
\(i\)
|
0.015
|
0.02
|
0.01
|
0.02
|
\(f_i=0.075\)
|
\(j\)
|
0.0015
|
0.002
|
0.001
|
0.002
|
\(f_j=0.0075\)
|
Aparentemente, la fila \(i\) parece más densa que la fila \(j\). En la fila \(i\) se encuentra el \(7.5%\) de la población, mientras que en la fila \(j\) solo el \(0.75%\). Si no consideramos el tamaño, las frecuencias relativas intrafila son idénticas en cada fila. Por lo tanto, para analizar las diferencias relativas entre filas, debemos corregir el efecto tamaño. Esto se logra considerando la matriz cuyos elementos son de la forma \(p_{ij}/f_i\) para las filas y \(p_{ij}/c_j\) para las columnas, obteniendo así dos matrices.
Otro problema al que nos enfrentamos es si las filas \(i, j\) y \(k\) de la matriz ponderada por las marginales de las filas son:
\(i\)
|
0.15
|
0.02
|
0.10
|
0.43
|
0.30
|
\(j\)
|
0.15
|
0.02
|
0.10
|
0.44
|
0.29
|
\(k\)
|
0.15
|
0.01
|
0.10
|
0.44
|
0.30
|
Observe que la distancia euclidiana entre las filas \(i\) y \(j\), y entre las filas \(i\) y \(k\), se definen como:
\[\begin{align*}
d_e^2(i,j) &= \sum_{l=1}^{J}\left (\frac{p_{il}}{f_i} - \frac{p_{jl}}{f_j}\right)^2\\
&= (0.43-0.44)^2 \;+\; (0.30-0.29)^2 \;=\; 0.0002\\
&\\
d_e^2(i,k) &=\sum_{l=1}^{J}\left (\frac{p_{il}}{f_i} - \frac{p_{kl}}{f_k}\right)^2 \\
&= (0.43-0.44)^2 \;+\; (0.02-0.01)^2 \;=\; 0.0002,
\end{align*}\]
Esto es claramente problemático, ya que no es lo mismo una discrepancia de 0.01 entre 0.29 y 0.30, que entre 0.01 y 0.02.
Distancia entre filas
Una forma de corregir este problema es ponderando cada elemento de la suma por el marginal de la columna correspondiente:
\[d^2 (f_i, f_j) = \sum_{l=1}^{J}\frac{1}{c_l}\left(\frac{p_{il}}{f_i} - \frac{p_{jl}}{f_j}\right )^2 = (f_i - f_j)^T\, D_c^{-1} \, (f_i - f_j),\]
Donde:
\(f_i\) y \(f_j\) son los vectores cuyos elementos son las filas \(i\) y \(j\), respectivamente, de la matriz \(P\); y
\(D_c\) es una matriz diagonal con elementos \(c_l\). A esta distancia se le conoce con el nombre de distancia chi-cuadrado.
Distancia entre columnas
Utilizando un procedimiento análogo se obtienen las distancias chi-cuadrado entre dos columnas \(j\) y \(k\) de esa matriz de datos, así:
\[d^2 (c_j, c_k) \;=\; \sum_{l=1}^{K}\frac{1}{f_l}\left(\frac{p_{lj}}{c_j} - \frac{p_{lk}}{c_k}\right )^2 \;=\; (c_j - c_k)^T \,D_f^{-1}\, (c_j - c_k),\]
donde:
\(f_j\) y \(f_k\) son los vector cuyos elementos son las columnas \(i\) y \(j\), respectivamente, de la matriz \(P\); y
\(D_f\), es una matriz diagonal con elementos \(f_l\).
Distancia (observaciones)
Primero.
Note que los valores de las distancias anteriores miden la distancia entre dos distribuciones multinomiales. Es decir, permiten comparar los histogramas (distribuciones empíricas) por cada par de filas o columnas.
Segundo.
Observe también que esta distancia chi-cuadrado es equivalente a la distancia euclidiana, si se toma como puntos en el caso de las filas, para las filas \(i\) y \(K\), las de coordenadas:
\[W_i = \left(\frac{p_{i1}}{f_i \, \sqrt{c_1}}, \ldots, \frac{p_{iJ}}{f_i\,\sqrt{c_J}}\right) \quad \mbox{y}\quad W_j = \left(\frac{p_{k1}}{f_k \, \sqrt{c_1}}, \ldots, \frac{p_{kJ}}{f_k \, \sqrt{c_J}}\right),\]
respectivamente.
Centro de gravedad
Es importante resaltar que las distancias no se calculan entre las filas o las columnas, sino que se expresan en relación con su centro de masa, que podemos definir como el promedio ponderado de esa columna por su masa.
En el caso de las columnas, esto se convierte en el vector de columnas generado por las marginales de las filas, \(f\).
De manera similar, en el caso de las filas, el vector de filas generado por las marginales de las columnas, \(c\).
Esto es aplicable cuando se analiza la matriz de perfiles (distancia chi-cuadrado) para las filas.
Si el análisis se realiza con la matriz cuyos elementos son de la forma \(W_i\), \(i = 1,\ldots, K\) (utilizando la distancia euclidiana), el centro de masa para las filas sería \(\sqrt{\sqrt{c}}\), como se muestra a continuación:
Para calcular el centro de masa \(\sqrt{c}\) de la nube de puntos generada por las filas \(W_1,\ldots, W_K\), ponderando con los pesos de las columnas correspondientes, tendríamos para la i-ésima coordenada del vector \(\sqrt{c}\), \(i=1,\ldots, J\):
\[\begin{align*}
\sqrt{c_i} &= f_1 \left(\frac{p_{1i}}{f_1\sqrt{c_i}}\right) + f_2 \left(\frac{p_{2_i}}{f_2\sqrt{c_i}}\right) + \cdots + f_K\left(\frac{p_{Ki}}{f_K\sqrt{c_i}}\right) \\
&= \frac{1}{\sqrt{c_i}} (f_{1i}+f_{2i} + \cdots + f_{Ki})\\
&= \frac{1}{\sqrt{c_i}}c_i\\
&= \sqrt{c_i}
\end{align*}\]
Distancia perfil al centro de gravedad
La distancia del perfil de fila \(i\) a su centro de gravedad (chi-cuadrado) se define como:
\[d^2 \,(f_i, \;c) \; =\; \sum_{l=1}^{K} \frac{1}{c_l}\left(\frac{p_{il}}{f_i} - c_l\right)^2 \;=\; \sum_{l=1}^{K} \left(\frac{p_{il}}{f_i\, \sqrt{c_l}} - \sqrt{c_l}\right)^2 = d_e \,(f_i,\; c).\]
Al calcular la distancia entre una fila y su centro de gravedad, en realidad estamos calculando una parte de la varianza o una covarianza. En resumen, la dispersión total de las filas es la suma ponderada de las diferencias al cuadrado de cada elemento de la fila respecto al centro de gravedad.
Inercia
La cantidad \(\chi^2/N\) se denomina inercia total. Esta inercia se descompone en un total de \(k\) valores característicos (propios), cada uno de los cuales constituye la inercia principal de una dimensión.
Inercia total de las filas
Si denotamos la inercia total de las filas como \(I_f\), entonces puede calcularse de la siguiente manera:
\[\begin{align*}
I_f &= \sum_{i=1}^{K} f_i \,d^2\, (f_i, \;c)\\
&= \sum_{i=1}^{K} \sum_{j=1}^{J} f_i \frac{1}{f_j}\left(\frac{p_{ij}}{f_i} \;-\; c_j\right)^2\\
&= \sum_{i=1}^{K} \sum_{j=1}^{J} \frac{(p_{ij}-f_i \times c_j)^2}{f_i \times c_j}= tra(S^T\, S).
\end{align*}\]
Inercia total de las columnas
De manera análoga, la dispersión total de las columnas \(I_c\), se define como:
\[\begin{align*}
I_c &= \sum_{j=1}^{J} c_j \, d^2 (c_j, \;f)\\
&= \sum_{j=1}^{J} \sum_{i=1}^{K} c_j \frac{1}{c_i}\left(\frac{p_{ij}}{c_j}\;-\; f_i\right)^2\\
&= \sum_{j=1}^{J} \sum_{i=1}^{K} \frac{(p_{ij}-f_i \times c_j)^2}{f_i \times c_j}= tra(S\, S^T) \; =\; I_f.
\end{align*}\]
Se observa que la dispersión total de las filas es igual a la de las columnas.
Matrices de inercia
Las matrices \(\Sigma_f = S^T\, S\) y \(\Sigma_c = S\, S^T\) se denominan matrices de inercia de las filas y columnas, respectivamente.
Varianzas de filas y columnas
Los elementos de la diagonal de la matriz \(\Sigma\) representan las varianzas de las filas o columnas. además, su suma constituye la dispersión explicada por cada factor en el nuevo espacio. Los autovalores indican qué parte de esa dispersión está explicada por cada factor.
Coordenadas de los puntos
\(i\) en \(\mathbb{R}^J\)
Con el fin de obtener sus valores y vectores propios, que permitirán calcular las coordenadas de los puntos \(i\) en \(\mathbb{R}^J\), para el espacio de \(J\) dimensiones que definen los puntos fila, es necesario diagonalizar la matriz \(\Sigma_f\). Estas coordenadas tienen la siguiente forma:
\[F\alpha(i) = \sum_{j=1}^J \mu_{\alpha \, j}\left(\frac{f_{ij}}{f_i\, \sqrt{c_j}} - \sqrt{c_j}\right)\]
o en forma matricial como:
\[R\;=\;(F_\alpha(i))_{K\times t} \;=\; D_f^{-1}\, (F\; -\; f\, c )\, D_c^{-1/2}\, U,\]
donde:
\(\mu_\alpha\) es el vector propio (columnas de la matriz \(U\)) de \(\Sigma_f\), correspondiente al factor \(\alpha\), \(\alpha = 1, \ldots, t\).
\(F_\alpha(i)\) es la proyección del punto fila
\[\left(\frac{f_{i1}}{f_i \sqrt{c_1}} - \sqrt{c_1}, \frac{f_{i2}}{f_i \sqrt{c_2}} - \sqrt{c_2}, \ldots, \frac{f_{iQ}}{f_i \sqrt{c_Q}} - \sqrt{c_Q}\right)\]
sobre el vector \(u_\alpha\).
\(j\) en \(\mathbb{R}^K\)
De manera similar, se obtienen las coordenadas para los puntos \(j\) de \(\mathbb{R}^K\):
\[C_\alpha(j)=\sum_{i=1} \left(\frac{p_{ij}}{c_j\sqrt{f_i}}- \sqrt{f_i}\right)\nu_{\alpha i},\]
en forma matricial como:
\[C=(C_\alpha (j))_{P\times t} =D_c^{-1}(F-f\; c)'D_f^{-1/2}V,\]
donde \(\nu_\alpha\) es el vector propio (columnas de la matriz \(V\)) de \(\Sigma_c\), correspondiente al factor \(\alpha, \alpha = 1, \ldots, t\). También podemos expresar estas coordenadas como:
\[F_\alpha(i)= \frac{\sqrt{\lambda_\alpha}}{\sqrt{f_i}} \; \nu_{\alpha i}\]
y
\[C_\alpha(j)= \frac{\sqrt{\lambda_\alpha}}{\sqrt{c_j}} \; \upsilon_{\alpha j},\]
donde \(\lambda_\alpha\), es el valor propio asociado al factor \(\alpha\).
Reconstrucción de la matriz de correspondencia
Para reconstruir la matriz de correspondencia \(P\), podemos resolver las ecuaciones (3.2) y (3.3) para \(P\), obteniendo la siguiente ecuación:
\[\begin{equation}
P \;=\; f \, c \;+\; D_f^{1/2} U\, D\, V^T D_c^{1/2}, \tag{10.1}
\end{equation}\]
o en términos de sus elementos:
\[\begin{eqnarray*}
p_{ij} &=& f_i c_j \;+\; (0,0,\ldots,\underbrace{\sqrt{f_i}}_{\text{Posición} \,i}, \ldots,0) \; U\, D \, V^T \;(0,0, \ldots, \underbrace{\sqrt{c_j}}_{\text{Posición} \,j}, \ldots, 0)^T\\
&=& f_i \, c_j\, \left[1\;+\; \sum_{\alpha=1} \frac{1}{\sqrt{\lambda_\alpha}} \, F_\alpha (i) \, G_\alpha(j)\right]
\end{eqnarray*}\]
---
title: "ANÁLISIS DE CORRESPONDENCIA"
subtitle: <h1>**Teoría**</h1>

author: 
  - name          : "Dr. rer. nat. Humberto LLinás Solano"
    affiliation   : "Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia)"
     #corresponding : yes    # Define only one corresponding author
     #address       : "Departamento de Matemáticas y Estadística"
    email         : |
      hllinas@uninorte.edu.co
      
      [Biographical sketch](https://rpubs.com/hllinas/Bio_Sketch)
      
      `r format(Sys.time(), "%d/%m/%y")` 
      
     #role:         # Contributorship roles (e.g., CRediT, https://casrai.org/credit/)
  #    - Conceptualization
  #    - Writing - Original Draft Preparation
  #    - Writing - Review & Editing
 # - name          : "Autor numero 2"
 #   affiliation   : "1,2"
 #   role:
 #     - Writing - Review & Editing
     #affiliation:
  #- id            : "1"
  #  institution   : "Universidad del Norte (Barranquilla, Colombia)"
  #![](hllinas.jpg){width=1in} 
  
#date: '`r format(Sys.time(), "%d/%m/%y")`'  # ver https://bookdown.org/yihui/rmarkdown-cookbook/update-date.html
output: 
    bookdown::html_document2: 
          #OJO Salen capitulos, secciones y Teoremas
    #bookdown::html_book:
          #OJO ERROR Salen teoremas, pero no salen los capitulos 
    #html_document:
          toc: true      # table of content true
          toc_depth: 4   # upto three depths of headings (specified by #, ## and ###)
          toc_float: true #Con true, toc sale al margen izquierdo de la página; de lo contrario, arriba
          collapsed: false
          smooth_scroll: false
          number_sections: true   # if you want number sections at each table header
          #theme: sandstone
          #theme: united  # many options for theme, this one is my favorite.
          #theme: flatly  # 
          #theme: cerulean  # 
          #highlight: tango  # specifies the syntax highlighting style
          #css: Scripts accesorios/estiloboton.css
          #css: my.css   # you can add your custom css, should be in same folder
          code_download: true
          #highlight: tango  # cambiar color de library en azul
    # bookdown::gitbook:
    #      includes:
    #        in_header: header.html
    # bookdown::pdf_book:
    #       keep_tex: yes
    # bookdown::html_book:
    #       css: toc.css
    # bookdown::html_book:
    #         includes:
    #           in_header: style.css
    #bookdown::html_document2: default
    # bookdown::pdf_document2:
    #      keep_tex: true
    #bibliography: references.bib
    mathjax: "http://example.com/mathjax/MathJax.js?config=TeX-AMS-MML_HTMLorMML"
header-includes:
    \usepackage[x11names]{xcolor} 
    
csl: science.csl
#Ojo: Se utiliza lenguaje YAML

abstract: |
 **En [Rpubs:: toc](https://rpubs.com/hllinas/toc) se pueden ver otros documentos de posible interés.**
  
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, fig.align="center",  message=FALSE, warning=FALSE#,
                      #style = "color:darkblue"
                    # class.source="bg-danger", class.output="bg-warning"   #Colores dentro del chunk
                     )
library(rgl)
knitr::knit_hooks$set(webgl = hook_webgl)
```




```{r, echo=FALSE, eval=FALSE}
https://bookdown.org/yihui/rmarkdown/language-engines.html

https://bookdown.org/yihui/bookdown/markdown-syntax.html

https://bookdown.org/yihui/bookdown/a-single-document.html

https://bookdown.org/yihui/bookdown/markdown-extensions-by-bookdown.html

https://bookdown.org/yihui/rmarkdown/bookdown-markdown.html  # Teorems and proofs

https://bookdown.org/yihui/bookdown/markdown-extensions-by-bookdown.html#theorems

https://bookdown.org/yihui/bookdown/html.html

https://www.data-to-viz.com/
  
[Rpubs](link)
  
(\#eq:ec-),  Ecuacion \@ref(eq:ec-), Figura \@ref(fig:Fig-), Table \@ref(tab:mtcars), Theorem \@ref(thm:boring)


# Titulo {#TituloSeccion}   \@ref(TituloSeccion)
  
# For HTML, we can set color with CSS, e.g., <span style="color: red;">text</span>
  
# https://radiant-rstats.github.io/docs/model/logistic.html Shinny Logit  
  
```


```{r, eval=FALSE, echo=FALSE}
#La foto tamaño cédula

htmltools::img(src = knitr::image_uri(file.path(R.home("doc"), "html", "logo.jpg")), 
               alt = 'hllinas', 
               style = 'position:absolute; top:0; right:0; padding:10px;' #,
               width = "200px")  # Aquí especificas el ancho deseado en píxeles o porcentaje
```




```{r, echo=FALSE, }
# La foto grande

htmltools::img(src = knitr::image_uri("hllinas2023.jpg"), 
               alt = 'hllinas2023', 
               style = 'position:absolute; top:0; right:0; padding:1px;',
               width="15%")
```



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador  -->

```{css, echo=FALSE}
.columns {display: flex;}
h1 {color: darkblue;}
h3 {color: darkgreen;}
h4 {color: green;}
```



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Capítulo  -->


```{css, echo=FALSE, eval=FALSE}
#https://stackoverflow.com/questions/41030477/changing-chunk-background-color-in-rmarkdown

.badCode {
background-color: red;
}
```






<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Introducción



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Preliminares

El análisis de correspondencia (CA) es una técnica relacionada con el análisis de componentes principales (PCA) pero aplicable a variables cualitativas. Véase la Figura \@ref(fig:Corresp1).


<center>
```{r Corresp1, echo=FALSE, fig.cap = "**Resumen y visualización de datos multivariados**", out.width = "100%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Corresp1.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


### Propósito/objetivo

1. Ayuda a resumir y visualizar datos en gráficos bidimensionales, especialmente en tablas de contingencia. 

2. Proporciona coordenadas para puntos de fila y columna, lo que permite visualizar asociaciones entre categorías. 

3. En este documento, se explica la teoría correspondiente. 

4. En otro documento, se explica cómo realizar CA utilizando paquetes de R como `FactoMineR` y `factoextra`, y cómo interpretar los resultados, incluyendo la identificación de variables importantes y la gestión de valores atípicos.


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


# El modelo 

### Generalidades 

Se exponen los principios fundamentales del análisis de correspondencia simple, junto con un ejemplo que destaca la relevancia de esta técnica en contextos específicos, ilustrando la relación entre variables nominales en un mapa perceptual y la interacción entre sus categorías.

El análisis de correspondencia simple aborda la exploración de tablas cruzadas, donde las celdas reflejan algún tipo de relación entre las filas y columnas de una matriz. Este método condensa la información contenida en una tabla de contingencia, ofreciendo dos enfoques interpretativos. Por un lado, se visualiza como una herramienta para representar las variables en un espacio de menor dimensión, y por otro, como un método objetivo para asignar valores numéricos a variables cualitativas.

Un ejemplo paradigmático de aplicación del análisis de correspondencia simple se encuentra en los cursos introductorios de estadística, particularmente en los problemas que abordan la independencia entre dos variables categóricas.

Supongamos la presencia de dos variables categóricas, $X$ e $Y$, con $I$ y $J$ categorías respectivamente, definidas en una población. La pregunta clave es determinar si estas variables son independientes. Bajo la hipótesis nula:

$$ H0 : \;\mbox{Las variables X y Y son estadísticamente independientes}$$

versus la hipótesis alternativa:

$$H1 :\;\mbox{Las variables X y Y no son estadísticamente independientes}.$$


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Matrices de frecuencias absolutas

Supongamos que disponemos de una tabla de contingencia que surge de $n$ elementos seleccionados de una población, donde las variables categóricas $X$ y $Y$ están definidas. La intersección entre una fila $i$ y una columna $j$ representa la frecuencia de individuos que pertenecen a la categoría $i$ de la variable $X$ y a la categoría $j$ de la variable $Y$ simultáneamente, con $i = 1, \ldots, K$ y $j = 1, \ldots, J$. Esto se ilustra en la matriz de frecuencias absolutas siguiente, que será referida como $F$:

$$F=\begin{pmatrix}
X \setminus Y & 1 & 2 & \ldots & J\\ 
\hline
1 & F_{11} & F_{12} & \ldots  & F_{1J} \\ 
2 & F_{21} & F_{22} & \ldots  & F_{2J} \\ 
\vdots &  &  &  & \\ 
M & F_{K1} & F_{K2} & \ldots & F_{KJ}
\end{pmatrix}= (F_{ij})_{I \times J}$$




```{r, echo= FALSE}
# Crear los vectores para cada fila y columna
Color_de_ojos <- c("O_Claro", "O_Azul", "O_Medio", "O_Oscuro")
Rubio <- c(688, 326, 343, 98)
Rojo <- c(116, 38, 84, 48)
Medio <- c(584, 241, 909, 403)
Oscuro <- c(188, 110, 412, 681)
Negro <- c(4, 3, 26, 85)
#Total_ni. <- c(1580, 718, 1774, 1315)

# Calcular los totales por columna
#Total_n.j <- c("Total", sum(Rubio), sum(Rojo), sum(Medio), sum(Oscuro), sum(Negro), sum(Total_ni.))

# Construir el data frame
df <- data.frame(Color_de_ojos, Rubio, Rojo, Medio, Oscuro, Negro
                 #, Total_ni.
                 )

# Añadir la fila de totales al final del data frame
#df <- rbind(df, Total_n.j)

# Cambiar los nombres de las columnas
names(df) <- c("Color", "C_Rubio", "C_Rojo", "C_Medio", "C_Oscuro", "C_Negro"
               #, "Total"
               )


```


**Ejemplo.** 

Véase la Figura \@ref(fig:Color1).


<center>
```{r Color1, echo=FALSE, fig.cap = "**Matriz $F$ (Frecuencias absolutas)**", out.width = "70%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Color1.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Matrices de frecuencias relativas


Sea 

$$n \; := \; \sum\limits_{i=1}^{J} \sum\limits_{j=1}^{K}F_{ij}$$

Multiplicar la matriz $F$ por $\frac{1}{n}$ nos proporciona la matriz de frecuencias relativas $P=\frac{1}{n}F$, donde $P$ es la matriz de frecuencias relativas conocida como matriz de correspondencia y $n = 1_{K\times 1}^T\, F\, 1_{J \times 1}$ representa el número total de individuos en la tabla.

Es claro que las frecuencias absolutas no son adecuadas para comparar filas o columnas, por lo que se recurre a la matriz de frecuencias relativas (matriz de correspondencia) $P$. Esta matriz se define explícitamente como la matriz de orden $K \times J$ que centra la tabla siguiente:


$$P= \begin{pmatrix}
X\setminus Y & 1 & 2 & \ldots & J & \mbox{Marginal fila}\\ 
\hline
1 & p_{11} & p_{12} & \ldots  & p_{1J} & f_1 \\ 
2 & p_{21} & p_{22} & \ldots  & p_{2J} & f_2\\ 
\vdots  &  &  &  &  & \vdots \\ 
K & p_{K1} & p_{K2} & \ldots & p_{KJ} & f_K\\ 
\hline
\mbox{Marginal columna} & c_1 & c_2 & \ldots & c_J & 1
\end{pmatrix},$$

donde

\begin{align*}
 p_{ij} &= \; \frac{F_{ij}}{n},\\ 
f_i &= \sum\limits_{j=1}^{J}p_{ij},\qquad 
c_j = \sum\limits_{i=1}^{K}p_{ij} \quad \mbox{y}\\ 
\sum\limits_{j=1}^{J}c_j &= \sum\limits_{i=1}^{K}f_i \;= \; \sum\limits_{i=1}^{J}\sum\limits_{j=1}^{K}p_{ij}=1.
\end{align*}



**Ejemplo.** 

Véase la Figura \@ref(fig:Color2).


<center>
```{r Color2, echo=FALSE, fig.cap = "**Matriz $P$ (Frecuencias relativas)**", out.width = "70%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Color2.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Marginales

\noindent Denotaremos como $f_i$ la frecuencia marginal de la i-ésima fila y como $c_j$ la frecuencia marginal de la $j$-ésima columna, donde $i=1,\ldots, K$ y $j=1,\ldots, J$, o de manera vectorial:

$$ f = P\, 1_{J\times 1} \qquad\mbox{y}\qquad c = P^T\, 1_{K\times 1}, $$

vectores que representan las *frecuencias marginales de filas* y *columnas*, respectivamente.



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Independencia

### El estadístico

Es conocido que el estadístico más frecuentemente empleado para analizar la independencia estadística entre dos variables categóricas es:

\begin{align}
X_{(K-1)\times (J-1)}^2 &= \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(F_{ij}-E\left[F_{ij})\right]^2}{E(F_{ij})} = n^2 \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{\left[\frac{F_{ij}}{n}-E( \frac{F_{ij}}{n})\right]^2}{E(F_{ij})} \notag\\ 
&= \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{\left[\frac{F_{ij}}{n} - E(\frac{F_{ij}}{n})\right]^2}{E\left[\frac{F_{ij}}{n}\right]} = n^2 \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(p_{ij} - e_{ij})^2}{e_{ij}}, (\#eq:ec-4-1)
\end{align}

\noindent donde: 
  
  + $E(F_{ij})$ representa la frecuencia absoluta esperada en la casilla $(i,j)$ de la matriz $F$, y 
  
  + $e_{ij}$ es la frecuencia relativa esperada en la casilla $(i, j)$ de la matriz de correspondencia $P$.

Observemos que, de \@ref(eq:ec-4-1), se tiene que

$$ \frac{1}{n} X_{(K-1)\times (J-1)}^2= \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(p_{ij} - e_{ij})^2}{e_{ij}}. $$


**Para el ejemplo:**

```{r, echo=FALSE}
tabla<-df[-1]
chisq_test <- chisq.test(tabla)
chisq_test
```




<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Matrices de residuos estandarizados

Si definimos $D_f$ y $D_c$ como las matrices diagonales $D_f = \text{diag}(f)_{I\times I}$ y $D_c = \text{diag}(c)_{J\times J}$, representando las frecuencias marginales de filas y columnas respectivamente, entonces la matriz

\begin{equation} 
S = D_f^{-1/2} (P-f\; c^T) D_c^{-1/2}     (\#eq:ec-4-2)
\end{equation}

\noindent es la *matriz de residuos estandarizados*. Se puede demostrar que 

$$S\, S^T\quad \text{y} \quad S^T\, S$$

son matrices simétricas, cuya traza es precisamente el estadístico de prueba en la prueba de independencia para dos variables categóricas, es decir,

$$\text{traza}(SS^T) = \text{traza}(S^TS) \sum_{i=1}^{J}\, \sum_{j=1}^{K} \frac{(p_{ij} \; - \; f_i \, c_j)^2}{e_{ij}}.$$

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Descomposición en valores singulares

\noindent Si realizamos la descomposición en valores singulares de la matriz $S$, obtenemos:

\begin{equation}
S \;=\;  U\,D_{\lambda}\, V^T,(\#eq:ec-4-3)
\end{equation}

\noindent donde

$$UU^T = I_K, \; VV^T = I_J \quad \text{y} \quad D_\lambda = \text{diag}(\lambda_1,\lambda_2, \ldots,)_{K\times J},$$

\noindent siendo $D_\lambda$ una matriz diagonal y los $\lambda_i$, $i = 1, \ldots, \text{rang}(S) = t$, las raíces cuadradas positivas de los $t$ valores propios de las matrices simétricas $S\,S^T$ y $S^T\,S$. Los $t$ primeros vectores de las matrices ortogonales $U$ y $V$ son los vectores propios de las matrices $S'S$ y $SS'$, respectivamente. 

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Base

Los $t$ primeros vectores de $U$ constituyen una base para el subespacio generado por las filas de $P$ y los $t$ primeros vectores de la matriz $V$ constituyen una base para el subespacio generado por las columnas de $P$. Es decir, si construimos las matrices $U_{t\times t}$, $V_{t\times t}$ y $D_\lambda,_{t\times t}$, la matriz 

$$S_{t\times t} \;=\;  U_{t\times t}\, D_\lambda,_{t\times t}\, V_{t\times t}$$

será la matriz de rango mínimo que mejor se aproxima a la matriz $S$.

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Problema CA

Así, el problema de análisis de correspondencia simple se puede expresar como un problema de mínimos cuadrados ponderados para determinar la matriz $\widehat{e} = (\widehat{e}_{ij}) = f\,c$, de rango reducido que minimiza la

$$\text{traza}(S\, S^T) \;=\; \text{traza}(S^T\, S) \, \sum_{i=1}^{J}\sum_{j=1}^{K} \frac{(p_{ij} \;-\; f_i \,c_j)^2}{e_{ij}}.$$



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


# Perfiles fila y columnas

Se hallan dividiendo la frecuencia relativa entre el total de fila o columna correspondiente.  Los perfiles de fila y columna se pueden comparar con las distribuciones correspondientes de columna y fila, considerando su respectiva importancia, para evaluar su desviación de la independencia.

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Perfiles fila 

### Matriz de perfiles filas 

**Ejemplo.** 

Véase la Figura \@ref(fig:Color3).


<center>
```{r Color3, echo=FALSE, fig.cap = "**Matriz de perfiles fila**", out.width = "70%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Color3.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


### Diagrama de perfiles fila 

 En la representación del perfil del **color de ojos en relación con el color del cabello**, se observa una similitud considerable entre los perfiles de *ojos claros* y *ojos azules*, que es similar (aunque ligeramente menor) a la similitud o proximidad entre los perfiles de *ojos medios* y *oscuros* (ver Figura \@ref(fig:Color4)).

<center>
```{r Color4, echo=FALSE, fig.cap = "**Histograma de perfiles fila**", out.width = "70%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Color4.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->
->

# Perfiles columna

### Matriz de perfiles columna


**Ejemplo.** 

Véase la Figura \@ref(fig:Color5).


<center>
```{r Color5, echo=FALSE, fig.cap = "**Matriz de perfiles columna**", out.width = "70%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Color5.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


### Diagrama de perfiles columna

En el análisis del **perfil de color del cabello**, se observa una similitud notable entre los perfiles de *cabello rubio* y *rojo*, así como entre los *cabellos oscuro* y *negro*. Por otro lado, el perfil de *cabello medio* se distingue notablemente de los demás perfiles. Esto se puede apreciar en la Figura \@ref(fig:Color6).

<center>
```{r Color6, echo=FALSE, fig.cap = "**Histograma de perfiles columna**", out.width = "70%"}
# fig.width = 20 # No funciona esta opcion en el chunk

#http://zevross.com/blog/2017/06/19/tips-and-tricks-for-working-with-images-and-figures-in-r-markdown-documents/
# Pagina 359 de R2015-Friendly

knitr::include_graphics("Color6.png")

#Otra manera, pero  sale el caption:
#<center>
#![(#fig:Fig-caption) Mi figura](Nombre.png){width=400px}
#</center>
```
</center>

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


# Distancias chi-cuadradas

### Distancia entre filas o columnas

Es la distancia entre filas y columnas de la matriz de datos. Para explicarla, nuevamente, consideremos la matriz $P$. Supongamos que las filas $i$ y $j$ tienen la siguiente configuración:


<table style="border-collapse: collapse; width: 50%; margin-left: auto; margin-right: auto;">
  <tr style="text-align: center;">
    <th style="border: 1px solid black;">$i$</th>
    <th style="border: 1px solid black;">0.015</th>
    <th style="border: 1px solid black;">0.02</th>
    <th style="border: 1px solid black;">0.01</th>
    <th style="border: 1px solid black;">0.02</th>
    <th style="border: 1px solid black;">$f_i=0.075$</th>
  </tr>
  <tr style="text-align: center;">
    <th style="border: 1px solid black;">$j$</th>
    <td style="border: 1px solid black;">0.0015</td>
    <td style="border: 1px solid black;">0.002</td>
    <td style="border: 1px solid black;">0.001</td>
    <td style="border: 1px solid black;">0.002</td>
    <td style="border: 1px solid black;">$f_j=0.0075$</td>
  </tr>
</table>



Aparentemente, la fila $i$ parece más densa que la fila $j$. En la fila $i$ se encuentra el $7.5%$ de la población, mientras que en la fila $j$ solo el $0.75%$. Si no consideramos el tamaño, las frecuencias relativas intrafila son idénticas en cada fila. Por lo tanto, para analizar las diferencias relativas entre filas, debemos corregir el efecto tamaño. Esto se logra considerando la matriz cuyos elementos son de la forma $p_{ij}/f_i$ para las filas y $p_{ij}/c_j$ para las columnas, obteniendo así dos matrices.

Otro problema al que nos enfrentamos es si las filas $i, j$ y $k$ de la matriz ponderada por las marginales de las filas son:

<table style="border-collapse: collapse; width: 50%; margin-left: auto; margin-right: auto;">
  <tr style="text-align: center;">
    <th style="border: 1px solid black;">$i$</th>
    <th style="border: 1px solid black;">0.15</th>
    <th style="border: 1px solid black;">0.02</th>
    <th style="border: 1px solid black;">0.10</th>
    <th style="border: 1px solid black;">0.43</th>
    <th style="border: 1px solid black;">0.30</th>
  </tr>
  <tr style="text-align: center;">
    <th style="border: 1px solid black;">$j$</th>
    <td style="border: 1px solid black;">0.15</td>
    <td style="border: 1px solid black;">0.02</td>
    <td style="border: 1px solid black;">0.10</td>
    <td style="border: 1px solid black;">0.44</td>
    <td style="border: 1px solid black;">0.29</td>
  </tr>
  <tr style="text-align: center;">
    <th style="border: 1px solid black;">$k$</th>
    <td style="border: 1px solid black;">0.15</td>
    <td style="border: 1px solid black;">0.01</td>
    <td style="border: 1px solid black;">0.10</td>
    <td style="border: 1px solid black;">0.44</td>
    <td style="border: 1px solid black;">0.30</td>
  </tr>
</table>

Observe que la distancia euclidiana entre las filas $i$ y $j$, y entre las filas $i$ y $k$, se definen como:

\begin{align*}
d_e^2(i,j) &= \sum_{l=1}^{J}\left (\frac{p_{il}}{f_i} - \frac{p_{jl}}{f_j}\right)^2\\
&= (0.43-0.44)^2 \;+\; (0.30-0.29)^2 \;=\; 0.0002\\
&\\
d_e^2(i,k) &=\sum_{l=1}^{J}\left (\frac{p_{il}}{f_i} - \frac{p_{kl}}{f_k}\right)^2 \\
&= (0.43-0.44)^2 \;+\; (0.02-0.01)^2 \;=\; 0.0002,
\end{align*}

Esto es claramente problemático, ya que no es lo mismo una discrepancia de 0.01 entre 0.29 y 0.30, que entre 0.01 y 0.02. 

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


### Distancia entre filas

Una forma de corregir este problema es ponderando cada elemento de la suma por el marginal de la columna correspondiente:

$$d^2 (f_i, f_j) = \sum_{l=1}^{J}\frac{1}{c_l}\left(\frac{p_{il}}{f_i} - \frac{p_{jl}}{f_j}\right )^2 = (f_i - f_j)^T\, D_c^{-1} \, (f_i - f_j),$$

Donde:
  
  + $f_i$ y $f_j$ son los vectores cuyos elementos son las filas $i$ y $j$, respectivamente, de la matriz $P$; y 
  
  + $D_c$ es una matriz diagonal con elementos $c_l$. A esta distancia se le conoce con el nombre de *distancia chi-cuadrado*.



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Distancia entre columnas

Utilizando un procedimiento análogo se obtienen las distancias chi-cuadrado entre dos columnas $j$ y $k$ de esa matriz de datos, así:

$$d^2 (c_j, c_k) \;=\; \sum_{l=1}^{K}\frac{1}{f_l}\left(\frac{p_{lj}}{c_j} - \frac{p_{lk}}{c_k}\right )^2 \;=\; (c_j - c_k)^T \,D_f^{-1}\, (c_j - c_k),$$

donde:
  
  + $f_j$ y $f_k$ son los vector cuyos elementos son las columnas $i$ y $j$, respectivamente, de la matriz $P$; y 
  
  + $D_f$, es una matriz diagonal con elementos $f_l$.
  

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Distancia (observaciones)

**Primero.**

Note que los valores de las distancias anteriores miden la distancia entre dos distribuciones multinomiales. Es decir, permiten comparar los histogramas (distribuciones empíricas) por cada par de filas o columnas.


**Segundo.**

Observe también que esta distancia chi-cuadrado es equivalente a la distancia euclidiana, si se toma como puntos en el caso de las filas, para las filas $i$ y $K$, las de coordenadas: 

$$W_i = \left(\frac{p_{i1}}{f_i \, \sqrt{c_1}}, \ldots, \frac{p_{iJ}}{f_i\,\sqrt{c_J}}\right) \quad \mbox{y}\quad W_j = \left(\frac{p_{k1}}{f_k \, \sqrt{c_1}}, \ldots, \frac{p_{kJ}}{f_k \, \sqrt{c_J}}\right),$$ 
respectivamente.


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Centro de gravedad

Es importante resaltar que las distancias no se calculan entre las filas o las columnas, sino que se expresan en relación con su centro de masa, que podemos definir como el promedio ponderado de esa columna por su masa. 
  
  + En el caso de las columnas, esto se convierte en el vector de columnas generado por las marginales de las filas, $f$.
  
  + De manera similar, en el caso de las filas, el vector de filas generado por las marginales de las columnas, $c$. 
  

Esto es aplicable cuando se analiza la matriz de perfiles (distancia chi-cuadrado) para las filas.


Si el análisis se realiza con la matriz cuyos elementos son de la forma $W_i$, $i = 1,\ldots, K$ (utilizando la distancia euclidiana), el centro de masa para las filas sería $\sqrt{\sqrt{c}}$, como se muestra a continuación:

Para calcular el centro de masa $\sqrt{c}$ de la nube de puntos generada por las filas $W_1,\ldots, W_K$, ponderando con los pesos de las columnas correspondientes, tendríamos para la i-ésima coordenada del vector $\sqrt{c}$, $i=1,\ldots, J$:

\begin{align*}
\sqrt{c_i} &= f_1 \left(\frac{p_{1i}}{f_1\sqrt{c_i}}\right) + f_2 \left(\frac{p_{2_i}}{f_2\sqrt{c_i}}\right) + \cdots + f_K\left(\frac{p_{Ki}}{f_K\sqrt{c_i}}\right) \\
&= \frac{1}{\sqrt{c_i}} (f_{1i}+f_{2i} + \cdots + f_{Ki})\\
&= \frac{1}{\sqrt{c_i}}c_i\\
&=  \sqrt{c_i}
\end{align*}


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Distancia perfil al centro de gravedad

La distancia del perfil de fila $i$ a su centro de gravedad (chi-cuadrado) se define como:

$$d^2 \,(f_i, \;c) \; =\;  \sum_{l=1}^{K} \frac{1}{c_l}\left(\frac{p_{il}}{f_i} - c_l\right)^2 \;=\; \sum_{l=1}^{K} \left(\frac{p_{il}}{f_i\, \sqrt{c_l}} - \sqrt{c_l}\right)^2 = d_e \,(f_i,\; c).$$

Al calcular la distancia entre una fila y su centro de gravedad, en realidad estamos calculando una parte de la varianza o una covarianza. En resumen, la dispersión total de las filas es la suma ponderada de las diferencias al cuadrado de cada elemento de la fila respecto al centro de gravedad. 

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Inercia

La cantidad $\chi^2/N$ se denomina inercia total. Esta inercia se descompone en un total de $k$ valores característicos (propios), cada uno de los cuales constituye la inercia principal de una dimensión.


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Inercia total de las filas

Si denotamos la inercia total de las filas como $I_f$, entonces puede calcularse de la siguiente manera:

\begin{align*}
I_f &= \sum_{i=1}^{K} f_i \,d^2\, (f_i, \;c)\\ 
&= \sum_{i=1}^{K} \sum_{j=1}^{J} f_i \frac{1}{f_j}\left(\frac{p_{ij}}{f_i} \;-\; c_j\right)^2\\ 
 &= \sum_{i=1}^{K} \sum_{j=1}^{J} \frac{(p_{ij}-f_i \times c_j)^2}{f_i \times c_j}= tra(S^T\, S).
\end{align*}

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Inercia total de las columnas

De manera análoga, la dispersión total de las columnas $I_c$, se define como:

\begin{align*}
I_c &= \sum_{j=1}^{J} c_j \, d^2 (c_j, \;f)\\ 
 &= \sum_{j=1}^{J} \sum_{i=1}^{K} c_j \frac{1}{c_i}\left(\frac{p_{ij}}{c_j}\;-\; f_i\right)^2\\ 
 &= \sum_{j=1}^{J} \sum_{i=1}^{K} \frac{(p_{ij}-f_i \times c_j)^2}{f_i \times c_j}= tra(S\, S^T) \; =\;  I_f.
\end{align*}

Se observa que la dispersión total de las filas es igual a la de las columnas. 


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Matrices de inercia

Las matrices $\Sigma_f = S^T\, S$ y $\Sigma_c = S\, S^T$ se denominan *matrices de inercia de las filas* y *columnas*, respectivamente. 
  
  + $\Sigma_f$ es para el espacio que define los puntos $f_i$ de $\mathbb{R}^J$. 
  
  + $\Sigma_c$ es para el espacio que define los puntos $c_j$ de $\mathbb{R}^K$.
  

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Varianzas de filas y columnas

Los elementos de la diagonal de la matriz $\Sigma$ representan las varianzas de las filas o columnas. además, su suma constituye la dispersión explicada por cada factor en el nuevo espacio. Los autovalores indican qué parte de esa dispersión está explicada por cada factor. 


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Coordenadas de los puntos

###  $i$ en $\mathbb{R}^J$

Con el fin de obtener sus valores y vectores propios, que permitirán calcular las coordenadas de los puntos $i$ en $\mathbb{R}^J$, para el espacio de $J$ dimensiones que definen los puntos fila, es necesario diagonalizar la matriz $\Sigma_f$. Estas coordenadas tienen la siguiente forma:

$$F\alpha(i) = \sum_{j=1}^J \mu_{\alpha \, j}\left(\frac{f_{ij}}{f_i\, \sqrt{c_j}} - \sqrt{c_j}\right)$$

o en forma matricial como:

$$R\;=\;(F_\alpha(i))_{K\times t} \;=\; D_f^{-1}\, (F\; -\; f\, c )\, D_c^{-1/2}\, U,$$

donde: 

+ $\mu_\alpha$ es el vector propio (columnas de la matriz $U$) de $\Sigma_f$, correspondiente al factor $\alpha$, $\alpha = 1, \ldots, t$. 

+ $F_\alpha(i)$ es la proyección del punto fila 

$$\left(\frac{f_{i1}}{f_i \sqrt{c_1}} - \sqrt{c_1}, \frac{f_{i2}}{f_i \sqrt{c_2}} - \sqrt{c_2}, \ldots, \frac{f_{iQ}}{f_i \sqrt{c_Q}} - \sqrt{c_Q}\right)$$ 

sobre el vector $u_\alpha$. 


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### $j$ en $\mathbb{R}^K$


De manera similar, se obtienen las coordenadas para los puntos $j$ de $\mathbb{R}^K$:

$$C_\alpha(j)=\sum_{i=1} \left(\frac{p_{ij}}{c_j\sqrt{f_i}}- \sqrt{f_i}\right)\nu_{\alpha i},$$

 en forma matricial como:

$$C=(C_\alpha (j))_{P\times t} =D_c^{-1}(F-f\; c)'D_f^{-1/2}V,$$

donde $\nu_\alpha$ es el vector propio (columnas de la matriz $V$) de $\Sigma_c$, correspondiente al factor $\alpha, \alpha = 1, \ldots, t$. También podemos expresar estas coordenadas como:

$$F_\alpha(i)= \frac{\sqrt{\lambda_\alpha}}{\sqrt{f_i}} \; \nu_{\alpha i}$$
y
$$C_\alpha(j)= \frac{\sqrt{\lambda_\alpha}}{\sqrt{c_j}} \; \upsilon_{\alpha j},$$

donde $\lambda_\alpha$, es el valor propio asociado al factor $\alpha$.


<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Reconstrucción de la matriz de correspondencia

Para reconstruir la matriz de correspondencia $P$, podemos resolver las ecuaciones \@ref(eq:ec-4-2) y \@ref(eq:ec-4-3) para $P$, obteniendo la siguiente ecuación:

\begin{equation}
P \;=\; f \, c \;+\; D_f^{1/2} U\, D\, V^T D_c^{1/2},    (\#eq:ec-4-4)
\end{equation}

o en términos de sus elementos:


\begin{eqnarray*}
p_{ij} &=& f_i c_j \;+\; (0,0,\ldots,\underbrace{\sqrt{f_i}}_{\text{Posición} \,i}, \ldots,0) \; U\,  D \, V^T \;(0,0, \ldots, \underbrace{\sqrt{c_j}}_{\text{Posición} \,j}, \ldots, 0)^T\\
&=& f_i \, c_j\, \left[1\;+\; \sum_{\alpha=1} \frac{1}{\sqrt{\lambda_\alpha}} \, F_\alpha (i) \, G_\alpha(j)\right]
\end{eqnarray*}


```{r, echo=FALSE, eval=FALSE}
library(FactoMineR)
library(factoextra)
res.ca <- CA(tabla, graph = FALSE)
summary(res.ca)
```



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

# Contribuciones absolutas y relativas

### Contribuciones: generalidades

Las contribuciones ayudan a interpretar los ejes. Por ejemplo, 
  
  1. La contribución absoluta de la fila $i$ a un factor $\alpha$ indica la inercia explicada por ese factor generado por la fila $i$.
  
  2. La suma de todas las contribuciones absolutas de las filas para un factor es igual a la inercia del factor. 
  
  3. Por lo tanto, al dividir la contribución absoluta de cada fila entre la inercia correspondiente al factor, obtenemos el porcentaje de variabilidad en el factor debido a esa fila, conocido como *contribución relativa de la fila a la inercia del factor*: 
  

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

### Contribuciones: resumen:  


  
 La contribución absoluta del punto $i$ a la inercia $\lambda_\alpha$ es  
 
 $$f_i \, F_\alpha^2(i)$$ 
 La contribución relativa del punto $i$ a la inercia $\lambda_\alpha$ es
 
$$\frac{f_i \, F_\alpha^2(i)}{\lambda_\alpha}$$

La contribución relativa del factor $\alpha$ a la inercia total es
      
$$\frac{\lambda_\alpha}{\sum\limits_{j=1}^t \lambda_j}$$
  

<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->

```{r, echo=FALSE, eval= FALSE}
# FALTA ejemplos en Martin cap. 4 

# Falta teoría y ejemplos de unnal cap. 3
```



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


# Ejercicios

Pendiente



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->



# Bibliografía {.unlisted .unnumbered}
  
Consultar el documento [RPubs :: Análisis multivariado (bibliografía)](https://rpubs.com/hllinas/R_Multivariado_Bibliografia).



<!-- %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -->
<!-- Separador -->


&nbsp;


&nbsp;
<center>
~~~
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
~~~
</center>


