Ejemplo: Enunciado
Base de datos
Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables.
datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names") #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
## [1] "Observation" "ID" "Gender" "Like" "Age"
## [6] "Smoke" "Height" "Weight" "BMI" "School"
## [11] "SES" "Enrollment" "Score" "MotherHeight" "MotherAge"
## [16] "MotherCHD" "FatherHeight" "FatherAge" "FatherCHD" "Status"
## [21] "SemAcum" "Exam1" "Exam2" "Exam3" "Exam4"
## [26] "ExamAcum" "Definitive" "Expense" "Income" "Gas"
## [31] "Course" "Law" "Economic" "Race" "Region"
## [36] "EMO1" "EMO2" "EMO3" "EMO4" "EMO5"
## [41] "GOAL1" "GOAL2" "GOAL3" "Pre_STAT1" "Pre_STAT2"
## [46] "Pre_STAT3" "Pre_STAT4" "Post_STAT1" "Post_STAT2" "Post_STAT3"
## [51] "Post_STAT4" "Pre_IDARE1" "Pre_IDARE2" "Pre_IDARE3" "Pre_IDARE4"
## [56] "Pre_IDARE5" "Post_IDARE1" "Post_IDARE2" "Post_IDARE3" "Post_IDARE4"
## [61] "Post_IDARE5" "PSICO1" "PSICO2" "PSICO3" "PSICO4"
## [66] "PSICO5"
Datos para el CA
Los datos deben ser una tabla de contingencia. Por esta razón, solo consideraremos las siguientes dos variables para realizar el análisis de correspondencia:
Post_STAT1
: “I like statistics”, con las siguientes codificaciones: 1= Strongly disagree; 2= Disagree; 3= Undecided; 4= Agree; 5= Strongly agree.
PSICO1
: “I feel good”, con las siguientes codificaciones: 1=Almost never; 2= Sometimes; 3= Frequently; 4= Almost always.
df <- datosCompleto[,c(48,62)]
names(df) <- c("Stat_num", "Psico_a")
attach(df)
# Cambiar los niveles de la variable STAT
df$Stat <- factor(df$Stat_num, levels = c(1, 2, 3, 4, 5), labels = c("1.Str.Disagree", "2.Disagree", "3.Undecided", "4.Agree", "5.Str.Agree"))
# Cambiar los niveles de la variable Psico
df$Psico <- factor(df$Psico_a, levels = c("Almost never", "Sometimes", "Frequently", "Almost always"), labels = c("1.Never", "2.Some.", "3.Freq.", "4.Always"))
attach(df)
Ejemplo: Solución (gráfica de tablas)
balloonplot
: general
La tabla de contingencia anterior no es muy grande. Por lo tanto, es fácil inspeccionar visualmente e interpretar los perfiles de filas y columnas. La tabla de contingencia puede visualizarse utilizando las funciones balloonplot
del paquete gplots
y mosaicplot
del paquete graphics
.
library(gplots)
# Convertir los datos como una tabla
tabla <- as.table(as.matrix(dat))
# Grafica el balloonplot con el tamaño de fuente ajustado
balloonplot(t(tabla), main ="Statistic vs Feeling",
xlab ="I feel good:",
ylab="I like Stat:",
label = FALSE,
show.margins = TRUE,
#show.margins = FALSE
)
balloonplot
: otros argumentos
Tenga en cuenta que las sumas de filas y columnas se imprimen por defecto en los márgenes inferior y derecho, respectivamente.
respectivamente. Estos valores se ocultan, en el gráfico anterior, utilizando el argumento show.margins = FALSE
.
library(ggpubr)
tabla.df <- data.frame(t(tabla))
#Defino paleta de colores
#my_cols <- c("#0D0887FF", "#6A00A8FF", "#B12A90FF","#E16462FF", "#FCA636FF", "#F0F921FF")
my_cols <- c("blue", "white", "red")
ggballoonplot(tabla.df, main ="Estadística vs Sentimiento",
xlab ="Me siento bien",
ylab="Me gusta la Estadística",
fill = "value",
size=10,
#shape = 23,
show.label = TRUE
)+
scale_fill_gradientn(colors = my_cols)

Ejemplo: Solución (visualización)
Visualización e interpretación
Utilizaremos las siguientes funciones [en factoextra
] para ayudar en la interpretación y visualización del análisis de correspondencias:
get_eigenvalue(res.ca)
: Extrae los valores propios/varianzas retenidas por cada dimensión (eje)
fviz_eig(res.ca)
: Visualiza los valores propios
get_ca_row(res.ca)
, get_ca_col(res.ca)
: Extrae los resultados para filas y columnas, respectivamente.
fviz_ca_row(res.ca)
, fviz_ca_col(res.ca)
: Visualiza los resultados para filas y columnas, respectivamente.
fviz_ca_biplot(res.ca)
: Crea un biplot de filas y columnas.
En las secciones siguientes, ilustraremos cada una de estas funciones.
Significancia estadística
Para las interpretaciones que se obtengan con el análisis de correspondencia, primero, es necesario determinar si hay una dependencia significativa entre las filas y columnas. Un enfoque riguroso es utilizar la estadística de chi-cuadrado para examinar la asociación entre las variables de fila y columna. Esta información se encuentra en la parte superior del informe generado por la función summary(res.ca)
o print(res.ca)
.
summary(res.ca)
##
## Call:
## CA(X = tabla, graph = FALSE)
##
## The chi square of independence between the two variables is equal to 24.71265 (p-value = 0.01624481 ).
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3
## Variance 0.024 0.006 0.000
## % of var. 78.194 20.237 1.569
## Cumulative % of var. 78.194 98.431 100.000
##
## Rows
## Iner*1000 Dim.1 ctr cos2 Dim.2 ctr cos2
## 1.Str.Disagree | 5.812 | -0.112 11.072 0.462 | 0.120 49.444 0.534 |
## 2.Disagree | 0.444 | -0.004 0.013 0.007 | 0.025 1.971 0.278 |
## 3.Undecided | 8.600 | -0.167 23.366 0.659 | -0.121 46.772 0.341 |
## 4.Agree | 0.228 | 0.017 0.215 0.229 | -0.013 0.528 0.145 |
## 5.Str.Agree | 15.923 | 0.285 65.334 0.995 | -0.020 1.285 0.005 |
## Dim.3 ctr cos2
## 1.Str.Disagree 0.011 5.166 0.004 |
## 2.Disagree -0.040 65.260 0.715 |
## 3.Undecided 0.000 0.000 0.000 |
## 4.Agree 0.028 29.303 0.626 |
## 5.Str.Agree 0.003 0.272 0.000 |
##
## Columns
## Iner*1000 Dim.1 ctr cos2 Dim.2 ctr cos2
## 1.Never | 21.624 | 0.752 87.824 0.985 | -0.091 5.007 0.015 |
## 2.Some. | 5.110 | 0.036 1.194 0.057 | 0.148 76.825 0.943 |
## 3.Freq. | 3.518 | -0.075 10.972 0.756 | -0.039 11.315 0.202 |
## 4.Always | 0.755 | -0.003 0.009 0.003 | -0.040 6.852 0.570 |
## Dim.3 ctr cos2
## 1.Never -0.021 3.405 0.001 |
## 2.Some. -0.001 0.023 0.000 |
## 3.Freq. -0.018 30.284 0.042 |
## 4.Always 0.035 66.288 0.427 |
Un valor alto de la estadística de chi-cuadrado indica una fuerte conexión entre las variables de fila y columna. En nuestro ejemplo, la asociación es altamente significativa (chi-cuadrado = 24.7126467, p-valor = 0.0162448).
#Chi-square statistics
chi2 <- chisq_test$statistic
# Degree of freedom
df <- (nrow(tabla) - 1) * (ncol(tabla) - 1)
# P-value
pval <- pchisq(chi2, df = df, lower.tail = FALSE)
pval
## X-squared
## 0.01624481
Valores y vectores propios
Primero, recordemos que evaluamos los eigenvalores para determinar la cantidad de ejes a considerar. Podemos obtener los eigenvalores y la proporción de varianza retenida por los diferentes ejes utilizando la función get_eigenvalue
del paquete factoextra
. Los eigenvalores son grandes para el primer eje y pequeños para los ejes siguientes.
library(factoextra)
eig.val <- get_eigenvalue(res.ca)
eig.val
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 0.0242457526 78.194234 78.19423
## Dim.2 0.0062749588 20.237178 98.43141
## Dim.3 0.0004863735 1.568588 100.00000
Los valores propios representan la cantidad de información preservada por cada eje. Las dimensiones se ordenan de manera descendente y se enumeran según la varianza explicada en la solución. La primera dimensión explica la mayor parte de la varianza, seguida por la segunda dimensión, y así sucesivamente.
El porcentaje acumulado explicado se obtiene sumando las proporciones sucesivas de variación explicada para obtener el total acumulado. Por ejemplo, 78.19% más 20.24% es igual a 98.43%, y así sucesivamente. Por lo tanto, aproximadamente el 98.43% de la variación está explicada por las primeras dos dimensiones.
Los valores propios se pueden utilizar para determinar el número de ejes a retener. No hay una “regla general” para elegir el número de dimensiones a mantener para la interpretación de los datos. Depende de la pregunta de investigación y de las necesidades del investigador. Por ejemplo, si el investigador está satisfecho con el 80% de las varianzas totales explicadas, entonces debe usar el número de dimensiones necesario para lograr eso.
Se debe tener en cuenta que una buena reducción de dimensiones se logra cuando las primeras dimensiones explican una gran proporción de la variabilidad.
En nuestro análisis, el primer eje explica el 78.19% de la variación. Este es un porcentaje acpatblemente grande.
Scree plot
Un método alternativo para determinar el número de dimensiones es observar un gráfico Scree, que es el gráfico de valores propios/varianzas ordenados de mayor a menor. El número de componentes se determina en el punto en el que los valores propios restantes son todos relativamente pequeños y de tamaño comparable. El gráfico Scree se puede producir utilizando la función fviz_eig
o fviz_screeplot
del paquete factoextra
.
fviz_screeplot(res.ca, addlabels = TRUE, ylim = c(0, 100))
El punto en el que el scree plot muestra una curvatura (llamada “codo”, “elbow”) puede considerarse como indicativo de una dimensionalidad óptima. También es posible calcular un valor propio promedio por encima del cual el eje debe mantenerse en la solución.
Nuestros datos contienen 5 filas y 4 columnas. Si los datos fueran aleatorios, el valor esperado del valor propio para cada eje sería
\[\frac{1}{\mbox{Número de filas}\; -\; 1} \;=\; \frac{1}{4} \;=\; 25\% \quad \mbox{en términos de filas} \]
1/(nrow(tabla) -1)
## [1] 0.25
Del mismo modo, el eje promedio debería representar
\[\frac{1}{\mbox{Número de columnas}\; -\; 1} \;=\; \frac{1}{3} \;=\; 33.3\% \quad \mbox{en términos de las 4 columnas} \]
1/(ncol(tabla) -1)
## [1] 0.3333333
Se resalta el hecho de que cualquier eje con una contribución mayor que el máximo de estos dos porcentajes debe considerarse importante e incluirse en la solución para la interpretación de los datos. El código R a continuación dibuja elscree plot con una línea roja discontinua que especifica el valor propio promedio:
fviz_screeplot(res.ca) +
geom_hline(yintercept=33.33, linetype=2, color="red")

El gráfico indica que solo se deben utilizar la dimensión 1 para la solución. Las dimensiones 2 y 3, que solo explican el 21.81% de la inercia total, está por debajo del valor propio promedio (33.33%) y es demasiado insignificante para un análisis adicional. Aunque se pueden emplear más de 1 dimensión, es improbable que las dimensiones adicionales contribuyan significativamente a comprender la relación entre las filas y columnas. La dimensión 1 representa aproximadamente el 78.19% de la inercia total, respectivamente, lo que equivale a un total acumulado del 78.19% de la inercia retenida por esta dimensión.
Biplot
La función fviz_ca_biplot
del paquete factoextra
puede ser usado para dibujar el biplot de las variables filas y columnas.
#repel= TRUE para evitar traslapamiento de textos
fviz_ca_biplot(res.ca, repel = TRUE)

Observaciones:
El gráfico anterior se denomina diagrama simétrico (symetric plot).
Muestra un patrón global dentro de los datos.
Las filas están representadas por puntos azules y las columnas por triángulos rojos.
La distancia entre cualquier par de puntos de fila o columna proporciona una medida de su similitud (o disimilitud).
Los puntos de fila con perfiles similares están cerca en el mapa de factores. Lo mismo ocurre para los puntos de columna.
Representa los perfiles de fila y columna simultáneamente en un espacio común. En este caso, solo la distancia entre puntos de fila o la distancia entre puntos de columna puede ser realmente interpretada. La distancia entre cualquier ítem de fila y columna no tiene un significado claro. Solo se pueden hacer afirmaciones generales sobre el patrón observado.
Para interpretar la distancia entre puntos de columna y fila, los perfiles de columna deben presentarse en el espacio de fila o viceversa. Este tipo de mapa se denomina biplot asimétrico y se describe en siguientes secciones.
El siguiente paso para la interpretación es determinar qué variables de fila y columna contribuyen más en la definición de las diferentes dimensiones retenidas en el modelo.
Interpreataciones para nuestro ejemplo:
En nuestro ejemplo, este gráfico muestra que:
Las personas que algunas veces se sienten bien, están completamente en desacuerdo de que les gusta la estadística.
Las personas que casi siempre se sienten bien, están de acuerdo en que les gusta la estadística.
Ejemplo: Solución (get_ca_row
)
Argumentos de get_ca_row
Primero, la función get_ca_row
en factoextra
se utiliza para extraer los resultados de las variables de fila. Esta función devuelve una lista que contiene las coordenadas
, cos2
, contribución
y inercia
de las variables de fila.
row <- get_ca_row(res.ca)
row
## Correspondence Analysis - Results for rows
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the rows"
## 2 "$cos2" "Cos2 for the rows"
## 3 "$contrib" "contributions of the rows"
## 4 "$inertia" "Inertia of the rows"
Primero, los elementos de la función get_ca_row
pueden utilizarse en la representación de filas de la siguiente manera:
row$coord
: coordenadas de cada punto de fila en cada dimensión (1, 2 y 3). Se utilizan para crear el gráfico de dispersión.
row$cos2
: calidad de representación de las filas.
col$contrib
: contribución de las filas (en %) a la definición de las dimensiones.
Es posible graficar los puntos de fila y colorearlos según:
su calidad en el mapa factorial (cos2
) o
sus valores de contribución a la definición de dimensiones (contrib
).
Valores de get_ca_row
Los diferentes componentes pueden accederse de la siguiente manera:
# Coordenadas de puntos de filas
head(row$coord)
# Cos2: calidad del mapa factorial
head(row$cos2)
# Contribuciones a las componenentes principales
head(row$contrib)
Primero, explicamos cómo visualizar solo los puntos de fila. Luego, destacamos las filas según:
Su calidad de representación en el mapa factorial o
sus contribuciones a las dimensiones.
Ejemplo: Solución (row$coord
)
row$coord
: valores
El código R proporcionado muestra las coordenadas de cada punto de fila en cada dimensión (1, 2 y 3):
head(row$coord)
## Dim 1 Dim 2 Dim 3
## 1.Str.Disagree -0.111854843 0.12025260 1.082141e-02
## 2.Disagree -0.003954693 0.02474074 -3.963913e-02
## 3.Undecided -0.167466854 -0.12053505 8.418317e-05
## 4.Agree 0.016707622 -0.01331322 2.761046e-02
## 5.Str.Agree 0.285397494 -0.02036543 2.605985e-03
row$coord
: gráficas
Use la función fviz_ca_row
del paquete factoextra
para visualizar solo puntos de filas:
fviz_ca_row(res.ca, repel = TRUE)

row$coord
: gráficas (col.row
, shape.row
)
Se puede modificar el color y la forma de los puntos de fila utilizando los argumentos col.row
y shape.row
de la siguiente manera:
fviz_ca_row(res.ca, col.row="steelblue", shape.row = 15)

El diagrama exhibe las relaciones entre los puntos de fila:
Las filas que comparten un perfil parecido están agrupadas.
Las filas con correlación negativa se ubican en lados opuestos del origen del diagrama (cuadrantes contrapuestos).
La distancia entre los puntos de fila y el origen evalúa la calidad de los puntos de fila en el mapa de factores. Los puntos de fila que se encuentran distantes del origen están bien representados en el mapa de factores.
Ejemplo: Solución (row$cos2
)
row$cos2
: calidad de la representación
El análisis ha demostrado que se pudo representar la tabla de contingencia en un espacio de baja dimensión mediante el análisis de correspondencia. Las dimensiones 1 y 2 son suficientes para retener la mayor parte de la variación de los datos. Aunque, es importante tener en cuenta que algunos puntos no se muestran tan bien en ambas dimensiones. La calidad de la representación de las filas en el mapa de factores se evalúa mediante el coseno al cuadrado (cos2
) o las correlaciones al cuadrado, que indican la asociación entre las filas/columnas y un eje específico. El cos2
de los puntos de las filas se puede calcular de la siguiente manera:
head(row$cos2, 4)
## Dim 1 Dim 2 Dim 3
## 1.Str.Disagree 0.461861598 0.5338156 4.322851e-03
## 2.Disagree 0.007112126 0.2783552 7.145327e-01
## 3.Undecided 0.658741127 0.3412587 1.664591e-07
## 4.Agree 0.229046707 0.1454323 6.255210e-01
row$cos2
: interpetaciones resumidas
Los valores de cos2
están comprendidos entre 0 y 1.
La suma de los cos2
para las filas en todas las dimensiones de CA es igual a uno.
La calidad de la representación de una fila o columna en n dimensiones es simplemente la suma del coseno al cuadrado de esa fila o columna sobre las $n4 dimensiones.
Si un elemento de fila está bien representado por dos dimensiones, la suma de los cos2
se acerca a uno.
Para algunos de los elementos de fila, se requieren más de 2 dimensiones para representar perfectamente los datos.
row$cos2
: argumento gradient.cols
Es posible colorear los puntos de las filas según sus valores de cos2
utilizando el argumento col.row = "cos2"
. Esto produce colores degradados. En este caso, se puede utilizar el argumento gradient.cols
para proporcionar un color personalizado.
Por ejemplo, gradient.cols = c("green", "brown", "blue")
significa que:
Las variables con valores bajos de cos2
serán coloreadas en verde.
Las variables con valores medios de cos2
serán coloreadas en marrón.
Las variables con valores altos de cos2
serán coloreadas en azul.
# Color por valores cos2: caliad del mapa factorial
MisColores <- c("green", "brown", "blue")
fviz_ca_row(res.ca, col.row = "cos2",
gradient.cols = MisColores,
repel = TRUE)

row$cos2
: transpariencias con alpha.var
También es posible ajustar la transparencia de las variables según los valores de cos2
utilizando la opción alpha.row = "cos2"
:
# Cambiar la transpariencia por valores de cos2
fviz_ca_row(res.ca, alpha.row = "cos2",
col.row = "red",
title="Transpariencia de las filas por cos2",
repel = TRUE # Evita traslapamiento de textos
)

row$cos2
: correlaciones
Se puede representar gráficamente el cos2
de los puntos de fila en todas las dimensiones utilizando el paquete corrplot
.
library("corrplot")
corrplot(row$cos2,
is.corr=FALSE, # Se puede activar o no
tl.col = "black",
#addCoef.col = 'grey50', #Agregar valores
#number.cex = 0.7, #Tamaño de los valores
tl.srt = 90,
bg = "lightblue", #Color del fondo
title="Matriz de correlaciones",
#tl.cex=1.5, #Tamaño de las fuentes
#cex.main=2.0, #Tamaño del título
#type="lower",
mar=c(0,0,4,0)
)

Se debe tener en cuenta que todos los puntos de fila excepto 4.Agree
y 2.Disagree
están bien representados por las dos primeras dimensiones. Esto sugiere que la posición del punto correspondiente a esos ítems en el gráfico de dispersión debe interpretarse con cierta precaución. Es probable que una solución de dimensiones superiores sea necesaria para los ítems mencionados.
row$cos2
: diagrama de barras
También es posible crear un diagrama de barra para lo valores cos2
usando la función fviz_cos2
del paquete
factoextra
.
# Cos2 de las filas sobre las dimensiones 1 y 2
fviz_cos2(res.ca, choice = "row", axes = 1:2)

Ejemplo: Solución (row$contrib
)
row$contrib
: general
La contribución de las filas (en %) a la definición de las dimensiones se puede extraer de la siguiente manera:
head(row$contrib)
## Dim 1 Dim 2 Dim 3
## 1.Str.Disagree 11.07163352 49.4442575 5.165779e+00
## 2.Disagree 0.01303039 1.9705261 6.525984e+01
## 3.Undecided 23.36628187 46.7717224 2.943393e-04
## 4.Agree 0.21523931 0.5280598 2.930254e+01
## 5.Str.Agree 65.33381490 1.2854342 2.715484e-01
Las variables de fila con un valor más alto son las que más contribuyen a la definición de las dimensiones.
Las filas que más contribuyen a Dim.1
y Dim.2
son las más importantes para explicar la variabilidad en el conjunto de datos.
Las filas que no contribuyen mucho a ninguna dimensión o que contribuyen a las últimas dimensiones son menos importantes.
row$contrib
: correlaciones
Es posible utilizar la función corrplot
del paquete corrplot
para resaltar los puntos de fila que más contribuyen para cada dimensión:
library("corrplot")
corrplot(row$contrib,
is.corr=FALSE, #No se puede desactivar este argumento
tl.col = "black",
#addCoef.col = 'grey50', #Agregar valores
#number.cex = 0.7, #Tamaño de los valores
tl.srt = 90,
bg = "lightblue", #Color del fondo
title="Matriz de correlaciones",
#tl.cex=1.5, #Tamaño de las fuentes
#cex.main=2.0, #Tamaño del título
#type="lower",
mar=c(0,0,4,0) #Ubicación del título
)

row$contrib
: diagramas de barra de cada variable
La función fviz_contrib
del paquete factoextra
se puede emplear para dibujar un gráfico de barras de las contribuciones de las filas. Si los datos contienen muchas filas, se puede optar por mostrar solo las filas que más contribuyen. El siguiente código en R muestra las 10 filas principales que contribuyen a las dimensiones.
# Contribuciones de las variables a la dimensión 1
p1 <- fviz_contrib(res.ca, choice = "row", axes = 1, top = 10)
# Contribuciones de las variables a la dimensión 2
p2 <- fviz_contrib(res.ca, choice = "row", axes = 2, top = 10)

row$contrib
: diagrama de barra para la total
A continuación, se puede visualizar la contribución total a las dimensiones 1 y 2:
fviz_contrib(res.ca, choice = "row", axes = 1:2, top = 10)

row$contrib
: Interpretaciones
Interpretación No. 1:
La línea roja discontinua en el gráfico anterior indica la contribución promedio esperada.
Interpretación No. 2:
Si la contribución de las variables fuese uniforme, el valor esperado sería
\[\frac{1}{\mbox{longitud(filas)}} \;=\; \frac{1}{5}(100)\;=\; 20\, \%\]
(1/nrow(tabla))*100
## [1] 20
Interpretación No. 3:
Para una dimensión dada, una fila con una contribución mayor que este umbral podría considerarse importante en la contribución a la dimensión.
Interpretación No. 4:
Se puede observar que la variable 5.Str.Agree
contribuye más a las dimensiones 1 y 2.
row$contrib
: argumento gradient.cols
Como ya se explicó, gradient.cols = c("green", "brown", "blue")
significa que:
Las variables con valores bajos de cos2
serán coloreadas en verde.
Las variables con valores medios de cos2
serán coloreadas en marrón.
Las variables con valores altos de cos2
serán coloreadas en azul.
MisColores <- c("green", "brown", "blue")
fviz_ca_row(res.ca, col.row = "contrib",
repel= TRUE, # Evita traslapamiento de textos,
gradient.cols = MisColores,
)

Interpretaciones:
El gráfico de dispersión ofrece una idea de qué polo de las dimensiones están contribuyendo realmente las categorías de las filas.
Es evidente que las categorías de filas 1.Sdr.Disagree
, y 3.Undecided
tienen una contribución importante al polo negativo de la primera dimensión.
Mientras que la categoría 5.Str.Agee
tienen una contribución mayor al polo positivo de la primera dimensión; etc., …
En otras palabras, la dimensión 1 está principalmente definida por la oposición de 1.Sdr.Disagree
, y 3.Undecided
(polo negativo), y 5.Str.Agee
(polo positivo).
row$contrib
: transpariencias con alpha.var
Tenga en cuenta que también es posible cambiar la transparencia de las filas según sus valores de contribución utilizando la opción alpha.row = "contrib"
:
# Cambiar la transpariencia para las contribuciones
fviz_ca_row(res.ca, alpha.row = "contrib",
col.row = "red",
#title="Transpariencia de las variables por contribución",
repel= TRUE # Evita traslapamiento de textos,
)
Ejemplo: Solución (get_ca_col
)
Argumentos de get_ca_col
Primero, la función get_ca_col
en factoextra
se utiliza para extraer los resultados de las variables de columna. Esta función devuelve una lista que contiene las coordenadas
, cos2
, contribución
y inercia
de las variables de columna.
col <- get_ca_col(res.ca)
col
## Correspondence Analysis - Results for columns
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the columns"
## 2 "$cos2" "Cos2 for the columns"
## 3 "$contrib" "contributions of the columns"
## 4 "$inertia" "Inertia of the columns"
Primero, los elementos de la función get_ca_col
pueden utilizarse en la representación de columnas de la siguiente manera:
col$coord
: coordenadas de cada punto de columna en cada dimensión (1, 2 y 3). Se utilizan para crear el gráfico de dispersión.
col$cos2
: calidad de representación de las columnas.
col$contrib
: contribución de las columnas (en %) a la definición de las dimensiones.
Es posible graficar los puntos de columna y colorearlos según:
su calidad en el mapa factorial (cos2
) o
sus valores de contribución a la definición de dimensiones (contrib
).
Valores de get_ca_col
Los diferentes componentes pueden accederse de la siguiente manera:
# Coordenadas de puntos de columnas
head(col$coord)
# Cos2: calidad del mapa factorial
head(col$cos2)
# Contribuciones a las componenentes principales
head(col$contrib)
Primero, explicamos cómo visualizar solo los puntos de columna. Luego, destacamos las columnas según:
Su calidad de representación en el mapa factorial o
sus contribuciones a las dimensiones.
Ejemplo: Solución (col$coord
)
col$coord
: valores
El código R proporcionado muestra las coordenadas de cada punto de columna en cada dimensión (1, 2 y 3):
head(col$coord)
## Dim 1 Dim 2 Dim 3
## 1.Never 0.752130742 -0.09136182 -0.0209745336
## 2.Some. 0.036317454 0.14817248 -0.0007129501
## 3.Freq. -0.074894871 -0.03869211 -0.0176229137
## 4.Always -0.002846801 -0.04001735 0.0346516993
col$coord
: gráficas
Use la función fviz_ca_col
del paquete factoextra
para visualizar solo puntos de columnas:
fviz_ca_col(res.ca, repel = TRUE)

col$coord
: gráficas (col.col
, shape.col
)
Se puede modificar el color y la forma de los puntos de columna utilizando los argumentos col.col
y shape.col
de la siguiente manera:
fviz_ca_col(res.ca, col.col="steelblue", shape.col = 15)

El diagrama exhibe las relaciones entre los puntos de columna:
Las columnas que comparten un perfil parecido están agrupadas.
Las columnas con correlación negativa se ubican en lados opuestos del origen del diagrama (cuadrantes contrapuestos).
La distancia entre los puntos de columna y el origen evalúa la calidad de los puntos de columna en el mapa de factores. Los puntos de columna que se encuentran distantes del origen están bien representados en el mapa de factores.
Ejemplo: Solución (col$cos2
)
col$cos2
: calidad de la representación
El análisis ha demostrado que se pudo representar la tabla de contingencia en un espacio de baja dimensión mediante el análisis de correspondencia. Las dimensiones 1 y 2 son suficientes para retener la mayor parte de la variación de los datos. Aunque, es importante tener en cuenta que algunos puntos no se muestran tan bien en ambas dimensiones. La calidad de la representación de las columnas en el mapa de factores se evalúa mediante el coseno al cuadrado (cos2
) o las correlaciones al cuadrado, que indican la asociación entre las columnas/columnas y un eje específico. El cos2
de los puntos de las columnas se puede calcular de la siguiente manera:
head(col$cos2, 4)
## Dim 1 Dim 2 Dim 3
## 1.Never 0.984704779 0.01452944 7.657799e-04
## 2.Some. 0.056669516 0.94330864 2.183921e-05
## 3.Freq. 0.756279688 0.20184735 4.187296e-02
## 4.Always 0.002883846 0.56984185 4.272743e-01
col$cos2
: interpetaciones resumidas
Los valores de cos2
están comprendidos entre 0 y 1.
La suma de los cos2
para las columnas en todas las dimensiones de CA es igual a uno.
La calidad de la representación de una columna o columna en n dimensiones es simplemente la suma del coseno al cuadrado de esa columna o columna sobre las $n4 dimensiones.
Si un elemento de columna está bien representado por dos dimensiones, la suma de los cos2
se acerca a uno.
Para algunos de los elementos de columna, se requieren más de 2 dimensiones para representar perfectamente los datos.
col$cos2
: argumento gradient.cols
Es posible colorear los puntos de las columnas según sus valores de cos2
utilizando el argumento col.col = "cos2"
. Esto produce colores degradados. En este caso, se puede utilizar el argumento gradient.cols
para proporcionar un color personalizado.
Por ejemplo, gradient.cols = c("green", "brown", "blue")
significa que:
Las variables con valores bajos de cos2
serán coloreadas en verde.
Las variables con valores medios de cos2
serán coloreadas en marrón.
Las variables con valores altos de cos2
serán coloreadas en azul.
# Color por valores cos2: caliad del mapa factorial
MisColores <- c("green", "brown", "blue")
fviz_ca_col(res.ca, col.col = "cos2",
gradient.cols = MisColores,
repel = TRUE)

col$cos2
: transpariencias con alpha.var
También es posible ajustar la transparencia de las variables según los valores de cos2
utilizando la opción alpha.col = "cos2"
:
# Cambiar la transpariencia por valores de cos2
fviz_ca_col(res.ca, alpha.col = "cos2",
col.col = "red",
title="Transpariencia de las columnas por cos2",
repel = TRUE # Evita traslapamiento de textos
)

col$cos2
: correlaciones
Se puede representar gráficamente el cos2
de los puntos de columna en todas las dimensiones utilizando el paquete corrplot
.
library("corrplot")
corrplot(col$cos2,
is.corr=FALSE, # Se puede activar o no
tl.col = "black",
#addCoef.col = 'grey50', #Agregar valores
#number.cex = 0.7, #Tamaño de los valores
tl.srt = 90,
bg = "lightblue", #Color del fondo
title="Matriz de correlaciones",
#tl.cex=1.5, #Tamaño de las fuentes
#cex.main=2.0, #Tamaño del título
#type="lower",
mar=c(0,0,4,0)
)

Se debe tener en cuenta que todos los puntos de columna excepto 4.Agree
y 2.Disagree
están bien representados por las dos primeras dimensiones. Esto sugiere que la posición del punto correspondiente a esos ítems en el gráfico de dispersión debe interpretarse con cierta precaución. Es probable que una solución de dimensiones superiores sea necesaria para los ítems mencionados.
col$cos2
: diagrama de barras
También es posible crear un diagrama de barra para lo valores cos2
usando la función fviz_cos2
del paquete
factoextra
.
# Cos2 de las columnas sobre las dimensiones 1 y 2
fviz_cos2(res.ca, choice = "col", axes = 1:2)

Recordar:
El valor de cos2
está entre 0 y 1.
Un cos2
cercano a 1 corresponde a variables de columna/fila que están bien representadas en el mapa factorial.
Observa que solo el elemento de columna 4.Always
no se muestra muy bien en las dos primeras dimensiones. La posición de este elemento debe interpretarse con precaución en el espacio formado por las dimensiones 1 y 2.
Ejemplo: Solución (col$contrib
)
col$contrib
: general
La contribución de las columnas (en %) a la definición de las dimensiones se puede extraer de la siguiente manera:
head(col$contrib)
## Dim 1 Dim 2 Dim 3
## 1.Never 87.824147724 5.007046 3.40469080
## 2.Some. 1.194468904 76.825244 0.02294712
## 3.Freq. 10.972408380 11.315334 30.28440358
## 4.Always 0.008974992 6.852376 66.28795851
Las variables de columna con un valor más alto son las que más contribuyen a la definición de las dimensiones.
Las columnas que más contribuyen a Dim.1
y Dim.2
son las más importantes para explicar la variabilidad en el conjunto de datos.
Las columnas que no contribuyen mucho a ninguna dimensión o que contribuyen a las últimas dimensiones son menos importantes.
col$contrib
: correlaciones
Es posible utilizar la función corrplot
del paquete corrplot
para resaltar los puntos de columna que más contribuyen para cada dimensión:
library("corrplot")
corrplot(col$contrib,
is.corr=FALSE, #No se puede desactivar este argumento
tl.col = "black",
#addCoef.col = 'grey50', #Agregar valores
#number.cex = 0.7, #Tamaño de los valores
tl.srt = 90,
bg = "lightblue", #Color del fondo
title="Matriz de correlaciones",
#tl.cex=1.5, #Tamaño de las fuentes
#cex.main=2.0, #Tamaño del título
#type="lower",
mar=c(0,0,4,0) #Ubicación del título
)

col$contrib
: diagramas de barra de cada variable
La función fviz_contrib
del paquete factoextra
se puede emplear para dibujar un gráfico de barras de las contribuciones de las columnas. Si los datos contienen muchas columnas, se puede optar por mostrar solo las columnas que más contribuyen. El siguiente código en R muestra las 10 columnas principales que contribuyen a las dimensiones.
# Contribuciones de las variables a la dimensión 1
p1 <- fviz_contrib(res.ca, choice = "col", axes = 1, top = 10)
# Contribuciones de las variables a la dimensión 2
p2 <- fviz_contrib(res.ca, choice = "col", axes = 2, top = 10)

col$contrib
: diagrama de barra para la total
A continuación, se puede visualizar la contribución total a las dimensiones 1 y 2:
fviz_contrib(res.ca, choice = "col", axes = 1:2, top = 10)

col$contrib
: interpretaciones
Interpretación No. 1:
La línea roja discontinua en el gráfico anterior indica la contribución promedio esperada.
Interpretación No. 2:
Si la contribución de las variables fuese uniforme, el valor esperado sería
\[\frac{1}{\mbox{longitud(columnas)}} \;=\; \frac{1}{5}(100)\;=\; 20\, \%\]
(1/nrow(tabla))*100
## [1] 20
Interpretación No. 3:
Para una dimensión dada, una columna con una contribución mayor que este umbral podría considerarse importante en la contribución a la dimensión.
Interpretación No. 4:
Se puede observar que la variable 5.Str.Agree
contribuye más a las dimensiones 1 y 2.
col$contrib
: argumento gradient.cols
Como ya se explicó, gradient.cols = c("green", "brown", "blue")
significa que:
Las variables con valores bajos de cos2
serán coloreadas en verde.
Las variables con valores medios de cos2
serán coloreadas en marrón.
Las variables con valores altos de cos2
serán coloreadas en azul.
MisColores <- c("green", "brown", "blue")
fviz_ca_col(res.ca, col.col = "contrib",
repel= TRUE, # Evita traslapamiento de textos,
gradient.cols = MisColores,
)

Interpretaciones:
El gráfico de dispersión ofrece una idea de qué polo de las dimensiones están contribuyendo realmente las categorías de las columnas.
Es evidente que las categorías de columnas 1.Sdr.Disagree
, y 3.Undecided
tienen una contribución importante al polo negativo de la primera dimensión.
Mientras que la categoría 5.Str.Agee
tienen una contribución mayor al polo positivo de la primera dimensión; etc., …
En otras palabras, la dimensión 1 está principalmente definida por la oposición de 1.Sdr.Disagree
, y 3.Undecided
(polo negativo), y 5.Str.Agee
(polo positivo).
col$contrib
: transpariencias con alpha.var
Tenga en cuenta que también es posible cambiar la transparencia de las columnas según sus valores de contribución utilizando la opción alpha.col = "contrib"
:
# Cambiar la transpariencia para las contribuciones
fviz_ca_col(res.ca, alpha.col = "contrib",
col.col = "red",
#title="Transpariencia de las variables por contribución",
repel= TRUE # Evita traslapamiento de textos,
)

Ejemplo: Solución (biplot
)
El biplot es una representación gráfica de filas y columnas en 2 o 3 dimensiones. Ya hemos descrito cómo crear biplots de AC en secciones anteriore. Aquí, describiremos diferentes tipos de biplots de AC.
biplot
: simétrico
Como se mencionó anteriormente:
El gráfico estándar del análisis de correspondencia es un biplot simétrico en el que tanto las filas (puntos azules) como las columnas (triángulos rojos) están representados en el mismo espacio utilizando las coordenadas principales.
Estas coordenadas representan los perfiles de filas y columnas.
En este caso, solo la distancia entre puntos de fila o la distancia entre puntos de columna puede interpretarse realmente.
Con un gráfico simétrico, la interdistancia entre filas y columnas no puede interpretarse. Solo se pueden hacer afirmaciones generales sobre el patrón.
Recuerde el código R para hacer un biplot simple de individuos y variables:
fviz_ca_biplot(res.ca,
repel = TRUE,
)

- Observe que, para interpretar la distancia entre los puntos de columna y los puntos de fila, la forma más sencilla es hacer un gráfico asimétrico. Esto implica que los perfiles de columna deben presentarse en el espacio de fila o viceversa.
biplot
: asimétrico, descripción
Para crear un biplot asimétrico, se grafican los puntos de las filas (o columnas) a partir de las coordenadas estándar s y los perfiles de las columnas (o las filas) se grafican a partir de las coordenadas principales (P).
Para un eje dado, las coordenadas estándar y principales están relacionadas de la siguiente manera:
\[P \; = \; s \, \sqrt{\lambda}\]
donde
biplot
: asimétrico (fviz_ca_biplot
con map
)
Dependiendo de la situación, se pueden establecer otros tipos de visualización utilizando el argumento map
en la función fviz_ca_biplot
del paquete factoextra
. Las opciones permitidas para el argumento map
son:
rowprincipal
. Estos son los llamados biplots asimétricos, con filas en las coordenadas principales (también conocidos como preservación métrica de fila). En este caso, las columnas están representadas en el espacio de fila
colprincipal
. También llamados biplots asimétricos. En este caso, con columnas en coordenadas estándar (también conocidos como preservación métrica de columna, respectivamente). Para esta situación, las filas están representadas en el espacio de columna.
symbiplot
. Tanto las filas como las columnas se escalan para tener varianzas iguales a los valores singulares (raíces cuadradas de los valores propios), lo que da un biplot simétrico pero no preserva métricas de fila o columna.
rowgab
. Son mapas asimétricos, con filas en coordenadas principales y columnas en coordenadas estándar multiplicadas por la masa.
colgab
. Son mapas asimétricos, con columnas en coordenadas principales y filas en coordenadas estándar multiplicadas por la masa.
colgreen
: Son los llamados biplots de contribución que muestran visualmente los puntos más contribuyentes, con columnas en coordenadas principales y filas en coordenadas estándar multiplicadas por la raíz cuadrada de la masa.
rowgreen
. Son los llamados biplots de contribución que muestran visualmente los puntos más contribuyentes, con filas en coordenadas principales y columnas en coordenadas estándar multiplicadas por la raíz cuadrada de la masa.
biplot
: asimétrico (en R)
El código R a continuación dibuja un biplot asimétrico estándar:
fviz_ca_biplot(res.ca,
map ="rowprincipal",
arrow = c(TRUE, TRUE),
repel = TRUE)
Observaciones:
Observe que se utiliza el argumento arrow
.
arrow
es un vector de dos valores lógicos que especifican si el gráfico debe contener puntos (FALSE, por defecto) o flechas (TRUE).
El primer valor establece las filas y el segundo valor establece las columnas.
Si el ángulo entre dos flechas es agudo, entonces hay una fuerte asociación entre la fila y la columna correspondientes.
Para interpretar la distancia entre filas y una columna, se debería proyectar perpendicularmente los puntos de la fila sobre la flecha de la columna.
biplot
: contribution (general)
En el biplot simétrico estándar (mencionado en la sección anterior), resulta difícil identificar los puntos que más contribuyen a la solución del CA.
Para solucionar este detalle, hay una nueva visualización escalada (llamada biplot de contribución
).
Este gráfico incorpora la contribución de los puntos.
En esta representación, los puntos que contribuyen muy poco a la solución están cerca del centro del biplot y son relativamente poco importantes para la interpretación.
biplot
: contribution (en R)
Un biplot de contribución puede dibujarse utilizando el argumento map = "rowgreen"
o map = "colgreen"
.
En primer lugar, hay que decidir si se analizan las contribuciones de las filas o las columnas a la definición de los ejes.
En nuestro ejemplo, interpretaremos la contribución de las filas a los ejes. Se utiliza el argumento map = "rowgreen"
.
En este caso, hay que recordar que las columnas están en coordenadas principales y las filas en coordenadas estándar multiplicadas por la raíz cuadrada de la masa.
Para una fila dada, el cuadrado de la nueva coordenada en un eje \(j\) es exactamente la contribución de esta fila a la inercia del eje \(j\).
fviz_ca_biplot(res.ca,
map ="colgreen",
arrow = c(TRUE, FALSE),
repel = TRUE)
biplot
: contribution (interpretación)
En el gráfico anterior, la posición de los puntos de perfil de columna no cambia con respecto a la del biplot convencional. Sin embargo, las distancias de los puntos de fila desde el origen del gráfico están relacionadas con sus contribuciones al mapa factorial bidimensional.
Mientras más cerca esté una flecha (en términos de distancia angular) de un eje, mayor es la contribución de la categoría de fila en ese eje en relación con el otro eje.
Si la flecha está a medio camino entre los dos, su categoría de fila contribuye a los dos ejes en la misma medida.
Es evidente que la categoría de fila Str.Agree
tiene una contribución importante al polo positivo de la primera dimensión.
Mientras que las categorías 1.Str.Disagree
y 3.Undecided
tienen una contribución importante al polo negativo de la primera dimensión.
La Dimensión 2 está principalmente definida por las categorías de fila 1.Str.Disagree
y 3.Undecided
.
La categoría de fila 4.Agree
contribuye a los dos ejes en la misma medida.
Ejemplo: Solución (descripción de la dimensión)
dimdesc
: descripción de la dimensión
Para identificar con facilidad los puntos de fila y columna más relacionados con las dimensiones principales, se puede emplear la función dimdesc
en FactoMineR
. Las variables de fila y columna se organizan según sus coordenadas en la salida de dimdesc
.
# Descripción de la dimensión
res.desc <- dimdesc(res.ca, axes = c(1,2))
res.desc
## $`Dim 1`
## $`Dim 1`$row
## coord
## 3.Undecided -0.167466854
## 1.Str.Disagree -0.111854843
## 2.Disagree -0.003954693
## 4.Agree 0.016707622
## 5.Str.Agree 0.285397494
##
## $`Dim 1`$col
## coord
## 3.Freq. -0.074894871
## 4.Always -0.002846801
## 2.Some. 0.036317454
## 1.Never 0.752130742
dimdesc
: dimensión 1 por filas
res.desc[[1]]$row
## coord
## 3.Undecided -0.167466854
## 1.Str.Disagree -0.111854843
## 2.Disagree -0.003954693
## 4.Agree 0.016707622
## 5.Str.Agree 0.285397494
dimdesc
: dimensión 1 por columnas
res.desc[[1]]$col
## coord
## 3.Freq. -0.074894871
## 4.Always -0.002846801
## 2.Some. 0.036317454
## 1.Never 0.752130742
dimdesc
: dimensión 2 por filas
res.desc[[2]]$row
## coord
## 3.Undecided -0.12053505
## 5.Str.Agree -0.02036543
## 4.Agree -0.01331322
## 2.Disagree 0.02474074
## 1.Str.Disagree 0.12025260
dimdesc
: dimensión 2 por columnas
res.desc[[2]]$col
## coord
## 1.Never -0.09136182
## 4.Always -0.04001735
## 3.Freq. -0.03869211
## 2.Some. 0.14817248
Ejercicios
Ejercicio 1
Se tienen datos sobre la adquisición de cuatro marcas específicas de un producto por parte de diferentes grupos de consumidores. Estos datos se presentan en la tabla a continuación, donde cada celda indica la cantidad de personas que regularmente compran el producto de la marca \(i= A, B, C, D\) y pertenecen al grupo \(j=1,2,3\).
datos <- data.frame(
Marca = c("A", "B", "C", "D"),
Grupo_1 = c(30, 30, 80, 80),
Grupo_2 = c(30, 130, 30, 30),
Grupo_3 = c(155, 30, 30, 5)
)
print(datos)
## Marca Grupo_1 Grupo_2 Grupo_3
## 1 A 30 30 155
## 2 B 30 130 30
## 3 C 80 30 30
## 4 D 80 30 5
Aplique CA para validar las percepciones que se deducen de la tabla en cuanto a la proximidad entre las marcas.
Ejercicio 2
Considere la matriz de frecuencias \((n_{ij})\) contenida en la tabla de abajo. En esta tabla, las filas \((i = 1, 2, 3, 4)\) son el color de los ojos y las columnas \((j = 1, 2, 3, 4, 5)\) el color del cabello, cuyas modalidades varían de claro a oscuro. Para encontrar la representación más adecuada de estos datos, es necesario comparar las filas y las columnas de la tabla. Tal comparación implica usar una medida de distancia apropiada. El análisis de correspondencias permite describir las proximidades existentes entre los perfiles, color del cabello (perfil fila) y color de los ojos (perfil columna), de acuerdo con la partición que se haga de los individuos, sea por filas o por columnas. Lleve a cabo el CA correspondiente.
# Crear los vectores para cada fila y columna
Color_de_ojos <- c("O_Claro", "O_Azul", "O_Medio", "O_Oscuro")
Rubio <- c(688, 326, 343, 98)
Rojo <- c(116, 38, 84, 48)
Medio <- c(584, 241, 909, 403)
Oscuro <- c(188, 110, 412, 681)
Negro <- c(4, 3, 26, 85)
Total_ni. <- c(1580, 718, 1774, 1315)
# Calcular los totales por columna
Total_n.j <- c("Total", sum(Rubio), sum(Rojo), sum(Medio), sum(Oscuro), sum(Negro), sum(Total_ni.))
# Construir el data frame
df <- data.frame(Color_de_ojos, Rubio, Rojo, Medio, Oscuro, Negro, Total_ni.)
# Añadir la fila de totales al final del data frame
df <- rbind(df, Total_n.j)
# Cambiar los nombres de las columnas
names(df) <- c("Color", "C_Rubio", "C_Rojo", "C_Medio", "C_Oscuro", "C_Negro", "Total")
df
## Color C_Rubio C_Rojo C_Medio C_Oscuro C_Negro Total
## 1 O_Claro 688 116 584 188 4 1580
## 2 O_Azul 326 38 241 110 3 718
## 3 O_Medio 343 84 909 412 26 1774
## 4 O_Oscuro 98 48 403 681 85 1315
## 5 Total 1455 286 2137 1391 118 5387
Ejercicio 3
El conjunto de datos suicide
de la librería faraway
del software R contiene los datos de un año de suicidios en el Reino Unido clasificados por sexo, edad y método.
library(faraway)
suicide
## y cause age sex
## 1 398 drug y m
## 2 121 gas y m
## 3 455 hang y m
## 4 155 gun y m
## 5 55 jump y m
## 6 124 other y m
## 7 399 drug m m
## 8 82 gas m m
## 9 797 hang m m
## 10 168 gun m m
## 11 51 jump m m
## 12 82 other m m
## 13 93 drug o m
## 14 6 gas o m
## 15 316 hang o m
## 16 33 gun o m
## 17 26 jump o m
## 18 14 other o m
## 19 259 drug y f
## 20 15 gas y f
## 21 95 hang y f
## 22 14 gun y f
## 23 40 jump y f
## 24 38 other y f
## 25 450 drug m f
## 26 13 gas m f
## 27 450 hang m f
## 28 26 gun m f
## 29 71 jump m f
## 30 60 other m f
## 31 154 drug o f
## 32 5 gas o f
## 33 185 hang o f
## 34 7 gun o f
## 35 38 jump o f
## 36 10 other o f
Combine el sexo y la edad de los sujetos en un factor simple de seis niveles que contiene todas las combinaciones de sexo y edad. Conduzca un análisis de correspondencia y dé una interpretación de los gráficos y resultados obtenidos.
Repita el análisis de correspondencia separadamente para hombres y mujeres. ¿Revela este análisis algo nuevo comparado con el análisis combinado del punto anterior?
Ejercicio 4
La tabla de abajo muestra los datos de 538 pacientes que fueron clasificados en función de 4 tipologías de la enfermedad de Hodgkin (LP, NS, MC, LD) y su respuesta a un tratamiento (Positivo, Parcial, Nulo) al cabo de tres meses. Conduzca un análisis de correspondencias y discuta si el tratamiento actúa igual en todas las tipologías.
Tipología <- c("LP", "NS", "MC", "LD")
Positiva <- c(74, 68, 154, 18)
Parcial <- c(18, 16, 54, 10)
Nula <- c(12, 12, 58, 44)
df <- data.frame(Tipología, Positiva, Parcial, Nula)
print(df)
## Tipología Positiva Parcial Nula
## 1 LP 74 18 12
## 2 NS 68 16 12
## 3 MC 154 54 58
## 4 LD 18 10 44
