library(ade4)
library(FactoMineR)
library(factoextra)
#Leer el archivo de datos
library(readr)
datos_billete <- read_table2("datos_billete_cien_1.txt")
datos_billete_cien <- data.frame(datos_billete, row.names = "Filas")
Se desea determinar si la preferencia por el billete cien mil varía dependiendo de estrato socioeconómico del individuo. Para ello se ha tomado una muestra aleatoria de 1000 individuos obteniendo los resultados que se encuentran dispuestos en la siguiente tabla:
#Visualización de los datos
datos_billete_cien
## Mucho Poco Nada
## Estratos1-2 50 50 300
## Estratos3-4 60 240 100
## Estratos5-6 80 50 70
En primer lugar, resulta necesario identificar si realmente existen asociaciones entre las categorías de la preferencia con respecto al billete de cien mil y las categorías del estrato socioeconómico, ya que en caso de no existir asociaciones no resulta conveniente hacer uso de la técnica de ACS, para comprobar esto se hará uso de la prueba de independencia Ji cuadrado, la cuál se ilustra a continuación:
#Prueba de independencia.
chisq.test(datos_billete_cien)
##
## Pearson's Chi-squared test
##
## data: datos_billete_cien
## X-squared = 311.4, df = 4, p-value < 2.2e-16
#Estadístico de contraste
qchisq(0.95,4)
## [1] 9.487729
Es posible observar que el estadístico de prueba Ji cuadrado cuyo valor es de 311.4 resulta ser mayor al estadístico de contraste (9.487) y, en este orden de ideas, existe suficiente evidencia estadística para rechazar la hipótesis nula y aceptar la alterna que indica presencia de asociaciones entre la preferencia de las personas con respecto al billete de cien mil y el estrato socioeconómico en el que se encuentran, por lo tanto, resulta conveniente hacer uso de la técnica ACS para el conjunto de datos.
El análisis de correspondencias simples es una técnica descriptiva que permite resumir una gran cantidad de datos en un número menor de variables incorrelaciones, con la intención de brindar la menor pérdida de información posible. Esta técnica en otras palabras, se utiliza para visualizar gráficamente puntos de fila y puntos de columna en un espacio de baja dimensión. El análisis de correspondencias simples se utiliza comúnmente en la representación de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Para realizar en R el ACS se hace uso de la función CA perteneciente al paquete FactomineR.
#Análisis de correspondencia simple
ACS <- CA(datos_billete_cien, graph = FALSE)
Con la intención de identificar el número de componentes a utilizar se realiza el estudio del porcentaje de varianza explicado por ejes, es importante mencionar que el número de dimensiones está asociado con la cantidad de columnas, ya que por lo geenral siempre es menor que el número de filas; teniendo en cuenta que dentro del análisis una de las columnas termina siendo combinación lineal de las demás se obtendrán en total p-1 dimensiones y en este caso, son 2 ya que el número total de columnas es 3.
#% de varianza explicado
valores_propios=ACS$eig; valores_propios
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.24002086 77.07719 77.07719
## dim 2 0.07138237 22.92281 100.00000
#Gráfica del porcentaje de varianza explicado
fviz_screeplot(ACS, addlabels = TRUE, ylim = c(0, 80))+ggtitle("")+
ylab("Porcentaje de varianza explicado") + xlab("Ejes")
Es posible observar entonces que se hará uso de los dos ejes obtenidos, ya que resumen en un 100% el conjunto de variables original, por tanto, las interpretaciones y las conclusiones se realizarán con respecto al primer y único plano factorial.
Por otro lado, se identifica que la suma de cada uno de los valores propios al ser multiplicada por el número total de datos resulta ser aproximadamente el estadístico Ji-cuadrado obtenido en la prueba ji de la prueba de independencia, para comprobar esto se realiza el cálculo y los resultados se ilustran de forma subsecuente:
#Prueba de independencia.
prueba=chisq.test(datos_billete_cien)
prueba$statistic
## X-squared
## 311.4032
#Obtención del estadístico de prueba a partir de los valores propios
estadistico=sum(valores_propios[1]+valores_propios[2])*1000; estadistico
## [1] 311.4032
De este modo, comprobamos que efectivamente arroja el mismo resultado del estadístico Ji-cuadrado que en la prueba de independencia.
#Perfiles fila
variables_fila=get_ca_row(ACS)
#Nube de individuos fila
fviz_ca_row(ACS, repel = TRUE)+ggtitle("") + ylab("Eje 2(22.9%)")+xlab("Eje 1(77.1%)")+ylim(-0.6,1.5)+xlim(-1.1,1.4)
A partir de la nube de puntos fila se observa que las categorías del estrato socioeconómico guardan ciertas distancias entre si y resulta lógico, ya que en términos generales y de acuerdo con estudios hay ciertas similitudes pero entre los pares de estratos, es decir que los estratos 1 y 2 comparten ciertas características pero a su vez difieren de los estratos 3 y 4; con respecto a la contribución que pueden presentar los puntos fila a la construcción de los ejes factoriales se observa que posiblemente las categorías 1 y 2 (estratos 1, 2, 3 y 4) podrían estar aportando mayor información a este eje y para el segundo se podría pensar que la categoría 3 (estratos 5 y 6), ya que se encuentra más en la dirección de este eje. No obstante, se comprobará si esta afirmación es cierta en la sección de contribuciones y cosenos.
#Perfiles columna
variables_columna=get_ca_col(ACS)
#Nube de individuos columna
fviz_ca_col(ACS)+ggtitle("")+ylab("Eje 2(22.9%)")+xlab("Eje 1(77.1%)")+ylim(-0.5,1)+xlim(-0.9,1.3)
De la nube de puntos columna se observa que las categorías de la preferencia de las personas por el billete de cien mil se encuentran un poco distantes entre si y tiene sentido, ya que si una persona dice no tener nada de preferencia no es posible relacionarla con otra categoría pues nada y mucho se podrían tomar como deterministas y el poco indica la posición intermedia de las personas; con respecto a la contribución que pueden presentar los puntos columna a la construcción de los ejes factoriales se observa que posiblemente las categorías nada y poco podrían estar aportando mayor información a este eje y para el segundo se podría pensar que la categoría mucho, ya que se encuentra más en la dirección de este eje.
#Representación simultánea
fviz_ca_biplot(ACS, repel = TRUE)+ggtitle("")+ylab("Eje 2(22.9%)")+xlab("Eje 1(77.1%)")+ylim(-0.6,1.6)+xlim(-1.2,1.5)
De la representación simultánea se observar que existe una relación entre la preferencia por el billete de cien mil y el estrato socieconómico en el que se encuentran las personas, de modo tal que las personas que se presenten una alta preferencia por el billete de cien mil pertenecen a los estratos altos (estratos 5 y 6), mientras que aquellas que no tienen preferencia por este tipo de billetes se encuentran por lo general en los estratos bajos (estratos 1 y 2) y aquellos que presentan una posición intermedia se encuentran en los estratos 3 y 4. En síntesis, es posible concluir que efectivamente las variables estudiadas no presentan independencia entre si y por tanto, es posible discriminar la preferencia de las personas por el billete de cien mil de acuerdo con el estrato socieconómico en el que se encuentren.
#Contribuciones por fila
contribuciones_fila=variables_fila$contrib;contribuciones_fila
## Dim 1 Dim 2
## Estratos1-2 51.6910885 8.308911
## Estratos3-4 48.1858556 11.814144
## Estratos5-6 0.1230559 79.876944
#Cosenos por fila
cosenos_fila=variables_fila$cos2;cosenos_fila
## Dim 1 Dim 2
## Estratos1-2 0.954376341 0.04562366
## Estratos3-4 0.932039143 0.06796086
## Estratos5-6 0.005153414 0.99484659
Para los puntos fila se observa que las categorías del estrato socioeconómico correspondientes a las estratos 1,2 3 y 4 son las que contribuyen más a la construcción del primer eje y para el segundo eje, se observa que la categoría de estratos 5 y 6 es la que más contribuye a su construcción con un valor de 79.88%; con respecto a la calidad de representación se observa que los estratos 1,2,3 y 4 son los que se encuentran mejor representados en el primer eje y los estratos 5 y 6 son los que representan en mejor medida la dimensión 2.
#contribuciones por columna
contribuciones_columna=variables_columna$contrib; contribuciones_columna
## Dim 1 Dim 2
## Mucho 0.5126281 80.487372
## Poco 54.2960895 11.703911
## Nada 45.1912824 7.808718
#Cosenos por columna
cosenos_columna=variables_columna$cos2;cosenos_columna
## Dim 1 Dim 2
## Mucho 0.0209667 0.97903330
## Poco 0.9397553 0.06024475
## Nada 0.9511231 0.04887691
Para los puntos columna se observa que las categorías poco y nada son las que más contribuyen a la formación del primer eje y mucho contribuye a la construcción del segundo eje; con relación a la calidad de representación de los puntos se observa que poco y nada se encuentran mejor representado por la primera dimensión con cosenos de 0.94 y 0.95 respectivamente y, para la segunda dimensión se observa que la categoría mucho es la mejor representada con un coseno de 0.98.
El efecto Guttman, también denominado de parábola ocurre por lo general en presencia de variables ordinales, las cuales generalmente se ilustran en tablas de contingencia con la intención de identiciar la relación existente entre ellas, sin embargo, este efecto indica la presencia de redundancia entre las categorías de las dos variables analizadas, que en este caso son la preferencia por el billete de cien mil y el estrato socioeconómico en el que se encuentran las personas, esto quiere decir, que teniendo conocimiento de la fila en la categoría i es posible predecir o deducir el comportamiento de la columna en la posición j y viceversa.