Introducción

Se ha realizado una encuesta a un elevado número de estudiantes en los que se les preguntaba cómo creían que iba la marcha del curso (MAL, REGULAR, BIEN o MUY BIEN) y el tipo de vivienda que tenían (RESIDENCIA Universitaria, PISO compartido, SOLO o la vivienda de la FAMILIA).

Luego se han seleccionado 25 alumnos a los que se le ha preguntado sobre su grado de satisfacción por el desarrollo del curso (CURSO), la actividad física cotidiana que realizan (ACT_FISICA), el grado de actividad de ocio que disfrutan (ACT_OCIO) y el nivel de liquidez que tienen mensualmente (LIQUIDEZ).

Información muestral (datos)

Los datos se han generado aleatoriamente de acuerdo a ciertos criterios.

Determinar si hay relación entre la marcha del curso y el tipo de vivienda que se tiene.

chisq.test(contingencia)
## 
##  Pearson's Chi-squared test
## 
## data:  contingencia
## X-squared = 24.048, df = 9, p-value = 0.004226

El resultado del test nos muestra un p-valor muy pequeño, mucho menor que 0,05 (de 0,004, concretamente) de forma que rechazamos la hipótesis nula de independencia entre los atributos y concluimos que existe algún tipo de asociación entre ellos.

Realización de un análisis de correspondencias simple entre los atributos “marcha del curso” y “tipo de vivienda”

library(ca)
acorres <- ca(contingencia)
acorres
## 
##  Principal inertias (eigenvalues):
##            1        2        3      
## Value      0.017886 0.004974 6.5e-05
## Percentage 78.02%   21.7%    0.28%  
## 
## 
##  Rows:
##               MAL   REGULAR      BIEN  MUY BIEN
## Mass     0.254528  0.329838  0.298379  0.117255
## ChiDist  0.117062  0.084658  0.077754  0.360863
## Inertia  0.003488  0.002364  0.001804  0.015269
## Dim. 1  -0.202998 -0.610737 -0.211690  2.697354
## Dim. 2   1.613447 -0.281184 -1.018747 -0.118966
## 
## 
##  Columns:
##         RESIDENCIA      PISO      SOLO  FAMILIA
## Mass      0.209724  0.396568  0.095329 0.298379
## ChiDist   0.134036  0.132075  0.203614 0.166656
## Inertia   0.003768  0.006918  0.003952 0.008287
## Dim. 1   -0.575710 -0.917618  1.232777 1.230376
## Dim. 2    1.551354 -0.690286 -1.674228 0.361929
plot(acorres, what = c("all", "all"), mass = TRUE,
     contrib = "relative", main = "Análisis de Correspondencias Simple")

Los elementos más importantes que devuelve la función “ca” son las Inercias Principales, que nos servirán para decidir si dos es un número de dimensiones adecuada o debemos escoger otra dimensión. En nuestro caso, con una sola dimensión estamos incluyendo el 78% de la “Inercia Total”.

Si embargo, podemos ver cómo al añadir una segunda dimensión se recogería un 21,7% adicional de la “Inercia Total”. Por lo tanto sabemos que con las dos dimensiones que utiliza el análisis por defecto se recogerá más del 99% del comportamiento de los individuos de la muestra en relación a los atributos estudiados.

En cuanto al gráfico, vemos como elemento más llamativo la alta asociación que parece existir entre el hecho de vivir en una residencia universitaria y que la marcha del curso sea mala. También parece existir asociación entre una marcha del curso buena o regular y vivir en un piso y, en menor medida, el gráfico insinua una pequeña asociación que viven solos o con la familia y una marcha muy buena del curso.

Proporción de individuos que adoptan cada categoría de cada atributo; y el grado en que cada categoría de cada atributo o factor recoge el comportamiento de los entrevistados.

acorres
## 
##  Principal inertias (eigenvalues):
##            1        2        3      
## Value      0.017886 0.004974 6.5e-05
## Percentage 78.02%   21.7%    0.28%  
## 
## 
##  Rows:
##               MAL   REGULAR      BIEN  MUY BIEN
## Mass     0.254528  0.329838  0.298379  0.117255
## ChiDist  0.117062  0.084658  0.077754  0.360863
## Inertia  0.003488  0.002364  0.001804  0.015269
## Dim. 1  -0.202998 -0.610737 -0.211690  2.697354
## Dim. 2   1.613447 -0.281184 -1.018747 -0.118966
## 
## 
##  Columns:
##         RESIDENCIA      PISO      SOLO  FAMILIA
## Mass      0.209724  0.396568  0.095329 0.298379
## ChiDist   0.134036  0.132075  0.203614 0.166656
## Inertia   0.003768  0.006918  0.003952 0.008287
## Dim. 1   -0.575710 -0.917618  1.232777 1.230376
## Dim. 2    1.551354 -0.690286 -1.674228 0.361929

Se observa la proporción de individuos que adoptan cada categoría de cada atributo a través de las masas. También, el grado en que cada categoría recoge el comportamiento de los entrevistados será mostrado mediante las inercias.

Así, vemos como el 21% de las observaciones vive en residencia, lo que recoge el 0,377% del comportamiento de los entrevistados, el 39,65% de las observaciones residen en un piso, lo que supone un 0,7% del comportamiento de las obervaciones, un 9,5% de los entrevistados viven solos, lo que implica un 0,4% del comportamiento, y un 30% de los encuestados viven con su familia, lo que recoge un 0,8% del comportamiento de la muestra.

Representación gráfica del resultado

library(gplots)
balloonplot(contingencia, main = "Muestra estudiantes", 
            label = FALSE, show.margins = FALSE)
max.porc <- max(1/(dim(contingencia)-1)*100)
library(factoextra)

fviz_screeplot(acorres, barfill="green") +
 geom_hline(yintercept = max.porc, linetype = 2, color = "red") + 
  labs(title = "Gráfico de sedimentación", x = "Dimensiones", 
       y = "Porcentaje de variabilidad explicada")

El primer gráfico representa cómo están distribuidas las frecuencias, de forma que muestra puntos que son de mayor tamaño si contienen un mayor número de observaciones, y viceversa. Así, vemos como el mayor número de encuestados viven en piso y el curso les va bien o regular. Aparte, también es llamativo el hecho de que aquellos estudiantes que viven solos llevan, en su mayoría, una buena marcha del curso.

El segundo gráfico muestra qué proporción de los datos explica cada dimensión, de forma que con la primera dimensión ya se obtiene un valor cercano al 80%. La segunda dimensión explica algo más de un 20% de los datos.

Correspondencias Múltiple

library(ca)
corres <- mjca(tabladatos, lambda = "Burt", reti = TRUE)
plot(corres, mass = TRUE, main = "Análisis de Correspondencias Múltiple")

Si representamos las categorias de estos atributos podemos observar ciertas relaciones interesantes entre los atributos, algunas mas fuertes que otras. Como se observa en el gráfico las personas que están insatisfechas con el curso tienen una actividad de ocio intensa o insuficiente. Sin embargo las personas que estan satisfechas con el curso, según la dimensión 1 tienen una actividad de ocio moderada, podemos conluir que la forma de obtener mejores resultados en el curso es tener una actividad de ocio intermedia, según estos datos, los extremos en actividad de ocio se asocian con peores grados de satisfacción con el curso. Tambien según la dimensión uno vemos gran relación entre las personas sedentarias y los insatisfechos con el curso, los deportistas se encuentran mas cerca de las personas satisfechas con el curso. En cuanto a la liquidez se observa gran relación entre la liquidez suficiente y la actividad de ocio moderada, según la deimension uno la liquidez escasa se asocia a la actividad de ocio intensa.

Proporción de individuos que adoptan cada categoría de cada atributo; y el grado en que cada categoría de cada atributo o factor recoge el comportamiento de los entrevistados.

corres
## 
##  Eigenvalues:
##            1        2        3        4        5        6        7       
## Value      0.571058 0.145846 0.130185 0.030889 0.022043 0.007283 0.002837
## Percentage 62.64%   16%      14.28%   3.39%    2.42%    0.8%     0.31%   
##            8       
## Value      0.001504
## Percentage 0.16%   
## 
## 
##  Columns:
##         CURSO:Insatisfecho CURSO:Satisfecho CURSO:Tirando
## Mass              0.090000         0.130000      0.030000
## ChiDist           0.982542         0.663155      1.527107
## Inertia           0.086885         0.057171      0.069962
## Dim. 1            1.245709        -0.734986     -0.552188
## Dim. 2           -0.056541         0.812808     -3.352547
##         ACT_FISICA:Caminante ACT_FISICA:Deportista ACT_FISICA:Sedentario
## Mass                0.100000              0.050000              0.100000
## ChiDist             0.740355              1.309816              0.944276
## Inertia             0.054813              0.085781              0.089166
## Dim. 1             -0.507601             -1.349678              1.182440
## Dim. 2             -1.445327              1.543713              0.673470
##         ACT_OCIO:Insuficiente ACT_OCIO:Intensa ACT_OCIO:Moderada
## Mass                 0.030000         0.070000          0.150000
## ChiDist              1.688681         1.073789          0.624770
## Inertia              0.085549         0.080712          0.058551
## Dim. 1               1.378726         1.141242         -0.808325
## Dim. 2              -0.221608         0.049991          0.020992
##         LIQUIDEZ:Escasa LIQUIDEZ:Holgada LIQUIDEZ:Suficiente
## Mass           0.080000         0.060000            0.110000
## ChiDist        0.994253         1.109045            0.905412
## Inertia        0.079083         0.073799            0.090175
## Dim. 1         1.020879         0.814499           -1.186729
## Dim. 2        -1.023631         1.400316           -0.019350

Con este analisis se observa la proporción de individuos que adoptan cada categoría de cada atributo a través de las masas, el grado en que cada categoria recoge el comportamiento de los entrevistados será a través de las inercias. El 9% de las personas está insatisfecha con el curso, esto recoge el 8,6% del comportamiento de los entrevistados según la inercia, el 13% satisfecha con una inercia de 5,7% y el 3% tirando, con una inercia cercana al 7%. En cuanto a actividad física el 10% son caminantes al igual que sedentarios, con unas inercias respectivas de 5,4% y 8,9%, solo el 5% son deportistas con una inercia del 8,5%. El 3% de los encuestados piensa que tiene una actividad de ocio insuficiente con una inercia del 8,5%, el 7% intensa con un 8% de inercia y el 15% moderada. El 8% afirma tener una liquidez escasa con una inercia similar, del 8%,, el 6% holgada con una inercia del 7,3% y el 11% suficiente, mostrando una inercia del 9%.

Representación gráfica de los resultados

fviz_screeplot(corres,ylab="Porcentaje de la varianza explicado", xlab="Dimensiones",addlabels = TRUE, ylim = c(0, 65),barcolor="black",linecolor="black",barfill="gold")

Con este gráfico se puede observar como la primera dimensión ya explica un 62,6% de los datos, si fuera necesario por algún motivo relacionado con el estudio de los datos se podría plantear la posibilidad de quedarnos unicamente con esta dimensión, pero puesto que no hay ningún motvo de peso para hacerlo seleccionamos las dos primeros dimensiones, así se podrán visualizar gráficos de dos dimensiones y explicaremos el 78,6% de la variabilidad de los datos.

corres2 <- MCA(datosn,method = "Burt")

Usando la función MCA en el primer gráfico vemos nuevas asociaciones que nos aportan gran información de la relación que existe entre los datos. Según la dimensión uno hay muchas variables muy cercanas entre sí, las personas con una actividad de ocio insuficiente o intensa se asocian con personas con una actividad física de sedentario, una liquidez escasa y con personas insatisfechas con el curso. Según la dimensión 2 vemos una fuerte relación entre las personas con actividad de ocio moderada intensa o insficiente, es decir, todos los niveles de actividad de ocio, con liquidez suficiente y personas insatisfechas con el curso. También se observan relaciones entre las personas deportistas y con liquidez holgada, según la dimensión 2, y entre las personas satisfechas con el curso y que son sedentarias.

Atendiendo al segundo gráfico se observa como según la dimensión 1 existe una gran relación entre todas las variables estudiadas, especialmente entre actividad física y liquidez.

fviz_mca_var(corres2, col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), 
             repel = TRUE,
             ggtheme = theme_minimal()
)

En este último gráfico se pueden estudiar las contribuciones de las variables además de como estan relacionadas. Según los colores se observa como las mayores contribuciones son liquidez suficiente, actividad física sedentario y grado de satisfacción con el curso (insatisfecho).