ANÁLISIS SOBREPOBLACIÓN ESTUDIANTIL

INTRODUCCIÓN

En el análisis presentado posteriormente se expone la información recolectada en la encuesta realizada a los estudiantes de la carrera de ingeniería en sistemas de la Universidad Nacional Autónoma de Honduras, en el presente estudio se realiza la limpieza de datos correspondiente, un análisis descriptivo de los datos y se indican las correlaciones entre variables categóricas de la investigación, aceptando o rechazando los resultados en función de la hipótesis nula mediante las pruebas de Ch² así como las conclusiones en relación con los datos obtenidos; asimismo se presenta una regresión logística mediante la variable de respuesta y el coeficiente de importancia de las variables de acompañamiento y finalmente se expone una solución tecnológica mediante la utilización de plataformas Learning Management System.

VARIABLES CAPTURADAS

Se recabaron las siguientes observaciones y columnas en la encuesta:

## 'data.frame':    130 obs. of  41 variables:
##  $ Edad                     : Factor w/ 5 levels ">38","18-22",..: 3 4 3 3 3 3 3 4 3 3 ...
##  $ Genero                   : Factor w/ 2 levels "Femenino","Masculino": 1 2 1 1 2 1 2 2 2 2 ...
##  $ Procedencia              : Factor w/ 2 levels "No","Si": 1 1 2 2 1 2 1 2 2 2 ...
##  $ Traslado_.UNAH           : Factor w/ 3 levels "Muchas","Normal",..: 2 2 2 2 2 2 3 3 3 2 ...
##  $ Computadora_.permanente  : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Conexi.n_.permanente     : Factor w/ 2 levels "No","Si": 1 2 2 2 2 2 2 2 2 2 ...
##  $ Calidad_.conexi.n        : Factor w/ 2 levels "No","Si": NA 2 2 2 2 1 2 2 1 2 ...
##  $ Estudio_.secundaria      : Factor w/ 2 levels "No","Si": 1 2 1 1 1 1 1 1 1 1 ...
##  $ Cantidad_.carreras       : Factor w/ 2 levels "No","Si": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Rango_.acad.mico         : Factor w/ 4 levels "<70","70-79",..: 2 4 3 3 3 4 2 4 2 3 ...
##  $ Mejorar_..ndice          : Factor w/ 8 levels "Flexibilidad de horarios",..: 3 3 3 5 1 2 8 1 4 1 ...
##  $ Exelencia_academica      : Factor w/ 2 levels "No","Si": 1 2 2 2 2 2 1 2 1 2 ...
##  $ Reprobaci.n              : Factor w/ 2 levels "No","Si": 2 1 2 2 2 1 2 1 2 1 ...
##  $ Rango_.promedio_.clases  : Factor w/ 3 levels "1 a 2","2 a 4",..: 3 3 3 3 3 3 2 3 3 3 ...
##  $ Flexibilidad_.horarios   : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 2 1 1 ...
##  $ Horas_.libres            : Factor w/ 2 levels "No","Si": 2 1 1 1 2 1 2 1 2 2 ...
##  $ Estimaci.n_.horas_.libres: Factor w/ 3 levels "Intermedias",..: 3 NA NA NA 3 NA 2 NA 2 2 ...
##  $ Lista_.espera            : Factor w/ 2 levels "No","Si": 2 1 2 2 1 2 2 2 2 2 ...
##  $ Mas_.cupos               : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Preferencia_.estudio     : Factor w/ 2 levels "Grupo","Solo": 2 1 1 2 2 2 2 2 2 1 ...
##  $ Horas_.diarias_.estudio  : int  3 5 2 2 1 2 1 2 3 3 ...
##  $ Disciplina               : Factor w/ 3 levels "En ocasiones",..: 3 3 1 1 3 3 3 1 3 3 ...
##  $ Autodidacta              : Factor w/ 2 levels "No","Si": 2 2 1 2 2 2 2 2 2 2 ...
##  $ Demora                   : Factor w/ 2 levels "No","Si": 2 1 2 2 2 2 2 2 2 2 ...
##  $ EntorNo                  : Factor w/ 2 levels "No","Si": 1 2 2 2 2 2 2 2 2 2 ...
##  $ Motivo_.estudio          : Factor w/ 4 levels "Influencia de terceros",..: 3 3 1 1 2 3 3 3 3 3 ...
##  $ Seguimiento              : Factor w/ 3 levels "Mas o meNos",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Deserci.n                : Factor w/ 2 levels "No","Si": 1 1 2 2 2 1 1 1 2 2 ...
##  $ Sobrepoblaci.n           : Factor w/ 2 levels "No","Si": 2 1 2 2 2 2 1 2 2 2 ...
##  $ Aumento._de._la.poblaci.n: Factor w/ 2 levels "No","Si": 1 1 2 2 1 1 1 2 1 1 ...
##  $ Sobrecarga_.laboral      : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 2 2 2 ...
##  $ Planificaci.n            : Factor w/ 5 levels "0% - 20%","21% - 40%",..: 3 3 3 3 3 3 4 3 3 3 ...
##  $ Estrategias_.educativas  : Factor w/ 5 levels "0% - 20%","20% - 40%",..: 3 3 3 3 2 3 3 3 3 3 ...
##  $ Recursos                 : Factor w/ 2 levels "No","Si": 2 1 2 2 2 2 2 2 2 2 ...
##  $ Plataforma               : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Frecuencia_.de_.uso      : Factor w/ 3 levels "En ocasiones",..: 1 1 1 1 1 1 2 1 1 3 ...
##  $ Aumento_.de_.uso         : Factor w/ 3 levels "Intermedio","Mucho",..: 3 2 2 2 2 3 3 1 2 2 ...
##  $ Uso_.lms                 : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
##  $ lms_.utiliza             : Factor w/ 12 levels "Canvas LMS","Canvas LMS;Wordpress",..: 8 11 4 7 11 8 8 9 9 12 ...
##  $ Estimaci.n_.lms          : Factor w/ 3 levels "Intermedio","Mucho",..: 1 1 1 3 1 1 3 1 1 3 ...
##  $ Cambio._LMS              : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...

Se obtuvieron 130 observaciones y 41 columnas diseñadas en función de las siguientes categorías de variables:

Demográficas
Acceso a internet / computadora
Registro
Matricula
Hábitos del estudiante
Interrupción del proceso académico
Motivación del estudiante
Sobrepoblacion - estudiante
Sobrepoblacion - docente
Inversión económica de la UNAH
Plataformas virtuales

A continuación, podemos ver un resumen de cada categoría:

summary(survey)

##     Edad          Genero   Procedencia Traslado_.UNAH Computadora_.permanente
##  >38  : 1   Femenino :41   No:83       Muchas:29      No: 10                 
##  18-22:32   Masculino:89   Si:47       Normal:62      Si:120                 
##  23-27:79                              Pocas :39                             
##  28-32:17                                                                    
##  33-37: 1                                                                    
##                                                                              
##                                                                              
##  Conexi.n_.permanente Calidad_.conexi.n Estudio_.secundaria Cantidad_.carreras
##  No: 24               No  :35           No:73               No:120            
##  Si:106               Si  :71           Si:57               Si: 10            
##                       NA's:24                                                 
##                                                                               
##                                                                               
##                                                                               
##                                                                               
##  Rango_.acad.mico                                     Mejorar_..ndice
##  <70   :15        Mejor Planificaci?n                         :38    
##  70-79 :59        Flexibilidad de horarios                    :34    
##  80-89 :46        Mejor Planificaci?n;Flexibilidad de horarios:32    
##  90-100:10        Otros                                       :10    
##                   Flexibilidad de horarios;Otros              : 5    
##                   Mejor Planificaci?n;Otros                   : 5    
##                   (Other)                                     : 6    
##  Exelencia_academica Reprobaci.n Rango_.promedio_.clases Flexibilidad_.horarios
##  No:42               No: 30      1 a 2 : 6               No:60                 
##  Si:88               Si:100      2 a 4 :60               Si:70                 
##                                  4 a 6 :64                                     
##                                                                                
##                                                                                
##                                                                                
##                                                                                
##  Horas_.libres Estimaci.n_.horas_.libres Lista_.espera Mas_.cupos
##  No:48         Intermedias:37            No: 22        No:  4    
##  Si:82         Muchas     :19            Si:108        Si:126    
##                Pocas      :26                                    
##                NA's       :48                                    
##                                                                  
##                                                                  
##                                                                  
##  Preferencia_.estudio Horas_.diarias_.estudio        Disciplina Autodidacta
##  Grupo:52             Min.   :1.000           En ocasiones:32   No: 12     
##  Solo :78             1st Qu.:2.000           No          : 1   Si:118     
##                       Median :2.000           Si          :97              
##                       Mean   :2.731                                        
##                       3rd Qu.:3.000                                        
##                       Max.   :8.000                                        
##                                                                            
##  Demora   EntorNo                Motivo_.estudio      Seguimiento  Deserci.n
##  No:  9   No: 11   Influencia de terceros: 14    Mas o meNos: 24   No:69    
##  Si:121   Si:119   Otros                 :  8    No         :  5   Si:61    
##                    Te gusta la carrera   :103    Si         :101            
##                    Test vocacional       :  5                               
##                                                                             
##                                                                             
##                                                                             
##  Sobrepoblaci.n Aumento._de._la.poblaci.n Sobrecarga_.laboral    Planificaci.n
##  No:37          No:75                     No:31               0% - 20%  :20   
##  Si:93          Si:55                     Si:99               21% - 40% :34   
##                                                               41% - 60% :57   
##                                                               61% - 80% :17   
##                                                               80% - 100%: 2   
##                                                                               
##                                                                               
##  Estrategias_.educativas Recursos Plataforma         Frecuencia_.de_.uso
##  0% - 20%  :25           No:  9   No:  2     En ocasiones      :87      
##  20% - 40% :39           Si:121   Si:128     Muy frecuentemente:34      
##  41% - 60% :55                               Nunca             : 9      
##  61% - 80% :10                                                          
##  80% - 100%: 1                                                          
##                                                                         
##                                                                         
##    Aumento_.de_.uso Uso_.lms                 lms_.utiliza   Estimaci.n_.lms
##  Intermedio:30      No:31    Moodle                :27    Intermedio:59    
##  Mucho     :64      Si:99    Otras                 :20    Mucho     :14    
##  Poco      :36               Moodle;Otras          :11    Poco      :26    
##                              Moodle;Wordpress      :11    NA's      :31    
##                              Moodle;Wordpress;Otras: 9                     
##                              (Other)               :21                     
##                              NA's                  :31                     
##  Cambio._LMS
##  No:  4     
##  Si:126     
##             
##             
##             
##             
##

VARIABLES DESCARTADAS

Fueron descartadas las siguientes variables porque luego de su análisis se consideró que no se extrae información que nos ayude a concluir algo en nuestra investigación:

Columna	Pregunta de Referencia
anio_estudio	¿En qué año académico te encuentras?
clases_matriculadas	¿Cuántas clases matriculaste este periodo?
contratacion	¿Consideras que la UNAH debe contratar más docentes para la facultad de ingeniería en sistemas?
inversion_recursos	¿Consideras que la UNAH debe poner más recursos materiales a disposición en facultad de ingeniería en sistemas?

TRATAMIENTO DE VALORES ATÍPICOS

Al analizar la información podemos observar valores atípicos en las columnas de Edad y lms_utiliza, seguidamente se explica cada uno de sus tratamientos:

Valor atípico en la columna edad:

Gráfico boxplot:

df_info  <- as.data.frame(prop.table(table(survey$Edad))) %>% arrange(-Freq)
boxplot(df_info$Freq)

qqnorm(df_info$Freq)

Al examinar la frecuencia de la información se obtuvieron los siguientes datos:

##    Var1        Freq
## 1 23-27 0.607692308
## 2 18-22 0.246153846
## 3 28-32 0.130769231
## 4   >38 0.007692308
## 5 33-37 0.007692308

Podemos ver que se obtuvo tan solo 1 respuesta para el rango de edad 33-37 y >38, por lo cual agruparemos estas 2 respuestas en el rango “>33”, realizando la siguiente transformación:

##    Var1        Freq categoria
## 1 23-27 0.607692308     23-27
## 2 18-22 0.246153846     18-22
## 3 28-32 0.130769231     28-32
## 4   >38 0.007692308       >33
## 5 33-37 0.007692308       >33

Seguidamente añadimos esta transformación a la encuesta original:

##   >33 18-22 23-27 28-32 
##     2    32    79    17

Observamos que al realizar las transformaciones la columna Edad ya no retorna valores atípicos por lo tanto la transformación fue acertada.

  df_trans <- as.data.frame(prop.table(table(survey$Edad))) %>% arrange(-Freq)
  boxplot(df_trans$Freq)

  qqnorm(df_trans$Freq)

Valor atípico en la columna lms_utiliza

Los datos presentan un valor atípico en respuesta a la pregunta: ¿Cuál de los siguientes LMS has utilizado? , según la variable lms_utiliza

df_lms  <- as.data.frame(prop.table(table(survey$lms_.utiliza))) %>% arrange(-Freq)
boxplot(df_lms$Freq)

qqnorm(df_lms$Freq)

Como podemos apreciar en el gráfico de normalidad qqnorm los datos no presentan una distribución normal pues se encuentran muy dispersos y al examinar la frecuencia de la información se obtuvo la siguiente información:

##                           Var1       Freq
## 1                       Moodle 0.27272727
## 2                        Otras 0.20202020
## 3                 Moodle;Otras 0.11111111
## 4             Moodle;Wordpress 0.11111111
## 5       Moodle;Wordpress;Otras 0.09090909
## 6                    Wordpress 0.07070707
## 7                   Canvas LMS 0.04040404
## 8  Moodle;Canvas LMS;Wordpress 0.03030303
## 9         Canvas LMS;Wordpress 0.02020202
## 10           Moodle;Canvas LMS 0.02020202
## 11     Moodle;Canvas LMS;Otras 0.02020202
## 12  Canvas LMS;Wordpress;Otras 0.01010101

Al analizar la columna lms_utiliza se notó que presentaba valores atípicos y no representaba en esencia lo que se quería dar a conocer en la investigación, pues el objetivo era saber si el estudiante conocía la herramienta Moodle o no.

Con respecto a la información recolectada se decidió transformar las respuestas de la columna lms_utiliza a expresiones referentes a si conoce moodle o no cambiando el nombre de la columna de lms_utiliza a conoce_moodle.

##   No   Si NA's 
##   34   65   31

Como podemos notar se resumieron los datos de la forma siguiente:

Si, para respuestas en las que el encuestado afirmaba haber utilizado Moodle

No, para respuestas en las que el encuestado no conocía Moodle

df_trans_lms <- as.data.frame(prop.table(table(survey$conoce_moodle))) %>% arrange(-Freq)
boxplot(df_trans_lms$Freq)

qqnorm(df_trans_lms$Freq)

Después de la transformación podemos apreciar que según los gráficos no se muestran datos atípicos.

TRATAMIENTO DE VALORES NA

Al realizar el análisis de los datos encontramos las siguientes columnas con valores NA:

##                 column.name na.percentage
## 1 Estimaci.n_.horas_.libres     0.3692308
## 2           Estimaci.n_.lms     0.2384615
## 3             conoce_moodle     0.2384615
## 4         Calidad_.conexi.n     0.1846154

Realizaremos el tratamiento correspondiente para los valores NA obtenidos de las variables:

Estimaci.n_.horas_.libres
Estimaci.n_.lms
conoce_moodle
Calidad_.conexi.n

Imputación calidad conexión

summary(survey$Conexi.n_.permanente)

##  No  Si 
##  24 106

Hubieron 24 respuestas de personas que no tienen una conexión permanente a internet, por lo tato se esperan la misma cantidad de respuestas NA en la variable Calidad_.conexi.n

summary(survey$Calidad_.conexi.n)

##   No   Si NA's 
##   35   71   24

Respecto a la variable Calidad_.conexi.n imputamos los valores NA con valores “NO” pues eran dependientes de la variable Conexi.n_.permanente respectivamente y al responder esta con un NO se imputan las respuestas a las demás variables con un NO de la siguiente forma:

## No Si 
## 59 71

Imputacion conoce Moodle

summary(survey$conoce_moodle)

##   No   Si NA's 
##   34   65   31

Reemplazaremos las incidencias NA de la variable conoce_moodle por “NO” debido a que no se contesto la variable de dpendencia Uso_lms.

## No Si 
## 65 65

Tratamiento de estimación de horas libres

summary(survey$Horas_.libres)

## No Si 
## 48 82

Hubieron 48 respuestas de personas afirman que no tienen horas libres entre clases, por lo tato se esperan la misma cantidad de respuestas NA en la variable Estimaci.n_.horas_.libres.

summary(survey$Estimaci.n_.horas_.libres)

## Intermedias      Muchas       Pocas        NA's 
##          37          19          26          48

El tratamiento que se realizó con esta variable fue reemplazar las ocurrencias NA por “Ninguna” quedando de la siguiente forma:

survey$Estimaci.n_.horas_.libres<- as.character(survey$Estimaci.n_.horas_.libres)
survey[is.na(survey$Estimaci.n_.horas_.libres),"Estimaci.n_.horas_.libres"] <- "Ninguna"
survey$Estimaci.n_.horas_.libres<- as.factor(survey$Estimaci.n_.horas_.libres)

summary(survey$Estimaci.n_.horas_.libres)

## Intermedias      Muchas     Ninguna       Pocas 
##          37          19          48          26

Tratamiento estimacion del uso de LMS

summary(survey$Uso_.lms)

## No Si 
## 31 99

Hubieron 31 respuestas de personas que afirman no han utilizado un lms, por lo tato se esperan la misma cantidad de respuestas NA en la variable Estimaci.n_.lms.

## Intermedio      Mucho       Poco       NA's 
##         59         14         26         31

En relación a la variable Estimaci.n_.lms esta dependía de la variable Uso_.lms, si la respuesta a la variable era NO seguía con las demás preguntas, el tratamiento que realizamos fue reemplazar las ocurrencias NA por “No utilizó LMS” quedando de la siguiente forma:

##     Intermedio          Mucho No utilizó LMS           Poco 
##             59             14             31             26

ANÁLISIS DESCRIPTIVO

Se realizó un analisis descriptivo con las siguientes variables de interés:

Edad
Genero
Reprobaci.n
Exelencia_academica
Rango_.acad.mico
Lista_.espera
Mas_.cupos

Edad

##    Var1       Freq
## 1 23-27 0.60769231
## 2 18-22 0.24615385
## 3 28-32 0.13076923
## 4   >33 0.01538462

Al analizar la variable Edad referente a la pregunta: ¿En qué rango de edad te encuentras? podemos observar que el 60% de los encuestados se encuentran en un rango de edad entre los 23-27 años.

Genero

df_genero  <- as.data.frame(prop.table(table(survey$Genero))) %>% arrange(-Freq)

df_genero

##        Var1      Freq
## 1 Masculino 0.6846154
## 2  Femenino 0.3153846

Al analizar la variable género, vemos que el 68% de los encuestados son hombres, mostrando el predominio de los hombres en la cerrera de ingeniería en sistemas.

Reprobación

df_reprobado <- as.data.frame(prop.table(table(survey$Reprobaci.n))) %>% arrange(-Freq)
df_reprobado

##   Var1      Freq
## 1   Si 0.7692308
## 2   No 0.2307692

Al analizar la variable reprobación, alusiva a la pregunta: ¿Has reprobado una o más clases? vemos que aproximadamente el 77% de los estudiantes admiten que han reprobado en al menos una ocasión presentado una estadística alarmante contra el 23% que no han reprobado en ninguna ocasión.

boxplot(df_reprobado$Freq)

Observamos que no se presentan valores atípicos en la información.

Excelencia académica

df_exce <- as.data.frame(prop.table(table(survey$Exelencia_academica))) %>% arrange(-Freq)
df_exce

##   Var1      Freq
## 1   Si 0.6769231
## 2   No 0.3230769

Respondiendo a la pregunta: ¿Has sido excelencia académica por lo menos alguna vez?, mediante la variable Exelencia_academica observamos que el aproximadamente el 68% de los estudiantes han sido excelencia academia al menos una vez en el transcurso de su carrera

Rango académico

##     Var1       Freq
## 1  70-79 0.45384615
## 2  80-89 0.35384615
## 3    <70 0.11538462
## 4 90-100 0.07692308

La mayoría de los encuestados presentan un índice académico en un rango de 70 a 79 % y el grafico boxplot no muestra valores atipicos.

boxplot(df_academico$Freq)

Lista de espera

##   Var1      Freq
## 1   Si 0.8307692
## 2   No 0.1692308

Vemos que el 83% de los encuestados han estado en lista de espera en al menos una ocasión en el transcurso de su carrera, porcentaje de estudiantes que en concordancia se ven afectados por la insuficiencia de cupos puesto que aproximadamente el 97% de los encuestados argumentan que se necesitan la apertura de más cupos.

##   Var1       Freq
## 1   Si 0.96923077
## 2   No 0.03076923

CORRELACIONES

A continuación se exponen correlaciones alusivas a:

Sobrecarga laboral en relación con reprobación.
Horas libres en relación con la demora de estudios.
Reprobación en relación con sobrepoblación.
Estudio de una carrera orientada a la informática en secundaria en relación con el índice académico.
Sobrepoblación e índice académico.

Estableciendo mediante la hipótesis nula (H_O) que las categorías relacionadas son independientes y por medio de la hipótesis alternativa (H_A) la dependencia de estas; aceptando la hipótesis nula cuando el valor de p-value de nuestra prueba de chi² es menor a 0.05.

Sobrecarga laboral en relación con la reprobación estudiantil

H_O = las categorías de sobrecarga laboral y reprobación son INDEPENDIENTES

H_A = las categorías de sobrecarga laboral y reprobación son DEPENDIENTES

prop.table(table(survey$Sobrecarga_.laboral,survey$Reprobaci.n),1)

##     
##             No        Si
##   No 0.2903226 0.7096774
##   Si 0.2121212 0.7878788

Generamos el grafico ggplot pata interpretar mejor la correlación:

ggplot(survey)+
  ggtitle ("Sobrecarga Docente y Reprobación Estudiantil") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Sobrecarga_.laboral, fill= Reprobaci.n)+
  labs(x = "Sobrecarga Docente",y = "Reprobación Estudiantil") +
  geom_bar(position = "fill")+
  scale_fill_manual(values = c("#64BA8D","#CD6155"))

Mediante el test de chi² obtenemos:

chisq.test(table(survey$Sobrecarga_.laboral,survey$Reprobaci.n))

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(survey$Sobrecarga_.laboral, survey$Reprobaci.n)
## X-squared = 0.43242, df = 1, p-value = 0.5108

Nuestro p-value=0.5108 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías sobrecarga laboral y reprobación son DEPENDIENTES.

Horas libres en relación con demora en los estudios

H_O = las categorías de horas libres y demora son INDEPENDIENTES

H_A= las categorías de horas libres y demora son DEPENDIENTES

prop.table(table(survey$Horas_.libres,survey$Demora),1)

##     
##              No         Si
##   No 0.08333333 0.91666667
##   Si 0.06097561 0.93902439

Generamos el grafico ggplot pata interpretar mejor la correlación:

ggplot(survey)+
  ggtitle ("Horas Libres y Demora Estudiantil") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Horas_.libres, fill= Demora)+
  labs(x = "Horas Libres",y = "Demora Estudiantil") +
  geom_bar(position = "fill")+
  scale_fill_manual(values = c("#64BA8D","#CD6155"))

Mediante el test de chi² obtenemos:

chisq.test(table(survey$Horas_.libres,survey$Demora))

## Warning in chisq.test(table(survey$Horas_.libres, survey$Demora)): Chi-squared
## approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(survey$Horas_.libres, survey$Demora)
## X-squared = 0.016044, df = 1, p-value = 0.8992

Nuestro p-value=0.8992 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías horas libres y demora son DEPENDIENTES.

Reprobación en relación a la sobrepoblación

H_O = las categorías de reprobación y sobrepoblacion son INDEPENDIENTES

H_A= las categorías de reprobación y sobrepoblacion son DEPENDIENTES

prop.table(table(survey$Reprobaci.n,survey$Sobrepoblaci.n),1)

##     
##             No        Si
##   No 0.2333333 0.7666667
##   Si 0.3000000 0.7000000

Generamos el grafico ggplot pata interpretar mejor la correlación:

ggplot(survey)+
  ggtitle ("Reprobación y Sobrepoblación") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Reprobaci.n, fill= Sobrepoblaci.n)+
  labs(x = "Reprobación",y = "Sobrepoblación") +
  geom_bar(position = "fill")+
  scale_fill_manual(values = c("#64BA8D","#CD6155"))

Mediante el test de chi² obtenemos:

chisq.test(table(survey$Reprobaci.n,survey$Sobrepoblaci.n))

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(survey$Reprobaci.n, survey$Sobrepoblaci.n)
## X-squared = 0.22951, df = 1, p-value = 0.6319

Nuestro p-value=0.6319 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías reprobación y sobrepoblacion son DEPENDIENTES.

Estudiar una carrera orientada a la informática en relación con el rango académico

H_O = las categorías de estudio secundaria y rango académico son INDEPENDIENTES

H_A= las categorías de estudio secundaria y rango académico son DEPENDIENTES

prop.table(table(survey$Estudio_.secundaria,survey$Rango_.acad.mico),1)

##     
##             <70      70-79      80-89     90-100
##   No 0.06849315 0.54794521 0.31506849 0.06849315
##   Si 0.17543860 0.33333333 0.40350877 0.08771930

Generamos el grafico ggplot pata interpretar mejor la correlación:

ggplot(survey)+
  ggtitle ("Estudios de Secundaria y Rango Académico") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Estudio_.secundaria, fill= Rango_.acad.mico)+
  labs(x = "Estudios de Secundaria",y = "Rango Académico") +
  geom_bar(position = "fill")

Mediante el test de chi² obtenemos:

chisq.test(table(survey$Estudio_.secundaria,survey$Rango_.acad.mico))

## Warning in chisq.test(table(survey$Estudio_.secundaria,
## survey$Rango_.acad.mico)): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  table(survey$Estudio_.secundaria, survey$Rango_.acad.mico)
## X-squared = 7.2823, df = 3, p-value = 0.06342

Nuestro p-value=0.06342 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías estudio de secundaria y rango académico son DEPENDIENTES en consecuencia estudiar una carrera secundaria orientada a la informática influye en el rango académico.

Incremento de la población de estudiantes y rango académico

H_O = las categorías de aumento de la población y rango académico son INDEPENDIENTES

H_A= las categorías de aumento de la población y rango académico son DEPENDIENTES

prop.table(table(survey$Aumento._de._la.poblaci.n,survey$Rango_.acad.mico),1)

##     
##             <70      70-79      80-89     90-100
##   No 0.13333333 0.44000000 0.34666667 0.08000000
##   Si 0.09090909 0.47272727 0.36363636 0.07272727

Generamos el grafico ggplot pata interpretar mejor la correlación:

ggplot(survey)+
  ggtitle ("Incremento de la Población y Rango Académico") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Aumento._de._la.poblaci.n, fill= Rango_.acad.mico)+
  labs(x = "Incremento de la Población",y = "Rango Académico") +
  geom_bar(position = "fill")

Mediante el test de chi² obtenemos:

chisq.test(table(survey$Aumento._de._la.poblaci.n,survey$Rango_.acad.mico))

## Warning in chisq.test(table(survey$Aumento._de._la.poblaci.n,
## survey$Rango_.acad.mico)): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  table(survey$Aumento._de._la.poblaci.n, survey$Rango_.acad.mico)
## X-squared = 0.61748, df = 3, p-value = 0.8924

Nuestro p-value=0.8924 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías aumento de la población y rango académico son DEPENDIENTES

REGRESIONES LOGÍSTICAS

La variable de respuesta que identificamos es Uso_LMS, la cual utilizaremos para hacer una regresión logística, con el objetivo de identificar las variables influyentes en este aspecto, puesto que la propuesta de solución tecnológica es utilizar un LMS para contribuir en el rendimiento del estudiante, y un porcentaje significativo de estos admiten no haber usado un LMS o desconocer su concepto.

Aproximadamente el 24% de los encuestados afirma no haber utilizado ningun LMS en sus clases.

prop.table(table(survey$Uso_.lms))

## 
##        No        Si 
## 0.2384615 0.7615385

Para la variable de respuesta se consideraron importantes las siguientes variables de acompañamiento:

Computadora_.permanente
Conexión_.permanente
Rango_.promedio_.clases
Horas_.diarias_.estudio
Disciplina
Autodidacta
Plataforma
Frecuencia_.de_.uso
Recursos
Uso_.lms

Cargamos las variables de acompañamiento junto con la variable de peso para regresión logística para obtener los siguientes datos:

features <- c(
  "Computadora_.permanente",
  "Conexión_.permanente",
  "Rango_.promedio_.clases",
  "Horas_.diarias_.estudio",
  "Disciplina",
  "Autodidacta",
  "Plataforma",
  "Frecuencia_.de_.uso", 
  "Recursos",
  "Uso_.lms"
)
#creamos un nuevo vector set para cargar las variables que solo vamos usar
set <- survey[, names(survey) %in% features ]

set$Uso_.lms <- as.factor(set$Uso_.lms)

#Aplicamos la regresión logística y cargamos el resultado en vector model
model <- glm(Uso_.lms ~ ., data = set, family = "binomial")

#imprimimos el vector model para ver los resultados 
model

## 
## Call:  glm(formula = Uso_.lms ~ ., family = "binomial", data = set)
## 
## Coefficients:
##                           (Intercept)              Computadora_.permanenteSi  
##                               14.5912                                 0.9428  
##          Rango_.promedio_.clases2 a 4          Rango_.promedio_.clases4 a 6   
##                                1.0038                                 0.6979  
##               Horas_.diarias_.estudio                           DisciplinaNo  
##                               -0.1043                               -17.7607  
##                          DisciplinaSi                          AutodidactaSi  
##                               -0.8006                                 0.7112  
##                            RecursosSi                           PlataformaSi  
##                                0.7208                               -15.4524  
## Frecuencia_.de_.usoMuy frecuentemente               Frecuencia_.de_.usoNunca  
##                               -0.1330                                 0.7413  
## 
## Degrees of Freedom: 129 Total (i.e. Null);  118 Residual
## Null Deviance:       142.8 
## Residual Deviance: 129.6     AIC: 153.6

Podemos apreciar el orden del coeficiente de importancia de cada variable de acompañamiento.

Importancia <- varImp(model)

Importancia$col <- row.names(Importancia)

Importancia <- Importancia %>% arrange(-Overall)  

Importancia

##        Overall                                   col
## 1  1.312439482                          DisciplinaSi
## 2  1.166324206             Computadora_.permanenteSi
## 3  1.058451226          Rango_.promedio_.clases2 a 4
## 4  0.907151420                            RecursosSi
## 5  0.879565018                         AutodidactaSi
## 6  0.720547900         Rango_.promedio_.clases4 a 6 
## 7  0.663251120              Frecuencia_.de_.usoNunca
## 8  0.647031548               Horas_.diarias_.estudio
## 9  0.253704630 Frecuencia_.de_.usoMuy frecuentemente
## 10 0.010015674                          PlataformaSi
## 11 0.007401679                          DisciplinaNo

Evaluaremos algunas de las variables de respuesta para ver si hace sentido la interpretación con respecto a la gráfica:

Correlación entre disciplina y uso de LMS

ggplot(survey)+
  ggtitle ("Correlación: Disciplina  y Uso de LMS") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Disciplina, fill= Uso_.lms)+
  geom_bar(position = "fill")+
  labs(x = "Disciplina",y = "Uso de LMS") +
  scale_fill_manual(values = c("#CD6155","#64BA8D"))

Como lo indica el grafico aquellos estudiantes que mencionaron que no son disciplinados son los que tienen más riesgo que a la hora de implementar una plataforma de LMS no incida en su rendimiento académico puesto que no tienen una buena práctica para cumplir con sus deberes como estudiante.

Correlación entre computadora permanente y uso del LMS

ggplot(survey)+
  ggtitle ("Correlación: Computadora Permanente  y Uso de LMS") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x=Computadora_.permanente, fill= Uso_.lms)+
  geom_bar(position = "fill")+
  labs(x = "Computadora Permanente",y = "Uso de LMS") +
  scale_fill_manual(values = c("#CD6155","#64BA8D"))

La grafica nos indica que tenemos que poner más atención a aquellos estudiantes que señalan que no tiene computadora permanente pues ellos no tendrían las herramientas necesarias para el uso de una plataforma LMS.

Correlación entre rango promedio de clases por periodo y uso de LMS

ggplot(survey)+
  ggtitle ("Correlación: Rango de Clases por Periodo y Uso de LMS") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
   aes(x= Rango_.promedio_.clases, fill= Uso_.lms)+
  geom_bar(position = "fill")+
  labs(x = "Rango de Clases por Periodo",y = "Uso de LMS") +
  scale_fill_manual(values = c("#CD6155","#64BA8D"))

Como se puede apreciar en la gráfica a medida que van aumentando el número de clases matriculadas por periodo aumenta el riesgo de que se logre mejorar el rendimiento del estudiante por medio de una plataforma LMS debido a que estaría sobre cargado.

Correlación entre ser autodidacta y uso de LMS

ggplot(survey)+
  ggtitle ("Correlación: Autodidacta y Uso de LMS") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Autodidacta, fill= Uso_.lms)+
  geom_bar(position = "fill")+
  labs(x = "Autodidacta",y = "Uso de LMS") +
  scale_fill_manual(values = c("#CD6155","#64BA8D"))

se puede apreciar en la gráfica que aquellos estudiantes que no son autodidactas corren más riesgo de no mejorar su rendimiento mediante el uso de plataforma LMS.

Correlación entre horas diarias de estudio y uso de LMS

ggplot(survey)+
  ggtitle ("Correlación: Horas de Estudio y Uso del LMS") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x=Horas_.diarias_.estudio , fill= Uso_.lms)+
  geom_bar(position = "fill")+
  labs(x = "Horas de Estudio",y = "Uso de LMS") +
  scale_fill_manual(values = c("#CD6155","#64BA8D"))

Se puede notar en la gráfica que esta variable no produce una buena interpretación debido a que nos indica un comportamiento desigual entre el número de horas que dedica a estudiar y el uso de la plataforma LMS.

Correlación aumento de recursos y uso de LMS

ggplot(survey)+
  ggtitle ("Correlación: Aumento de Recursos y Uso del LMS") + 
  theme (plot.title = element_text(
                                  vjust=2, #Justificación vertical, para separarlo del gráfico
                                  face="bold",
                                  lineheight=2
                                  ),
         axis.text.x = element_text(angle = 45)
         
         ) +
  aes(x= Recursos, fill= Uso_.lms)+
  geom_bar(position = "fill")+
  labs(x = "Aumento de Recursos",y = "Uso de LMS") +
  scale_fill_manual(values = c("#CD6155","#64BA8D"))

La grafica nos indica que aquellos que consideran que un aumento de los recursos tanto de infraestructura como de personal no ayudaría a mejorar el rendimiento académico son los que tienen más riesgo de no poder mejorar su rendimiento mediante el uso de una plataforma LMS.

SOLUCIÓN TECNOLÓGICA

Finalmente mostramos la relación entre los servicios de la arquitectura de la propuesta de solución tecnológica:

“Servicios de comunicación”

El objetivo que pretendemos alcanzar es la comunicación de dos servicios como es el de base de datos UNAH y webAPI para consultar información específica del maestro como ser la asistencia, jornada laboral y cursos impartidos, con el objetivo global de presentarle posteriormente recomendaciones de sus estudiantes en base a esta información.

“API Moodle”

De igual forma para los servicios presentados como ser el de Moodle y nuestra WebAPI recordando que nuestra propuesta de solución tecnológica es implementar el uso de LMS para aumentar el rendimiento del alumno y generar recomendaciones de mejores prácticas a los maestros, obteneniendo información relevante del LMS como ser comentarios y observaciones de los estudiantes para posteriormente toda esta data procesarla y generar las recomendaciones respectivas para cada maestro.

“Servidor ETL”

Relacionando los servicios presentados en la ilustración se podrán extraer los datos mediante un proceso ETL para la transformación de la información necesaria parad despues almacenarla en una base de datos de tipo no relacional.

“DB no relacional”

Una vez obtenidos los datos y procesados mediante ETL, el objetivo es almacenarlos en una base de datos no relacional y el componente de base de datos relacional lo dejamos para controlar accesos y ciertas configuraciones de nuestra WebAPI y nuestra API de recomendaciones.

“Cluster de servidores”

La finalidad de esta propuesta es almacenar los datos en un cluster de servidores con configuración Hadoop, además de eso pretendemos que nuestros servidores sean de tipo storage para que permitan almacenar y consultar una gran cantidad de datos mediante rutinas y modelos entrenados que nos permitan mediante minería de datos estudiantil y análisis predictivos generar las recomendaciones y consultarlas mediante las bases de datos de nuestros aplicativos.

“Relación de servicios”

Al relacionar de estos servicios tendremos generadas todas aquellas recomendaciones para consultarlas mediante nuestro aplicativo de recomendaciones para ser presentados al usuario en este caso los docentes de la facultad.

“Cluster de servidores”

El aplicativo presetará las recomendaciones de mejores prácticas al usuario para mejorar la dinámica de la clase, y sea util como un tipo de retroalimentación que le permitirá al docente sugerir nuevos contenidos o implementar prácticas que mejoren las condiciones de la clase para un mejor aprovechamiento del estudiante.

Finalmente se ofrece de forma completa la arquitectura de la solución tecnológica.

“Cluster de servidores”

ANÁLISIS SOBREPOBLACIÓN ESTUDIANTIL

Angela Cubas

14/5/2020

INTRODUCCIÓN

VARIABLES CAPTURADAS

VARIABLES DESCARTADAS

TRATAMIENTO DE VALORES ATÍPICOS

Valor atípico en la columna edad:

Valor atípico en la columna lms_utiliza

TRATAMIENTO DE VALORES NA

Imputación calidad conexión

Imputacion conoce Moodle

Tratamiento de estimación de horas libres

Tratamiento estimacion del uso de LMS

ANÁLISIS DESCRIPTIVO

Edad

Genero

Reprobación

Excelencia académica

Rango académico

Lista de espera

CORRELACIONES

Sobrecarga laboral en relación con la reprobación estudiantil

Horas libres en relación con demora en los estudios

Reprobación en relación a la sobrepoblación

Estudiar una carrera orientada a la informática en relación con el rango académico

Incremento de la población de estudiantes y rango académico

REGRESIONES LOGÍSTICAS

Correlación entre disciplina y uso de LMS

Correlación entre computadora permanente y uso del LMS

Correlación entre rango promedio de clases por periodo y uso de LMS

Correlación entre ser autodidacta y uso de LMS

Correlación entre horas diarias de estudio y uso de LMS

Correlación aumento de recursos y uso de LMS

SOLUCIÓN TECNOLÓGICA