En el análisis presentado posteriormente se expone la información recolectada en la encuesta realizada a los estudiantes de la carrera de ingeniería en sistemas de la Universidad Nacional Autónoma de Honduras, en el presente estudio se realiza la limpieza de datos correspondiente, un análisis descriptivo de los datos y se indican las correlaciones entre variables categóricas de la investigación, aceptando o rechazando los resultados en función de la hipótesis nula mediante las pruebas de Ch² así como las conclusiones en relación con los datos obtenidos; asimismo se presenta una regresión logística mediante la variable de respuesta y el coeficiente de importancia de las variables de acompañamiento y finalmente se expone una solución tecnológica mediante la utilización de plataformas Learning Management System.
Se recabaron las siguientes observaciones y columnas en la encuesta:
## 'data.frame': 130 obs. of 41 variables:
## $ Edad : Factor w/ 5 levels ">38","18-22",..: 3 4 3 3 3 3 3 4 3 3 ...
## $ Genero : Factor w/ 2 levels "Femenino","Masculino": 1 2 1 1 2 1 2 2 2 2 ...
## $ Procedencia : Factor w/ 2 levels "No","Si": 1 1 2 2 1 2 1 2 2 2 ...
## $ Traslado_.UNAH : Factor w/ 3 levels "Muchas","Normal",..: 2 2 2 2 2 2 3 3 3 2 ...
## $ Computadora_.permanente : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
## $ Conexi.n_.permanente : Factor w/ 2 levels "No","Si": 1 2 2 2 2 2 2 2 2 2 ...
## $ Calidad_.conexi.n : Factor w/ 2 levels "No","Si": NA 2 2 2 2 1 2 2 1 2 ...
## $ Estudio_.secundaria : Factor w/ 2 levels "No","Si": 1 2 1 1 1 1 1 1 1 1 ...
## $ Cantidad_.carreras : Factor w/ 2 levels "No","Si": 1 1 1 1 1 1 1 1 1 1 ...
## $ Rango_.acad.mico : Factor w/ 4 levels "<70","70-79",..: 2 4 3 3 3 4 2 4 2 3 ...
## $ Mejorar_..ndice : Factor w/ 8 levels "Flexibilidad de horarios",..: 3 3 3 5 1 2 8 1 4 1 ...
## $ Exelencia_academica : Factor w/ 2 levels "No","Si": 1 2 2 2 2 2 1 2 1 2 ...
## $ Reprobaci.n : Factor w/ 2 levels "No","Si": 2 1 2 2 2 1 2 1 2 1 ...
## $ Rango_.promedio_.clases : Factor w/ 3 levels "1 a 2","2 a 4",..: 3 3 3 3 3 3 2 3 3 3 ...
## $ Flexibilidad_.horarios : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 2 1 1 ...
## $ Horas_.libres : Factor w/ 2 levels "No","Si": 2 1 1 1 2 1 2 1 2 2 ...
## $ Estimaci.n_.horas_.libres: Factor w/ 3 levels "Intermedias",..: 3 NA NA NA 3 NA 2 NA 2 2 ...
## $ Lista_.espera : Factor w/ 2 levels "No","Si": 2 1 2 2 1 2 2 2 2 2 ...
## $ Mas_.cupos : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
## $ Preferencia_.estudio : Factor w/ 2 levels "Grupo","Solo": 2 1 1 2 2 2 2 2 2 1 ...
## $ Horas_.diarias_.estudio : int 3 5 2 2 1 2 1 2 3 3 ...
## $ Disciplina : Factor w/ 3 levels "En ocasiones",..: 3 3 1 1 3 3 3 1 3 3 ...
## $ Autodidacta : Factor w/ 2 levels "No","Si": 2 2 1 2 2 2 2 2 2 2 ...
## $ Demora : Factor w/ 2 levels "No","Si": 2 1 2 2 2 2 2 2 2 2 ...
## $ EntorNo : Factor w/ 2 levels "No","Si": 1 2 2 2 2 2 2 2 2 2 ...
## $ Motivo_.estudio : Factor w/ 4 levels "Influencia de terceros",..: 3 3 1 1 2 3 3 3 3 3 ...
## $ Seguimiento : Factor w/ 3 levels "Mas o meNos",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Deserci.n : Factor w/ 2 levels "No","Si": 1 1 2 2 2 1 1 1 2 2 ...
## $ Sobrepoblaci.n : Factor w/ 2 levels "No","Si": 2 1 2 2 2 2 1 2 2 2 ...
## $ Aumento._de._la.poblaci.n: Factor w/ 2 levels "No","Si": 1 1 2 2 1 1 1 2 1 1 ...
## $ Sobrecarga_.laboral : Factor w/ 2 levels "No","Si": 2 2 2 2 2 1 1 2 2 2 ...
## $ Planificaci.n : Factor w/ 5 levels "0% - 20%","21% - 40%",..: 3 3 3 3 3 3 4 3 3 3 ...
## $ Estrategias_.educativas : Factor w/ 5 levels "0% - 20%","20% - 40%",..: 3 3 3 3 2 3 3 3 3 3 ...
## $ Recursos : Factor w/ 2 levels "No","Si": 2 1 2 2 2 2 2 2 2 2 ...
## $ Plataforma : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
## $ Frecuencia_.de_.uso : Factor w/ 3 levels "En ocasiones",..: 1 1 1 1 1 1 2 1 1 3 ...
## $ Aumento_.de_.uso : Factor w/ 3 levels "Intermedio","Mucho",..: 3 2 2 2 2 3 3 1 2 2 ...
## $ Uso_.lms : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
## $ lms_.utiliza : Factor w/ 12 levels "Canvas LMS","Canvas LMS;Wordpress",..: 8 11 4 7 11 8 8 9 9 12 ...
## $ Estimaci.n_.lms : Factor w/ 3 levels "Intermedio","Mucho",..: 1 1 1 3 1 1 3 1 1 3 ...
## $ Cambio._LMS : Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
Se obtuvieron 130 observaciones y 41 columnas diseñadas en función de las siguientes categorías de variables:
A continuación, podemos ver un resumen de cada categoría:
summary(survey)
## Edad Genero Procedencia Traslado_.UNAH Computadora_.permanente
## >38 : 1 Femenino :41 No:83 Muchas:29 No: 10
## 18-22:32 Masculino:89 Si:47 Normal:62 Si:120
## 23-27:79 Pocas :39
## 28-32:17
## 33-37: 1
##
##
## Conexi.n_.permanente Calidad_.conexi.n Estudio_.secundaria Cantidad_.carreras
## No: 24 No :35 No:73 No:120
## Si:106 Si :71 Si:57 Si: 10
## NA's:24
##
##
##
##
## Rango_.acad.mico Mejorar_..ndice
## <70 :15 Mejor Planificaci?n :38
## 70-79 :59 Flexibilidad de horarios :34
## 80-89 :46 Mejor Planificaci?n;Flexibilidad de horarios:32
## 90-100:10 Otros :10
## Flexibilidad de horarios;Otros : 5
## Mejor Planificaci?n;Otros : 5
## (Other) : 6
## Exelencia_academica Reprobaci.n Rango_.promedio_.clases Flexibilidad_.horarios
## No:42 No: 30 1 a 2 : 6 No:60
## Si:88 Si:100 2 a 4 :60 Si:70
## 4 a 6 :64
##
##
##
##
## Horas_.libres Estimaci.n_.horas_.libres Lista_.espera Mas_.cupos
## No:48 Intermedias:37 No: 22 No: 4
## Si:82 Muchas :19 Si:108 Si:126
## Pocas :26
## NA's :48
##
##
##
## Preferencia_.estudio Horas_.diarias_.estudio Disciplina Autodidacta
## Grupo:52 Min. :1.000 En ocasiones:32 No: 12
## Solo :78 1st Qu.:2.000 No : 1 Si:118
## Median :2.000 Si :97
## Mean :2.731
## 3rd Qu.:3.000
## Max. :8.000
##
## Demora EntorNo Motivo_.estudio Seguimiento Deserci.n
## No: 9 No: 11 Influencia de terceros: 14 Mas o meNos: 24 No:69
## Si:121 Si:119 Otros : 8 No : 5 Si:61
## Te gusta la carrera :103 Si :101
## Test vocacional : 5
##
##
##
## Sobrepoblaci.n Aumento._de._la.poblaci.n Sobrecarga_.laboral Planificaci.n
## No:37 No:75 No:31 0% - 20% :20
## Si:93 Si:55 Si:99 21% - 40% :34
## 41% - 60% :57
## 61% - 80% :17
## 80% - 100%: 2
##
##
## Estrategias_.educativas Recursos Plataforma Frecuencia_.de_.uso
## 0% - 20% :25 No: 9 No: 2 En ocasiones :87
## 20% - 40% :39 Si:121 Si:128 Muy frecuentemente:34
## 41% - 60% :55 Nunca : 9
## 61% - 80% :10
## 80% - 100%: 1
##
##
## Aumento_.de_.uso Uso_.lms lms_.utiliza Estimaci.n_.lms
## Intermedio:30 No:31 Moodle :27 Intermedio:59
## Mucho :64 Si:99 Otras :20 Mucho :14
## Poco :36 Moodle;Otras :11 Poco :26
## Moodle;Wordpress :11 NA's :31
## Moodle;Wordpress;Otras: 9
## (Other) :21
## NA's :31
## Cambio._LMS
## No: 4
## Si:126
##
##
##
##
##
Fueron descartadas las siguientes variables porque luego de su análisis se consideró que no se extrae información que nos ayude a concluir algo en nuestra investigación:
| Columna | Pregunta de Referencia |
|---|---|
| anio_estudio | ¿En qué año académico te encuentras? |
| clases_matriculadas | ¿Cuántas clases matriculaste este periodo? |
| contratacion | ¿Consideras que la UNAH debe contratar más docentes para la facultad de ingeniería en sistemas? |
| inversion_recursos | ¿Consideras que la UNAH debe poner más recursos materiales a disposición en facultad de ingeniería en sistemas? |
Al analizar la información podemos observar valores atípicos en las columnas de Edad y lms_utiliza, seguidamente se explica cada uno de sus tratamientos:
Gráfico boxplot:
df_info <- as.data.frame(prop.table(table(survey$Edad))) %>% arrange(-Freq)
boxplot(df_info$Freq)
qqnorm(df_info$Freq)
Al examinar la frecuencia de la información se obtuvieron los siguientes datos:
## Var1 Freq
## 1 23-27 0.607692308
## 2 18-22 0.246153846
## 3 28-32 0.130769231
## 4 >38 0.007692308
## 5 33-37 0.007692308
Podemos ver que se obtuvo tan solo 1 respuesta para el rango de edad 33-37 y >38, por lo cual agruparemos estas 2 respuestas en el rango “>33”, realizando la siguiente transformación:
## Var1 Freq categoria
## 1 23-27 0.607692308 23-27
## 2 18-22 0.246153846 18-22
## 3 28-32 0.130769231 28-32
## 4 >38 0.007692308 >33
## 5 33-37 0.007692308 >33
Seguidamente añadimos esta transformación a la encuesta original:
## >33 18-22 23-27 28-32
## 2 32 79 17
Observamos que al realizar las transformaciones la columna Edad ya no retorna valores atípicos por lo tanto la transformación fue acertada.
df_trans <- as.data.frame(prop.table(table(survey$Edad))) %>% arrange(-Freq)
boxplot(df_trans$Freq)
qqnorm(df_trans$Freq)
Los datos presentan un valor atípico en respuesta a la pregunta: ¿Cuál de los siguientes LMS has utilizado? , según la variable lms_utiliza
df_lms <- as.data.frame(prop.table(table(survey$lms_.utiliza))) %>% arrange(-Freq)
boxplot(df_lms$Freq)
qqnorm(df_lms$Freq)
Como podemos apreciar en el gráfico de normalidad qqnorm los datos no presentan una distribución normal pues se encuentran muy dispersos y al examinar la frecuencia de la información se obtuvo la siguiente información:
## Var1 Freq
## 1 Moodle 0.27272727
## 2 Otras 0.20202020
## 3 Moodle;Otras 0.11111111
## 4 Moodle;Wordpress 0.11111111
## 5 Moodle;Wordpress;Otras 0.09090909
## 6 Wordpress 0.07070707
## 7 Canvas LMS 0.04040404
## 8 Moodle;Canvas LMS;Wordpress 0.03030303
## 9 Canvas LMS;Wordpress 0.02020202
## 10 Moodle;Canvas LMS 0.02020202
## 11 Moodle;Canvas LMS;Otras 0.02020202
## 12 Canvas LMS;Wordpress;Otras 0.01010101
Al analizar la columna lms_utiliza se notó que presentaba valores atípicos y no representaba en esencia lo que se quería dar a conocer en la investigación, pues el objetivo era saber si el estudiante conocía la herramienta Moodle o no.
Con respecto a la información recolectada se decidió transformar las respuestas de la columna lms_utiliza a expresiones referentes a si conoce moodle o no cambiando el nombre de la columna de lms_utiliza a conoce_moodle.
## No Si NA's
## 34 65 31
Como podemos notar se resumieron los datos de la forma siguiente:
Si, para respuestas en las que el encuestado afirmaba haber utilizado Moodle
No, para respuestas en las que el encuestado no conocía Moodle
df_trans_lms <- as.data.frame(prop.table(table(survey$conoce_moodle))) %>% arrange(-Freq)
boxplot(df_trans_lms$Freq)
qqnorm(df_trans_lms$Freq)
Después de la transformación podemos apreciar que según los gráficos no se muestran datos atípicos.
Al realizar el análisis de los datos encontramos las siguientes columnas con valores NA:
## column.name na.percentage
## 1 Estimaci.n_.horas_.libres 0.3692308
## 2 Estimaci.n_.lms 0.2384615
## 3 conoce_moodle 0.2384615
## 4 Calidad_.conexi.n 0.1846154
Realizaremos el tratamiento correspondiente para los valores NA obtenidos de las variables:
summary(survey$Conexi.n_.permanente)
## No Si
## 24 106
Hubieron 24 respuestas de personas que no tienen una conexión permanente a internet, por lo tato se esperan la misma cantidad de respuestas NA en la variable Calidad_.conexi.n
summary(survey$Calidad_.conexi.n)
## No Si NA's
## 35 71 24
Respecto a la variable Calidad_.conexi.n imputamos los valores NA con valores “NO” pues eran dependientes de la variable Conexi.n_.permanente respectivamente y al responder esta con un NO se imputan las respuestas a las demás variables con un NO de la siguiente forma:
## No Si
## 59 71
summary(survey$conoce_moodle)
## No Si NA's
## 34 65 31
Reemplazaremos las incidencias NA de la variable conoce_moodle por “NO” debido a que no se contesto la variable de dpendencia Uso_lms.
## No Si
## 65 65
summary(survey$Horas_.libres)
## No Si
## 48 82
Hubieron 48 respuestas de personas afirman que no tienen horas libres entre clases, por lo tato se esperan la misma cantidad de respuestas NA en la variable Estimaci.n_.horas_.libres.
summary(survey$Estimaci.n_.horas_.libres)
## Intermedias Muchas Pocas NA's
## 37 19 26 48
El tratamiento que se realizó con esta variable fue reemplazar las ocurrencias NA por “Ninguna” quedando de la siguiente forma:
survey$Estimaci.n_.horas_.libres<- as.character(survey$Estimaci.n_.horas_.libres)
survey[is.na(survey$Estimaci.n_.horas_.libres),"Estimaci.n_.horas_.libres"] <- "Ninguna"
survey$Estimaci.n_.horas_.libres<- as.factor(survey$Estimaci.n_.horas_.libres)
summary(survey$Estimaci.n_.horas_.libres)
## Intermedias Muchas Ninguna Pocas
## 37 19 48 26
summary(survey$Uso_.lms)
## No Si
## 31 99
Hubieron 31 respuestas de personas que afirman no han utilizado un lms, por lo tato se esperan la misma cantidad de respuestas NA en la variable Estimaci.n_.lms.
## Intermedio Mucho Poco NA's
## 59 14 26 31
En relación a la variable Estimaci.n_.lms esta dependía de la variable Uso_.lms, si la respuesta a la variable era NO seguía con las demás preguntas, el tratamiento que realizamos fue reemplazar las ocurrencias NA por “No utilizó LMS” quedando de la siguiente forma:
## Intermedio Mucho No utilizó LMS Poco
## 59 14 31 26
Se realizó un analisis descriptivo con las siguientes variables de interés:
## Var1 Freq
## 1 23-27 0.60769231
## 2 18-22 0.24615385
## 3 28-32 0.13076923
## 4 >33 0.01538462
Al analizar la variable Edad referente a la pregunta: ¿En qué rango de edad te encuentras? podemos observar que el 60% de los encuestados se encuentran en un rango de edad entre los 23-27 años.
df_genero <- as.data.frame(prop.table(table(survey$Genero))) %>% arrange(-Freq)
df_genero
## Var1 Freq
## 1 Masculino 0.6846154
## 2 Femenino 0.3153846
Al analizar la variable género, vemos que el 68% de los encuestados son hombres, mostrando el predominio de los hombres en la cerrera de ingeniería en sistemas.
df_reprobado <- as.data.frame(prop.table(table(survey$Reprobaci.n))) %>% arrange(-Freq)
df_reprobado
## Var1 Freq
## 1 Si 0.7692308
## 2 No 0.2307692
Al analizar la variable reprobación, alusiva a la pregunta: ¿Has reprobado una o más clases? vemos que aproximadamente el 77% de los estudiantes admiten que han reprobado en al menos una ocasión presentado una estadística alarmante contra el 23% que no han reprobado en ninguna ocasión.
boxplot(df_reprobado$Freq)
Observamos que no se presentan valores atípicos en la información.
df_exce <- as.data.frame(prop.table(table(survey$Exelencia_academica))) %>% arrange(-Freq)
df_exce
## Var1 Freq
## 1 Si 0.6769231
## 2 No 0.3230769
Respondiendo a la pregunta: ¿Has sido excelencia académica por lo menos alguna vez?, mediante la variable Exelencia_academica observamos que el aproximadamente el 68% de los estudiantes han sido excelencia academia al menos una vez en el transcurso de su carrera
## Var1 Freq
## 1 70-79 0.45384615
## 2 80-89 0.35384615
## 3 <70 0.11538462
## 4 90-100 0.07692308
La mayoría de los encuestados presentan un índice académico en un rango de 70 a 79 % y el grafico boxplot no muestra valores atipicos.
boxplot(df_academico$Freq)
## Var1 Freq
## 1 Si 0.8307692
## 2 No 0.1692308
Vemos que el 83% de los encuestados han estado en lista de espera en al menos una ocasión en el transcurso de su carrera, porcentaje de estudiantes que en concordancia se ven afectados por la insuficiencia de cupos puesto que aproximadamente el 97% de los encuestados argumentan que se necesitan la apertura de más cupos.
## Var1 Freq
## 1 Si 0.96923077
## 2 No 0.03076923
A continuación se exponen correlaciones alusivas a:
Estableciendo mediante la hipótesis nula (H_O) que las categorías relacionadas son independientes y por medio de la hipótesis alternativa (H_A) la dependencia de estas; aceptando la hipótesis nula cuando el valor de p-value de nuestra prueba de chi2 es menor a 0.05.
H_O = las categorías de sobrecarga laboral y reprobación son INDEPENDIENTES
H_A = las categorías de sobrecarga laboral y reprobación son DEPENDIENTES
prop.table(table(survey$Sobrecarga_.laboral,survey$Reprobaci.n),1)
##
## No Si
## No 0.2903226 0.7096774
## Si 0.2121212 0.7878788
Generamos el grafico ggplot pata interpretar mejor la correlación:
ggplot(survey)+
ggtitle ("Sobrecarga Docente y Reprobación Estudiantil") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Sobrecarga_.laboral, fill= Reprobaci.n)+
labs(x = "Sobrecarga Docente",y = "Reprobación Estudiantil") +
geom_bar(position = "fill")+
scale_fill_manual(values = c("#64BA8D","#CD6155"))
Mediante el test de chi2 obtenemos:
chisq.test(table(survey$Sobrecarga_.laboral,survey$Reprobaci.n))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(survey$Sobrecarga_.laboral, survey$Reprobaci.n)
## X-squared = 0.43242, df = 1, p-value = 0.5108
Nuestro p-value=0.5108 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías sobrecarga laboral y reprobación son DEPENDIENTES.
H_O = las categorías de horas libres y demora son INDEPENDIENTES
H_A= las categorías de horas libres y demora son DEPENDIENTES
prop.table(table(survey$Horas_.libres,survey$Demora),1)
##
## No Si
## No 0.08333333 0.91666667
## Si 0.06097561 0.93902439
Generamos el grafico ggplot pata interpretar mejor la correlación:
ggplot(survey)+
ggtitle ("Horas Libres y Demora Estudiantil") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Horas_.libres, fill= Demora)+
labs(x = "Horas Libres",y = "Demora Estudiantil") +
geom_bar(position = "fill")+
scale_fill_manual(values = c("#64BA8D","#CD6155"))
Mediante el test de chi2 obtenemos:
chisq.test(table(survey$Horas_.libres,survey$Demora))
## Warning in chisq.test(table(survey$Horas_.libres, survey$Demora)): Chi-squared
## approximation may be incorrect
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(survey$Horas_.libres, survey$Demora)
## X-squared = 0.016044, df = 1, p-value = 0.8992
Nuestro p-value=0.8992 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías horas libres y demora son DEPENDIENTES.
H_O = las categorías de reprobación y sobrepoblacion son INDEPENDIENTES
H_A= las categorías de reprobación y sobrepoblacion son DEPENDIENTES
prop.table(table(survey$Reprobaci.n,survey$Sobrepoblaci.n),1)
##
## No Si
## No 0.2333333 0.7666667
## Si 0.3000000 0.7000000
Generamos el grafico ggplot pata interpretar mejor la correlación:
ggplot(survey)+
ggtitle ("Reprobación y Sobrepoblación") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Reprobaci.n, fill= Sobrepoblaci.n)+
labs(x = "Reprobación",y = "Sobrepoblación") +
geom_bar(position = "fill")+
scale_fill_manual(values = c("#64BA8D","#CD6155"))
Mediante el test de chi2 obtenemos:
chisq.test(table(survey$Reprobaci.n,survey$Sobrepoblaci.n))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(survey$Reprobaci.n, survey$Sobrepoblaci.n)
## X-squared = 0.22951, df = 1, p-value = 0.6319
Nuestro p-value=0.6319 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías reprobación y sobrepoblacion son DEPENDIENTES.
H_O = las categorías de estudio secundaria y rango académico son INDEPENDIENTES
H_A= las categorías de estudio secundaria y rango académico son DEPENDIENTES
prop.table(table(survey$Estudio_.secundaria,survey$Rango_.acad.mico),1)
##
## <70 70-79 80-89 90-100
## No 0.06849315 0.54794521 0.31506849 0.06849315
## Si 0.17543860 0.33333333 0.40350877 0.08771930
Generamos el grafico ggplot pata interpretar mejor la correlación:
ggplot(survey)+
ggtitle ("Estudios de Secundaria y Rango Académico") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Estudio_.secundaria, fill= Rango_.acad.mico)+
labs(x = "Estudios de Secundaria",y = "Rango Académico") +
geom_bar(position = "fill")
Mediante el test de chi2 obtenemos:
chisq.test(table(survey$Estudio_.secundaria,survey$Rango_.acad.mico))
## Warning in chisq.test(table(survey$Estudio_.secundaria,
## survey$Rango_.acad.mico)): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: table(survey$Estudio_.secundaria, survey$Rango_.acad.mico)
## X-squared = 7.2823, df = 3, p-value = 0.06342
Nuestro p-value=0.06342 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías estudio de secundaria y rango académico son DEPENDIENTES en consecuencia estudiar una carrera secundaria orientada a la informática influye en el rango académico.
H_O = las categorías de aumento de la población y rango académico son INDEPENDIENTES
H_A= las categorías de aumento de la población y rango académico son DEPENDIENTES
prop.table(table(survey$Aumento._de._la.poblaci.n,survey$Rango_.acad.mico),1)
##
## <70 70-79 80-89 90-100
## No 0.13333333 0.44000000 0.34666667 0.08000000
## Si 0.09090909 0.47272727 0.36363636 0.07272727
Generamos el grafico ggplot pata interpretar mejor la correlación:
ggplot(survey)+
ggtitle ("Incremento de la Población y Rango Académico") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Aumento._de._la.poblaci.n, fill= Rango_.acad.mico)+
labs(x = "Incremento de la Población",y = "Rango Académico") +
geom_bar(position = "fill")
Mediante el test de chi2 obtenemos:
chisq.test(table(survey$Aumento._de._la.poblaci.n,survey$Rango_.acad.mico))
## Warning in chisq.test(table(survey$Aumento._de._la.poblaci.n,
## survey$Rango_.acad.mico)): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: table(survey$Aumento._de._la.poblaci.n, survey$Rango_.acad.mico)
## X-squared = 0.61748, df = 3, p-value = 0.8924
Nuestro p-value=0.8924 es mayor a 0.05 por lo tanto, rechazamos la hipótesis nula; las categorías aumento de la población y rango académico son DEPENDIENTES
La variable de respuesta que identificamos es Uso_LMS, la cual utilizaremos para hacer una regresión logística, con el objetivo de identificar las variables influyentes en este aspecto, puesto que la propuesta de solución tecnológica es utilizar un LMS para contribuir en el rendimiento del estudiante, y un porcentaje significativo de estos admiten no haber usado un LMS o desconocer su concepto.
Aproximadamente el 24% de los encuestados afirma no haber utilizado ningun LMS en sus clases.
prop.table(table(survey$Uso_.lms))
##
## No Si
## 0.2384615 0.7615385
Para la variable de respuesta se consideraron importantes las siguientes variables de acompañamiento:
Cargamos las variables de acompañamiento junto con la variable de peso para regresión logística para obtener los siguientes datos:
features <- c(
"Computadora_.permanente",
"Conexión_.permanente",
"Rango_.promedio_.clases",
"Horas_.diarias_.estudio",
"Disciplina",
"Autodidacta",
"Plataforma",
"Frecuencia_.de_.uso",
"Recursos",
"Uso_.lms"
)
#creamos un nuevo vector set para cargar las variables que solo vamos usar
set <- survey[, names(survey) %in% features ]
set$Uso_.lms <- as.factor(set$Uso_.lms)
#Aplicamos la regresión logística y cargamos el resultado en vector model
model <- glm(Uso_.lms ~ ., data = set, family = "binomial")
#imprimimos el vector model para ver los resultados
model
##
## Call: glm(formula = Uso_.lms ~ ., family = "binomial", data = set)
##
## Coefficients:
## (Intercept) Computadora_.permanenteSi
## 14.5912 0.9428
## Rango_.promedio_.clases2 a 4 Rango_.promedio_.clases4 a 6
## 1.0038 0.6979
## Horas_.diarias_.estudio DisciplinaNo
## -0.1043 -17.7607
## DisciplinaSi AutodidactaSi
## -0.8006 0.7112
## RecursosSi PlataformaSi
## 0.7208 -15.4524
## Frecuencia_.de_.usoMuy frecuentemente Frecuencia_.de_.usoNunca
## -0.1330 0.7413
##
## Degrees of Freedom: 129 Total (i.e. Null); 118 Residual
## Null Deviance: 142.8
## Residual Deviance: 129.6 AIC: 153.6
Podemos apreciar el orden del coeficiente de importancia de cada variable de acompañamiento.
Importancia <- varImp(model)
Importancia$col <- row.names(Importancia)
Importancia <- Importancia %>% arrange(-Overall)
Importancia
## Overall col
## 1 1.312439482 DisciplinaSi
## 2 1.166324206 Computadora_.permanenteSi
## 3 1.058451226 Rango_.promedio_.clases2 a 4
## 4 0.907151420 RecursosSi
## 5 0.879565018 AutodidactaSi
## 6 0.720547900 Rango_.promedio_.clases4 a 6
## 7 0.663251120 Frecuencia_.de_.usoNunca
## 8 0.647031548 Horas_.diarias_.estudio
## 9 0.253704630 Frecuencia_.de_.usoMuy frecuentemente
## 10 0.010015674 PlataformaSi
## 11 0.007401679 DisciplinaNo
Evaluaremos algunas de las variables de respuesta para ver si hace sentido la interpretación con respecto a la gráfica:
ggplot(survey)+
ggtitle ("Correlación: Disciplina y Uso de LMS") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Disciplina, fill= Uso_.lms)+
geom_bar(position = "fill")+
labs(x = "Disciplina",y = "Uso de LMS") +
scale_fill_manual(values = c("#CD6155","#64BA8D"))
Como lo indica el grafico aquellos estudiantes que mencionaron que no son disciplinados son los que tienen más riesgo que a la hora de implementar una plataforma de LMS no incida en su rendimiento académico puesto que no tienen una buena práctica para cumplir con sus deberes como estudiante.
ggplot(survey)+
ggtitle ("Correlación: Computadora Permanente y Uso de LMS") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x=Computadora_.permanente, fill= Uso_.lms)+
geom_bar(position = "fill")+
labs(x = "Computadora Permanente",y = "Uso de LMS") +
scale_fill_manual(values = c("#CD6155","#64BA8D"))
La grafica nos indica que tenemos que poner más atención a aquellos estudiantes que señalan que no tiene computadora permanente pues ellos no tendrían las herramientas necesarias para el uso de una plataforma LMS.
ggplot(survey)+
ggtitle ("Correlación: Rango de Clases por Periodo y Uso de LMS") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Rango_.promedio_.clases, fill= Uso_.lms)+
geom_bar(position = "fill")+
labs(x = "Rango de Clases por Periodo",y = "Uso de LMS") +
scale_fill_manual(values = c("#CD6155","#64BA8D"))
Como se puede apreciar en la gráfica a medida que van aumentando el número de clases matriculadas por periodo aumenta el riesgo de que se logre mejorar el rendimiento del estudiante por medio de una plataforma LMS debido a que estaría sobre cargado.
ggplot(survey)+
ggtitle ("Correlación: Autodidacta y Uso de LMS") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Autodidacta, fill= Uso_.lms)+
geom_bar(position = "fill")+
labs(x = "Autodidacta",y = "Uso de LMS") +
scale_fill_manual(values = c("#CD6155","#64BA8D"))
se puede apreciar en la gráfica que aquellos estudiantes que no son autodidactas corren más riesgo de no mejorar su rendimiento mediante el uso de plataforma LMS.
ggplot(survey)+
ggtitle ("Correlación: Horas de Estudio y Uso del LMS") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x=Horas_.diarias_.estudio , fill= Uso_.lms)+
geom_bar(position = "fill")+
labs(x = "Horas de Estudio",y = "Uso de LMS") +
scale_fill_manual(values = c("#CD6155","#64BA8D"))
Se puede notar en la gráfica que esta variable no produce una buena interpretación debido a que nos indica un comportamiento desigual entre el número de horas que dedica a estudiar y el uso de la plataforma LMS.
ggplot(survey)+
ggtitle ("Correlación: Aumento de Recursos y Uso del LMS") +
theme (plot.title = element_text(
vjust=2, #Justificación vertical, para separarlo del gráfico
face="bold",
lineheight=2
),
axis.text.x = element_text(angle = 45)
) +
aes(x= Recursos, fill= Uso_.lms)+
geom_bar(position = "fill")+
labs(x = "Aumento de Recursos",y = "Uso de LMS") +
scale_fill_manual(values = c("#CD6155","#64BA8D"))
La grafica nos indica que aquellos que consideran que un aumento de los recursos tanto de infraestructura como de personal no ayudaría a mejorar el rendimiento académico son los que tienen más riesgo de no poder mejorar su rendimiento mediante el uso de una plataforma LMS.
Finalmente mostramos la relación entre los servicios de la arquitectura de la propuesta de solución tecnológica:
“Servicios de comunicación”
El objetivo que pretendemos alcanzar es la comunicación de dos servicios como es el de base de datos UNAH y webAPI para consultar información específica del maestro como ser la asistencia, jornada laboral y cursos impartidos, con el objetivo global de presentarle posteriormente recomendaciones de sus estudiantes en base a esta información.
“API Moodle”
De igual forma para los servicios presentados como ser el de Moodle y nuestra WebAPI recordando que nuestra propuesta de solución tecnológica es implementar el uso de LMS para aumentar el rendimiento del alumno y generar recomendaciones de mejores prácticas a los maestros, obteneniendo información relevante del LMS como ser comentarios y observaciones de los estudiantes para posteriormente toda esta data procesarla y generar las recomendaciones respectivas para cada maestro.
“Servidor ETL”
Relacionando los servicios presentados en la ilustración se podrán extraer los datos mediante un proceso ETL para la transformación de la información necesaria parad despues almacenarla en una base de datos de tipo no relacional.
“DB no relacional”
Una vez obtenidos los datos y procesados mediante ETL, el objetivo es almacenarlos en una base de datos no relacional y el componente de base de datos relacional lo dejamos para controlar accesos y ciertas configuraciones de nuestra WebAPI y nuestra API de recomendaciones.
“Cluster de servidores”
La finalidad de esta propuesta es almacenar los datos en un cluster de servidores con configuración Hadoop, además de eso pretendemos que nuestros servidores sean de tipo storage para que permitan almacenar y consultar una gran cantidad de datos mediante rutinas y modelos entrenados que nos permitan mediante minería de datos estudiantil y análisis predictivos generar las recomendaciones y consultarlas mediante las bases de datos de nuestros aplicativos.
“Relación de servicios”
Al relacionar de estos servicios tendremos generadas todas aquellas recomendaciones para consultarlas mediante nuestro aplicativo de recomendaciones para ser presentados al usuario en este caso los docentes de la facultad.
“Cluster de servidores”
El aplicativo presetará las recomendaciones de mejores prácticas al usuario para mejorar la dinámica de la clase, y sea util como un tipo de retroalimentación que le permitirá al docente sugerir nuevos contenidos o implementar prácticas que mejoren las condiciones de la clase para un mejor aprovechamiento del estudiante.
Finalmente se ofrece de forma completa la arquitectura de la solución tecnológica.
“Cluster de servidores”