#Desarrollo ##Introducción La gamificación se ha consolidado como una estrategia pedagógica que incorpora elementos propios del juego en entornos educativos con el propósito de fortalecer el aprendizaje y el desarrollo de habilidades cognitivas. En el contexto actual de la educación, esta metodología ha demostrado ser efectiva en diversos escenarios formativos al favorecer la motivación, el compromiso y la participación activa de los estudiantes . Su aplicación no se limita al uso de recursos digitales, sino que puede implementarse mediante dinámicas didácticas estructuradas que integren mecánicas lúdicas en el proceso de enseñanza-aprendizaje.
El presente análisis se basa en un conjunto de datos de acceso público asociado a un estudio empírico realizado en universidades de Vietnam, publicado en la revista Data in Brief . El instrumento utilizado fue un cuestionario estructurado con ítems medidos mediante una escala tipo Likert de cinco puntos, que oscila entre 1 (strongly disagree) y 5 (strongly agree), como se especifica en el estudio original. El cuestionario fue diseñado para medir dimensiones como competitividad (Competitiveness), disfrute (Enjoyment), desafío (Challenge), motivación intrínseca (Intrinsic Motivation), satisfacción (Satisfaction), compromiso (Engagement) y efectividad del aprendizaje (Learning Effectiveness).
El archivo empleado contiene 266 registros; sin embargo, al aplicar un criterio de casos completos mediante la función en R, se identificaron 11 observaciones con valores faltantes, conservándose un total de 255 casos válidos para el análisis descriptivo. Si bien en el estudio original las respuestas válidas fueron determinadas tras la revisión de duplicados y consistencia interna, en el presente análisis el tamaño muestral resultante coincide (n = 255) al conservar únicamente observaciones completas.
El objetivo del presente avance es realizar un análisis estadístico que permita explorar y modelar la relación entre variables asociadas a la gamificación, mediante el uso de técnicas descriptivas y de regresión lineal, con el fin de generar evidencia para la toma de decisiones en el ámbito educativo.
Para esta etapa se consideraron únicamente las dimensiones Competitiveness, Enjoyment, Challenge, Intrinsic Motivation y Learning Effectiveness, a partir del cálculo de promedios por constructo. Las variables Satisfaction, Engagement y las variables sociodemográficas no fueron incluidas, dado que el alcance del presente avance se limita a la caracterización descriptiva de dichas dimensiones. #{Datos y variables}
##{Carga y preparación de datos} En esta etapa se realizó la carga del conjunto de datos en el entorno R, así como una revisión preliminar de su estructura interna. Este procedimiento permite verificar la correcta importación del archivo, identificar el número de observaciones y variables, y examinar el tipo de dato asociado a cada columna antes de iniciar el proceso de limpieza y análisis estadístico.
library(readxl)
datos <- read_excel("Data In Brief 1605.xlsx")
head(datos)
## # A tibble: 6 × 30
## CO1 CO2 CO3 ENJ1 ENJ2 ENJ3 ENJ4 CH1 CH2 CH3 CH4 ENG1 ENG2
## <chr> <chr> <chr> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 4 4 4 3 3 3 3 3 3 3 3 2 3
## 2 4 4 5 5 5 5 5 5 5 5 5 4 4
## 3 5 5 5 5 5 5 5 5 5 5 5 5 5
## 4 4 3 5 4 5 5 5 3 3 4 4 3 2
## 5 4 4 5 3 3 3 3 3 4 4 4 4 2
## 6 4 4 4 4 5 4 4 4 4 3 4 3 4
## # ℹ 17 more variables: ENG3 <dbl>, ENG4 <dbl>, ENG5 <dbl>, SA1 <dbl>,
## # SA2 <dbl>, SA3 <dbl>, IM1 <dbl>, IM2 <dbl>, IM3 <dbl>, IM4 <dbl>,
## # EP1 <dbl>, EP2 <dbl>, EP3 <dbl>, Gender <dbl>, Age <dbl>, Education <dbl>,
## # Area <dbl>
str(datos)
## tibble [266 × 30] (S3: tbl_df/tbl/data.frame)
## $ CO1 : chr [1:266] "4" "4" "5" "4" ...
## $ CO2 : chr [1:266] "4" "4" "5" "3" ...
## $ CO3 : chr [1:266] "4" "5" "5" "5" ...
## $ ENJ1 : chr [1:266] "3" "5" "5" "4" ...
## $ ENJ2 : chr [1:266] "3" "5" "5" "5" ...
## $ ENJ3 : num [1:266] 3 5 5 5 3 4 4 4 5 4 ...
## $ ENJ4 : num [1:266] 3 5 5 5 3 4 4 5 5 5 ...
## $ CH1 : num [1:266] 3 5 5 3 3 4 3 4 3 3 ...
## $ CH2 : num [1:266] 3 5 5 3 4 4 4 3 4 4 ...
## $ CH3 : num [1:266] 3 5 5 4 4 3 3 4 4 2 ...
## $ CH4 : num [1:266] 3 5 5 4 4 4 3 3 5 4 ...
## $ ENG1 : num [1:266] 2 4 5 3 4 3 3 2 4 2 ...
## $ ENG2 : num [1:266] 3 4 5 2 2 4 3 3 4 5 ...
## $ ENG3 : num [1:266] 3 4 5 4 3 3 3 4 4 5 ...
## $ ENG4 : num [1:266] 3 5 5 4 3 3 3 5 4 5 ...
## $ ENG5 : num [1:266] 3 5 5 1 4 4 3 2 4 3 ...
## $ SA1 : num [1:266] 4 5 5 2 4 3 4 4 4 4 ...
## $ SA2 : num [1:266] 3 4 5 2 3 4 4 4 4 4 ...
## $ SA3 : num [1:266] 3 4 5 3 3 4 4 4 4 4 ...
## $ IM1 : num [1:266] 3 5 5 4 3 4 4 4 5 4 ...
## $ IM2 : num [1:266] 3 5 5 4 3 4 4 4 5 4 ...
## $ IM3 : num [1:266] 3 5 3 4 4 3 3 4 4 4 ...
## $ IM4 : num [1:266] 3 5 5 4 3 4 4 4 4 5 ...
## $ EP1 : num [1:266] 3 4 5 4 4 4 3 3 4 4 ...
## $ EP2 : num [1:266] 3 4 5 1 4 4 4 3 4 4 ...
## $ EP3 : num [1:266] 3 4 5 2 4 4 4 3 3 4 ...
## $ Gender : num [1:266] 0 1 0 1 1 0 1 0 1 1 ...
## $ Age : num [1:266] 0 0 0 2 0 2 3 1 3 2 ...
## $ Education: num [1:266] 0 0 0 0 0 0 0 0 0 0 ...
## $ Area : num [1:266] 0 1 1 1 1 1 1 0 1 1 ...
sapply(datos, class)
## CO1 CO2 CO3 ENJ1 ENJ2 ENJ3
## "character" "character" "character" "character" "character" "numeric"
## ENJ4 CH1 CH2 CH3 CH4 ENG1
## "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"
## ENG2 ENG3 ENG4 ENG5 SA1 SA2
## "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"
## SA3 IM1 IM2 IM3 IM4 EP1
## "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"
## EP2 EP3 Gender Age Education Area
## "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"
#Limpieza y depuración Se examinó la estructura interna del conjunto de datos mediante la función , con el propósito de identificar el tipo de variable asociado a cada columna y verificar la correcta importación del archivo. Posteriormente, se utilizó la función para confirmar la clase de cada variable. Este procedimiento permitió detectar que algunos ítems del cuestionario (CO1–CO3 y ENJ1–ENJ2) se encontraban codificados como texto (), lo que hizo necesaria su conversión a formato numérico antes de realizar cálculos estadísticos.
Según , aunque el archivo contiene 266 registros, solo 255 respuestas fueron consideradas válidas tras un proceso de revisión para detectar duplicados y consistencia en las respuestas. En el presente análisis, se identificaron observaciones con valores faltantes y se conservaron únicamente los casos completos mediante la función en R, obteniéndose igualmente 255 registros válidos para el análisis descriptivo.
Con el propósito de fortalecer la calidad del análisis, se presenta la distribución de valores faltantes por variable en elcuadro \(\ref{tab:tabla_faltantes}\), lo que permite identificar de manera estructurada la presencia de datos incompletos previo al proceso de depuración.
# Crear base con casos completos
datos_validos <- datos[complete.cases(datos), ]
# Conversión de variables tipo character a numéricas
datos_validos$CO1 <- as.numeric(datos_validos$CO1)
datos_validos$CO2 <- as.numeric(datos_validos$CO2)
datos_validos$CO3 <- as.numeric(datos_validos$CO3)
datos_validos$ENJ1 <- as.numeric(datos_validos$ENJ1)
datos_validos$ENJ2 <- as.numeric(datos_validos$ENJ2)
# Verificar dimensiones
dim(datos_validos)
## [1] 255 30
#Análisis estadístico en R ##Estadística descriptiva
Una vez realizada la limpieza y depuración del conjunto de datos, conservando únicamente los casos completos (n = 255), se calcularon la media, mediana y desviación estándar de las dimensiones evaluadas, con el fin de describir su tendencia central y dispersión, caracterizando el comportamiento general de las puntuaciones en el contexto del estudio sobre gamificación.
Como se observa en el Cuadro 2, las dimensiones Competitiveness (M = 4.20), Enjoyment (M = 4.30), Challenge (M = 4.16) e Intrinsic Motivation (M = 4.13) presentan medias superiores a 4 en una escala de 1 a 5, lo que evidencia concentración en los niveles superiores de la escala. Por otra parte, la dimensión Learning Effectiveness (M = 3.84) presenta una media cercana a 4 en la escala Likert, evidenciando una tendencia hacia puntuaciones altas, aunque con un promedio ligeramente inferior en comparación con las demás dimensiones.
# Crear dimensiones (promedios por grupo de ítems)
datos_validos$Competitiveness <- rowMeans(datos_validos[, c("CO1","CO2","CO3")])
datos_validos$Enjoyment <- rowMeans(datos_validos[, c("ENJ1","ENJ2","ENJ3","ENJ4")])
datos_validos$Challenge <- rowMeans(datos_validos[, c("CH1","CH2","CH3","CH4")])
datos_validos$Intrinsic_Motivation <- rowMeans(datos_validos[, c("IM1","IM2","IM3","IM4")])
datos_validos$Learning_Effectiveness <- rowMeans(datos_validos[, c("EP1","EP2","EP3")])
# Seleccionar dimensiones
dimensiones <- datos_validos[, c("Competitiveness",
"Enjoyment",
"Challenge",
"Intrinsic_Motivation",
"Learning_Effectiveness")]
# Calcular medidas descriptivas
tabla_desc <- data.frame(
Media = round(sapply(dimensiones, mean), 2),
Mediana = round(sapply(dimensiones, median), 2),
`Desviación estándar` = round(sapply(dimensiones, sd), 2)
)
knitr::kable(tabla_desc,
format = "latex",
booktabs = TRUE,
caption = "\\label{tab:Estadistica_descriptiva}Estadísticos descriptivos por dimensión (escala Likert 1–5).")
Los cuartiles (cuadro 3) permiten complementar la interpretación
descriptiva, ya que muestran la concentración del 50% central de las
observaciones en cada dimensión.
#Distribución Para examinar la distribución de las dimensiones evaluadas en el cuestionario, se calcularon promedios por cada grupo de ítems: (Competitiveness, Enjoyment, Challenge, Intrinsic Motivation y Learning Effectiveness). Posteriormente, se generaron representaciones gráficas con el fin de comparar su comportamiento general en la escala Likert (1 a 5) y analizar sus diferencias en términos de tendencia central y dispersión.
par(mar = c(8.4, 4, 3, 1))
boxplot(dimensiones,
col = c("#1b9e77",
"#d95f02",
"#7570b3",
"#e7298a",
"#66a61e"),
ylab = "Escala Likert (1–5)",
las = 2)
points(1:5, colMeans(dimensiones), col="red", pch=19)
Distribución por dimensión (diagrama de cajas)
El diagrama de cajas en la Figura \(\ref{fig:boxplot_dimensiones}\) permite visualizar la mediana, el rango intercuartílico y la dispersión de las puntuaciones por dimensión. Como se observa en la gráfica, las cajas se concentran en los niveles superiores de la escala Likert, lo que evidencia mayor frecuencia en las categorías altas. Asimismo, se observan valores atípicos aislados en algunas dimensiones, representados por puntos fuera de los bigotes, lo que indica la presencia de respuestas individuales que se alejan del patrón central de la distribución, aunque sin alterar la tendencia general observada.
En el gráfico se incluyó la media como un punto rojo en el diagrama de cajas, se observa que en todas dimensiones analizadas esta se sitúa por debajo de la mediana, lo que sugiere una ligera asimetría negativa en la distribución. El tamaño de las cajas refleja la dispersión del 50% central de las respuestas. Se observa que algunas dimensiones presentan cajas más compactas, lo que indica mayor homogeneidad en la percepción de los estudiantes. En contraste, Learning Effectiveness muestra una caja de mayor amplitud, evidenciando mayor variabilidad en las respuestas.
#Modelo de regresión lineal La regresión lineal constituye una herramienta fundamental en el análisis de datos experimentales, ya que permite modelar la relación entre variables y estimar el efecto de una variable explicativa sobre una variable respuesta, facilitando la interpretación y la toma de decisiones basada en evidencia . ##Ajuste del modelo Con el propósito de analizar la relación entre variables, se implementó un modelo de regresión lineal simple, considerando como variable dependiente la efectividad del aprendizaje (Learning Effectiveness) y como variable independiente la motivación intrínseca (Intrinsic Motivation).
modelo <- lm(Learning_Effectiveness ~ Intrinsic_Motivation, data = datos_validos)
summary(modelo)
##
## Call:
## lm(formula = Learning_Effectiveness ~ Intrinsic_Motivation, data = datos_validos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.56755 -0.41276 0.07536 0.47995 1.63475
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.8894 0.2564 3.469 0.000613 ***
## Intrinsic_Motivation 0.7142 0.0613 11.650 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.641 on 253 degrees of freedom
## Multiple R-squared: 0.3492, Adjusted R-squared: 0.3466
## F-statistic: 135.7 on 1 and 253 DF, p-value: < 2.2e-16
A partir de los coeficientes estimados, la ecuación del modelo de regresión lineal es:
\[ \hat{Y} = 0.8894 + 0.7142X \]
donde \(\hat{Y}\) representa la efectividad del aprendizaje y \(X\) la motivación intrínseca.
La pendiente del modelo (0.7142) indica que, por cada incremento de una unidad en la motivación intrínseca, se espera un aumento promedio de 0.7142 unidades en la efectividad del aprendizaje. Este resultado evidencia una relación directa entre ambas variables. Este tipo de interpretación es consistente con el enfoque del análisis de regresión en estudios experimentales, donde la pendiente representa el efecto promedio de la variable independiente sobre la dependiente. .
Por su parte, el intercepto (0.8894) representa el valor estimado de la efectividad del aprendizaje cuando la motivación intrínseca es igual a cero, lo cual, aunque no tiene una interpretación práctica directa en este contexto, permite definir la posición de la recta dentro del modelo.
##Visualización de la relación Con el propósito de analizar la relación entre la motivación intrínseca y la efectividad del aprendizaje, en la Figura \(\ref{fig:grafica_regresion}\) se presenta el diagrama de dispersión acompañado de la recta de regresión lineal ajustada.
Relación entre motivación intrínseca y efectividad del aprendizaje
Como se observa en la Figura \(\ref{fig:grafica_regresion}\), existe una tendencia creciente entre ambas variables, lo que confirma la relación positiva identificada en el modelo de regresión lineal. La recta ajustada muestra que, a medida que incrementa la motivación intrínseca, también tienden a aumentar los valores de efectividad del aprendizaje. No obstante, se observa cierta dispersión de los datos alrededor de la recta, lo que sugiere la presencia de variabilidad no explicada por el modelo. ##Predicción Para aplicar el modelo de regresión lineal, se estimó la efectividad del aprendizaje a partir de un valor de 4 en la variable motivación intrínseca, correspondiente a un nivel alto dentro de la escala Likert de cinco puntos. La elección de este valor se fundamenta en la distribución de los datos, donde las medias de las dimensiones analizadas se sitúan por encima de 4, lo que indica una concentración de respuestas en los niveles altos de la escala.
Asimismo, seleccionar un valor alto pero no máximo permite obtener una estimación más representativa del comportamiento general de los datos, evitando el uso de valores extremos que pueden presentarse con menor frecuencia. De este modo, la predicción se basa en un escenario consistente con las características observadas en el conjunto de datos.
nuevo_dato <- data.frame(Intrinsic_Motivation = 4)
prediccion <- predict(modelo, nuevo_dato)
prediccion
## 1
## 3.746093
El valor estimado (3.746093) corresponde al nivel esperado de efectividad del aprendizaje para un estudiante con alta motivación intrínseca. Este resultado es coherente con la relación positiva identificada en el modelo, ya que indica que a mayores niveles de motivación, se incrementa la efectividad del aprendizaje. En este sentido, la predicción respalda los resultados obtenidos y muestra la utilidad del modelo para estimar comportamientos dentro del contexto analizado.
##Evaluación del modelo La evaluación de modelos de regresión implica analizar los residuos con el fin de verificar el cumplimiento de los supuestos del modelo, tales como la linealidad, homocedasticidad e independencia de los errores .
Para evaluar el ajuste del modelo, se analizaron los residuos obtenidos en la Figura \(\ref{fig:residuos}\) se puede ver que residuos se distribuyen de manera aproximadamente aleatoria alrededor de la línea horizontal en cero, lo que indica que el modelo lineal es adecuado para describir la relación entre las variables analizadas. No obstante, se aprecia cierta dispersión, lo que sugiere la existencia de variabilidad no explicada por el modelo.
Gráfico de residuos del modelo de regresión
##Análisis de correlación Como complemento al análisis del modelo de regresión lineal, se calculó el coeficiente de correlación de Pearson con el fin de cuantificar la fuerza y dirección de la relación entre la motivación intrínseca y la efectividad del aprendizaje.
cor(datos_validos$Intrinsic_Motivation,
datos_validos$Learning_Effectiveness)
## [1] 0.5908912
El coeficiente de correlación de Pearson obtenido (r = 0.5909) indica una relación positiva de magnitud moderada entre la motivación intrínseca y la efectividad del aprendizaje. Este resultado sugiere que, a medida que aumenta la motivación intrínseca, también tiende a incrementarse la efectividad del aprendizaje. Asimismo, este valor es consistente con el coeficiente de determinación del modelo (R² = 0.3492), lo que confirma la coherencia entre ambos indicadores y refuerza la evidencia de una asociación directa entre las variables analizadas, aunque no de carácter fuerte.
En conjunto, los resultados muestran coherencia entre el modelo de regresión y el análisis de correlación, lo que respalda la consistencia de la relación observada entre las variables en el contexto estudiado.
Asimismo, el análisis permitió no solo identificar esta relación, sino también aplicar herramientas estadísticas útiles para su estimación y evaluación, contribuyendo al uso de datos para la toma de decisiones en el ámbito educativo.
Desde esta perspectiva, los resultados sugieren que la motivación intrínseca es un factor relevante en la mejora del aprendizaje en contextos de gamificación. No obstante, el valor del coeficiente de determinación indica que existen otros factores que también influyen, por lo que se recomienda considerar modelos con más variables en futuros análisis. ##referencias Berrocal Opino, C. (2024). Fundamentos teóricos sobre la gamificación sin recursos digitales en el fortalecimiento de la inteligencia lógico-matemática. Ciencia Latina: Revista Multidisciplinar , 8(2), 3860–3878. Fidalgo, J. L. & Mina, Á. C. (2026). Introducción al diseño de experimentos (1ra edición ed.). Ecoe Ediciones. Nguyen-Viet, B., Nguyen-Viet, B., & Nguyen-Duy, C. (2023). Dataset on the effect of gamification elements on learning effectiveness among vietnamese students. Data in Brief , 51, 109734