Desarrollo

Introducción

La gamificación se ha consolidado como una estrategia pedagógica que incorpora elementos propios del juego en entornos educativos con el propósito de fortalecer el aprendizaje y el desarrollo de habilidades cognitivas. En el contexto actual de la educación, esta metodología ha demostrado ser efectiva en diversos escenarios formativos al favorecer la motivación, el compromiso y la participación activa de los estudiantes . Su aplicación no se limita al uso de recursos digitales, sino que puede implementarse mediante dinámicas didácticas estructuradas que integren mecánicas lúdicas en el proceso de enseñanza-aprendizaje.

El presente análisis se basa en un conjunto de datos de acceso público asociado a un estudio empírico realizado en universidades de Vietnam, publicado en la revista Data in Brief . El instrumento utilizado fue un cuestionario estructurado con ítems medidos mediante una escala tipo Likert de cinco puntos, que oscila entre 1 (strongly disagree) y 5 (strongly agree), como se especifica en el estudio original. El cuestionario fue diseñado para medir dimensiones como competitividad (Competitiveness), disfrute (Enjoyment), desafío (Challenge), motivación intrínseca (Intrinsic Motivation), satisfacción (Satisfaction), compromiso (Engagement) y efectividad del aprendizaje (Learning Effectiveness).

El archivo empleado contiene 266 registros; sin embargo, al aplicar un criterio de casos completos mediante la función en R, se identificaron 11 observaciones con valores faltantes, conservándose un total de 255 casos válidos para el análisis descriptivo. Si bien en el estudio original las respuestas válidas fueron determinadas tras la revisión de duplicados y consistencia interna, en el presente análisis el tamaño muestral resultante coincide (n = 255) al conservar únicamente observaciones completas.

El objetivo del Avance 1 es realizar un análisis exploratorio mediante estadísticas descriptivas y visualizaciones generadas en R, con el propósito de caracterizar la estructura y distribución de un conjunto de datos asociado a un estudio sobre gamificación en universidades vietnamitas.

Para esta etapa se consideraron únicamente las dimensiones Competitiveness, Enjoyment, Challenge, Intrinsic Motivation y Learning Effectiveness, a partir del cálculo de promedios por constructo. Las variables Satisfaction, Engagement y las variables sociodemográficas no fueron incluidas, dado que el alcance del presente avance se limita a la caracterización descriptiva de dichas dimensiones.

Datos y variables

Carga y preparación de datos

En esta etapa se realizó la carga del conjunto de datos en el entorno R, así como una revisión preliminar de su estructura interna. Este procedimiento permite verificar la correcta importación del archivo, identificar el número de observaciones y variables, y examinar el tipo de dato asociado a cada columna antes de iniciar el proceso de limpieza y análisis estadístico.

library(readxl)
datos<-read_excel("Data In Brief 1605.xlsx")
head(datos)
## # A tibble: 6 × 30
##   CO1   CO2   CO3   ENJ1  ENJ2   ENJ3  ENJ4   CH1   CH2   CH3   CH4  ENG1  ENG2
##   <chr> <chr> <chr> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 4     4     4     3     3         3     3     3     3     3     3     2     3
## 2 4     4     5     5     5         5     5     5     5     5     5     4     4
## 3 5     5     5     5     5         5     5     5     5     5     5     5     5
## 4 4     3     5     4     5         5     5     3     3     4     4     3     2
## 5 4     4     5     3     3         3     3     3     4     4     4     4     2
## 6 4     4     4     4     5         4     4     4     4     3     4     3     4
## # ℹ 17 more variables: ENG3 <dbl>, ENG4 <dbl>, ENG5 <dbl>, SA1 <dbl>,
## #   SA2 <dbl>, SA3 <dbl>, IM1 <dbl>, IM2 <dbl>, IM3 <dbl>, IM4 <dbl>,
## #   EP1 <dbl>, EP2 <dbl>, EP3 <dbl>, Gender <dbl>, Age <dbl>, Education <dbl>,
## #   Area <dbl>
str(datos)
## tibble [266 × 30] (S3: tbl_df/tbl/data.frame)
##  $ CO1      : chr [1:266] "4" "4" "5" "4" ...
##  $ CO2      : chr [1:266] "4" "4" "5" "3" ...
##  $ CO3      : chr [1:266] "4" "5" "5" "5" ...
##  $ ENJ1     : chr [1:266] "3" "5" "5" "4" ...
##  $ ENJ2     : chr [1:266] "3" "5" "5" "5" ...
##  $ ENJ3     : num [1:266] 3 5 5 5 3 4 4 4 5 4 ...
##  $ ENJ4     : num [1:266] 3 5 5 5 3 4 4 5 5 5 ...
##  $ CH1      : num [1:266] 3 5 5 3 3 4 3 4 3 3 ...
##  $ CH2      : num [1:266] 3 5 5 3 4 4 4 3 4 4 ...
##  $ CH3      : num [1:266] 3 5 5 4 4 3 3 4 4 2 ...
##  $ CH4      : num [1:266] 3 5 5 4 4 4 3 3 5 4 ...
##  $ ENG1     : num [1:266] 2 4 5 3 4 3 3 2 4 2 ...
##  $ ENG2     : num [1:266] 3 4 5 2 2 4 3 3 4 5 ...
##  $ ENG3     : num [1:266] 3 4 5 4 3 3 3 4 4 5 ...
##  $ ENG4     : num [1:266] 3 5 5 4 3 3 3 5 4 5 ...
##  $ ENG5     : num [1:266] 3 5 5 1 4 4 3 2 4 3 ...
##  $ SA1      : num [1:266] 4 5 5 2 4 3 4 4 4 4 ...
##  $ SA2      : num [1:266] 3 4 5 2 3 4 4 4 4 4 ...
##  $ SA3      : num [1:266] 3 4 5 3 3 4 4 4 4 4 ...
##  $ IM1      : num [1:266] 3 5 5 4 3 4 4 4 5 4 ...
##  $ IM2      : num [1:266] 3 5 5 4 3 4 4 4 5 4 ...
##  $ IM3      : num [1:266] 3 5 3 4 4 3 3 4 4 4 ...
##  $ IM4      : num [1:266] 3 5 5 4 3 4 4 4 4 5 ...
##  $ EP1      : num [1:266] 3 4 5 4 4 4 3 3 4 4 ...
##  $ EP2      : num [1:266] 3 4 5 1 4 4 4 3 4 4 ...
##  $ EP3      : num [1:266] 3 4 5 2 4 4 4 3 3 4 ...
##  $ Gender   : num [1:266] 0 1 0 1 1 0 1 0 1 1 ...
##  $ Age      : num [1:266] 0 0 0 2 0 2 3 1 3 2 ...
##  $ Education: num [1:266] 0 0 0 0 0 0 0 0 0 0 ...
##  $ Area     : num [1:266] 0 1 1 1 1 1 1 0 1 1 ...
sapply(datos,class)
##         CO1         CO2         CO3        ENJ1        ENJ2        ENJ3 
## "character" "character" "character" "character" "character"   "numeric" 
##        ENJ4         CH1         CH2         CH3         CH4        ENG1 
##   "numeric"   "numeric"   "numeric"   "numeric"   "numeric"   "numeric" 
##        ENG2        ENG3        ENG4        ENG5         SA1         SA2 
##   "numeric"   "numeric"   "numeric"   "numeric"   "numeric"   "numeric" 
##         SA3         IM1         IM2         IM3         IM4         EP1 
##   "numeric"   "numeric"   "numeric"   "numeric"   "numeric"   "numeric" 
##         EP2         EP3      Gender         Age   Education        Area 
##   "numeric"   "numeric"   "numeric"   "numeric"   "numeric"   "numeric"

Limpieza y depuración

Se examinó la estructura interna del conjunto de datos mediante la función , con el propósito de identificar el tipo de variable asociado a cada columna y verificar la correcta importación del archivo. Posteriormente, se utilizó la función para confirmar la clase de cada variable. Este procedimiento permitió detectar que algunos ítems del cuestionario (CO1–CO3 y ENJ1–ENJ2) se encontraban codificados como texto (), lo que hizo necesaria su conversión a formato numérico antes de realizar cálculos estadísticos.

Según , aunque el archivo contiene 266 registros, solo 255 respuestas fueron consideradas válidas tras un proceso de revisión para detectar duplicados y consistencia en las respuestas. En el presente análisis, se identificaron observaciones con valores faltantes y se conservaron únicamente los casos completos mediante la función en R, obteniéndose igualmente 255 registros válidos para el análisis descriptivo.

# Número de valores faltantes por variable
colSums(is.na(datos))
##       CO1       CO2       CO3      ENJ1      ENJ2      ENJ3      ENJ4       CH1 
##         0         0         7        10        10        11        11        11 
##       CH2       CH3       CH4      ENG1      ENG2      ENG3      ENG4      ENG5 
##        11        11        11        11        11        11        11        11 
##       SA1       SA2       SA3       IM1       IM2       IM3       IM4       EP1 
##        11        11        11        11        11        11        11        11 
##       EP2       EP3    Gender       Age Education      Area 
##        11        11         9         9         9         9
# Número total de registros incompletos
sum(!complete.cases(datos))
## [1] 11
# Crear base con casos completos
datos_validos <- datos[complete.cases(datos), ]
# Conversión de variables tipo character a numéricas
datos_validos$CO1  <- as.numeric(datos_validos$CO1)
datos_validos$CO2  <- as.numeric(datos_validos$CO2)
datos_validos$CO3  <- as.numeric(datos_validos$CO3)
datos_validos$ENJ1 <- as.numeric(datos_validos$ENJ1)
datos_validos$ENJ2 <- as.numeric(datos_validos$ENJ2)


# Verificar dimensiones
dim(datos_validos)
## [1] 255  30

Análisis estadístico en R

Estadística descriptiva

Una vez realizada la limpieza y depuración del conjunto de datos, conservando únicamente los casos completos (n = 255), se calcularon la media, mediana y desviación estándar de las dimensiones evaluadas, con el fin de describir su tendencia central y dispersión, caracterizando el comportamiento general de las puntuaciones en el contexto del estudio sobre gamificación.

Como se observa en el Cuadro 1, las dimensiones Competitiveness (M = 4.20), Enjoyment (M = 4.30), Challenge (M = 4.16) e Intrinsic Motivation (M = 4.13) presentan medias superiores a 4 en una escala de 1 a 5, lo que evidencia concentración en los niveles superiores de la escala. Por otra parte, la dimensión Learning Effectiveness (M = 3.84) presenta una media cercana a 4 en la escala Likert, evidenciando una tendencia hacia puntuaciones altas, aunque con un promedio ligeramente inferior en comparación con las demás dimensiones.

# Crear dimensiones (promedios por grupo de ítems)
datos_validos$Competitiveness <- rowMeans(datos_validos[, c("CO1","CO2","CO3")])
datos_validos$Enjoyment <- rowMeans(datos_validos[, c("ENJ1","ENJ2","ENJ3","ENJ4")])
datos_validos$Challenge <- rowMeans(datos_validos[, c("CH1","CH2","CH3","CH4")])
datos_validos$Intrinsic_Motivation <- rowMeans(datos_validos[, c("IM1","IM2","IM3","IM4")])
datos_validos$Learning_Effectiveness <- rowMeans(datos_validos[, c("EP1","EP2","EP3")])

# Seleccionar dimensiones
dimensiones <- datos_validos[, c("Competitiveness",
                                 "Enjoyment",
                                 "Challenge",
                                 "Intrinsic_Motivation",
                                 "Learning_Effectiveness")]

# Calcular medidas descriptivas
tabla_desc <- data.frame(
  Media = round(sapply(dimensiones, mean), 2),
  Mediana = round(sapply(dimensiones, median), 2),
  `Desviación estándar` = round(sapply(dimensiones, sd), 2)
)

knitr::kable(tabla_desc,
             format = "latex",
             booktabs = TRUE,
             caption = "Estadísticos descriptivos por dimensión (escala Likert 1–5).",
             latex_options = c("hold_position"))

Distribución

Para examinar la distribución de las dimensiones evaluadas en el cuestionario, se calcularon promedios por cada grupo de ítems: (Competitiveness, Enjoyment, Challenge, Intrinsic Motivation y Learning Effectiveness). Posteriormente, se generaron representaciones gráficas con el fin de comparar su comportamiento general en la escala Likert (1 a 5) y analizar sus diferencias en términos de tendencia central y dispersión.

par(mar = c(10, 4, 4, 2))
boxplot(dimensiones, 
        col = c("#1b9e77",
                "#d95f02",
                "#7570b3",
                "#e7298a",
                "#66a61e"),
        main = "Distribución por dimensión",
        ylab = "Escala Likert (1–5)",
        las = 2)

# Agregar medias
points(1:5, colMeans(dimensiones), col="red", pch=19)

El diagrama de cajas permite visualizar la mediana, el rango intercuartílico y la dispersión de las puntuaciones por dimensión. Como se observa en la gráfica, las cajas se concentran en los niveles superiores de la escala Likert, lo que evidencia mayor frecuencia en las categorías altas. Asimismo, se observan valores atípicos aislados en algunas dimensiones, representados por puntos fuera de los bigotes, lo que indica la presencia de respuestas individuales que se alejan del patrón central de la distribución, aunque sin alterar la tendencia general observada.

Se incluyó en el gráfico la media como un punto rojo en el diagrama de cajas, se observa que en todas dimensiones analizadas esta se sitúa por debajo de la mediana, lo que sugiere una ligera asimetría negativa en la distribución. El tamaño de las cajas refleja la dispersión del 50% central de las respuestas. Se observa que algunas dimensiones presentan cajas más compactas, lo que indica mayor homogeneidad en la percepción de los estudiantes. En contraste, Learning Effectiveness muestra una caja de mayor amplitud, evidenciando mayor variabilidad en las respuestas.

# Colores (los mismos del boxplot)
colores_hex <- c("#1b9e77", "#d95f02", "#7570b3", "#e7298a", "#66a61e")

# Conteos por valor Likert (1–5) para cada dimensión
valores <- 1:5
conteos <- sapply(dimensiones, function(x) table(factor(round(x), levels = valores)))

# histograma comparativo 
barplot(conteos,
        beside = TRUE,
        col = colores_hex,
        names.arg = valores,
        xlab = "Escala Likert (1–5)",
        ylab = "Frecuencia",
        main = "Distribución comparativa por dimensión (frecuencias 1–5)")

legend("topleft",
       legend = colnames(dimensiones),
       fill = colores_hex,
       cex = 0.75,
       bty = "n")

El histograma de frecuencias se observa que, en todas las dimensiones evaluadas, existe una mayor acumulación de respuestas en los niveles superiores de la escala Likert (4 y 5), lo que indica una valoración positiva de los elementos de gamificación analizados. Sin embargo, la magnitud de esta concentración varía entre dimensiones.

Intrinsic Motivation destaca por registrar las frecuencias más elevadas en prácticamente todos los niveles de la escala, especialmente en los valores altos, lo que sugiere una mayor intensidad y consistencia en las percepciones asociadas a esta dimensión. Esta tendencia evidencia niveles elevados en la motivación intrínseca evaluada mediante el instrumento.

Por otra parte, Learning Effectiveness mantiene una tendencia hacia los valores superiores de la escala; no obstante, presenta una proporción relativamente mayor de respuestas en el nivel 2, lo que refleja una percepción favorable pero más heterogénea frente a las otras dimensiones evaluadas.

En el caso de Enjoyment y Challenge, las respuestas también se concentran principalmente en los niveles 4 y 5; sin embargo, la magnitud de las frecuencias es relativamente menor en comparación con Intrinsic Motivation. Este comportamiento indica que, aunque ambas dimensiones fueron percibidas de manera positiva, la intensidad de esa valoración es ligeramente inferior.

En conjunto, los resultados descriptivos muestran una valoración favorable hacia los componentes motivacionales de la gamificación, destacando especialmente la motivación intrínseca, mientras que la percepción de efectividad en el aprendizaje presenta una distribución más heterogénea entre los participantes.

Estos resultados descriptivos permiten caracterizar preliminarmente la estructura del conjunto de datos.

Referencias

Berrocal Opino, C. (2024). Fundamentos teóricos sobre la gamificación sin recursos digitales en el fortalecimiento de la inteligencia lógico-matemática. Ciencia Latina: Revista Multidisciplinar, 8(2), 3860–3878. Nguyen-Viet, B., Nguyen-Viet, B., & Nguyen-Duy, C. (2023). Dataset on the effect of gamification elements on learning effectiveness among vietnamese students. Data in Brief, 51, 109734. https://doi.org/10.1016/j.dib.2023.109734