El presente artículo propone un instrumento de 8 ítems con escala de Likert para construir un dataset fiable que permita entrenar modelos de machine learning para predecir la deserción escolar. Se evalúa la consistencia interna del cuestionario mediante el coeficiente Alpha de Cronbach, asegurando su validez como herramienta de recolección de datos. El estudio incluye el diseño del instrumento, la metodología de validación y una discusión sobre su aplicación en modelos predictivos.
Palabras clave: Alfa de Cronbach,consistencia interna, machine Learning, educación superior, fiabilidad.
This article proposes an 8-item Likert-scale instrument to build a reliable dataset for training machine learning models to predict school dropout. The internal consistency of the questionnaire is evaluated using Cronbach’s Alpha coefficient, ensuring its validity as a data collection tool. The study includes the instrument’s design, validation methodology, and a discussion on its application in predictive models.
Keywords: Cronbach’s Alpha, internal consistency, machine learning, higher education, reliability.
La deserción estudiantil representa un problema crítico en el sistema universitario, con implicaciones significativas para el desarrollo individual, la movilidad social y la economía nacional. Se trata de un fenómeno multifactorial complejo, influenciado por variables académicas, socioeconómicas, institucionales y psicosociales. La identificación temprana de estudiantes en riesgo es fundamental para diseñar e implementar intervenciones oportunas y efectivas que mitiguen este fenómeno. Cajahuanca(2022)
Recientemente, los modelos de aprendizaje automático (machine learning) han emergido como herramientas prometedoras para la predicción de la deserción, capaces de analizar grandes volúmenes de datos y detectar patrones no lineales complejos. Sin embargo, la calidad predictiva de estos modelos depende críticamente de la validez y fiabilidad de los datos de entrada. Un instrumento de medición deficiente genera ruido en el dataset, comprometiendo la capacidad del modelo para generalizar y ofrecer predicciones precisas.
Actualmente, muchos instrumentos diseñados para evaluar el riesgo de deserción son extensos, lo que limita su aplicación práctica en contextos universitarios con restricciones de tiempo y recursos. Existe una necesidad manifiesta de herramientas breves, pero psicométricamente robustas, que puedan integrarse eficientemente en los flujos de trabajo y servir como base para la construcción de datasets de alta calidad.
El presente estudio tiene como objetivo principal desarrollar y validar un instrumento de 8 ítems con escala de Likert, diseñado específicamente para predecir la deserción escolar. La validación se centra en evaluar su fiabilidad mediante el coeficiente Alfa de Cronbach y realizar un análisis exhaustivo de sus propiedades psicométricas, con el fin último de constituir una herramienta válida para la recolección de datos que alimenten modelos predictivos de machine learning.
La población objetivo estuvo conformada por estudiantes de la asignatura Informática Aplicada Contable de la carrera de Contaduría Pública. Se empleó un muestreo no probabilístico por conveniencia, reclutando una muestra de N = 30 estudiantes ( 52% mujeres, 48% hombres) de tercero a quinto año. Los criterios de inclusión fueron: estar matriculado activamente y proporcionar asentimiento/consentimiento informado. La recolección de datos se realizó de manera anónima y voluntaria mediante un formulario de google forms.
Se desarrolló un cuestionario de 8 ítems, basado en una revisión de la literatura sobre los principales factores de riesgo asociados a la deserción escolar. Los ítems abarcan cuatro dimensiones clave:
Cada ítem se responde en una escala tipo Likert de 5 puntos (1 = Totalmente en desacuerdo, 2 = En desacuerdo, 3 = Neutral, 4 = De acuerdo, 5 = Totalmente de acuerdo). Las preguntas del cuestionario son: 1. Siento que mi rendimiento académico ha disminuido en los últimos meses. 2. Tengo dificultades para asistir a clases regularmente. 3. Me cuesta mantener la motivación para estudiar. 4. Mis padres o tutores muestran poco interés en mi educación. 5. He considerado la posibilidad de dejar los estudios. 6. No recibo suficiente apoyo académico en la institución. 7. Mis relaciones con compañeros o profesores son conflictivas. 8. Mis responsabilidades familiares o laborales interfieren con mis estudios.
Para poder cargar y preparar los datos utilizando Rstudio y R, se debe realizar los siguientes pasos:
# Lectura de datos desde Excel
alfa <- read_excel("DataSet.xlsx", range="B3:J33")
p1 <- alfa$p1
p2 <- alfa$p2
p3 <- alfa$p3
p4 <- alfa$p4
p5 <- alfa$p5
p6 <- alfa$p6
p7 <- alfa$p7
p8 <- alfa$p8
# Creamos el data frame
df <- data.frame(p1,p2,p3,p4,p5,p6,p7,p8)
# Mostrar primeras filas
cat("Primeras 6 filas de datos:\n")
## Primeras 6 filas de datos:
print(head(df))
## p1 p2 p3 p4 p5 p6 p7 p8
## 1 3 4 4 4 3 4 3 4
## 2 2 5 3 4 3 5 4 4
## 3 3 5 4 5 4 5 3 5
## 4 3 5 3 4 3 5 4 5
## 5 3 4 3 4 3 4 3 4
## 6 3 5 3 5 3 5 3 5
El análisis de consistencia interna arrojó un coeficiente Alfa de Cronbach de 0.917 para la escala completa de 8 ítems. Este valor supera ampliamente el umbral convencional de 0.70, indicando una fiabilidad excelente y una alta consistencia interna entre los ítems del instrumento.
# Calculamos el alpha de cronbach
resultadocronbach <- alpha(df)
cat("\nAlpha de Cronbach:", round(resultadocronbach$total$raw_alpha, 3), "\n")
##
## Alpha de Cronbach: 0.917
# Configurar para 2 filas x 4 columnas (8 gráficos)
par(mfrow=c(2,4), mar=c(4,4,3,1), oma=c(0,0,2,0))
hist(p1, main="Rendimiento Disminuido", col="steelblue", xlab="Valores", breaks=5)
hist(p2, main="Dificultad Asistencia", col="tomato", xlab="Valores", breaks=5)
hist(p3, main="Falta Motivación", col="green", xlab="Valores", breaks=5)
hist(p4, main="Padres Desinteresados", col="darkgreen", xlab="Valores", breaks=5)
hist(p5, main="Considerar Abandono", col="grey", xlab="Valores", breaks=5)
hist(p6, main="Apoyo Insuficiente", col="orange", xlab="Valores", breaks=5)
hist(p7, main="Relaciones Conflictivas", col="purple", xlab="Valores", breaks=5)
hist(p8, main="Responsabilidades Interfieren", col="brown", xlab="Valores", breaks=5)
# Título general
mtext("Distribución de Respuestas de los Ítems", outer=TRUE, cex=1.2, font=2, line=0.5)
Distribución de frecuencias de las respuestas en los 8 ítems
library(corrplot)
# Crear matriz de correlaciones
matriz_correlacion <- cor(df, method = "pearson")
# Visualizar
corrplot(matriz_correlacion,
method = "color",
type = "upper",
addCoef.col = "black",
tl.col = "black",
tl.srt = 45,
title = "Matriz de Correlaciones entre Ítems",
mar = c(0, 0, 1, 0))
El análisis de la matriz de correlaciones de Pearson reveló patrones diferenciados en las relaciones entre los ítems del instrumento. Se observaron correlaciones particularmente elevadas entre varios pares de ítems, destacando la relación muy fuerte entre p2 y p6 (r = 0.93) y entre p2 y p8 (r = 0.88), lo que sugiere una estrecha asociación conceptual entre estos elementos que evalúan dimensiones relacionadas con la motivación y el compromiso académico. Asimismo, se identificaron correlaciones altas entre p4 y p5 (r = 0.79) y entre p6 y p8 (r = 0.79), indicando consistencia en la medición de factores contextuales y de apoyo institucional. En contraste, la correlación más baja se registró entre p1 y p7 (r = 0.22), lo que podría reflejar que estos ítems evalúan constructos más diferenciados dentro del fenómeno multifactorial de riesgo de deserción. Este patrón de correlaciones sustenta la validez de constructo del instrumento, mostrando tanto la convergencia esperada entre ítems teóricamente relacionados como la discriminación adecuada entre dimensiones conceptualmente distintas.
Los resultados psicométricos obtenidos evidencian que el instrumento propuesto presenta excelentes propiedades de medición para evaluar el riesgo de deserción escolar. El coeficiente Alfa de Cronbach de 0.917 supera ampliamente el umbral de 0.70 convencionalmente aceptado, indicando una consistencia interna excepcional y una alta fiabilidad del cuestionario en su conjunto. Este valor, sumado al patrón de correlaciones observado, donde se identificaron relaciones muy fuertes entre pares de ítems como p2-p6 (r = 0.93) y p2-p8 (r = 0.88), sugiere que los ítems convergen adecuadamente en la medición del constructo unidimensional de riesgo de deserción. Sin embargo, la presencia de correlaciones particularmente elevadas también podría señalar cierta redundancia conceptual entre algunos elementos, lo que invita a considerar una posible optimización del instrumento mediante la fusión o reformulación de ítems sin comprometer su validez. La correlación más moderada entre p1-p7 (r = 0.22) sugiere, por otra parte, que el instrumento logra capturar dimensiones diferenciadas del fenómeno, evitando la completa superposición conceptual. En conjunto, estos hallazgos respaldan la utilidad del cuestionario como herramienta breve pero robusta para la recolección de datos confiables que puedan alimentar modelos predictivos de machine learning, asegurando que la calidad de los datos de entrada sea óptima para el entrenamiento de algoritmos de clasificación que identifiquen tempranamente a estudiantes en riesgo de abandono escolar.
El instrumento de 8 ítems demuestra excelente fiabilidad (α = 0.917), superando ampliamente los estándares psicométricos y garantizando mediciones consistentes del riesgo de deserción escolar.
El patrón de correlaciones valida la estructura del constructo, mostrando alta convergencia entre ítems relacionados (p2-p6: r = 0.93; p2-p8: r = 0.88) y adecuada discriminación entre dimensiones distintas (p1-p7: r = 0.22).
El cuestionario constituye una herramienta válida y eficiente para construir datasets de calidad que permitan entrenar modelos predictivos de machine learning para la identificación temprana de estudiantes en riesgo de deserción.
Cajahuanca, J. E. V., Raymundo, Á. F. N., Franco, A. C. L., & Flores, J. D. J. (2022). Deserción universitaria: Evaluación de diferentes algoritmos de Machine Learning para su predicción. Revista de ciencias sociales, 28(3), 362-375. Nova Martínez, M. A., & Sorza Álvarez, E. G. (2022). Gráficos con R-Studio para estadística descriptiva en ingeniería.