Estudiante: César Coyotzi
Martínez
Matrícula:
UDX112510003
Materia: Análisis de Datos para la Toma
de Decisiones
Asesor: Dr. Luciano Martínez
Balbuena
El presente informe analiza los resultados de una evaluación diagnóstica aplicada a estudiantes de sexto semestre del turno matutino del Centro de Bachillerato Tecnológico Industrial y de Servicios No. 03 (CBTIS 03), ubicado en el estado de Tlaxcala. La evaluación fue diseñada para identificar los intereses temáticos del alumnado en biología, sus principales dificultades para aprender ciencias y su nivel inicial de conocimiento conceptual.
En el ámbito de la enseñanza de las ciencias, la evaluación diagnóstica cumple una función central: permite a los docentes ajustar la enseñanza a partir de evidencia concreta sobre lo que los estudiantes ya saben, lo que les interesa y lo que les resulta difícil (Black & Wiliam, 1998; Hattie & Timperley, 2007). Desde la perspectiva del aprendizaje significativo, los conocimientos previos del estudiante constituyen el factor más importante para la adquisición de nuevos contenidos (Ausubel, 2002). Reconocer estas ideas iniciales favorece el diseño de estrategias didácticas más pertinentes y contextualizadas (Driver et al., 1999; Sanmartí, 2002).
El análisis se desarrolla en dos etapas. Primero, se realiza un análisis descriptivo de las variables categóricas del cuestionario: intereses, dificultades percibidas, desempeño académico autopercibido y respuestas a preguntas de conocimiento conceptual básico. Después, se implementa un modelo de regresión lineal simple como aproximación exploratoria para evaluar si la autopercepción académica del estudiante se relaciona con su puntaje en preguntas conceptuales.
Las preguntas que guían el análisis son:
¿Qué patrones muestran los estudiantes de sexto semestre del CBTIS 03 respecto a sus intereses en biología, sus principales dificultades para aprender ciencias y su nivel inicial de conocimiento conceptual?
¿La autopercepción académica de los estudiantes se relaciona con su puntaje de conocimiento conceptual inicial?
Todo el análisis fue realizado en R (Wickham & Grolemund, 2017), lo que garantiza la reproducibilidad del proceso.
La base de datos proviene de una encuesta diagnóstica aplicada mediante Google Forms durante el inicio del semestre febrero–julio de 2026 a 220 estudiantes de sexto semestre del turno matutino del CBTIS 03, en Tlaxcala. Cada fila representa a un estudiante y cada columna corresponde a una pregunta del cuestionario. El instrumento incluyó preguntas sobre autopercepción del desempeño académico, dificultad esperada en la asignatura, principales barreras para aprender ciencias, intereses temáticos en biología y cuatro reactivos de conocimiento conceptual básico.
# Validación defensiva
ruta_datos <- "Data_EDB/EDB.xlsx"
if (!file.exists(ruta_datos)) {
stop("Archivo no encontrado: ", ruta_datos)
}
# Carga y limpieza
datos <- read_excel(ruta_datos) %>% clean_names()
cat("Registros:", nrow(datos),
"| Variables:", ncol(datos), "\n")
## Registros: 220 | Variables: 17
# Renombrar columnas largas
col_1 <- "como_consideras_tu_desempeno_general_como_estudiante"
col_2 <- "que_es_lo_que_mas_se_te_dificulta_al_aprender_ciencias"
col_3 <- "que_tema_te_interesa_mas_de_la_biologia"
names(datos)[6] <- "dificultad_materia"
names(datos)[8] <- "ser_no_vivo"
names(datos)[10] <- "energia_plantas"
names(datos)[11] <- "comprobar_musica"
names(datos)[13] <- "mejor_conclusion"
Las variables utilizadas en el análisis se describen en el siguiente diccionario:
| Variable | Tipo | Descripcion |
|---|---|---|
| desempeño_estudiante | Categórica ordinal | Autopercepción del desempeño académico |
| dificultad_ciencias | Categórica nominal | Principal dificultad al aprender ciencias |
| interes_biología | Categórica nominal | Tema de mayor interés en biología |
| dificultad_materia | Categórica ordinal | Dificultad esperada en la materia |
| ser_no_vivo | Conceptual (correcta/incorrecta) | Identificación de un ser no vivo |
| energía_plantas | Conceptual (correcta/incorrecta) | Fuente de energía de las plantas |
| comprobar_música | Conceptual (correcta/incorrecta) | Diseño experimental básico |
| mejor_conclusión | Conceptual (correcta/incorrecta) | Interpretación de resultado experimental |
No se identificaron valores faltantes en las variables utilizadas para el análisis. Las respuestas abiertas se conservaron en la base pero no se incluyeron en el análisis cuantitativo.
| Categoría | Frecuencia | Porcentaje |
|---|---|---|
|
11 | 5.0 |
|
125 | 56.8 |
|
76 | 34.5 |
|
8 | 3.6 |
La mayoría de los estudiantes se percibe con un desempeño “Bueno” (56%), seguido de “Regular”. Solo un 3.6% reporta dificultades para estudiar.
Fig. 1. Barreras para el aprendizaje de ciencias
Las dos barreras más frecuentes son la memorización de conceptos y el manejo de contenidos matemáticos, ambas con 64 estudiantes (29.1% cada una), seguidas por la comprensión de procesos con 45 estudiantes (20.5%). Esta distribución bimodal indica que el grupo enfrenta desafíos tanto en la retención significativa de información como en la aplicación de herramientas cuantitativas al contexto biológico.
Fig. 2. Intereses temáticos en biología
Los intereses se concentran en temas vinculados con el cuerpo humano (63 estudiantes, 28.6%), la genética y las enfermedades. Estos contenidos, asociados a la experiencia cotidiana y la salud, ofrecen un eje articulador para la planeación didáctica.
Fig. 3. Identificación de un ser no vivo
El 65% del grupo seleccionó la respuesta correcta (Virus). No obstante, la presencia de respuestas alternativas con frecuencia no despreciable indica concepciones previas que requieren ser abordadas al inicio del curso mediante estrategias de conflicto cognitivo (Driver et al., 1999).
Fig. 4. Mapa de calor: desempeño percibido y dificultades
El mapa de calor revela que en el grupo con autopercepción “Bueno” (el más numeroso), las dificultades predominantes son memorización de conceptos y matemáticas, con 40 estudiantes en cada una. En el grupo “Regular”, estas mismas dificultades presentan frecuencias de 20 y 21 respectivamente. En el grupo con autopercepción más baja (“Me cuesta trabajo estudiar”), la dificultad predominante fue “Entender procesos” (75%). Estos patrones diferenciados sugieren la pertinencia de estrategias pedagógicas diversificadas según el perfil del alumnado (Sanmartí, 2002).
Para transitar del análisis descriptivo hacia un análisis predictivo básico, se construyó una variable numérica denominada puntaje de conocimiento, derivada de cuatro preguntas conceptuales del cuestionario. Cada respuesta correcta se codificó como 1 y cada incorrecta como 0, generando un puntaje acumulado de 0 a 4.
Como variable explicativa se utilizó el desempeño percibido, codificado en escala ordinal: Me cuesta trabajo estudiar = 1, Regular = 2, Bueno = 3, Muy bueno = 4. Se eligió esta variable porque permite evaluar si la autopercepción académica se asocia con el conocimiento conceptual real del estudiante.
# Puntaje de conocimiento (0 a 4)
datos <- datos %>%
mutate(
p1 = ifelse(ser_no_vivo == "c) Virus", 1, 0),
p2 = ifelse(energia_plantas == "c) Del sol", 1, 0),
p3 = ifelse(comprobar_musica ==
"b) Usar un grupo con música y otro sin música", 1, 0),
p4 = ifelse(mejor_conclusion ==
"a) La luz influye en el crecimiento", 1, 0),
puntaje = p1 + p2 + p3 + p4
)
# Desempeño percibido (escala 1-4)
datos <- datos %>%
mutate(
desempeno_num = case_when(
!!sym(col_1) == "d) Me cuesta trabajo estudiar" ~ 1,
!!sym(col_1) == "c) Regular" ~ 2,
!!sym(col_1) == "b) Bueno" ~ 3,
!!sym(col_1) == "a) Muy bueno" ~ 4,
TRUE ~ NA_real_
)
)
cat("Puntaje de conocimiento:\n")
## Puntaje de conocimiento:
summary(datos$puntaje)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 4.000 3.414 4.000 4.000
cat("\nDesempeño numérico:\n")
##
## Desempeño numérico:
summary(datos$desempeno_num)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 3.000 2.632 3.000 4.000
Se ajustó un modelo de regresión lineal simple de la forma:
\[\text{puntaje} = b_0 + b_1 \times \text{desempeño\_num}\]
Es importante señalar que este modelo se presenta como una aproximación exploratoria: la variable respuesta es discreta (valores de 0 a 4), lo que limita el cumplimiento estricto de los supuestos de la regresión lineal clásica (Cohen et al., 2018).
modelo <- lm(puntaje ~ desempeno_num, data = datos)
resumen_modelo <- summary(modelo)
resumen_modelo
##
## Call:
## lm(formula = puntaje ~ desempeno_num, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.4735 -0.4735 0.3638 0.5265 0.8518
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.98558 0.19517 15.297 <2e-16 ***
## desempeno_num 0.16265 0.07208 2.257 0.025 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6807 on 218 degrees of freedom
## Multiple R-squared: 0.02282, Adjusted R-squared: 0.01834
## F-statistic: 5.092 on 1 and 218 DF, p-value: 0.02503
Fig. 5. Diagrama de dispersión con recta de regresión
La gráfica no muestra una tendencia lineal clara. Debido a que ambas variables son discretas, los puntos se concentran en pocos valores y existe alto solapamiento entre niveles de autopercepción. Visualmente solo puede sugerirse una asociación positiva débil, que debe confirmarse con los indicadores del modelo.
| Coeficiente | Estimación | Valor_p | |
|---|---|---|---|
| (Intercept) | Intercepto | 2.9856 | 0.000000 |
| desempeno_num | Pendiente (desempeño) | 0.1626 | 0.025028 |
El resultado principal del modelo es el siguiente: la relación entre autopercepción académica y puntaje conceptual es positiva, pero muy débil. La pendiente estimada es aproximadamente 0.1626, lo que significa que por cada aumento de un nivel en la autopercepción, el puntaje esperado aumenta apenas 0.16 puntos en una escala de 0 a 4. El valor p cercano a 0.025 indica que la asociación es estadísticamente detectable, pero la R² de 0.0228 señala que el modelo explica solo el 2.3% de la variabilidad del puntaje.
| Indicador | Valor |
|---|---|
| R² | 0.022800 |
| R² ajustada | 0.018300 |
| Pendiente | 0.162600 |
| Valor p (pendiente) | 0.025028 |
Por lo tanto, la autopercepción no debe interpretarse como un predictor fuerte del conocimiento conceptual. La conclusión adecuada es que existe una asociación positiva estadísticamente detectable, pero con capacidad explicativa muy limitada.
Fig. 6. Residuos vs valores ajustados
Los residuos se distribuyen de manera aproximadamente simétrica alrededor de cero. Se aprecia una estructura en bandas horizontales, consecuencia de que la variable respuesta toma únicamente valores discretos de 0 a 4. Esta característica no indica una falla del modelo, sino que refleja la naturaleza discreta de la variable dependiente.
El análisis integrado de los resultados descriptivos y del modelo predictivo permite formular las siguientes conclusiones:
Sobre los intereses temáticos: Los estudiantes muestran una marcada preferencia por temas vinculados con el cuerpo humano, la genética y las enfermedades (28.6%). Estos contenidos, cercanos a la experiencia cotidiana, constituyen un punto de partida pertinente para la planeación didáctica.
Sobre las dificultades de aprendizaje: Las barreras predominantes son la memorización de conceptos y el manejo de contenidos matemáticos (29.1% cada una). Esta distribución bimodal sugiere que el grupo enfrenta desafíos tanto en la retención significativa como en la aplicación cuantitativa del conocimiento, lo que refuerza la necesidad de promover estrategias centradas en la comprensión conceptual y la contextualización (Pozo & Gómez-Crespo, 2013).
Sobre la comprensión conceptual: El 65% del grupo respondió correctamente la pregunta sobre seres no vivos, lo que indica un nivel aceptable pero mejorable de comprensión. La persistencia de concepciones alternativas justifica el uso de actividades de conflicto cognitivo al inicio del curso (Driver et al., 1999).
Sobre el modelo predictivo: La regresión lineal confirma una asociación positiva entre autopercepción académica y puntaje conceptual (pendiente ≈ 0.16, p ≈ 0.025), pero la R² de 0.023 indica que esta variable explica apenas el 2.3% de la variabilidad del puntaje. La autopercepción no es un predictor fuerte del conocimiento conceptual; el rendimiento real depende de múltiples factores no incluidos en el modelo.
Recomendaciones pedagógicas:
Limitaciones:
Trabajo futuro: Incorporar variables adicionales (dificultad esperada, especialidad, tipo de barrera) mediante regresión múltiple y explorar modelos alternativos como la regresión ordinal, más apropiada para la naturaleza discreta de la variable respuesta.
Este análisis se realizó con datos recolectados mediante un cuestionario diagnóstico aplicado con fines educativos institucionales. La información se utilizó de forma agregada y anónima; no se incluyen nombres ni datos personales que permitan identificar a los estudiantes.
El archivo fuente en RMarkdown (.Rmd) contiene todo el código necesario para reproducir el análisis desde cero, incluyendo la carga de datos, limpieza, transformaciones, tablas, gráficas y el modelo de regresión. Todas las librerías utilizadas se cargan de forma centralizada en el bloque de configuración inicial.
Se utilizó inteligencia artificial generativa (Claude, ChatGPT) como herramienta de apoyo en la programación, corrección y redacción del documento. En todos los casos, las salidas fueron verificadas, editadas y validadas por el autor, quien asume la responsabilidad académica del trabajo final.