Estudiante: César Coyotzi Martínez
Matrícula: UDX112510003
Materia: Análisis de Datos para la Toma de Decisiones
Asesor: Dr. Luciano Martínez Balbuena

1 Introducción

El presente informe analiza los resultados de una evaluación diagnóstica aplicada a estudiantes de sexto semestre del turno matutino del Centro de Bachillerato Tecnológico Industrial y de Servicios No. 03 (CBTIS 03), ubicado en el estado de Tlaxcala. La evaluación fue diseñada para identificar los intereses temáticos del alumnado en biología, sus principales dificultades para aprender ciencias y su nivel inicial de conocimiento conceptual.

En el ámbito de la enseñanza de las ciencias, la evaluación diagnóstica cumple una función central: permite a los docentes ajustar la enseñanza a partir de evidencia concreta sobre lo que los estudiantes ya saben, lo que les interesa y lo que les resulta difícil (Black & Wiliam, 1998; Hattie & Timperley, 2007). Desde la perspectiva del aprendizaje significativo, los conocimientos previos del estudiante constituyen el factor más importante para la adquisición de nuevos contenidos (Ausubel, 2002). Reconocer estas ideas iniciales favorece el diseño de estrategias didácticas más pertinentes y contextualizadas (Driver et al., 1999; Sanmartí, 2002).

El análisis se desarrolla en dos etapas. Primero, se realiza un análisis descriptivo de las variables categóricas del cuestionario: intereses, dificultades percibidas, desempeño académico autopercibido y respuestas a preguntas de conocimiento conceptual básico. Después, se implementa un modelo de regresión lineal simple como aproximación exploratoria para evaluar si la autopercepción académica del estudiante se relaciona con su puntaje en preguntas conceptuales.

Las preguntas que guían el análisis son:

¿Qué patrones muestran los estudiantes de sexto semestre del CBTIS 03 respecto a sus intereses en biología, sus principales dificultades para aprender ciencias y su nivel inicial de conocimiento conceptual?

¿La autopercepción académica de los estudiantes se relaciona con su puntaje de conocimiento conceptual inicial?

Todo el análisis fue realizado en R (Wickham & Grolemund, 2017), lo que garantiza la reproducibilidad del proceso.

2 Desarrollo

2.1 Datos y preparación

La base de datos proviene de una encuesta diagnóstica aplicada mediante Google Forms durante el inicio del semestre febrero–julio de 2026 a 220 estudiantes de sexto semestre del turno matutino del CBTIS 03, en Tlaxcala. Cada fila representa a un estudiante y cada columna corresponde a una pregunta del cuestionario. El instrumento incluyó preguntas sobre autopercepción del desempeño académico, dificultad esperada en la asignatura, principales barreras para aprender ciencias, intereses temáticos en biología y cuatro reactivos de conocimiento conceptual básico.

# Validación defensiva
ruta_datos <- "Data_EDB/EDB.xlsx"
if (!file.exists(ruta_datos)) {
  stop("Archivo no encontrado: ", ruta_datos)
}

# Carga y limpieza
datos <- read_excel(ruta_datos) %>% clean_names()
cat("Registros:", nrow(datos),
    "| Variables:", ncol(datos), "\n")

## Registros: 220 | Variables: 17

# Renombrar columnas largas
col_1 <- "como_consideras_tu_desempeno_general_como_estudiante"
col_2 <- "que_es_lo_que_mas_se_te_dificulta_al_aprender_ciencias"
col_3 <- "que_tema_te_interesa_mas_de_la_biologia"

names(datos)[6]  <- "dificultad_materia"
names(datos)[8]  <- "ser_no_vivo"
names(datos)[10] <- "energia_plantas"
names(datos)[11] <- "comprobar_musica"
names(datos)[13] <- "mejor_conclusion"

Las variables utilizadas en el análisis se describen en el siguiente diccionario:

Tabla 1. Diccionario de variables analíticas
Variable	Tipo	Descripcion
desempeño_estudiante	Categórica ordinal	Autopercepción del desempeño académico
dificultad_ciencias	Categórica nominal	Principal dificultad al aprender ciencias
interes_biología	Categórica nominal	Tema de mayor interés en biología
dificultad_materia	Categórica ordinal	Dificultad esperada en la materia
ser_no_vivo	Conceptual (correcta/incorrecta)	Identificación de un ser no vivo
energía_plantas	Conceptual (correcta/incorrecta)	Fuente de energía de las plantas
comprobar_música	Conceptual (correcta/incorrecta)	Diseño experimental básico
mejor_conclusión	Conceptual (correcta/incorrecta)	Interpretación de resultado experimental

No se identificaron valores faltantes en las variables utilizadas para el análisis. Las respuestas abiertas se conservaron en la base pero no se incluyeron en el análisis cuantitativo.

2.2 Análisis descriptivo

2.2.1 Desempeño percibido

Tabla 2. Desempeño académico percibido
Categoría	Frecuencia	Porcentaje
Muy bueno	11	5.0
Bueno	125	56.8
Regular	76	34.5
Me cuesta trabajo estudiar	8	3.6

La mayoría de los estudiantes se percibe con un desempeño “Bueno” (56%), seguido de “Regular”. Solo un 3.6% reporta dificultades para estudiar.

2.2.2 Dificultades para aprender ciencias

Fig. 1. Barreras para el aprendizaje de ciencias

Las dos barreras más frecuentes son la memorización de conceptos y el manejo de contenidos matemáticos, ambas con 64 estudiantes (29.1% cada una), seguidas por la comprensión de procesos con 45 estudiantes (20.5%). Esta distribución bimodal indica que el grupo enfrenta desafíos tanto en la retención significativa de información como en la aplicación de herramientas cuantitativas al contexto biológico.

2.2.3 Intereses temáticos

Fig. 2. Intereses temáticos en biología

Los intereses se concentran en temas vinculados con el cuerpo humano (63 estudiantes, 28.6%), la genética y las enfermedades. Estos contenidos, asociados a la experiencia cotidiana y la salud, ofrecen un eje articulador para la planeación didáctica.

2.2.4 Comprensión conceptual básica

Fig. 3. Identificación de un ser no vivo

El 65% del grupo seleccionó la respuesta correcta (Virus). No obstante, la presencia de respuestas alternativas con frecuencia no despreciable indica concepciones previas que requieren ser abordadas al inicio del curso mediante estrategias de conflicto cognitivo (Driver et al., 1999).

2.2.5 Relación entre desempeño y dificultades

Fig. 4. Mapa de calor: desempeño percibido y dificultades

El mapa de calor revela que en el grupo con autopercepción “Bueno” (el más numeroso), las dificultades predominantes son memorización de conceptos y matemáticas, con 40 estudiantes en cada una. En el grupo “Regular”, estas mismas dificultades presentan frecuencias de 20 y 21 respectivamente. En el grupo con autopercepción más baja (“Me cuesta trabajo estudiar”), la dificultad predominante fue “Entender procesos” (75%). Estos patrones diferenciados sugieren la pertinencia de estrategias pedagógicas diversificadas según el perfil del alumnado (Sanmartí, 2002).

2.3 Construcción del puntaje y ajuste del modelo

Para transitar del análisis descriptivo hacia un análisis predictivo básico, se construyó una variable numérica denominada puntaje de conocimiento, derivada de cuatro preguntas conceptuales del cuestionario. Cada respuesta correcta se codificó como 1 y cada incorrecta como 0, generando un puntaje acumulado de 0 a 4.

Como variable explicativa se utilizó el desempeño percibido, codificado en escala ordinal: Me cuesta trabajo estudiar = 1, Regular = 2, Bueno = 3, Muy bueno = 4. Se eligió esta variable porque permite evaluar si la autopercepción académica se asocia con el conocimiento conceptual real del estudiante.

# Puntaje de conocimiento (0 a 4)
datos <- datos %>%
  mutate(
    p1 = ifelse(ser_no_vivo == "c) Virus", 1, 0),
    p2 = ifelse(energia_plantas == "c) Del sol", 1, 0),
    p3 = ifelse(comprobar_musica ==
      "b) Usar un grupo con música y otro sin música", 1, 0),
    p4 = ifelse(mejor_conclusion ==
      "a) La luz influye en el crecimiento", 1, 0),
    puntaje = p1 + p2 + p3 + p4
  )

# Desempeño percibido (escala 1-4)
datos <- datos %>%
  mutate(
    desempeno_num = case_when(
      !!sym(col_1) == "d) Me cuesta trabajo estudiar" ~ 1,
      !!sym(col_1) == "c) Regular" ~ 2,
      !!sym(col_1) == "b) Bueno" ~ 3,
      !!sym(col_1) == "a) Muy bueno" ~ 4,
      TRUE ~ NA_real_
    )
  )

cat("Puntaje de conocimiento:\n")

## Puntaje de conocimiento:

summary(datos$puntaje)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   3.414   4.000   4.000

cat("\nDesempeño numérico:\n")

## 
## Desempeño numérico:

summary(datos$desempeno_num)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   3.000   2.632   3.000   4.000

Se ajustó un modelo de regresión lineal simple de la forma:

\[\text{puntaje} = b_0 + b_1 \times \text{desempeño\_num}\]

Es importante señalar que este modelo se presenta como una aproximación exploratoria: la variable respuesta es discreta (valores de 0 a 4), lo que limita el cumplimiento estricto de los supuestos de la regresión lineal clásica (Cohen et al., 2018).

modelo <- lm(puntaje ~ desempeno_num, data = datos)
resumen_modelo <- summary(modelo)
resumen_modelo

## 
## Call:
## lm(formula = puntaje ~ desempeno_num, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.4735 -0.4735  0.3638  0.5265  0.8518 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    2.98558    0.19517  15.297   <2e-16 ***
## desempeno_num  0.16265    0.07208   2.257    0.025 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6807 on 218 degrees of freedom
## Multiple R-squared:  0.02282,    Adjusted R-squared:  0.01834 
## F-statistic: 5.092 on 1 and 218 DF,  p-value: 0.02503

2.4 Resultados del modelo

Fig. 5. Diagrama de dispersión con recta de regresión

La gráfica no muestra una tendencia lineal clara. Debido a que ambas variables son discretas, los puntos se concentran en pocos valores y existe alto solapamiento entre niveles de autopercepción. Visualmente solo puede sugerirse una asociación positiva débil, que debe confirmarse con los indicadores del modelo.

2.4.1 Coeficientes e interpretación

Tabla 3. Coeficientes del modelo de regresión lineal
	Coeficiente	Estimación	Valor_p
(Intercept)	Intercepto	2.9856	0.000000
desempeno_num	Pendiente (desempeño)	0.1626	0.025028

El resultado principal del modelo es el siguiente: la relación entre autopercepción académica y puntaje conceptual es positiva, pero muy débil. La pendiente estimada es aproximadamente 0.1626, lo que significa que por cada aumento de un nivel en la autopercepción, el puntaje esperado aumenta apenas 0.16 puntos en una escala de 0 a 4. El valor p cercano a 0.025 indica que la asociación es estadísticamente detectable, pero la R² de 0.0228 señala que el modelo explica solo el 2.3% de la variabilidad del puntaje.

Tabla 4. Métricas del modelo
Indicador	Valor
R²	0.022800
R² ajustada	0.018300
Pendiente	0.162600
Valor p (pendiente)	0.025028

Por lo tanto, la autopercepción no debe interpretarse como un predictor fuerte del conocimiento conceptual. La conclusión adecuada es que existe una asociación positiva estadísticamente detectable, pero con capacidad explicativa muy limitada.

2.4.2 Análisis de residuos

Fig. 6. Residuos vs valores ajustados

Los residuos se distribuyen de manera aproximadamente simétrica alrededor de cero. Se aprecia una estructura en bandas horizontales, consecuencia de que la variable respuesta toma únicamente valores discretos de 0 a 4. Esta característica no indica una falla del modelo, sino que refleja la naturaleza discreta de la variable dependiente.

3 Conclusiones

El análisis integrado de los resultados descriptivos y del modelo predictivo permite formular las siguientes conclusiones:

Sobre los intereses temáticos: Los estudiantes muestran una marcada preferencia por temas vinculados con el cuerpo humano, la genética y las enfermedades (28.6%). Estos contenidos, cercanos a la experiencia cotidiana, constituyen un punto de partida pertinente para la planeación didáctica.

Sobre las dificultades de aprendizaje: Las barreras predominantes son la memorización de conceptos y el manejo de contenidos matemáticos (29.1% cada una). Esta distribución bimodal sugiere que el grupo enfrenta desafíos tanto en la retención significativa como en la aplicación cuantitativa del conocimiento, lo que refuerza la necesidad de promover estrategias centradas en la comprensión conceptual y la contextualización (Pozo & Gómez-Crespo, 2013).

Sobre la comprensión conceptual: El 65% del grupo respondió correctamente la pregunta sobre seres no vivos, lo que indica un nivel aceptable pero mejorable de comprensión. La persistencia de concepciones alternativas justifica el uso de actividades de conflicto cognitivo al inicio del curso (Driver et al., 1999).

Sobre el modelo predictivo: La regresión lineal confirma una asociación positiva entre autopercepción académica y puntaje conceptual (pendiente ≈ 0.16, p ≈ 0.025), pero la R² de 0.023 indica que esta variable explica apenas el 2.3% de la variabilidad del puntaje. La autopercepción no es un predictor fuerte del conocimiento conceptual; el rendimiento real depende de múltiples factores no incluidos en el modelo.

Recomendaciones pedagógicas:

Priorizar contenidos de alta demanda temática como eje articulador de la asignatura.
Diseñar actividades que reduzcan la dependencia de la memorización mecánica y contextualicen el uso de herramientas cuantitativas dentro de fenómenos biológicos reales.
Implementar estrategias diferenciadas según el perfil de autopercepción del alumnado (Sanmartí, 2002).
Utilizar los resultados de la evaluación diagnóstica como insumo para la retroalimentación temprana y el ajuste de la enseñanza (Black & Wiliam, 1998; Hattie & Timperley, 2007).

Limitaciones:

Los resultados corresponden a una muestra específica del CBTIS 03, turno matutino, y no son generalizables.
La variable respuesta del modelo es discreta (0–4), lo que limita el cumplimiento de los supuestos de la regresión clásica.
El modelo incluye una sola variable explicativa; modelos con variables adicionales podrían mejorar la capacidad explicativa.
Las respuestas de autopercepción pueden estar influidas por sesgos de deseabilidad social.

Trabajo futuro: Incorporar variables adicionales (dificultad esperada, especialidad, tipo de barrera) mediante regresión múltiple y explorar modelos alternativos como la regresión ordinal, más apropiada para la naturaleza discreta de la variable respuesta.

4 Ética y reproducibilidad

Este análisis se realizó con datos recolectados mediante un cuestionario diagnóstico aplicado con fines educativos institucionales. La información se utilizó de forma agregada y anónima; no se incluyen nombres ni datos personales que permitan identificar a los estudiantes.

El archivo fuente en RMarkdown (.Rmd) contiene todo el código necesario para reproducir el análisis desde cero, incluyendo la carga de datos, limpieza, transformaciones, tablas, gráficas y el modelo de regresión. Todas las librerías utilizadas se cargan de forma centralizada en el bloque de configuración inicial.

Se utilizó inteligencia artificial generativa (Claude, ChatGPT) como herramienta de apoyo en la programación, corrección y redacción del documento. En todos los casos, las salidas fueron verificadas, editadas y validadas por el autor, quien asume la responsabilidad académica del trabajo final.

Referencias

Ausubel, D. P. (2002). Adquisición y retención del conocimiento: Una perspectiva cognitiva. Paidós.

Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74. https://doi.org/10.1080/0969595980050102

Cohen, L., Manion, L., & Morrison, K. (2018). Research methods in education (8th ed.). Routledge.

Driver, R., Squires, A., Rushworth, P., & Wood-Robinson, V. (1999). Making sense of secondary science: Research into children’s ideas. Routledge.

Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112. https://doi.org/10.3102/003465430298487

Pozo, J. I., & Gómez-Crespo, M. Á. (2013). Aprender y enseñar ciencia: Del conocimiento cotidiano al conocimiento científico. Morata.

Sanmartí, N. (2002). Didáctica de las ciencias en la educación secundaria obligatoria. Síntesis.

Wickham, H., & Grolemund, G. (2017). R for data science: Import, tidy, transform, visualize, and model data. O’Reilly Media.

Evaluación diagnóstica y modelo predictivo en el CBTIS 03, Tlaxcala

Proyecto Final

2026-06-17