CASO 1: Análisis de Factores que Afectan la Fertilidad Masculina

1. Business Understanding

El objetivo de este estudio es predecir si un paciente masculino tiene un diagnóstico de fertilidad “normal” (N) o “alterado” (O), a partir de factores personales, antecedentes médicos y hábitos de vida.

Este análisis permitirá:

2. Variables a Utilizar

Variable objetivo

  • diagnóstico: Factor con dos niveles ("N" = normal, "O" = alterado)

Variables predictoras seleccionadas

  1. estación: variable numérica que codifica la estación del año:
    • -1 = Invierno, -0.33 = Primavera, 0.33 = Verano, 1 = Otoño
  2. edad: edad normalizada del individuo (entre 18 y 36 años)
  3. enfermedades infantiles:
    • 1 = tuvo enfermedades como varicela, sarampión, paperas, polio; 0 = no
  4. accidente:
    • 1 = ha sufrido accidentes o traumas graves; 0 = no
  5. intervención quirúrgica:
    • 1 = ha tenido intervenciones quirúrgicas; 0 = no
  6. fiebre alta:
    • 1 = ha tenido fiebre alta en el último año; 0 = no
  7. alcohol: frecuencia de consumo de alcohol:
    • 0.2 = varias veces al día
    • 0.4 = todos los días
    • 0.6 = varias veces a la semana
    • 0.8 = una vez a la semana
    • 1 = casi nunca o nunca
  8. Hábito de fumar:
    • -1 = nunca, 0 = ocasionalmente, 1 = a diario
  9. horas sentado: cantidad normalizada de horas sentado al día:
    • 0 = pocas, 1 = muchas

Justificación

Estas variables están respaldadas por fundamentos médicos y epidemiológicos (según la OMS), como factores potencialmente asociados a la fertilidad. Además, son adecuadas para el análisis estadístico por ser numéricas y binarias.

3. Data Understanding

Proceso propuesto de análisis

Análisis exploratorio

  • Visualizar la distribución de variables numéricas (edad, alcohol, horas sentado) mediante histogramas.
  • Comparar la distribución de variables categóricas por diagnóstico usando gráficos de barras.
  • Explorar correlaciones y posibles patrones visuales.

Modelado (Clasificación)

  • Construir un modelo supervisado para predecir el diagnóstico.
    • Se utilizará regresión logística como modelo base por su interpretabilidad.

Evaluación del modelo

  • Medir precisión, sensibilidad y especificidad.
  • Utilizar una matriz de confusión como métrica principal.

Interpretación y conclusiones

  • Identificar las variables más influyentes según el modelo.
  • Interpretar su efecto sobre la fertilidad masculina.
  • Discutir intervenciones potenciales como: reducir el consumo de alcohol, dejar de fumar, mejorar hábitos posturales, etc.

Caso 2: Rendimiento estudiantil

Problema de estudio

En muchas instituciones educativas, los docentes y orientadores carecen de herramientas tempranas para identificar a los estudiantes que podrían tener un bajo rendimiento académico al final del periodo escolar. Generalmente, las alertas solo se activan después de observar calificaciones bajas (como G1 o G2), cuando ya es tarde para intervenir efectivamente.

Por tanto, es necesario contar con un modelo que permita anticipar posibles dificultades académicas desde el inicio del año escolar, utilizando variables disponibles desde el primer día (como hábitos de estudio, entorno familiar y motivación). Esto facilitaría la detección temprana de estudiantes en riesgo, permitiendo diseñar intervenciones preventivas y personalizadas para mejorar su rendimiento.

1. Business Understanding

El objetivo de este estudio es predecir si un estudiante aprobará o reprobará la materia a partir de características personales, escolares y familiares, sin utilizar las calificaciones intermedias (G1 y G2).

Este análisis permitirá:

  • Identificar los factores más influyentes en la probabilidad de aprobar.

  • Construir un modelo de clasificación para anticipar el desempeño académico.

  • Proponer recomendaciones para reducir el riesgo de reprobación desde etapas tempranas.

2. Variables a Utilizar

Variable objetivo

  • G3_binaria: Nueva variable creada a partir de G3:

    • 1 = aprobado (nota ≥ 3)

    • 0 = reprobado (nota < 3)

Variables predictorias seleccionadas

  1. Studytime: Tiempo en horas dedicado al estudio semanal (1-4). Cuantitativa Discreta.
  2. failures: Número de cursos reprobados anteriormente (0-3). Cuantitativa Discreta.
  3. higher: Desea cursar estudios superiores (sí/no). Cualitativa Nominal.
  4. Medu: Nivel educativo de la madre (0-4). Cualitativa Ordinal.
  5. Fede: Nivel educativo del padre (0-4). Cualitativa Ordinal.
  6. famsup: Apoyo educativo proporcionado por la familia (sí/no). Cualitativa Nominal.
  7. goout: Frecuencia con la que sale con amigos (1-5). Cualitativa Ordinal.
  8. Internet: Acceso a internet en casa (sí/no). Cualitativa Nominal.

Justificación

Estas variables combinan factores académicos, familiares y sociales que pueden influir en el riesgo de reprobación. El modelo ayudará a detectar patrones tempranos que indiquen mayor probabilidad de fracaso académico, lo que permite intervenir de forma oportuna.

3. Data Understanding

Proceso propuesto de análisis

Análisis exploratorio:

  • Visualizar la proporción de estudiantes aprobados vs. reprobados (G3_binaria).

  • Examinar la distribución de variables cualitativas nominales (higher y famsup) según el estado de aprobación.

  • Revisar diagramas de caja para ver la relación entre las variables cuantitativas discretas (studytime y failures) y la nueva variable binaria.

  • Modelado (Clasificación):

    • Construir un modelo de regresión logística para predecir la probabilidad de aprobación.

    • Interpretar los coeficientes para entender el peso de cada variable.

Evaluación del modelo:

  • Medir desempeño con métricas como:

    • Precisión

    • Sensibilidad (recall)

    • Especificidad

    • Matriz de confusión

Interpretación y conclusiones:

  • Identificar las variables más influyentes.

  • Analizar qué factores aumentan o reducen la probabilidad de aprobación.

  • Sugerir intervenciones educativas: por ejemplo, fomentar hábitos de estudio más intensos o fortalecer el apoyo familiar.