A continuación se presenta el PLAN DE ASIGNATURA completo y formal, adaptado para los programas de Ingeniería Agrícola, Agroindustrial y Civil, incorporando el Módulo Cero de Ética e IA:

  • EDA (Exploratory Data Analysis)
  • Ajuste de datos experimentales a distribuciones teóricas de probabilidad
  • Regresiones (simples, múltiples, GAM, LOESS, GLM)
  • Series de tiempo (AutoTS en Python + tsibble/fable/forecast en R)
  • Uso transversal de Python (Colab) y R (Posit Cloud)

PLAN DE ASIGNATURA — Estadística Aplicada con Python y R

Programas: Ingeniería Agrícola, Agroindustrial y Civil — Universidad de Sucre


1. Presentación

La asignatura integra conceptos fundamentales de estadística aplicada con herramientas modernas de análisis en R y Python, con un enfoque orientado a la ingeniería. La metodología se apoya en análisis de datos reales, uso ético de herramientas de Inteligencia Artificial (ChatGPT, Gemini, Copilot) y el desarrollo de productos reproducibles (RMarkdown, Notebooks, Streamlit/Quarto opcional).

El curso prioriza cuatro ejes:

  1. EDA — Exploratory Data Analysis
  2. Ajuste de distribuciones teóricas de probabilidad
  3. Regresión y modelado predictivo
  4. Series de tiempo

La asignatura NO profundiza en ANOVA porque este contenido se aborda en Diseño Experimental.


2. Competencias

Generales

  • Analizar datos de ingeniería empleando métodos estadísticos modernos.
  • Utilizar IA de forma ética, transparente y responsable en procesos científicos.
  • Comunicar resultados estadísticos bajo normas APA y buenas prácticas de ciencia reproducible.

Específicas

  • Realizar EDA completo en Python y R.
  • Ajustar datos a distribuciones probabilísticas teóricas y evaluar bondad de ajuste.
  • Construir modelos de regresión lineal simple, múltiple, no lineal, GAM, LOESS y GLM.
  • Analizar series de tiempo con modelos clásicos y modelos AutoTS.
  • Generar documentos RMarkdown y Notebooks reproducibles.
  • Aplicar principios de visualización científica.

3. Contenidos por semanas


SEMANA 0 — Ingeniería, Ética e IA (Módulo Cero)

Propósito: establecer el marco ético, normativo y técnico del uso de IA en estadística.

Temas:

  • Ética e integridad científica.

  • CONPES 4144/2025 sobre IA en Colombia.

  • Riesgos: plagio, “humanización de texto”, deepfakes, fabricación de datos.

  • IA como herramienta para análisis: límites, citación, trazabilidad, bitácora de prompts.

  • Introducción al entorno:

    • Python en Google Colab
    • RMarkdown en Posit Cloud
    • RPubs para publicaciones
    • GitHub como repositorio de proyectos

Actividad evaluable: Documento APA + video grupal explicando el rol ético de la IA en análisis estadístico de ingeniería.


SEMANA 1 — Fundamentos de estadística aplicada

  • Tipos de datos y escalas de medición.
  • Muestreo y poblaciones.
  • Estadísticos descriptivos básicos.
  • Introducción a Python (pandas) y R (tidyverse).

Práctica: cargar datasets del curso (Soils, Boston Housing, Acero, FAOSTAT).


SEMANA 2 — Visualización básica

  • Histogramas, densidades, boxplots, scatterplots.
  • Introducción a ggplot2, seaborn, plotnine.

Práctica: comparación visual entre R y Python del mismo dataset.


SEMANA 3 — EDA estructurado (I)

  • Inspección de estructura, tipos y valores faltantes.
  • Univariate EDA: medidas de tendencia y dispersión.
  • Sesgo, curtosis, outliers.

Actividad: EDA del dataset Soils (carData).


SEMANA 4 — EDA estructurado (II)

  • Bivariate y multivariate EDA.
  • Correlaciones: Pearson, Spearman.
  • chart.Correlation() en R y sns.pairplot() en Python.

Proyecto corto: informe APA comparativo de correlaciones.


SEMANA 5 — Fundamentos de probabilidad

  • Espacio muestral y eventos.
  • Probabilidad empírica vs. teórica.
  • Leyes básicas.

Práctica: simulaciones con Python y R.


SEMANA 6 — Distribuciones teóricas (I): Discretas

  • Bernoulli, Binomial, Poisson.
  • Ajuste visual y analítico.

Actividad: elección de dataset con conteos y ajuste con métodos de máxima verosimilitud.


SEMANA 7 — Distribuciones teóricas (II): Continuas

  • Normal, Lognormal, Exponencial, Gamma, Weibull.
  • Estimación de parámetros (métodos: momento, MV).
  • Gráficos de bondad de ajuste.

Actividad: comparación entre datasets de ingeniería (tiempos, fallos, calibres, humedad).


SEMANA 8 — Pruebas de bondad de ajuste

  • KS test, Anderson-Darling, Chi-cuadrado.
  • Evaluación del modelo probabilístico en Python y R.

Proyecto: notebook + documento APA con un ajuste de distribución completo.


SEMANA 9 — Regresión lineal simple

  • Concepto, supuestos, diagnóstico.
  • lm() en R; statsmodels y scikit-learn en Python.
  • Gráficos de residuales.

Práctica: dataset Soils o Boston Housing (versión simplificada).


SEMANA 10 — Regresión múltiple

  • Selección de variables: AIC, BIC.
  • stepAIC() en R.
  • Diagnóstico multivariado.

Proyecto: modelo final + informe APA + interpretación detallada.


SEMANA 11 — Regresiones avanzadas

  • Regresión no lineal.
  • LOESS.
  • GAM con mgcv.
  • GLM (familias distribucionales).

Práctica: comparación GAM vs. LOESS para un problema de ingeniería.


SEMANA 12 — Introducción a series de tiempo

  • Conceptos básicos: tendencia, estacionalidad, ruido.
  • Descomposición clásica.
  • Autocorrelaciones (ACF/PACF).

Práctica: series climáticas (temperatura, precipitación).


SEMANA 13 — Series de tiempo con Python y AutoTS

  • Introducción a AutoTS en Python.
  • Forecast automático.
  • Selección del mejor modelo.
  • Métricas: RMSE, MAE, MAPE.

Actividad: predicción de una serie agroclimática real.


SEMANA 14 — Series de tiempo con R

  • tsibble y fable.
  • Modelos ARIMA, ETS y NeuralProphet (opcional).
  • Comparación R vs. Python.

Producto: informe APA + repositorio GitHub.


SEMANA 15 — Proyecto Final Integrador

Proyecto grupal que combine:

  • EDA completo
  • Ajuste de distribución
  • Regresión (simple/múltiple/avanzada)
  • Serie de tiempo o proyección

Debe incluir:

  • Notebook en Python
  • Documento RMarkdown
  • Publicación en RPubs
  • Uso explícito de IA con bitácora de prompts
  • Video de sustentación

4. Evaluación

Componente Porcentaje
Módulo Cero Ética e IA 10%
Tareas prácticas (Python y R) 30%
Proyectos parciales (EDA, Distribuciones, Regresiones, Series de Tiempo) 30%
Proyecto Final Integrador 30%

5. Metodología

  • Aprendizaje basado en proyectos (ABP).
  • Trabajo con datasets reales.
  • Bitácora de prompts IA obligatoria.
  • Repositorios GitHub por grupo.
  • Uso de Python (Google Colab) y RMarkdown (Posit Cloud).
  • Publicaciones en RPubs.
  • Presentaciones en video.

6. Recursos

  • Google Colab
  • Posit Cloud + RPubs
  • GitHub Codespaces + Copilot
  • R: tidyverse, carData, MASS, mgcv, fable, forecast
  • Python: pandas, numpy, seaborn, statsmodels, scipy, autots
  • Datasets suministrados por el docente

Rúbrica de Evaluación Detallada

A continuación se presenta la RÚBRICA DE EVALUACIÓN para la asignatura Estadística Aplicada con Python y R, alineada con:

  • Desarrollo técnico (EDA, ajuste de distribuciones, regresiones, series de tiempo)
  • Comunicación científica
  • Video de sustentación
  • Uso ético y transparente de IA
  • Trabajo reproducible

La calificación es de 1 a 5 por criterio, donde:

  • 5 = Excelente
  • 4 = Alto
  • 3 = Básico
  • 2 = Bajo
  • 1 = Deficiente

📊 RÚBRICA DE EVALUACIÓN

Estadística Aplicada con Python y R

Criterio 5 - Excelente 4 - Alto 3 - Básico 2 - Bajo 1 - Deficiente
1. EDA (Exploratory Data Analysis) Realiza EDA completo, estructurado y crítico; interpreta correctamente patrones, outliers y relaciones; usa visualizaciones adecuadas y comparativas en R y Python. EDA adecuado con buena interpretación; pequeñas omisiones técnicas. EDA parcial; análisis descriptivo limitado o poco profundo. EDA incompleto; errores en interpretación o uso inadecuado de gráficos. No realiza EDA o presenta análisis incorrecto.
2. Ajuste a modelos teóricos de probabilidad Selecciona adecuadamente la distribución; estima parámetros correctamente; aplica pruebas de bondad de ajuste e interpreta resultados con rigor. Ajuste correcto pero con interpretación limitada o análisis comparativo incompleto. Ajuste básico con errores menores o análisis superficial. Ajuste incorrecto o sin pruebas de validación adecuadas. No realiza ajuste o presenta errores conceptuales graves.
3. Regresión y modelado Modelo correctamente especificado; verifica supuestos; interpreta coeficientes y métricas (R², AIC, RMSE) con criterio ingenieril. Modelo adecuado con interpretación general correcta. Modelo funcional pero con debilidades en diagnóstico o interpretación. Modelo mal especificado o con errores conceptuales. No logra construir modelo válido.
4. Series de tiempo (AutoTS u otros) Analiza tendencia y estacionalidad; compara modelos; justifica selección según métricas; interpreta predicciones con sentido práctico. Modelo adecuado con interpretación general correcta. Aplica modelo automático sin análisis profundo. Uso mecánico sin comprensión del proceso. No logra aplicar modelo de series de tiempo.
5. Reproducibilidad y documentación (Notebook/RMarkdown) Código organizado, documentado, reproducible; estructura clara; publicación correcta en RPubs o repositorio. Código funcional con buena organización. Código funcional pero desordenado o poco documentado. Código con errores frecuentes o sin claridad. Código incompleto o no reproducible.
6. Comunicación escrita (formato APA) Informe claro, coherente, técnico; interpretación crítica; correcta citación y redacción científica. Informe bien estructurado con pequeñas fallas de redacción. Informe básico con deficiencias formales. Redacción confusa; errores conceptuales frecuentes. Documento incompleto o sin estructura científica.
7. Video de sustentación Explica con claridad metodología, resultados e interpretación; dominio conceptual; participación equilibrada del grupo. Buena explicación con leves vacíos conceptuales. Explicación básica; lectura parcial del documento. Dificultad para explicar procedimientos y resultados. No demuestra comprensión del trabajo realizado.
8. Uso ético y transparente de IA Presenta bitácora de prompts; declara uso de IA; demuestra comprensión del código generado; no hay evidencia de plagio. Declara uso de IA pero con documentación parcial. Uso evidente de IA sin suficiente explicación del proceso. Uso poco transparente o dependencia excesiva sin comprensión. Evidencia de plagio o fabricación de resultados.

📌 Interpretación de la calificación final

  • Se suman los puntajes de los 8 criterios.
  • Puntaje máximo posible: 40 puntos.
  • Conversión a escala 0–5:

[ \(\text{Nota Final} = \frac{\text{Puntaje Obtenido}}{40} \times 5\)]

}