Tarea Final — Segundo 50% del semestre

Asignatura: Estadística Aplicada con Python y R Programas: Ingeniería Agrícola, Ingeniería Agroindustrial e Ingeniería Civil Periodo académico: Segundo semestre 2025 (Resolución No. 50 de 2025) Modalidad: Trabajo grupal en GitHub Codespaces + Copilot + Streamlit Basada en las guías:

  • Guía 1 — Las Casas de Boston
  • Guía 2 — Producción de Acero
  • Guía 3 — Soils del paquete carData

1. Objetivo

Desarrollar un proyecto aplicado de análisis estadístico con Python, utilizando datasets reales de fuentes gubernamentales o institucionales oficiales, para resolver un problema de interés en los campos de la Ingeniería Agrícola, Agroindustrial o Civil.

El propósito es integrar la analítica de datos con IA generativa (Copilot y NotebookLM) para:

  • Automatizar la generación de archivos y documentación.
  • Desplegar los resultados en una página web interactiva en Streamlit Community Cloud.
  • Evidenciar el trabajo colaborativo mediante un video grupal con participación de todos los integrantes.

2. Organización

  • Grupos de trabajo: 3 a 10 estudiantes.

  • Entrega: Repositorio en GitHub con todos los archivos del proyecto.

  • Presentación: Video corto (5–10 min) donde todos los integrantes expongan su parte.

    • Si no participan todos, la calificación grupal será reducida proporcionalmente.

3. Fuentes sugeridas de datos

Cada grupo seleccionará uno de los siguientes portales (descarga mediante API o endpoint JSON/CSV):

Institución Dataset sugerido Aplicación en ingeniería
IDEAM (Colombia) Datos de precipitación, temperatura, caudal Ingeniería Agrícola / Civil
FAOSTAT (FAO) Uso de tierras, rendimiento de cultivos Ingeniería Agrícola / Agroindustrial
DANE Indicadores de construcción, producción industrial Ingeniería Civil / Agroindustrial
Ministerio de Minas y Energía Producción y consumo energético Ingeniería Agroindustrial / Civil
Open Data Colombia Infraestructura vial, agua potable, saneamiento Ingeniería Civil
IGAC Datos de suelos, pendientes, uso de suelo Ingeniería Agrícola

4. Prompts sugeridos para Copilot

4.1. Estructura del proyecto

Prompt 1:

Crea el archivo requirements.txt con los módulos necesarios para análisis estadístico y visualización en Streamlit (pandas, numpy, matplotlib, seaborn, plotly, scikit-learn, streamlit, requests).

Prompt 2:

Genera el archivo README.md explicando el propósito del proyecto, el origen del dataset gubernamental, los objetivos del análisis y las instrucciones de ejecución con streamlit run app.py.


4.2. Contenidos teóricos

Prompt 3:

Crea un archivo teoria_ingenieria.md con la explicación técnica del tema de ingeniería tratado (por ejemplo, relación entre lluvia y caudal, eficiencia energética, rendimiento de cultivos).

Prompt 4:

Crea un archivo teoria_modulos_python.md explicando el uso de los módulos empleados: pandas, numpy, seaborn, scikit-learn, streamlit, requests.


4.3. Descarga de datos

Prompt 5:

Crea un script descarga_datos.py que acceda mediante API o endpoint CSV al dataset seleccionado (por ejemplo, IDEAM o FAOSTAT), lo procese con pandas y lo guarde en la carpeta data/raw/.


4.4. Análisis estadístico

Prompt 6:

Crea el script analisis_datos.py que lea los datos de data/raw/, realice análisis exploratorio, correlaciones, regresión lineal o ANOVA según el tipo de variables, y guarde resultados en data/processed/.


4.5. Interpretación y resultados

Prompt 7:

Crea un archivo interpretacion_resultados.md con un resumen interpretativo de los resultados del análisis, indicando su aplicación práctica en el contexto ingenieril.


4.6. Visualización y despliegue

Prompt 8:

Crea un archivo app.py en Streamlit que:

  • Permita seleccionar variables y mostrar gráficos interactivos.
  • Visualice los resultados del análisis estadístico.
  • Incluya un botón de descarga de resultados (data/processed/).

4.7. Síntesis con IA

Prompt 9:

Integra en informe_final.md los resultados analíticos y teóricos. Luego carga toda la documentación en NotebookLM para generar:

  • Resumen en texto,
  • Resumen en audio,
  • Resumen en video.

Los enlaces o descargas obtenidos deben incluirse en el README final.


5. Entregables

  1. Repositorio GitHub con estructura mínima:
/data
   /raw
   /processed
app.py
requirements.txt
README.md
teoria_ingenieria.md
teoria_modulos_python.md
descarga_datos.py
analisis_datos.py
interpretacion_resultados.md
informe_final.md
  1. Despliegue en Streamlit Community Cloud.
  2. Video grupal explicando el proyecto, participación individual y demostración del despliegue.

6. Evaluación (100%)

Criterio Peso
Generación automatizada con Copilot (estructura y documentación) 15%
Descarga y procesamiento de datos gubernamentales 15%
Análisis estadístico correcto (modelos, gráficos, interpretación) 25%
Visualización y despliegue funcional en Streamlit 20%
Informe final (teoría + resultados + síntesis NotebookLM) 15%
Participación efectiva de todos los integrantes en video 10%

7. Recomendaciones

  • Verifiquen su entorno Codespaces antes de ejecutar streamlit run app.py.
  • Documenten cada paso con commits claros.
  • Incluyan las citas de las fuentes de datos y la fecha de descarga en el README.
  • Eviten fuga de datos en el pipeline (mantener data/raw/ sin modificar).
  • Revisen la funcionalidad en el enlace de Streamlit antes de grabar el video final.