Tarea Final — Segundo 50% del semestre

Asignatura: Estadística Aplicada con Python y R Programas: Ingeniería Agrícola, Ingeniería Agroindustrial e Ingeniería Civil Periodo académico: Segundo semestre 2025 (Resolución No. 50 de 2025) Modalidad: Trabajo grupal en GitHub Codespaces + Copilot + Streamlit Basada en las guías:


Introducción y justificación

En la actualidad, la inteligencia artificial (IA) ha transformado radicalmente la forma en que se conciben y desarrollan los proyectos de análisis de datos. El avance de modelos generativos y asistentes de programación como GitHub Copilot y ChatGPT ha desplazado el énfasis del “escribir código” hacia el pensamiento analítico, crítico y estratégico.

Hoy no es necesario concentrarse en los detalles sintácticos del código —pues la IA los genera de manera más rápida, limpia y eficiente— sino en definir el problema, comprender los datos, establecer los objetivos del análisis y evaluar los resultados con criterio ingenieril.

Esta tarea se enmarca en esa nueva visión de la enseñanza universitaria: formar profesionales capaces de usar la IA como herramienta de productividad y de pensamiento, centrando su atención en el negocio, la interpretación y la toma de decisiones basadas en datos reales provenientes de fuentes gubernamentales.

El desarrollo en GitHub Codespaces + Copilot, junto con la visualización en Streamlit, promueve la colaboración, la reproducibilidad y la ética en el uso de IA, pilares de la nueva ingeniería de datos aplicada a los sectores agrícola, agroindustrial y civil.


Competencias

Competencia general

Aplicar la estadística aplicada y el análisis de datos asistido por inteligencia artificial para resolver problemas reales de la ingeniería, utilizando entornos colaborativos en la nube y flujos de trabajo reproducibles.

Competencias específicas

  1. Competencia analítica: Comprender y formular problemas de análisis de datos desde un enfoque ingenieril, identificando variables relevantes y criterios de evaluación cuantitativa.

  2. Competencia tecnológica: Utilizar entornos de desarrollo basados en la nube (GitHub Codespaces) y asistentes de IA (Copilot, NotebookLM) para automatizar la creación, ejecución y documentación de proyectos estadísticos.

  3. Competencia interpretativa: Analizar, interpretar y comunicar los resultados de modelos estadísticos y visualizaciones de datos, relacionándolos con el contexto técnico y social de la ingeniería.

  4. Competencia colaborativa: Participar activamente en equipos interdisciplinarios, empleando herramientas digitales para la coautoría, control de versiones, y despliegue de resultados en plataformas públicas (Streamlit, GitHub).

  5. Competencia ética y profesional: Aplicar principios de transparencia, atribución de fuentes y uso responsable de la IA, reconociendo sus límites y su impacto en la práctica profesional.


Estrategias de desarrollo

  1. Aprendizaje asistido por IA: Los estudiantes emplearán Copilot y ChatGPT para generar código, documentación y visualizaciones, priorizando la formulación precisa de prompts y la validación de resultados.

  2. Trabajo colaborativo en la nube: Todos los equipos desarrollarán sus proyectos en GitHub Codespaces, aplicando control de versiones, ramificación y sincronización en grupo.

  3. Desarrollo iterativo y documentado: Cada grupo construirá su proyecto paso a paso, documentando los avances mediante commits y archivos .md generados automáticamente con Copilot.

  4. Visualización y comunicación: Los resultados se presentarán en una app de Streamlit desplegada en la nube, junto con un informe integrador en formato .md y un video expositivo con la participación de todos los integrantes.

  5. Reflexión sobre el rol del ingeniero en la era de la IA: Al final del proyecto, cada grupo incluirá en el README.md una sección breve titulada “Lecciones aprendidas con IA”, reflexionando sobre cómo cambió su forma de pensar el análisis estadístico al trabajar con herramientas inteligentes.

1. Objetivo

Desarrollar un proyecto aplicado de análisis estadístico con Python, utilizando datasets reales de fuentes gubernamentales o institucionales oficiales, para resolver un problema de interés en los campos de la Ingeniería Agrícola, Agroindustrial o Civil.

El propósito es integrar la analítica de datos con IA generativa (Copilot y NotebookLM) para:

  • Automatizar la generación de archivos y documentación.
  • Desplegar los resultados en una página web interactiva en Streamlit Community Cloud.
  • Evidenciar el trabajo colaborativo mediante un video grupal con participación de todos los integrantes.

2. Organización

  • Grupos de trabajo: 3 a 10 estudiantes.

  • Entrega: Repositorio en GitHub con todos los archivos del proyecto.

  • Presentación: Video corto (5–10 min) donde todos los integrantes expongan su parte.

    • Si no participan todos, la calificación grupal será reducida proporcionalmente.

3. Fuentes sugeridas de datos

Cada grupo seleccionará uno de los siguientes portales (descarga mediante API o endpoint JSON/CSV):

Institución Dataset sugerido Aplicación en ingeniería
IDEAM (Colombia) Datos de precipitación, temperatura, caudal Ingeniería Agrícola / Civil
FAOSTAT (FAO) Uso de tierras, rendimiento de cultivos Ingeniería Agrícola / Agroindustrial
DANE Indicadores de construcción, producción industrial Ingeniería Civil / Agroindustrial
Ministerio de Minas y Energía Producción y consumo energético Ingeniería Agroindustrial / Civil
Open Data Colombia Infraestructura vial, agua potable, saneamiento Ingeniería Civil
IGAC Datos de suelos, pendientes, uso de suelo Ingeniería Agrícola

4. Prompts sugeridos para Copilot

4.1. Estructura del proyecto

Prompt 1:

Crea el archivo requirements.txt con los módulos necesarios para análisis estadístico y visualización en Streamlit (pandas, numpy, matplotlib, seaborn, plotly, scikit-learn, streamlit, requests).

Prompt 2:

Genera el archivo README.md explicando el propósito del proyecto, el origen del dataset gubernamental, los objetivos del análisis y las instrucciones de ejecución con streamlit run app.py.


4.2. Contenidos teóricos

Prompt 3:

Crea un archivo teoria_ingenieria.md con la explicación técnica del tema de ingeniería tratado (por ejemplo, relación entre lluvia y caudal, eficiencia energética, rendimiento de cultivos).

Prompt 4:

Crea un archivo teoria_modulos_python.md explicando el uso de los módulos empleados: pandas, numpy, seaborn, scikit-learn, streamlit, requests.


4.3. Descarga de datos

Prompt 5:

Crea un script descarga_datos.py que acceda mediante API o endpoint CSV al dataset seleccionado (por ejemplo, IDEAM o FAOSTAT), lo procese con pandas y lo guarde en la carpeta data/raw/.


4.4. Análisis estadístico

Prompt 6:

Crea el script analisis_datos.py que lea los datos de data/raw/, realice análisis exploratorio, correlaciones, regresión lineal o ANOVA según el tipo de variables, y guarde resultados en data/processed/.


4.5. Interpretación y resultados

Prompt 7:

Crea un archivo interpretacion_resultados.md con un resumen interpretativo de los resultados del análisis, indicando su aplicación práctica en el contexto ingenieril.


4.6. Visualización y despliegue

Prompt 8:

Crea un archivo app.py en Streamlit que:

  • Permita seleccionar variables y mostrar gráficos interactivos.
  • Visualice los resultados del análisis estadístico.
  • Incluya un botón de descarga de resultados (data/processed/).

4.7. Síntesis con IA

Prompt 9:

Integra en informe_final.md los resultados analíticos y teóricos. Luego carga toda la documentación en NotebookLM para generar:

  • Resumen en texto,
  • Resumen en audio,
  • Resumen en video.

Los enlaces o descargas obtenidos deben incluirse en el README final.


5. Entregables

  1. Repositorio GitHub con estructura mínima:
/data
   /raw
   /processed
app.py
requirements.txt
README.md
teoria_ingenieria.md
teoria_modulos_python.md
descarga_datos.py
analisis_datos.py
interpretacion_resultados.md
informe_final.md
  1. Despliegue en Streamlit Community Cloud.
  2. Video grupal explicando el proyecto, participación individual y demostración del despliegue.

6. Evaluación (100%)

Criterio Peso
Generación automatizada con Copilot (estructura y documentación) 15%
Descarga y procesamiento de datos gubernamentales 15%
Análisis estadístico correcto (modelos, gráficos, interpretación) 25%
Visualización y despliegue funcional en Streamlit 20%
Informe final (teoría + resultados + síntesis NotebookLM) 15%
Participación efectiva de todos los integrantes en video 10%

7. Recomendaciones

  • Verifiquen su entorno Codespaces antes de ejecutar streamlit run app.py.
  • Documenten cada paso con commits claros.
  • Incluyan las citas de las fuentes de datos y la fecha de descarga en el README.
  • Eviten fuga de datos en el pipeline (mantener data/raw/ sin modificar).
  • Revisen la funcionalidad en el enlace de Streamlit antes de grabar el video final.