Ciencia de Datos, Machine Learning y Sustentabilidad

Programa Académico Universitario
Mag. Mara Destefanis • •

Fundamentación Académica

La ciencia de datos y el machine learning constituyen herramientas fundamentales para comprender y anticipar fenómenos complejos en el contexto contemporáneo. En el ámbito específico de la sustentabilidad, estas disciplinas permiten analizar grandes volúmenes de información ambiental y social, identificar patrones significativos y generar modelos predictivos que contribuyen a la toma de decisiones con impacto positivo en comunidades y ecosistemas.

Este programa académico propone un recorrido teórico-práctico y científico que integra de manera sistémica los siguientes componentes:

  • Fundamentos técnicos: Python y R aplicados a ciencia de datos y análisis estadístico
  • Marco teórico: Econometría y perspectiva holística para la comprensión de datos ambientales
  • Aplicación práctica: Machine Learning orientado a problemáticas ambientales
  • Indicadores especializados: Métricas de sustentabilidad (huella de carbono, hídrica, ecológica)
  • Proyectos aplicados: Desarrollo con datasets reales y análisis ético sobre IA y medio ambiente

Objetivos Generales

Formar profesionales capaces de aplicar metodologías de ciencia de datos y machine learning para abordar desafíos contemporáneos en sustentabilidad, desarrollando competencias técnicas, analíticas y éticas para la toma de decisiones basada en evidencia.

Perfil del Egresado

Al finalizar este programa, los estudiantes estarán capacitados para:

  • Analizar y procesar grandes volúmenes de datos ambientales y sociales
  • Implementar algoritmos de machine learning para predicciones ambientales
  • Desarrollar indicadores de sustentabilidad basados en datos
  • Comunicar resultados científicos a audiencias especializadas y generales
  • Evaluar implicaciones éticas de la inteligencia artificial en sustentabilidad

Información Académica

Datos del Programa

  • Modalidad: Presencial con componente virtual
  • Duración: 16 semanas (1 semestre académico)
  • Carga horaria: 120 horas académicas (8 horas semanales)
  • Créditos: 8 créditos ECTS
  • Prerrequisitos: Conocimientos básicos de estadística y programación

Metodología de Enseñanza

  • Clases magistrales: 40% - Fundamentos teóricos y conceptuales
  • Laboratorios prácticos: 35% - Implementación en Python y R
  • Seminarios y debates: 15% - Análisis de casos y ética
  • Proyecto integrador: 10% - Aplicación práctica

Sistema de Evaluación

Componente Porcentaje Descripción
Evaluaciones parciales 40% 2 exámenes teórico-prácticos
Laboratorios y tareas 30% Entregas semanales
Proyecto final 25% Presentación oral y escrita
Participación 5% Asistencia y participación en clase

Recursos Tecnológicos

  • Python 3.9+ con librerías especializadas (pandas, scikit-learn, tensorflow)
  • R y RStudio para análisis estadístico complementario
  • Jupyter Notebooks para documentación de código
  • Plataformas de datasets: Kaggle, Google Colab
  • Acceso a bases de datos ambientales internacionales

Módulo 1 – Introducción a la Ciencia de Datos y Python

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Epistemología de la ciencia de datos: definición y alcances
  • El ciclo de vida del dato: recolección, limpieza, análisis y comunicación
  • Ecosistema Python para análisis de datos
  • Librerías fundamentales: pandas, numpy, matplotlib, seaborn
  • Entornos de desarrollo: Jupyter, Google Colab, IDEs

Actividades Prácticas

  • Instalación y configuración del entorno de desarrollo
  • Análisis exploratorio de dataset de consumo energético global
  • Creación de primeras visualizaciones con matplotlib
  • Ejercicios de manipulación de datos con pandas

Competencias Adquiridas

  • Comprender el flujo de trabajo completo en ciencia de datos
  • Dominar herramientas básicas de Python para análisis de datos
  • Desarrollar capacidad de exploración y descripción de datasets iniciales
  • Aplicar principios de documentación y reproducibilidad en código

Bibliografía Específica

  • McKinney, W. (2022). Python for Data Analysis, 3rd Edition. O’Reilly Media.
  • VanderPlas, J. (2023). Python Data Science Handbook, 2nd Edition. O’Reilly Media.

Módulo 2 – Naturaleza de los Datos y Mirada Holística Científica

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Taxonomía de datos ambientales y sociales
  • Fundamentos de econometría aplicada a sustentabilidad
  • Indicadores clave de sustentabilidad:
    • Huella de carbono: metodologías y cálculo
    • Huella hídrica: conceptos y aplicaciones
    • Huella ecológica: medición y análisis
  • Limitaciones, incertidumbre y sesgos en datos ambientales
  • Modelos de sistemas complejos y pensamiento holístico
  • Teoría de sistemas aplicada a problemáticas ambientales

Actividades Prácticas

  • Análisis de series temporales de concentraciones de CO₂ atmosférico
  • Calculadora de huella de carbono personal con Python/R
  • Estudio de caso comparativo: huella hídrica en diferentes sistemas agrícolas
  • Modelado de sistemas: interacciones clima-agricultura-sociedad

Competencias Adquiridas

  • Identificar y clasificar diferentes tipos de datos ambientales y sociales
  • Aplicar conceptos econométricos básicos en contextos de sustentabilidad
  • Calcular y interpretar indicadores de huella ambiental
  • Desarrollar pensamiento sistémico e interdisciplinario
  • Evaluar críticamente limitaciones y sesgos en datos ambientales

Bibliografía Específica

  • Hoekstra, A. Y. (2019). Water Footprint Assessment: Evolving Towards Ecological Realism. Water Resources Management, 33(4).
  • Carbon Trust. (2022). Carbon Footprinting: The Step-by-Step Guide to Measuring and Managing Carbon Footprints.

Módulo 3 – Visualización y Storytelling de Datos

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Principios de visualización de datos científicos
  • Teoría del color y percepción visual
  • Librerías avanzadas: matplotlib, seaborn, plotly, ggplot2 (R)
  • Visualizaciones interactivas y dashboards
  • Storytelling con datos: narrativa científica
  • Comunicación a audiencias diversas

Actividades Prácticas

  • Creación de gráficas sobre emisiones de CO₂ por país y sector
  • Dashboard interactivo de indicadores de sustentabilidad
  • Mapas de calor de calidad del aire urbano
  • Presentación de resultados para audiencias no técnicas

Competencias Adquiridas

  • Crear visualizaciones efectivas y científicamente rigurosas
  • Comunicar resultados complejos a públicos no especializados
  • Construir narrativas convincentes con base en datos
  • Desarrollar dashboards interactivos para monitoreo ambiental

Módulo 4 – Machine Learning aplicado a Sustentabilidad

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Fundamentos teóricos del aprendizaje automático
  • Aprendizaje supervisado vs. no supervisado
  • Algoritmos fundamentales:
    • Regresión lineal y logística
    • Árboles de decisión y Random Forest
    • Clustering (K-means, jerárquico)
    • Support Vector Machines
  • Métricas de evaluación y validación cruzada
  • Overfitting y técnicas de regularización

Actividades Prácticas

  • Predicción de calidad del aire basada en variables climáticas
  • Clasificación de zonas de riesgo ambiental
  • Clustering de países según indicadores de sustentabilidad
  • Optimización de modelos con scikit-learn y caret (R)

Competencias Adquiridas

  • Comprender fundamentos matemáticos del machine learning
  • Implementar algoritmos básicos en datasets ambientales
  • Evaluar y validar modelos predictivos
  • Interpretar métricas de desempeño en contexto científico

Módulo 5 – Fuentes de Datos y Open Data Ambiental

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Ecosistema de datos abiertos ambientales
  • Fuentes institucionales: FAO, NASA, NOAA, World Bank
  • Plataformas especializadas: Our World in Data, Global Carbon Atlas
  • APIs y web scraping ético
  • Datos de sensores IoT y monitoreo en tiempo real
  • Integración y limpieza de múltiples fuentes

Actividades Prácticas

  • Pipeline automatizado con datos de calidad de agua
  • Integración de datos satelitales y terrestres
  • Creación de base de datos unificada de indicadores ambientales
  • Automatización de recolección con Python/R

Competencias Adquiridas

  • Identificar y acceder fuentes de datos ambientales confiables
  • Integrar datos de múltiples fuentes y formatos
  • Construir pipelines robustos de recolección y procesamiento
  • Implementar procesos de limpieza y validación de datos

Módulo 6 – Deep Learning y Predicciones Ambientales

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Fundamentos de redes neuronales artificiales
  • Arquitecturas para datos ambientales:
    • Redes convolucionales (CNN) para imágenes satelitales
    • Redes recurrentes (LSTM) para series temporales
  • Transfer learning en aplicaciones ambientales
  • Agricultura de precisión y monitoreo satelital
  • Detección de cambios en uso de suelo

Actividades Prácticas

  • Clasificación de imágenes satelitales para detección de deforestación
  • Predicción de rendimiento agrícola con datos multiespectrales
  • Monitoreo de cambios en glaciares mediante CNN
  • Implementación con TensorFlow/Keras y torch (R)

Competencias Adquiridas

  • Comprender arquitecturas básicas de redes neuronales
  • Aplicar deep learning a imágenes satelitales y series temporales
  • Relacionar predicciones con problemáticas ambientales reales
  • Evaluar limitaciones computacionales y energéticas

Bibliografía Específica

  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  • Reichstein, M. et al. (2019). Deep learning and process understanding for data-driven Earth system science. Nature, 566(7743).

Módulo 7 – Ética, Energía y Responsabilidad en la IA

Duración: 2 semanas | Horas: 15 horas académicas

Contenidos Temáticos

  • Fundamentos de ética en inteligencia artificial aplicada
  • Identificación y mitigación de sesgos algorítmicos
  • Análisis del impacto energético del machine learning
  • Green AI: desarrollo de algoritmos eficientes energéticamente
  • Responsabilidad social del científico de datos en sustentabilidad
  • Dilemas éticos entre innovación tecnológica y conservación ambiental
  • Marco regulatorio y gobernanza de la IA ambiental

Actividades Prácticas

  • Auditoría de sesgos en datasets ambientales
  • Calculadora de huella de carbono de modelos ML
  • Debate estructurado: “Inteligencia Artificial vs. Sustentabilidad”
  • Propuesta de código de ética para científicos de datos ambientales
  • Análisis de casos: controversias en IA y medio ambiente

Competencias Adquiridas

  • Identificar y evaluar riesgos éticos en IA aplicada a sustentabilidad
  • Calcular y minimizar impacto energético de modelos computacionales
  • Argumentar posiciones fundamentadas en debates científico-éticos
  • Proponer alternativas tecnológicamente responsables
  • Desarrollar pensamiento crítico sobre innovación y sustentabilidad

Bibliografía Específica

  • Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. Proceedings of ACL.
  • O’Neil, C. (2016). Weapons of Math Destruction: How Big Data Increases Inequality. Crown Publishing.
  • Jobin, A., Ienca, M., & Vayena, E. (2019). The global landscape of AI ethics guidelines. Nature Machine Intelligence, 1(9).

Módulo 8 – Proyecto Final Integrador

Duración: 2 semanas | Horas: 15 horas académicas

Descripción del Proyecto

El proyecto final integrador constituye la culminación académica del programa, donde los estudiantes, organizados en equipos interdisciplinarios de 3-4 integrantes, desarrollan una investigación aplicada que demuestre el dominio de las competencias adquiridas a lo largo del curso.

Líneas de Investigación Sugeridas

  1. Gestión Hídrica Inteligente: Predicción de consumo de agua en comunidades rurales utilizando variables climáticas y sociodemográficas
  2. Movilidad Sustentable: Análisis y optimización de emisiones de CO₂ en sistemas de transporte público urbano
  3. Agricultura de Precisión: Optimización de cultivos con menor impacto ambiental mediante análisis de suelos y clima
  4. Energías Renovables: Predicción de generación eólica y solar para optimización de redes eléctricas
  5. Biodiversidad y Conservación: Monitoreo de especies mediante análisis de imágenes y datos de sensores remotos
  6. Economía Circular: Optimización de cadenas de reciclaje usando ML y análisis de flujos de materiales

Metodología de Desarrollo

Semana 1: Formulación del problema

  • Definición de objetivos específicos y preguntas de investigación
  • Revisión bibliográfica y estado del arte
  • Identificación de fuentes de datos relevantes

Semana 2: Implementación técnica

  • Recolección y procesamiento de datos
  • Análisis exploratorio y visualización
  • Implementación de modelos ML apropiados
  • Validación y evaluación de resultados

Entregables del Proyecto

  • Código documentado: Jupyter notebooks/R Markdown con análisis completo y reproducible
  • Informe técnico: Documento de 15-20 páginas siguiendo estándares científicos
  • Dashboard interactivo: Visualización web de resultados principales
  • Presentación oral: Defensa de 20 minutos + 10 minutos de preguntas
  • Dataset procesado: Bases de datos limpias y documentadas

Criterios de Evaluación

Rúbrica de Evaluación (100 puntos)

Criterio Puntos Descripción
Rigor técnico y metodológico 25 Correcta aplicación de técnicas ML, validación estadística, reproducibilidad
Relevancia e impacto ambiental 20 Pertinencia del problema, potencial aplicación práctica, contribución a sustentabilidad
Calidad del análisis de datos 20 Exploración exhaustiva, limpieza apropiada, visualizaciones informativas
Comunicación científica 20 Claridad del informe, efectividad de presentación, terminología técnica
Trabajo en equipo e innovación 15 Distribución equitativa, originalidad, consideraciones éticas

Ejemplos de Proyectos Exitosos

  • “AquaPredict”: Sistema de predicción de disponibilidad hídrica en cuencas andinas usando ML y datos satelitales
  • “CarbonTrace”: Plataforma de monitoreo de emisiones urbanas integrando sensores IoT y modelos predictivos
  • “EcoFarm Analytics”: Optimización de fertilización agrícola mediante análisis de suelos y predicción climática
  • “RenewableFlow”: Sistema de pronóstico de generación eólica para integración a red eléctrica nacional

Cronograma de Entregas

Día Entregable
Día 3 Propuesta de proyecto (2 páginas máximo)
Día 7 Avance parcial - Análisis exploratorio de datos
Día 10 Primera versión de modelos ML
Día 14 Entrega final completa (código + informe + dashboard)
Día 15 Presentaciones orales y defensa de proyectos

Contacto: | Oficina: Horarios de consulta: