El objetivo de este informe es aplicar técnicas de ciencia de datos a problemas de tipo biológico y ambiental, utilizando fuentes abiertas de datos disponibles en plataformas como Kaggle, UCI Machine Learning Repository, y otras bases de datos científicas relevantes.
Cada estudiante debe seleccionar y desarrollar un proyecto que aborden los siguientes tipos de modelos:
Se debe justificar el contexto, la metodología, la selección de datos y los resultados obtenidos.
A continuación se presentan algunas plataformas confiables donde pueden obtenerse datos abiertos de calidad para los proyectos:
| Plataforma | Enlace | Descripción |
|---|---|---|
| Kaggle | https://www.kaggle.com/ | Comunidad de ciencia de datos con miles de conjuntos de datos sobre clima, biodiversidad, salud, contaminación, etc. |
| UCI Machine Learning Repository | https://archive.ics.uci.edu/ml/index.php | Fuente clásica de datos para proyectos de aprendizaje automático, con categorías ambientales y biológicas. |
| GBIF - Global Biodiversity Information Facility | https://www.gbif.org/ | Repositorio global de datos de biodiversidad, útil para modelos de nicho ecológico. |
| NASA EarthData | https://earthdata.nasa.gov/ | Datos satelitales abiertos sobre variables climáticas, uso de suelo, y fenómenos naturales. |
| NOAA (National Oceanic and Atmospheric Administration) | https://www.ncei.noaa.gov/ | Datos climáticos, meteorológicos y oceanográficos. |
| OpenDataSoft | https://data.opendatasoft.com/ | Portal de datos públicos con categorías ambientales, urbanas y ecológicas. |
Cada estudiante debe:
Ejemplo de justificación:
> Se seleccionó un conjunto de datos sobre concentración de CO₂ y
temperatura global para aplicar un modelo de regresión, dado que el
objetivo es predecir tendencias de calentamiento basadas en mediciones
históricas.