1 1. Introducción

El objetivo de este informe es aplicar técnicas de ciencia de datos a problemas de tipo biológico y ambiental, utilizando fuentes abiertas de datos disponibles en plataformas como Kaggle, UCI Machine Learning Repository, y otras bases de datos científicas relevantes.

Cada estudiante debe seleccionar y desarrollar un proyecto que aborden los siguientes tipos de modelos:

Se debe justificar el contexto, la metodología, la selección de datos y los resultados obtenidos.


2 2. Fuentes de Datos Abiertas Recomendadas

A continuación se presentan algunas plataformas confiables donde pueden obtenerse datos abiertos de calidad para los proyectos:

Plataforma Enlace Descripción
Kaggle https://www.kaggle.com/ Comunidad de ciencia de datos con miles de conjuntos de datos sobre clima, biodiversidad, salud, contaminación, etc.
UCI Machine Learning Repository https://archive.ics.uci.edu/ml/index.php Fuente clásica de datos para proyectos de aprendizaje automático, con categorías ambientales y biológicas.
GBIF - Global Biodiversity Information Facility https://www.gbif.org/ Repositorio global de datos de biodiversidad, útil para modelos de nicho ecológico.
NASA EarthData https://earthdata.nasa.gov/ Datos satelitales abiertos sobre variables climáticas, uso de suelo, y fenómenos naturales.
NOAA (National Oceanic and Atmospheric Administration) https://www.ncei.noaa.gov/ Datos climáticos, meteorológicos y oceanográficos.
OpenDataSoft https://data.opendatasoft.com/ Portal de datos públicos con categorías ambientales, urbanas y ecológicas.

3 3. Contexto y Justificación del Proyecto

Cada estudiante debe:

  1. Seleccionar un problema de interés biológico o ambiental (por ejemplo: distribución de una especie, calidad del aire, predicción de temperatura, etc.).
  2. Describir el contexto científico o social del problema.
  3. Explicar qué técnica de modelado utilizará y por qué es adecuada.
  4. Justificar la elección del conjunto de datos (fuente, tipo de variables, tamaño, relevancia).

Ejemplo de justificación:
> Se seleccionó un conjunto de datos sobre concentración de CO₂ y temperatura global para aplicar un modelo de regresión, dado que el objetivo es predecir tendencias de calentamiento basadas en mediciones históricas.