Datasets_de

Es un problema común que los enlaces a datasets se rompan o que los datasets sean retirados. Usar bibliotecas que ya los incluyen (“datasets”empaquetados”) garantiza que la tarea sea reproducible y que el estudiante se enfoque en el análisis y no en la “caza” de datos.

El siguiente es un listado de 80 datasets relevantes para ingeniería, extraídos principalmente de pydataset (que sirve como puente a los datasets de R), vega_datasets, sklearn y seaborn.

Se han agrupado por la biblioteca desde donde se cargan y se ha añadido una breve justificación de su relevancia para ingeniería (Ambiental, Civil, Agroindustrial, Industrial, Mecánica, Química, etc.).

1. Datasets de R (vía `pydataset`)

Esta es, en mi opinión, la biblioteca más potente para tu solicitud. Contiene más de 750 datasets clásicos de R, listos para cargarse en un DataFrame de pandas.

Cómo usarlos:

# Instalar: !pip install pydataset
from pydataset import data

# Para ver la lista completa (más de 750)
# print(data())

# Para cargar un dataset específico (ej. calidad del aire)
airquality_df = data('AirQuality')
print(airquality_df.head())

Listado de Datasets (`pydataset`)

AirQuality: Calidad del aire en NY (Ambiental, Química).
attenu: Datos de atenuación de terremotos (Civil, Geología).
austres: Residentes trimestrales en Australia (Series de tiempo, Civil).
beaver1: Datos de temperatura corporal de un castor (Biología, Series de tiempo).
beaver2: Datos de temperatura de otro castor (Biología, Series de tiempo).
Boston: Precios de vivienda en Boston (Civil, Economía).
cars: Distancia de frenado de autos (Mecánica, Seguridad Vial).
ChickWeight: Efecto de dietas en pollos (Agroindustrial).
CO2: Absorción de CO2 en plantas (Agrícola, Ambiental).
construction: Empleo en el sector construcción (Civil, Economía).
corrosion: Corrosión de metales (Materiales, Química).
discoveries: Descubrimientos anuales (Series de tiempo).
earthquake: Terremotos frente a Fiyi (Sismología, Civil).
energy: Datos de consumo de energía (Industrial, Eléctrica).
faithful: Erupciones del géiser “Old Faithful” (Geología, Series de tiempo).
Formaldehyde: Calibración de espectrómetro (Química).
freeny: Datos económicos (Economía).
gas: Consumo de gas (Industrial).
Groundwater: Nivel de agua subterránea (Hidrología, Civil).
Housing: Precios de vivienda (Civil).
hydro: Datos hidrológicos (Hidrología, Civil).
Indometh: Farmacocinética de Indometacina (Química, Bioingeniería).
iris: Famoso dataset de clasificación de flores (Clasificación, Biología).
JohnsonJohnson: Ganancias trimestrales (Series de tiempo, Economía).
LakeHuron: Nivel del Lago Hurón (Series de tiempo, Hidrología).
Loblolly: Crecimiento de pinos (Forestal, Agrícola).
longley: Datos macroeconómicos de EE.UU. (Economía).
lynx: Trampeo de linces (Ecología, Series de tiempo).
minnwind: Velocidad del viento (Energía Eólica, Ambiental).
MotorCycles: Aceleración de motocicletas (Mecánica).
nhtemp: Temperaturas medias anuales (Clima, Ambiental).
Nile: Flujo del río Nilo (Hidrología, Series de tiempo).
Orange: Crecimiento de naranjos (Agrícola).
OrchardSprays: Efecto de aerosoles en huertos (Agroindustrial).
PlantGrowth: Crecimiento de plantas (Agrícola).
pressure: Presión de vapor de Mercurio (Física, Química).
Puromycin: Reacción enzimática (Química, Bioingeniería).
quakes: Terremotos (Sismología, Civil).
rivers: Longitud de ríos en Norteamérica (Geografía, Hidrología).
rock: Medidas de permeabilidad de rocas (Geología, Minería).
Rubber: Datos de producción de caucho (Industrial, Química).
Seatbelts: Muertes en carretera (Seguridad Vial, Civil).
sleep: Efecto de somníferos (Biología).
soil: Contaminación del suelo (Ambiental, Agrícola).
sunspot.month: Manchas solares mensuales (Series de tiempo, Física).
sunspot.year: Manchas solares anuales (Series de tiempo, Física).
Theoph: Farmacocinética de Teofilina (Química, Bioingeniería).
trees: Volumen de madera (Forestal, Agrícola).
USAccDeaths: Muertes accidentales en EE.UU. (Series de tiempo, Seguridad).
uspop: Población de EE.UU. (Demografía, Civil).
volcano: Topografía de un volcán (Geología, Topografía).
warpbreaks: Roturas en telares (Industrial, Textil).
water: Consumo de agua en Baltimore (Civil, Hidrología).

2. Datasets de `vega_datasets`

Excelentes para visualización, muchos están relacionados con geografía, clima y economía.

Cómo usarlos:

# Instalar: !pip install vega_datasets
from vega_datasets import data

# Para cargar un dataset (ej. clima de Seattle)
weather_df = data.seattle_weather()
print(weather_df.head())

Listado de Datasets (`vega_datasets`)

airports: Aeropuertos de EE.UU. (Transporte, Civil).
burtin: Datos de antibióticos (Química, Agroindustrial).
cars: Datos de vehículos (Mecánica, Transporte).
co2_concentration: Concentración de CO2 (Ambiental, Series de tiempo).
disasters: Desastres mayores (Riesgo, Civil).
earthquakes: Terremotos recientes (Geología, Civil).
flights: Vuelos (Transporte, Series de tiempo).
gapminder: Datos mundiales de salud y economía (Economía, Social).
global_temp: Temperaturas globales (Clima, Ambiental).
iowa_electricity: Consumo eléctrico (Energía, Industrial).
seattle_temps: Temperaturas de Seattle (Clima, Series de tiempo).
seattle_weather: Clima diario de Seattle (Clima, Ambiental).
sf_temps: Temperaturas de San Francisco (Clima, Series de tiempo).
stocks: Precios de acciones (Economía, Series de tiempo).
us_employment: Empleo en EE.UU. (Economía, Civil).
windvectors: Vectores de viento (Energía Eólica, Clima).

3. Datasets de `scikit-learn`

Son los datasets clásicos para machine learning. Vienen en un formato “Bunch” que debe convertirse a DataFrame.

Cómo usarlos:

from sklearn.datasets import fetch_california_housing
import pandas as pd

# Cargar el dataset (viene en un formato objeto "Bunch")
cal_housing = fetch_california_housing()

# Convertir a DataFrame de Pandas
cal_df = pd.DataFrame(cal_housing.data, columns=cal_housing.feature_names)
cal_df['Target_Price'] = cal_housing.target
print(cal_df.head())

Listado de Datasets (`sklearn.datasets`)

fetch_california_housing: Precios de vivienda en California (Civil, Economía).
load_diabetes: Progresión de la diabetes (Biomédica).
load_linnerud: Datos de ejercicio físico (Biometría).
load_wine: Análisis químico de vinos (Agroindustrial, Química).
load_breast_cancer: Datos de cáncer (Biomédica).

4. Datasets de `seaborn`

Al igual que vega_datasets, son perfectos para visualización y análisis exploratorio.

Cómo usarlos:

# Instalar: !pip install seaborn
import seaborn as sns

# Cargar un dataset (ej. consumo de combustible)
mpg_df = sns.load_dataset('mpg')
print(mpg_df.head())

Listado de Datasets (`seaborn`)

car_crashes: Accidentes de auto (Seguridad Vial, Transporte).
diamonds: Precios y propiedades de diamantes (Materiales, Geología).
exercise: Datos de ejercicio (Biometría).
flights: Pasajeros aéreos (Series de tiempo, Transporte).
mpg: Eficiencia de combustible (Mecánica, Ambiental).
planets: Exoplanetas descubiertos (Física).

Datasets_de_Python

Justo Fuentes

2025-10-22

1. Datasets de R (vía `pydataset`)

Listado de Datasets (`pydataset`)

2. Datasets de `vega_datasets`

Listado de Datasets (`vega_datasets`)

3. Datasets de `scikit-learn`

Listado de Datasets (`sklearn.datasets`)

4. Datasets de `seaborn`

Listado de Datasets (`seaborn`)

Datasets_de_Python

Justo Fuentes

2025-10-22

1. Datasets de R (vía pydataset)

Listado de Datasets (pydataset)

2. Datasets de vega_datasets

Listado de Datasets (vega_datasets)

3. Datasets de scikit-learn

Listado de Datasets (sklearn.datasets)

4. Datasets de seaborn

Listado de Datasets (seaborn)

1. Datasets de R (vía `pydataset`)

Listado de Datasets (`pydataset`)

2. Datasets de `vega_datasets`

Listado de Datasets (`vega_datasets`)

3. Datasets de `scikit-learn`

Listado de Datasets (`sklearn.datasets`)

4. Datasets de `seaborn`

Listado de Datasets (`seaborn`)