Es un problema común que los enlaces a datasets se rompan o que los datasets sean retirados. Usar bibliotecas que ya los incluyen (“datasets”empaquetados”) garantiza que la tarea sea reproducible y que el estudiante se enfoque en el análisis y no en la “caza” de datos.

El siguiente es un listado de 80 datasets relevantes para ingeniería, extraídos principalmente de pydataset (que sirve como puente a los datasets de R), vega_datasets, sklearn y seaborn.

Se han agrupado por la biblioteca desde donde se cargan y se ha añadido una breve justificación de su relevancia para ingeniería (Ambiental, Civil, Agroindustrial, Industrial, Mecánica, Química, etc.).


1. Datasets de R (vía pydataset)

Esta es, en mi opinión, la biblioteca más potente para tu solicitud. Contiene más de 750 datasets clásicos de R, listos para cargarse en un DataFrame de pandas.

Cómo usarlos:

# Instalar: !pip install pydataset
from pydataset import data

# Para ver la lista completa (más de 750)
# print(data())

# Para cargar un dataset específico (ej. calidad del aire)
airquality_df = data('AirQuality')
print(airquality_df.head())

Listado de Datasets (pydataset)

  1. AirQuality: Calidad del aire en NY (Ambiental, Química).
  2. attenu: Datos de atenuación de terremotos (Civil, Geología).
  3. austres: Residentes trimestrales en Australia (Series de tiempo, Civil).
  4. beaver1: Datos de temperatura corporal de un castor (Biología, Series de tiempo).
  5. beaver2: Datos de temperatura de otro castor (Biología, Series de tiempo).
  6. Boston: Precios de vivienda en Boston (Civil, Economía).
  7. cars: Distancia de frenado de autos (Mecánica, Seguridad Vial).
  8. ChickWeight: Efecto de dietas en pollos (Agroindustrial).
  9. CO2: Absorción de CO2 en plantas (Agrícola, Ambiental).
  10. construction: Empleo en el sector construcción (Civil, Economía).
  11. corrosion: Corrosión de metales (Materiales, Química).
  12. discoveries: Descubrimientos anuales (Series de tiempo).
  13. earthquake: Terremotos frente a Fiyi (Sismología, Civil).
  14. energy: Datos de consumo de energía (Industrial, Eléctrica).
  15. faithful: Erupciones del géiser “Old Faithful” (Geología, Series de tiempo).
  16. Formaldehyde: Calibración de espectrómetro (Química).
  17. freeny: Datos económicos (Economía).
  18. gas: Consumo de gas (Industrial).
  19. Groundwater: Nivel de agua subterránea (Hidrología, Civil).
  20. Housing: Precios de vivienda (Civil).
  21. hydro: Datos hidrológicos (Hidrología, Civil).
  22. Indometh: Farmacocinética de Indometacina (Química, Bioingeniería).
  23. iris: Famoso dataset de clasificación de flores (Clasificación, Biología).
  24. JohnsonJohnson: Ganancias trimestrales (Series de tiempo, Economía).
  25. LakeHuron: Nivel del Lago Hurón (Series de tiempo, Hidrología).
  26. Loblolly: Crecimiento de pinos (Forestal, Agrícola).
  27. longley: Datos macroeconómicos de EE.UU. (Economía).
  28. lynx: Trampeo de linces (Ecología, Series de tiempo).
  29. minnwind: Velocidad del viento (Energía Eólica, Ambiental).
  30. MotorCycles: Aceleración de motocicletas (Mecánica).
  31. nhtemp: Temperaturas medias anuales (Clima, Ambiental).
  32. Nile: Flujo del río Nilo (Hidrología, Series de tiempo).
  33. Orange: Crecimiento de naranjos (Agrícola).
  34. OrchardSprays: Efecto de aerosoles en huertos (Agroindustrial).
  35. PlantGrowth: Crecimiento de plantas (Agrícola).
  36. pressure: Presión de vapor de Mercurio (Física, Química).
  37. Puromycin: Reacción enzimática (Química, Bioingeniería).
  38. quakes: Terremotos (Sismología, Civil).
  39. rivers: Longitud de ríos en Norteamérica (Geografía, Hidrología).
  40. rock: Medidas de permeabilidad de rocas (Geología, Minería).
  41. Rubber: Datos de producción de caucho (Industrial, Química).
  42. Seatbelts: Muertes en carretera (Seguridad Vial, Civil).
  43. sleep: Efecto de somníferos (Biología).
  44. soil: Contaminación del suelo (Ambiental, Agrícola).
  45. sunspot.month: Manchas solares mensuales (Series de tiempo, Física).
  46. sunspot.year: Manchas solares anuales (Series de tiempo, Física).
  47. Theoph: Farmacocinética de Teofilina (Química, Bioingeniería).
  48. trees: Volumen de madera (Forestal, Agrícola).
  49. USAccDeaths: Muertes accidentales en EE.UU. (Series de tiempo, Seguridad).
  50. uspop: Población de EE.UU. (Demografía, Civil).
  51. volcano: Topografía de un volcán (Geología, Topografía).
  52. warpbreaks: Roturas en telares (Industrial, Textil).
  53. water: Consumo de agua en Baltimore (Civil, Hidrología).

2. Datasets de vega_datasets

Excelentes para visualización, muchos están relacionados con geografía, clima y economía.

Cómo usarlos:

# Instalar: !pip install vega_datasets
from vega_datasets import data

# Para cargar un dataset (ej. clima de Seattle)
weather_df = data.seattle_weather()
print(weather_df.head())

Listado de Datasets (vega_datasets)

  1. airports: Aeropuertos de EE.UU. (Transporte, Civil).
  2. burtin: Datos de antibióticos (Química, Agroindustrial).
  3. cars: Datos de vehículos (Mecánica, Transporte).
  4. co2_concentration: Concentración de CO2 (Ambiental, Series de tiempo).
  5. disasters: Desastres mayores (Riesgo, Civil).
  6. earthquakes: Terremotos recientes (Geología, Civil).
  7. flights: Vuelos (Transporte, Series de tiempo).
  8. gapminder: Datos mundiales de salud y economía (Economía, Social).
  9. global_temp: Temperaturas globales (Clima, Ambiental).
  10. iowa_electricity: Consumo eléctrico (Energía, Industrial).
  11. seattle_temps: Temperaturas de Seattle (Clima, Series de tiempo).
  12. seattle_weather: Clima diario de Seattle (Clima, Ambiental).
  13. sf_temps: Temperaturas de San Francisco (Clima, Series de tiempo).
  14. stocks: Precios de acciones (Economía, Series de tiempo).
  15. us_employment: Empleo en EE.UU. (Economía, Civil).
  16. windvectors: Vectores de viento (Energía Eólica, Clima).

3. Datasets de scikit-learn

Son los datasets clásicos para machine learning. Vienen en un formato “Bunch” que debe convertirse a DataFrame.

Cómo usarlos:

from sklearn.datasets import fetch_california_housing
import pandas as pd

# Cargar el dataset (viene en un formato objeto "Bunch")
cal_housing = fetch_california_housing()

# Convertir a DataFrame de Pandas
cal_df = pd.DataFrame(cal_housing.data, columns=cal_housing.feature_names)
cal_df['Target_Price'] = cal_housing.target
print(cal_df.head())

Listado de Datasets (sklearn.datasets)

  1. fetch_california_housing: Precios de vivienda en California (Civil, Economía).
  2. load_diabetes: Progresión de la diabetes (Biomédica).
  3. load_linnerud: Datos de ejercicio físico (Biometría).
  4. load_wine: Análisis químico de vinos (Agroindustrial, Química).
  5. load_breast_cancer: Datos de cáncer (Biomédica).

4. Datasets de seaborn

Al igual que vega_datasets, son perfectos para visualización y análisis exploratorio.

Cómo usarlos:

# Instalar: !pip install seaborn
import seaborn as sns

# Cargar un dataset (ej. consumo de combustible)
mpg_df = sns.load_dataset('mpg')
print(mpg_df.head())

Listado de Datasets (seaborn)

  1. car_crashes: Accidentes de auto (Seguridad Vial, Transporte).
  2. diamonds: Precios y propiedades de diamantes (Materiales, Geología).
  3. exercise: Datos de ejercicio (Biometría).
  4. flights: Pasajeros aéreos (Series de tiempo, Transporte).
  5. mpg: Eficiencia de combustible (Mecánica, Ambiental).
  6. planets: Exoplanetas descubiertos (Física).