Es un problema común que los enlaces a datasets se rompan o que los datasets sean retirados. Usar bibliotecas que ya los incluyen (“datasets”empaquetados”) garantiza que la tarea sea reproducible y que el estudiante se enfoque en el análisis y no en la “caza” de datos.
El siguiente es un listado de 80 datasets relevantes
para ingeniería, extraídos principalmente de pydataset (que
sirve como puente a los datasets de R), vega_datasets,
sklearn y seaborn.
Se han agrupado por la biblioteca desde donde se cargan y se ha añadido una breve justificación de su relevancia para ingeniería (Ambiental, Civil, Agroindustrial, Industrial, Mecánica, Química, etc.).
pydataset)Esta es, en mi opinión, la biblioteca más potente para tu solicitud. Contiene más de 750 datasets clásicos de R, listos para cargarse en un DataFrame de pandas.
Cómo usarlos:
# Instalar: !pip install pydataset
from pydataset import data
# Para ver la lista completa (más de 750)
# print(data())
# Para cargar un dataset específico (ej. calidad del aire)
airquality_df = data('AirQuality')
print(airquality_df.head())
pydataset)AirQuality: Calidad del aire en NY
(Ambiental, Química).attenu: Datos de atenuación de
terremotos (Civil, Geología).austres: Residentes trimestrales en
Australia (Series de tiempo, Civil).beaver1: Datos de temperatura corporal
de un castor (Biología, Series de tiempo).beaver2: Datos de temperatura de otro
castor (Biología, Series de tiempo).Boston: Precios de vivienda en Boston
(Civil, Economía).cars: Distancia de frenado de autos
(Mecánica, Seguridad Vial).ChickWeight: Efecto de dietas en
pollos (Agroindustrial).CO2: Absorción de CO2 en plantas
(Agrícola, Ambiental).construction: Empleo en el sector
construcción (Civil, Economía).corrosion: Corrosión de metales
(Materiales, Química).discoveries: Descubrimientos anuales
(Series de tiempo).earthquake: Terremotos frente a Fiyi
(Sismología, Civil).energy: Datos de consumo de energía
(Industrial, Eléctrica).faithful: Erupciones del géiser “Old
Faithful” (Geología, Series de tiempo).Formaldehyde: Calibración de
espectrómetro (Química).freeny: Datos económicos
(Economía).gas: Consumo de gas (Industrial).Groundwater: Nivel de agua subterránea
(Hidrología, Civil).Housing: Precios de vivienda
(Civil).hydro: Datos hidrológicos (Hidrología,
Civil).Indometh: Farmacocinética de
Indometacina (Química, Bioingeniería).iris: Famoso dataset de clasificación
de flores (Clasificación, Biología).JohnsonJohnson: Ganancias trimestrales
(Series de tiempo, Economía).LakeHuron: Nivel del Lago Hurón
(Series de tiempo, Hidrología).Loblolly: Crecimiento de pinos
(Forestal, Agrícola).longley: Datos macroeconómicos de
EE.UU. (Economía).lynx: Trampeo de linces (Ecología,
Series de tiempo).minnwind: Velocidad del viento
(Energía Eólica, Ambiental).MotorCycles: Aceleración de
motocicletas (Mecánica).nhtemp: Temperaturas medias anuales
(Clima, Ambiental).Nile: Flujo del río Nilo (Hidrología,
Series de tiempo).Orange: Crecimiento de naranjos
(Agrícola).OrchardSprays: Efecto de aerosoles en
huertos (Agroindustrial).PlantGrowth: Crecimiento de plantas
(Agrícola).pressure: Presión de vapor de Mercurio
(Física, Química).Puromycin: Reacción enzimática
(Química, Bioingeniería).quakes: Terremotos (Sismología,
Civil).rivers: Longitud de ríos en
Norteamérica (Geografía, Hidrología).rock: Medidas de permeabilidad de
rocas (Geología, Minería).Rubber: Datos de producción de caucho
(Industrial, Química).Seatbelts: Muertes en carretera
(Seguridad Vial, Civil).sleep: Efecto de somníferos
(Biología).soil: Contaminación del suelo
(Ambiental, Agrícola).sunspot.month: Manchas solares
mensuales (Series de tiempo, Física).sunspot.year: Manchas solares anuales
(Series de tiempo, Física).Theoph: Farmacocinética de Teofilina
(Química, Bioingeniería).trees: Volumen de madera (Forestal,
Agrícola).USAccDeaths: Muertes accidentales en
EE.UU. (Series de tiempo, Seguridad).uspop: Población de EE.UU.
(Demografía, Civil).volcano: Topografía de un volcán
(Geología, Topografía).warpbreaks: Roturas en telares
(Industrial, Textil).water: Consumo de agua en Baltimore
(Civil, Hidrología).vega_datasetsExcelentes para visualización, muchos están relacionados con geografía, clima y economía.
Cómo usarlos:
# Instalar: !pip install vega_datasets
from vega_datasets import data
# Para cargar un dataset (ej. clima de Seattle)
weather_df = data.seattle_weather()
print(weather_df.head())
vega_datasets)airports: Aeropuertos de EE.UU.
(Transporte, Civil).burtin: Datos de antibióticos
(Química, Agroindustrial).cars: Datos de vehículos (Mecánica,
Transporte).co2_concentration: Concentración de
CO2 (Ambiental, Series de tiempo).disasters: Desastres mayores (Riesgo,
Civil).earthquakes: Terremotos recientes
(Geología, Civil).flights: Vuelos (Transporte, Series de
tiempo).gapminder: Datos mundiales de salud y
economía (Economía, Social).global_temp: Temperaturas globales
(Clima, Ambiental).iowa_electricity: Consumo eléctrico
(Energía, Industrial).seattle_temps: Temperaturas de Seattle
(Clima, Series de tiempo).seattle_weather: Clima diario de
Seattle (Clima, Ambiental).sf_temps: Temperaturas de San
Francisco (Clima, Series de tiempo).stocks: Precios de acciones (Economía,
Series de tiempo).us_employment: Empleo en EE.UU.
(Economía, Civil).windvectors: Vectores de viento
(Energía Eólica, Clima).scikit-learnSon los datasets clásicos para machine learning. Vienen en un formato “Bunch” que debe convertirse a DataFrame.
Cómo usarlos:
from sklearn.datasets import fetch_california_housing
import pandas as pd
# Cargar el dataset (viene en un formato objeto "Bunch")
cal_housing = fetch_california_housing()
# Convertir a DataFrame de Pandas
cal_df = pd.DataFrame(cal_housing.data, columns=cal_housing.feature_names)
cal_df['Target_Price'] = cal_housing.target
print(cal_df.head())
sklearn.datasets)fetch_california_housing: Precios de
vivienda en California (Civil, Economía).load_diabetes: Progresión de la
diabetes (Biomédica).load_linnerud: Datos de ejercicio
físico (Biometría).load_wine: Análisis químico de vinos
(Agroindustrial, Química).load_breast_cancer: Datos de cáncer
(Biomédica).seabornAl igual que vega_datasets, son perfectos para
visualización y análisis exploratorio.
Cómo usarlos:
# Instalar: !pip install seaborn
import seaborn as sns
# Cargar un dataset (ej. consumo de combustible)
mpg_df = sns.load_dataset('mpg')
print(mpg_df.head())
seaborn)car_crashes: Accidentes de auto
(Seguridad Vial, Transporte).diamonds: Precios y propiedades de
diamantes (Materiales, Geología).exercise: Datos de ejercicio
(Biometría).flights: Pasajeros aéreos (Series de
tiempo, Transporte).mpg: Eficiencia de combustible
(Mecánica, Ambiental).planets: Exoplanetas descubiertos
(Física).