Descripción de los datos

El conjunto de datos mpg proviene del paquete ggplot2 de R y contiene información sobre el rendimiento de combustible de 38 modelos de automóviles populares entre los años 1999 y 2008. Los datos fueron recopilados por la Agencia de Protección Ambiental de los Estados Unidos (EPA) y están disponibles en su sitio web (http://fueleconomy.gov). El dataset contiene 234 observaciones y 11 variables que describen características del vehículo como el fabricante, modelo, tipo de motor, tracción y consumo de combustible en ciudad y carretera.

Tabla de variables

Variable	Descripción
manufacturer	Fabricante del vehículo (ej. audi, toyota)
model	Modelo del vehículo
displ	Cilindrada del motor en litros
year	Año de fabricación (1999 o 2008)
cyl	Número de cilindros del motor
trans	Tipo de transmisión (automática o manual)
drv	Tipo de tracción (f=delantera, r=trasera, 4=4x4)
cty	Rendimiento en ciudad (millas por galón)
hwy	Rendimiento en carretera (millas por galón)
fl	Tipo de combustible
class	Clase o categoría del vehículo

Visualizaciones de datos

Gráfica 1: Cilindrada vs. Rendimiento en Carretera

ggplot(mpg, aes(x = displ, y = hwy, color = class)) +
  geom_point(size = 2) +
  labs(
    title = "Cilindrada del motor vs. Rendimiento en carretera",
    x = "Cilindrada (litros)",
    y = "Rendimiento en carretera (mpg)",
    color = "Clase de vehículo"
  ) +
  theme_minimal()

Esta gráfica de dispersión muestra la relación entre la cilindrada del motor (displ) y el rendimiento en carretera (hwy), coloreada según la clase del vehículo. Se puede observar una clara tendencia negativa: a mayor cilindrada, menor rendimiento de combustible. Los vehículos compactos y de tamaño mediano tienden a tener motores más pequeños y mejor rendimiento, mientras que las camionetas y SUVs tienen motores grandes y consumen más combustible.

Gráfica 2: Distribución de rendimiento en ciudad por tipo de tracción

ggplot(mpg, aes(x = drv, y = cty, fill = drv)) +
  geom_bar(stat = "summary", fun = "mean") +
  labs(
    title = "Rendimiento promedio en ciudad por tipo de tracción",
    x = "Tipo de tracción",
    y = "Rendimiento promedio en ciudad (mpg)",
    fill = "Tracción"
  ) +
  scale_x_discrete(labels = c("4" = "4x4", "f" = "Delantera", "r" = "Trasera")) +
  theme_minimal()

Este diagrama de barras muestra el rendimiento promedio en ciudad según el tipo de tracción del vehículo. Se observa que los vehículos con tracción delantera (f) tienen el mejor rendimiento en ciudad, seguidos por los de tracción trasera (r). Los vehículos con tracción 4x4 tienen el rendimiento más bajo, lo cual tiene sentido ya que suelen ser más pesados y con motores más potentes.

Gráfica 3: Evolución del rendimiento entre 1999 y 2008

    mpg_año <- mpg %>%
    group_by(year, class) %>%
    summarise(hwy_promedio = mean(hwy), .groups = "drop")
    ggplot(mpg_año, aes(x = factor(year), y = hwy_promedio,
    group = class, color = class)) + geom_line(linewidth = 1) + geom_point(size = 3) +
    labs(
      title = "Rendimiento promedio en carretera: 1999 vs 2008",
      x = "Año",
      y = "Rendimiento promedio (mpg)",
      color = "Clase de vehículo"
    ) +
    theme_minimal()

Esta gráfica de líneas compara el rendimiento promedio en carretera de cada clase de vehículo entre 1999 y 2008. Permite identificar qué categorías mejoraron su eficiencia con el tiempo y cuáles no tuvieron cambios significativos. Se puede observar que algunas clases como los vehículos compactos mantuvieron un rendimiento estable, mientras que otras categorías muestran variaciones notables entre ambos años.

Gráfica 4: Cantidad de modelos por fabricante

mpg_fab <- mpg %>%
  group_by(manufacturer) %>%
  summarise(total = n()) %>%
  arrange(desc(total))

ggplot(mpg_fab, aes(x = reorder(manufacturer, total), y = total, 
                     fill = total)) +
  geom_bar(stat = "identity") +
  coord_flip() +
  scale_fill_gradient(low = "#a8d8ea", high = "#0a3d62") +
  labs(
    title = "Cantidad de registros por fabricante",
    x = "Fabricante",
    y = "Número de registros",
    fill = "Total"
  ) +
  theme_minimal()

Este diagrama de barras horizontales muestra cuántos registros tiene cada fabricante en el dataset. Dodge, Toyota y Volkswagen son los fabricantes con mayor representación. Esto es importante tenerlo en cuenta al interpretar otras gráficas, ya que los fabricantes con más registros tienen mayor peso en los promedios generales del dataset.

Proyecto: Resumen del dataset mpg del paquete ggplot2

José Roberto Bautista Rojas