##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
El conjunto de datos mpg proviene del paquete
ggplot2 de R y contiene información sobre el rendimiento de
combustible de 38 modelos de automóviles populares entre los años 1999 y
2008. Los datos fueron recopilados por la Agencia de Protección
Ambiental de los Estados Unidos (EPA) y están disponibles en su sitio
web (http://fueleconomy.gov). El dataset contiene 234
observaciones y 11 variables que describen características del vehículo
como el fabricante, modelo, tipo de motor, tracción y consumo de
combustible en ciudad y carretera.
| Variable | Descripción |
|---|---|
| manufacturer | Fabricante del vehículo (ej. audi, toyota) |
| model | Modelo del vehículo |
| displ | Cilindrada del motor en litros |
| year | Año de fabricación (1999 o 2008) |
| cyl | Número de cilindros del motor |
| trans | Tipo de transmisión (automática o manual) |
| drv | Tipo de tracción (f=delantera, r=trasera, 4=4x4) |
| cty | Rendimiento en ciudad (millas por galón) |
| hwy | Rendimiento en carretera (millas por galón) |
| fl | Tipo de combustible |
| class | Clase o categoría del vehículo |
ggplot(mpg, aes(x = displ, y = hwy, color = class)) +
geom_point(size = 2) +
labs(
title = "Cilindrada del motor vs. Rendimiento en carretera",
x = "Cilindrada (litros)",
y = "Rendimiento en carretera (mpg)",
color = "Clase de vehículo"
) +
theme_minimal()
Esta gráfica de dispersión muestra la relación entre la cilindrada
del motor (displ) y el rendimiento en carretera
(hwy), coloreada según la clase del vehículo. Se puede
observar una clara tendencia negativa: a mayor
cilindrada, menor rendimiento de combustible. Los vehículos compactos y
de tamaño mediano tienden a tener motores más pequeños y mejor
rendimiento, mientras que las camionetas y SUVs tienen motores grandes y
consumen más combustible.
ggplot(mpg, aes(x = drv, y = cty, fill = drv)) +
geom_bar(stat = "summary", fun = "mean") +
labs(
title = "Rendimiento promedio en ciudad por tipo de tracción",
x = "Tipo de tracción",
y = "Rendimiento promedio en ciudad (mpg)",
fill = "Tracción"
) +
scale_x_discrete(labels = c("4" = "4x4", "f" = "Delantera", "r" = "Trasera")) +
theme_minimal()
Este diagrama de barras muestra el rendimiento promedio en
ciudad según el tipo de tracción del vehículo. Se observa que
los vehículos con tracción delantera (f) tienen el mejor
rendimiento en ciudad, seguidos por los de tracción trasera
(r). Los vehículos con tracción 4x4 tienen el rendimiento
más bajo, lo cual tiene sentido ya que suelen ser más pesados y con
motores más potentes.
mpg_año <- mpg %>%
group_by(year, class) %>%
summarise(hwy_promedio = mean(hwy), .groups = "drop")
ggplot(mpg_año, aes(x = factor(year), y = hwy_promedio,
group = class, color = class)) + geom_line(linewidth = 1) + geom_point(size = 3) +
labs(
title = "Rendimiento promedio en carretera: 1999 vs 2008",
x = "Año",
y = "Rendimiento promedio (mpg)",
color = "Clase de vehículo"
) +
theme_minimal()
Esta gráfica de líneas compara el rendimiento promedio en carretera de cada clase de vehículo entre 1999 y 2008. Permite identificar qué categorías mejoraron su eficiencia con el tiempo y cuáles no tuvieron cambios significativos. Se puede observar que algunas clases como los vehículos compactos mantuvieron un rendimiento estable, mientras que otras categorías muestran variaciones notables entre ambos años.
mpg_fab <- mpg %>%
group_by(manufacturer) %>%
summarise(total = n()) %>%
arrange(desc(total))
ggplot(mpg_fab, aes(x = reorder(manufacturer, total), y = total,
fill = total)) +
geom_bar(stat = "identity") +
coord_flip() +
scale_fill_gradient(low = "#a8d8ea", high = "#0a3d62") +
labs(
title = "Cantidad de registros por fabricante",
x = "Fabricante",
y = "Número de registros",
fill = "Total"
) +
theme_minimal()
Este diagrama de barras horizontales muestra cuántos registros tiene cada fabricante en el dataset. Dodge, Toyota y Volkswagen son los fabricantes con mayor representación. Esto es importante tenerlo en cuenta al interpretar otras gráficas, ya que los fabricantes con más registros tienen mayor peso en los promedios generales del dataset.