Pregunta de investigación

¿Existe alguna diferencia en el rendimiento y la longitud total entre el origen del vehículo?

Relaciones entre variables continuas

ggplot(Autos_Limpia, aes(x=mpg, y=length, color=foreign)) +
  geom_point(alpha=0.7) +
  scale_color_brewer(palette = "Dark2", name="Origen del vehículo") +
  labs(title = "Relación entre rendimiento, longitud total y el origen del vehículo",
       x="rendimiento",
       y="Longitud total") +
  theme_light(base_size = 14)

En esta gráfica se observa una tendencia en donde los vehículos más largos tienen un rendimiento menor de millas por galón

Una de caja con facetado

Los Autos nacionales tienen una calificación de reparación de 5 cuando su rendimiento es de 30 millas por galón, pero no es una tendencia lineal, pues las demas calificaciones el rendimiento es menor de 20 millas. los autos extranjeros tienen una calificación mayor, pero tampoco se relaciiona al rendimiento.

ggplot(Autos_Limpia, aes(x = foreign, y = mpg, fill = foreign)) +
  geom_boxplot() +
  scale_fill_brewer(palette = "Dark2", name = "Origen del vehículo") +
  labs(title = "Distribución del rendimiento por origen y reparaciones",
       x = "Origen del vehículo",
       y = "Rendimiento (mpg)") +
  facet_wrap(~ rep78) +
  theme_light(base_size = 14)

Una de distribución o composición

los autos extranjeros tienen un rendimiento promedio mayor a los nacionales

# 1. Preparar los datos para las líneas y definir la posición Y de las etiquetas
datos_resumen <- Autos_Limpia %>%
  group_by(foreign) %>%
  summarise(
    media_mpg = mean(mpg, na.rm = TRUE),
    mediana_mpg = median(mpg, na.rm = TRUE),
    # Define la altura de la etiqueta para cada grupo. 
    # Ajusta '0.08' si tus curvas son más altas o bajas.
    y_pos = 0.08 
  )

# 2. Construir el gráfico de densidad y añadir las líneas y etiquetas
ggplot(Autos_Limpia, aes(x = mpg, fill = foreign, color = foreign)) +
  geom_density(alpha = 0.5) +
  
  # Líneas de la media
  geom_vline(data = datos_resumen, aes(xintercept = media_mpg, color = foreign),
             linetype = "dashed", linewidth = 1) +
  
  # Líneas de la mediana
  geom_vline(data = datos_resumen, aes(xintercept = mediana_mpg, color = foreign),
             linetype = "dotted", linewidth = 1) +
  
  # Añadir etiquetas de texto para la media
  geom_text(data = datos_resumen, aes(x = media_mpg, y = y_pos, label = "Media"),
            hjust = -0.1, vjust = 0.5, size = 4, fontface = "bold", show.legend = FALSE) +

  # Añadir etiquetas de texto para la mediana
  geom_text(data = datos_resumen, aes(x = mediana_mpg, y = y_pos - 0.01, label = "Mediana"),
            hjust = 1.1, vjust = 0.5, size = 4, fontface = "bold", show.legend = FALSE) +
       
  labs(
    title = "Distribución del rendimiento (mpg) por origen con media y mediana",
    x = "Rendimiento (mpg)",
    y = "Densidad",
    fill = "Origen del vehículo",
    color = "Origen del vehículo"
  ) +
  scale_fill_brewer(palette = "Dark2") +
  scale_color_brewer(palette = "Dark2") +
  theme_light(base_size = 14) +
  # Usa coord_cartesian para asegurarte de que las etiquetas se vean completamente
  coord_cartesian(ylim = c(0, 0.1), clip = "off")

ggplot(Autos_Limpia, aes(x = mpg, y = length)) +
  # Añade los puntos del scatter plot como referencia
  geom_point(aes(color = foreign), alpha = 0.5) +
  # Añade las líneas de contorno de densidad bivariada
  geom_density_2d(color = "black") +
  # Separa el gráfico en paneles por la variable 'foreign'
  facet_wrap(~ foreign) +
  labs(
    title = "Distribución Bivariada de Rendimiento y Longitud por Origen",
    x = "Rendimiento (mpg)",
    y = "Longitud total",
    color = "Origen del vehículo"
  ) +
  theme_light(base_size = 14)

En la última gráfica se observa la relación de que los autos extrajeros tienen una longitud menor en promedio y eso mueve el promedio de rendimiento, a primera vista parecería que los autos extranjeros tienen un rendimiento mayor. se podrían hacer subgrupos de la longitud para analizar el rendimiento, tambien se podría agregar el peso para hacer un analisis maás completo.