1.Introducción

El conjunto de datos mpg (millas por galón) es un conjunto de datos clásico en el análisis estadístico y la ciencia de datos. Este conjunto contiene información sobre diferentes modelos de automóviles, incluyendo características como el consumo de combustible, el número de cilindros, la potencia del motor, el peso del vehículo y el año de fabricación. El objetivo principal del análisis de este conjunto de datos es comprender cómo estas características afectan el rendimiento del combustible y otros aspectos relacionados con los automóviles.

2.Carga de librerías y datos

library(tidyverse)
library(dplyr)
library(patchwork)
datosVehiculo<-mpg
ls(datosVehiculo) # muestra las variables que componen las columnas en la base de dato
##  [1] "class"        "cty"          "cyl"          "displ"        "drv"         
##  [6] "fl"           "hwy"          "manufacturer" "model"        "trans"       
## [11] "year"
datosVehiculo

3.Descripción del conjunto de datos

El conjunto de datos de mpg contiene las siguientes variables variables: El conjunto mpg incluye 234 observaciones y 11 variables, entre ellas:

  • manufacturer: Fabricante del vehículo.
  • model: Modelo del automóvil.
  • displ: cilindrada del motor.(litros).
  • year: Año del modelo.
  • cyl: Número de cilindros.
  • trans: Tipo de transmisión.
  • drv: Tipo de tracción (f = delantera, r = trasera, 4 = 4x4).
  • cty: Consumo en ciudad (millas/galón).
  • hwy: Consumo en carretera (millas/galón).
  • fl: Tipo de conbustible.
  • class: Tipo de automóvil.

4.Análisis descriptivo

En esta sección se realiza un análisis descriptivo del conjunto de datos mpg. El propósito es conocer las características principales de las variables cuantitativas, como el consumo en ciudad (cty), el consumo en carretera (hwy) y la cilindrada del motor (displ).
Además, se presentan visualizaciones que permiten observar la distribución de los datos y posibles relaciones entre variables.

4.1 Resumen general del conjunto de datos

Primero, se calcularán medidas estadísticas básicas (promedio, mínimo, máximo y número de observaciones únicas) para tener una idea general del comportamiento del consumo de combustible para las siguientes variables:

  1. cty
  2. hwy
  3. displ
  4. modelos
resumen_datos<-datosVehiculo %>% 
             summarise(
               promedio_cty= mean(cty),
               maximo_cty =max(cty),
               minimo_cty =min(cty),
               promedio_hwy= mean(hwy),
               maximo_hwy =max(hwy),
               minimo_hwy =min(hwy),
               promedio_displ= mean(displ),
               maximo_displ =max(displ),
               minimo_disply =min(displ),
               numeros_modelos= n()
             )
resumen_datos

4.2 Distribución del consumo en ciudad (cty)

Para observar cómo se distribuyen los valores del consumo urbano, se utiliza un histograma. Este gráfico permite identificar si la mayoría de los vehículos consumen poco o mucho combustible en ciudad.

distribucionCiudad<- ggplot( datosVehiculo, aes(x=cty))+
                    geom_histogram(color = "black",fill="red",binwidth = 5, alpha= 0.7)+
                    labs(
                     title = "Distribucion de valores para consumo urbano",
                     x= "Consumo en ciudad (millas/galón)",
                     y= "COUNT"
                   )
distribucionCiudad

4.3 Distribución del consumo en carretera (hwy)

A continuación, se representa la distribución del consumo en carretera. Esto facilita la comparación con el consumo urbano para observar diferencias de eficiencia.

distribucionCarretera<-ggplot(datosVehiculo, aes(x=hwy))+
                      geom_histogram(color="black", fill= "blue1",binwidth = 4 ,alpha =0.7)+
                      labs(
                        title = "Distribucion de valores para consumo en carretera",
                        x= "Consumo en carretera (millas/galón)",
                        y = "COUNT"
                      )
distribucionCarretera

4.4 Relación entre consumo en ciudad y carretera

En este punto se busca analizar si existe una relación directa entre el consumo urbano (cty) y el consumo en carretera (hwy) tomando como base la clase de vehículo como leyenda, realizando un filtro para la clase de minivan. Se utiliza un diagrama de dispersión que permite visualizar si los vehículos con mejor rendimiento en ciudad también lo tienen en carretera.

relacion_cty_hwy <-ggplot(datosVehiculo, aes(x= cty, y= hwy))+
                   geom_point(aes(color=class), position = "jitter")+
                   geom_point(
                     data = datosVehiculo %>%  filter(class== "minivan"),
                     color= "green"
                   )+
                   geom_point(
                     data = datosVehiculo %>%  filter(class== "minivan"),
                     color= "green", shape=21, size= 5
                   )+
                  scale_color_manual(values = c(compact="lightblue", 
                                                midsize= "lightyellow",
                                                suv= "sienna3", 
                                                "2seater"= "gray32",
                                                midsize="royalblue1", 
                                                minivan= "green",
                                                pickup= "plum3", 
                                                subcompact ="pink2"
                                                ))+
                  labs(
                    title = "Relación de cty vs hwy",
                    x="Consumo en ciudad (millas/galón)",
                    y= "Consumo en carretera (millas/galón)"
                  )
relacion_cty_hwy

4.5 Relación entre cilindrada del motor y consumo

Finalmente, se analiza la relación entre la cilindrada del motor (displ) y el consumo en ciudad (cty) y carretera (hwy). Se espera que a mayor cilindrada, el consumo sea menor debido a motores más grandes y menos eficientes.

motorCiudad<- ggplot( datosVehiculo, aes(displ,cty))+
                    geom_point(aes(color= class))+
                    geom_point(
                      data = datosVehiculo %>% filter(class=="minivan"),
                      color= "green"
                    )+
                   geom_point(
                     data = datosVehiculo %>% filter(class=="minivan"),
                      color= "green", shape=21, size=5
                   )+
                    geom_smooth(color = "sienna3")+
               scale_color_manual(
                 values = c(compact="lightblue", 
                             midsize= "lightyellow",
                             suv= "sienna3", 
                             "2seater"= "gray32",
                              midsize="royalblue1", 
                              minivan= "green",
                              pickup= "plum3", 
                               subcompact ="pink2"
                            )
                  )+
                  labs(
                    title = "Relación de displ vs cty",
                    x="cilindrada del motor(litros)",
                    y= "Consumo en ciudad (millas/galón)"
                  )


motorCarretera<-ggplot(datosVehiculo, aes(displ,hwy))+
               geom_point(aes(color=class))+
               geom_point(
                      data = datosVehiculo %>% filter(class=="minivan"),
                      color= "green"
                    )+
                geom_point(
                     data = datosVehiculo %>% filter(class=="minivan"),
                      color= "green", shape=21, size=5
                   )+
                geom_smooth(color = "sienna3")+
               scale_color_manual(
                 values = c(compact="lightblue", 
                             midsize= "lightyellow",
                             suv= "sienna3", 
                             "2seater"= "gray32",
                              midsize="royalblue1", 
                              minivan= "green",
                              pickup= "plum3", 
                               subcompact ="pink2"
                            )
                  ) +
                  labs(
                    title = "Relación de displ vs hwy",
                    x="cilindrada del motor(litros)",
                    y= "Consumo en carretera (millas/galón)"
                  )

motorCiudad + motorCarretera