Exploración gráfica de la base de datos de Autos

Como actividad 3 del curso de R, Se presenta la siguiente descripción de la base de datos sobre autos. Esta base contiene 74 observaciones y 13 variables.

Contiene las siguientes variables:

names(Autos_Limpia)
##  [1] "Marca"        "Modelo"       "price"        "mpg"          "rep78"       
##  [6] "headroom"     "trunk"        "weight"       "length"       "turn"        
## [11] "displacement" "gear_ratio"   "foreign"

Con la siguiente estructura de datos

glimpse(Autos_Limpia)
## Rows: 74
## Columns: 13
## $ Marca        <fct> AMC, AMC, AMC, Buick, Buick, Buick, Buick, Buick, Buick, …
## $ Modelo       <chr> "Concord", "Pacer", "Spirit", "Century", "Electra", "LeSa…
## $ price        <dbl> 4099, 4749, 3799, 4816, 7827, 5788, 4453, 5189, 10372, 40…
## $ mpg          <dbl> 22, 17, 22, 20, 15, 18, 26, 20, 16, 19, 14, 14, 21, 29, 1…
## $ rep78        <dbl> 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 2, 3, 3, 4, 3, 2, 2, 3, …
## $ headroom     <dbl> 2.5, 3.0, 3.0, 4.5, 4.0, 4.0, 3.0, 2.0, 3.5, 3.5, 4.0, 3.…
## $ trunk        <dbl> 11, 11, 12, 16, 20, 21, 10, 16, 17, 13, 20, 16, 13, 9, 20…
## $ weight       <dbl> 2930, 3350, 2640, 3250, 4080, 3670, 2230, 3280, 3880, 340…
## $ length       <dbl> 186, 173, 168, 196, 222, 218, 170, 200, 207, 200, 221, 20…
## $ turn         <dbl> 40, 40, 35, 40, 43, 43, 34, 42, 43, 42, 44, 43, 45, 34, 4…
## $ displacement <dbl> 121, 258, 121, 196, 350, 231, 304, 196, 231, 231, 425, 35…
## $ gear_ratio   <dbl> 3.58, 2.53, 3.08, 2.93, 2.41, 2.73, 2.87, 2.93, 2.93, 3.0…
## $ foreign      <fct> Domestic, Domestic, Domestic, Domestic, Domestic, Domesti…
summary(Autos_Limpia)
##      Marca       Modelo              price            mpg       
##  Buick  : 7   Length:74          Min.   : 3291   Min.   :12.00  
##  Olds   : 7   Class :character   1st Qu.: 4220   1st Qu.:18.00  
##  Chev.  : 6   Mode  :character   Median : 5006   Median :20.00  
##  Merc.  : 6                      Mean   : 6165   Mean   :21.30  
##  Pont.  : 6                      3rd Qu.: 6332   3rd Qu.:24.75  
##  Plym.  : 5                      Max.   :15906   Max.   :41.00  
##  (Other):37                                                     
##      rep78          headroom         trunk           weight         length     
##  Min.   :1.000   Min.   :1.500   Min.   : 5.00   Min.   :1760   Min.   :142.0  
##  1st Qu.:3.000   1st Qu.:2.500   1st Qu.:10.25   1st Qu.:2250   1st Qu.:170.0  
##  Median :3.000   Median :3.000   Median :14.00   Median :3190   Median :192.5  
##  Mean   :3.378   Mean   :2.993   Mean   :13.76   Mean   :3019   Mean   :187.9  
##  3rd Qu.:4.000   3rd Qu.:3.500   3rd Qu.:16.75   3rd Qu.:3600   3rd Qu.:203.8  
##  Max.   :5.000   Max.   :5.000   Max.   :23.00   Max.   :4840   Max.   :233.0  
##                                                                                
##       turn        displacement     gear_ratio        foreign  
##  Min.   :31.00   Min.   : 79.0   Min.   :2.190   Domestic:52  
##  1st Qu.:36.00   1st Qu.:119.0   1st Qu.:2.730   Foreign :22  
##  Median :40.00   Median :196.0   Median :2.955                
##  Mean   :39.65   Mean   :197.3   Mean   :3.015                
##  3rd Qu.:43.00   3rd Qu.:245.2   3rd Qu.:3.352                
##  Max.   :51.00   Max.   :425.0   Max.   :3.890                
## 

Visualizaciones con ggplot2 que muestren distribuciones (histogramas o boxplots), relaciones (dispersión) y comparaciones (barras).

ggplot(data = Autos_Limpia, aes(x=price))+
  geom_histogram(binwidth = 1000, fill="turquoise",
                 color="black", alpha=1)+
  labs(title = "Histograma de precios de autos", x="Precio", y="Frecuencia")

La mayor frecuencia en el precio es de 4000 dolares,

ggplot(Autos_Limpia, aes(x=factor(foreign), y=price))+
  geom_boxplot(fill="steelblue1", color="black", alpha=0.7)+
  labs(title = "Diagrama de caja de precio por procedencia del Auto", x="Procedencia", 
       y="Precio")

Comparando el precio y la procedencian de los autos, observamos que en promedio los autos extranjeros son más caros, aunque hay algunos dotos extremos para ambos grupos, en los autos domesticos hay autos más caros que los extranjeros.

ggplot(Autos_Limpia, aes(x=weight, y=displacement))+
  geom_point(color="maroon3", size=2, alpha=0.7)+
  geom_smooth(method = "lm", color = "blue", se = TRUE) +
  labs(title = "Diagrama de disperción de peso vs cilindrada", x="Peso", 
       y="Cilindrada")
## `geom_smooth()` using formula = 'y ~ x'

Diagrama de disperción de para relacionar el peso del vehículo con la cilindrada se observa una relación positiva, al aumentar el peso del vehículo

ggplot(Autos_Limpia, aes(x=rep78, fill=factor(Marca)))+
  geom_bar(position = "stack", color="black")+
  labs(title = "Gráfico de barras de la calificación de la reparación por marca",
       x="calificación de la reparación", y="Frecuencia", fill="Marca") +
  facet_wrap(~ foreign)

Gráfico de barras apiladas de la calificación de reparación por marca, es un poco dificil encontrar una tendencia porque son muchas marcas. Por eso los separé por la procedencia encontrando que los vehiculos extranjeros tuvieron una calificación más alta de reparación.

Tratamiento explícito de NA y filtros


En el ejerciciio anterior se realizó el tratamiento de los datos perdidos. La variable rep 78 tiene 5 valores perdidos, la media es 3.406 y la mediana es 3, dado que no hay otro elemento para recuperar la calificación de la reparación usaré la mediana.