Como actividad 3 del curso de R, Se presenta la siguiente descripción de la base de datos sobre autos. Esta base contiene 74 observaciones y 13 variables.
Contiene las siguientes variables:
names(Autos_Limpia)
## [1] "Marca" "Modelo" "price" "mpg" "rep78"
## [6] "headroom" "trunk" "weight" "length" "turn"
## [11] "displacement" "gear_ratio" "foreign"
Con la siguiente estructura de datos
glimpse(Autos_Limpia)
## Rows: 74
## Columns: 13
## $ Marca <fct> AMC, AMC, AMC, Buick, Buick, Buick, Buick, Buick, Buick, …
## $ Modelo <chr> "Concord", "Pacer", "Spirit", "Century", "Electra", "LeSa…
## $ price <dbl> 4099, 4749, 3799, 4816, 7827, 5788, 4453, 5189, 10372, 40…
## $ mpg <dbl> 22, 17, 22, 20, 15, 18, 26, 20, 16, 19, 14, 14, 21, 29, 1…
## $ rep78 <dbl> 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 2, 3, 3, 4, 3, 2, 2, 3, …
## $ headroom <dbl> 2.5, 3.0, 3.0, 4.5, 4.0, 4.0, 3.0, 2.0, 3.5, 3.5, 4.0, 3.…
## $ trunk <dbl> 11, 11, 12, 16, 20, 21, 10, 16, 17, 13, 20, 16, 13, 9, 20…
## $ weight <dbl> 2930, 3350, 2640, 3250, 4080, 3670, 2230, 3280, 3880, 340…
## $ length <dbl> 186, 173, 168, 196, 222, 218, 170, 200, 207, 200, 221, 20…
## $ turn <dbl> 40, 40, 35, 40, 43, 43, 34, 42, 43, 42, 44, 43, 45, 34, 4…
## $ displacement <dbl> 121, 258, 121, 196, 350, 231, 304, 196, 231, 231, 425, 35…
## $ gear_ratio <dbl> 3.58, 2.53, 3.08, 2.93, 2.41, 2.73, 2.87, 2.93, 2.93, 3.0…
## $ foreign <fct> Domestic, Domestic, Domestic, Domestic, Domestic, Domesti…
summary(Autos_Limpia)
## Marca Modelo price mpg
## Buick : 7 Length:74 Min. : 3291 Min. :12.00
## Olds : 7 Class :character 1st Qu.: 4220 1st Qu.:18.00
## Chev. : 6 Mode :character Median : 5006 Median :20.00
## Merc. : 6 Mean : 6165 Mean :21.30
## Pont. : 6 3rd Qu.: 6332 3rd Qu.:24.75
## Plym. : 5 Max. :15906 Max. :41.00
## (Other):37
## rep78 headroom trunk weight length
## Min. :1.000 Min. :1.500 Min. : 5.00 Min. :1760 Min. :142.0
## 1st Qu.:3.000 1st Qu.:2.500 1st Qu.:10.25 1st Qu.:2250 1st Qu.:170.0
## Median :3.000 Median :3.000 Median :14.00 Median :3190 Median :192.5
## Mean :3.378 Mean :2.993 Mean :13.76 Mean :3019 Mean :187.9
## 3rd Qu.:4.000 3rd Qu.:3.500 3rd Qu.:16.75 3rd Qu.:3600 3rd Qu.:203.8
## Max. :5.000 Max. :5.000 Max. :23.00 Max. :4840 Max. :233.0
##
## turn displacement gear_ratio foreign
## Min. :31.00 Min. : 79.0 Min. :2.190 Domestic:52
## 1st Qu.:36.00 1st Qu.:119.0 1st Qu.:2.730 Foreign :22
## Median :40.00 Median :196.0 Median :2.955
## Mean :39.65 Mean :197.3 Mean :3.015
## 3rd Qu.:43.00 3rd Qu.:245.2 3rd Qu.:3.352
## Max. :51.00 Max. :425.0 Max. :3.890
##
ggplot(data = Autos_Limpia, aes(x=price))+
geom_histogram(binwidth = 1000, fill="turquoise",
color="black", alpha=1)+
labs(title = "Histograma de precios de autos", x="Precio", y="Frecuencia")
La mayor frecuencia en el precio es de 4000 dolares,
ggplot(Autos_Limpia, aes(x=factor(foreign), y=price))+
geom_boxplot(fill="steelblue1", color="black", alpha=0.7)+
labs(title = "Diagrama de caja de precio por procedencia del Auto", x="Procedencia",
y="Precio")
Comparando el precio y la procedencian de los autos, observamos que en
promedio los autos extranjeros son más caros, aunque hay algunos dotos
extremos para ambos grupos, en los autos domesticos hay autos más caros
que los extranjeros.
ggplot(Autos_Limpia, aes(x=weight, y=displacement))+
geom_point(color="maroon3", size=2, alpha=0.7)+
geom_smooth(method = "lm", color = "blue", se = TRUE) +
labs(title = "Diagrama de disperción de peso vs cilindrada", x="Peso",
y="Cilindrada")
## `geom_smooth()` using formula = 'y ~ x'
Diagrama de disperción de para relacionar el peso del vehículo con la
cilindrada se observa una relación positiva, al aumentar el peso del
vehículo
ggplot(Autos_Limpia, aes(x=rep78, fill=factor(Marca)))+
geom_bar(position = "stack", color="black")+
labs(title = "Gráfico de barras de la calificación de la reparación por marca",
x="calificación de la reparación", y="Frecuencia", fill="Marca") +
facet_wrap(~ foreign)
Gráfico de barras apiladas de la calificación de reparación por marca,
es un poco dificil encontrar una tendencia porque son muchas marcas. Por
eso los separé por la procedencia encontrando que los vehiculos
extranjeros tuvieron una calificación más alta de reparación.
En el ejerciciio anterior se realizó el tratamiento de los datos
perdidos. La variable rep 78 tiene 5 valores perdidos, la media es 3.406
y la mediana es 3, dado que no hay otro elemento para recuperar la
calificación de la reparación usaré la mediana.