Desarrollo del Proyecto - entrega 2

Lectura base de datos

La base de datos a trabajar brinda información sobre distintos modelos de vehículos con sus respectivas características de las cuales algunas se analizarán en los siguientes puntos.

Datos_Vehiculos<- read_delim("Datos_Vehiculos.csv", 
    delim = ";", escape_double = FALSE, trim_ws = TRUE)

#procesamiento de datos
#str(Datos_Vehiculos)
Datos_Vehiculos$make <- as.factor(Datos_Vehiculos$make)

# Declaración de niveles correctos para las variables tipo Factor
level_make=c(BMW="BMW",bmw="BMW",lincoln="Lincoln", Lincoln= "Lincoln")
## Modificación del formato y transformación de variables
Datos_Vehiculos = transform(Datos_Vehiculos,
                  make=factor(dplyr::recode(make,!!!level_make))
)

#str(Datos_Vehiculos)

Punto 1

###Punto 1###
#Correlacion
correlacion<-cor(Datos_Vehiculos[,c(9,10,14,15)],use ="complete.obs")
#correlacion de las variables cuantitativas
corrplot(correlacion, method = "number", type = "full")#grafico

La correlación de Pearson evalúa la relación lineal existente entre dos varaibles cuantitativas. Por lo tanto, en este caso se analizan las variables: condition, odometer, mmr, selling price.

Se puede observar que se encuentra una relación positiva alta entre las variables mmr y el precio de venta, es decir, que a medida que una de las variables aumenta, la otra también se comporta de manera muy cercana y consistente. Esto se puede entender debido a que mmr se refiere a un indicador que presenta el valor de un vehículo estimado en el mercado en un momento determinado, por lo tanto, se utiliza para evaluar el precio justo al que se vende un vehículo.

Por otro lado, también se observa la existencia de correlaciones negativas, en este caso, se resalta la correlación entre mmr y odometer, aunque sigue siendo una correlación negativa débil. El odómetro es un dispositivo que mide la distancia total recorrida por el vehículo, normalmente expresada en millas o kilómetros, por lo que es un valor importante para evaluar el nivel de uso del vehículo. Por lo anterior, la relación entre la variable odometer y mmr se entiende en la medida en que entre mayor sea el nivel de uso del vehículo, menor tiende a ser su precio estimado.

Punto 2

#Punto 2 
#Crear el diagrama de cajas
ggplot(Datos_Vehiculos, aes(x = make, y = sellingprice)) +
  geom_boxplot(fill = "skyblue", color = "black") +
  labs(title = "Diagrama de cajas de Precio de Venta por Marca",
       x = "Marca",
       y = "Precio de Venta") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))  # Rotación de los nombres de las marcas

En la figura anterior, se puede observar que existe una alta variabilidad entre los precios de venta de los vehículos dependiendo de la marca a la que se refiere y la mayoría presenta valores atípicos tanto altos como bajos, lo cual indica que hay una alta diferencia entre los datos máximos y mínimos con el cuartil 3 y 1 respectivamente.

Las marcas con precios más heterogéneos parecen ser de las marcas BMW, Mercedes-Benz y Audi, por la forma de la distribución de sus datos de modo que presentan precios muy altos y bajos; aunque Mercedes-Benz no presenta datos atípicos.

Por otro lado, entre las marcas más homogéneas se encuentran FIAT, Ford, Jaguar, MINI, Mitsubishi.

Entre las marcas que llegan a alcanzar los precios más altos se encuentran Audi y Porsche, siendo esta segunda la que en general muestra ofrecer vehículos con precios más altos que los demás para todo su rango de valores. Entre las marcas con precios más bajos se encuentran Nissan y MINI, para las cuales se obtienen lo valores mínimos, sin embargo, en general para toda su distribución la marca que muestra ofrecer precios más bajos es FIAT, con una distribución homogénea de precios favorables al público . Además, es notorio que la mayoría de las marcas toman precios por debajo de los 25000 dólares, mientras que las marcas de gama alta son las que superan este rango de precio.

Punto 3

# 1. Crear una tabla cruzada (frecuencias)

tabla_cruzada <- table(Datos_Vehiculos$color, Datos_Vehiculos$interior)

# Mostrar la tabla cruzada de manera más legible
kable(tabla_cruzada)

	—	beige	black	blue	brown	burgundy	gray	off-white	red	silver	tan	white
—	0	6	23	0	0	0	5	0	0	0	0	0
beige	0	4	0	0	1	0	2	0	0	0	1	0
black	13	20	176	0	1	0	30	0	1	0	6	0
blue	4	3	30	0	2	0	24	1	0	0	2	0
brown	0	4	4	0	1	0	2	0	0	0	0	0
burgundy	2	3	4	0	0	0	0	0	0	0	1	0
charcoal	0	0	1	0	0	0	0	0	0	0	0	0
gold	0	3	0	0	1	0	0	0	0	0	0	0
gray	10	10	146	1	1	0	45	0	0	0	4	0
green	1	2	3	0	0	0	0	0	0	0	0	0
orange	0	0	2	0	0	0	0	0	0	0	0	0
purple	0	0	3	0	0	0	1	0	0	0	0	0
red	1	8	29	0	0	0	5	0	0	0	3	0
silver	6	1	68	0	0	0	31	1	0	1	1	0
white	18	43	110	0	3	1	42	1	0	0	11	3
yellow	0	0	1	0	0	0	0	0	0	0	0	0

# 3. Crear el gráfico de barras apiladas
ggplot(Datos_Vehiculos, aes(x = color, fill = interior)) +
  geom_bar(position = "stack") +
  labs(title = "Diagrama de Barras Apiladas de Color e Interior",
       x = "Color del Vehículo",
       y = "Cantidad",
       fill = "Tipo de Interior") +
  theme_minimal()+
   theme(axis.text.x = element_text(angle = 45, hjust = 1))

En el gráfico anterior se evidencia que la mayoría de vehículos tienen colores negro, gris y blanco por fuera y el color que más destaca entre ellos para el interior de los vehículos también es negro.

Entre los colores menos populares para el interior del vehículo se encuentran el blanco, azul, borgoña, rojo, plateado; mientras que los más usados son el negro, beige y gris.

Entrega 2 - Estadística

Juan Becerra y Juan Betancourt

2024-10-12

Desarrollo del Proyecto - entrega 2

Lectura base de datos

Punto 1

Punto 2

Punto 3