DASHBOARD LARGE CARS DATASET
Juanita Prado, Daniel Marcus, Maria Antonia Gil, Juan Pablo Jaramillo y Martin Valderrama
Datos
El conjunto de datos que vamos a trabajar fue extraído de Kaggle bajo el nombre “Large Dataset of Cars” Este describe y compila un conjunto de datos sobre compañías automotrices, algunos de sus modelos y otras características referentes a especificaciones técnicas.
Model – specific model name of the car MSRP – manufacturer’s suggested retail price DealerCost – the price at which the car is sold by the dealer MPG_City – fuel economy in miles per gallon while driving in city conditions MPG_Highway – fuel economy in miles per gallon while driving on highways Wheelbase – distance between the front and rear wheels Length – total length of the vehicle from bumper to bumper
El tamaño de la muestra es de 1218 datos y las variables entre cuantitativas y cualitativas son 10; sin embargo, serán reprocesadas una vez evaluadas su nivel de pertinencia.
Observación general de los datos y ejemplo grafico univariado
Brand Model VehicleClass Region
Toyota : 28 C240 4dr : 2 Hybrid: 3 Asia :158
Chevrolet : 27 C320 4dr : 2 Sedan :262 Europe:123
Mercedes-Benz: 26 G35 4dr : 2 Sports: 49 USA :147
Ford : 23 3.5 RL 4dr : 1 SUV : 60
BMW : 20 3.5 RL w/Navigation 4dr: 1 Truck : 24
Audi : 19 300M 4dr : 1 Wagon : 30
(Other) :285 (Other) :419
DriveTrain MSRP DealerCost EngineSize Cylinders
All : 92 $13,270 : 2 $14,207 : 2 Min. :1.300 Min. : 3.000
Front:226 $15,389 : 2 $19,638 : 2 1st Qu.:2.375 1st Qu.: 4.000
Rear :110 $19,635 : 2 $68,306 : 2 Median :3.000 Median : 6.000
$19,860 : 2 $10,107 : 1 Mean :3.197 Mean : 5.808
$21,055 : 2 $10,144 : 1 3rd Qu.:3.900 3rd Qu.: 6.000
$21,595 : 2 $10,319 : 1 Max. :8.300 Max. :12.000
(Other) :416 (Other) :419 NA's :2
HorsePower MPG_City MPG_Highway Weight Wheelbase
Min. : 73.0 Min. :10.00 Min. :12.00 Min. :1850 Min. : 89.0
1st Qu.:165.0 1st Qu.:17.00 1st Qu.:24.00 1st Qu.:3104 1st Qu.:103.0
Median :210.0 Median :19.00 Median :26.00 Median :3474 Median :107.0
Mean :215.9 Mean :20.06 Mean :26.84 Mean :3578 Mean :108.2
3rd Qu.:255.0 3rd Qu.:21.25 3rd Qu.:29.00 3rd Qu.:3978 3rd Qu.:112.0
Max. :500.0 Max. :60.00 Max. :66.00 Max. :7190 Max. :144.0
Length
Min. :143.0
1st Qu.:178.0
Median :187.0
Mean :186.4
3rd Qu.:194.0
Max. :238.0
La gráfica muestra la cantidad de registros por clase de vehículo, donde se observa que la categoría Sedan es la más frecuente, superando ampliamente a las demás. Esto indica que los autos tipo Sedan son los más comunes en el conjunto de datos, posiblemente porque son los preferidos para el uso diario y urbano.
En segundo lugar se encuentran los SUV y los Sports, aunque en menor proporción. Por otro lado, los Wagon y Truck aparecen con cantidades más reducidas, y finalmente los Hybrid son los menos representados, lo que sugiere que este tipo de vehículo aún no es tan popular o está menos disponible en el mercado del conjunto analizado.
Analisis con Datos Univariados
La distribución de EngineSize por región muestra varias curvas con formas diferentes, lo que indica que el tamaño del motor no sigue un mismo patrón en todas las regiones. En general, las curvas presentan más de un pico, lo que sugiere la existencia de varios grupos o tipos de vehículos según su tamaño de motor.
Se observa que la mayoría de los autos tienden a tener motores de tamaño medio, mientras que los motores muy grandes son menos frecuentes. Esto puede deberse a que en algunas regiones predominan autos más pequeños o de uso urbano, mientras que en otras existen más vehículos de alta cilindrada o de trabajo. Las colas alargadas hacia la derecha muestran que hay regiones con algunos autos con motores mucho más grandes, considerados como valores atípicos dentro de la distribución general.
La distribución no es simétrica; está sesgada hacia la derecha (asimetría positiva). Es decir que la mayoría de los autos tienen potencias moderadas o bajas, pero existen algunos con valores muy altos de HorsePower, esto pudiendose relacionar que el hecho de que los autos del dia a dia ultilizan potencias bajas ya que no es necesario que utilicen motores potentes. Viendose valores altos solamente por los autos estilo deportivos presentes. Siendo estos los datos atipicos.
Analisis con Datos Bivariados
Sobre la gráfica de dispersión, cada vez que aumenta el número de enginesize en 1, el valor promedio del cylinders aumenta en 0.64295 unidades, manteniendo todo lo demás constante A mayor tamaño del motor, mayor número de cilindros. Interpretación pendiente con intercepto: Cylinders= −0.5283+0.64295×enginesize En la vida real no tiene sentido que se tenga un intercepto negativo debido a que en los datos utilizados no hay carros que no tengan motor para que su tamaño sea cero, por ende, se realizó una segunda pendiente pero sin el intercepto la cual dio: cylinders= 0.558078×enginesize, la cual “obliga” al tamaño de motor a ser mayor a 0 para que se pueda interpretar en la vida real. Además, indica que cada vez que aumenta el número de Engine size en 1, el valor promedio de cylinders aumenta en 0.558078 unidades, manteniendo todo lo demás constante A mayor tamaño del motor, mayor número de cilindros.
En la matriz anterior podemos ver que las dos variables que tienen mayor correlación son las del Engine Size y Cylinders, es la más cercana a una correlación positiva perfecta ; por otro lado, los que tienen menor correlación son engine size y weight, con una correlación moderada (hay tendencia positiva pero no tan exacta). No hay correlaciones negativas, ninguna se relaciona inversamente con otra.
Analisis con Datos Bivariados
Se puede percibir que la región de Europa tiende a tener más marcas de carros que invierten en sus motores, haciendo que tengan en promedio mayor rendimiento a comparación de los otros, seguido por estados unidos y por ultimo un poco por detrás estaría Asia.
Aquí se logra ver la diferencia de caballos de fuerza a comparación de los diferentes tipos de vehículo y como cada uno dependiendo de su estilo de demanda va a tener más potencia, como los deportivos y los deportivos por su característica exclusiva aumenta sus caballos de fuerza, por consiguiente tenemos los estilo truck y los wagon que se usan para transportar objetos de alta carga y por ultimo los sedan y los hybrid que son más de uso diario para el día a día de las personas comunes.
Logramos ver que aumenta el promedio de peso cuando se tiene una dirección estilo all drive ya que esta al tener la tracción en las 4 ruedas tiene más peso y necesita un motor más grande para lograr sacarle el mayor partido, frente al rear drive de tracción trasera que se utilizan mayormente en autos deportivos tendría la misma relación de que aumentaría el peso por mayor complejidad del sistema y por el motor que usaría ese estilo de carro, por último el front drive que sería el tracción delantera que es el que usa el sistema de menor complejidad y además es el que normalmente se usa, baja el peso del motor y el del sistema de tracción.
Analisis con Datos Bivariados
En este mismo orden, el gráfico de barras apiladas (asociado a la tabla cruzada) complementa esta información visualmente, permitiendo apreciar de manera clara la composición de clases dentro de cada región. La altura total de cada barra indica la cantidad total de vehículos por región, mientras que los segmentos de color muestran la participación de cada tipo de vehículo. En conjunto, tanto la tabla como el gráfico evidencian diferencias regionales en las preferencias automotrices y en la oferta de clases de vehículos.
Conclusiones
El tipo de vehículo más común en todas las regiones es el sedán, especialmente en Asia, donde también aparecen modelos híbridos, lo que sugiere una mayor diversificación tecnológica. En Europa predominan los sedanes y deportivos, reflejando un interés por el rendimiento y el diseño. En Estados Unidos, en cambio, se observa una proporción más alta de SUV y camiones, lo que muestra una preferencia por vehículos grandes y potentes.
Existe una fuerte correlación positiva entre el tamaño del motor (Engine Size) y el número de cilindros (Cylinders), lo que significa que a medida que aumenta el tamaño del motor, también lo hace el número de cilindros. Esta relación es coherente con la lógica de diseño automotriz: motores más grandes requieren más cilindros para mantener el equilibrio y la potencia. No se observaron correlaciones negativas entre las variables analizadas.
Los vehículos deportivos (Sports) presentan los mayores valores de caballos de fuerza (HorsePower), seguidos por los SUV y Trucks, que también requieren motores potentes por su tamaño y uso. En contraste, los Sedan e Hybrid muestran menores valores promedio de potencia, al estar más enfocados en la eficiencia y el uso urbano.
Se observó que los autos con tracción total (All Drive) tienen un mayor peso promedio, debido al sistema mecánico más complejo y al tamaño del motor que necesitan. Los de tracción trasera (Rear Drive) presentan también un peso elevado, asociado a autos de alto desempeño. Finalmente, los de tracción delantera (Front Drive) son los más livianos, característicos de vehículos compactos y de uso urbano.
GRACIAS POR SU ATENCIÓN