Pagina 1

Row

DASHBOARD LARGE CARS DATASET

Juanita Prado, Daniel Marcus, Maria Antonia Gil, Juan Pablo Jaramillo y Martin Valderrama

Pagina 2

Datos

Row

Descripción de los datos

El conjunto de datos que vamos a trabajar fue extraído de Kaggle bajo el nombre “Large Dataset of Cars” Este describe y compila un conjunto de datos sobre compañías automotrices, algunos de sus modelos y otras características referentes a especificaciones técnicas.

Model – specific model name of the car MSRP – manufacturer’s suggested retail price DealerCost – the price at which the car is sold by the dealer MPG_City – fuel economy in miles per gallon while driving in city conditions MPG_Highway – fuel economy in miles per gallon while driving on highways Wheelbase – distance between the front and rear wheels Length – total length of the vehicle from bumper to bumper

El tamaño de la muestra es de 1218 datos y las variables entre cuantitativas y cualitativas son 10; sin embargo, serán reprocesadas una vez evaluadas su nivel de pertinencia.

Row

Tabla de datos

Pagina 3

Observación general de los datos y ejemplo grafico univariado

Row

Summary

           Brand                         Model     VehicleClass    Region   
 Toyota       : 28   C240 4dr               :  2   Hybrid:  3   Asia  :158  
 Chevrolet    : 27   C320 4dr               :  2   Sedan :262   Europe:123  
 Mercedes-Benz: 26   G35 4dr                :  2   Sports: 49   USA   :147  
 Ford         : 23   3.5 RL 4dr             :  1   SUV   : 60               
 BMW          : 20   3.5 RL w/Navigation 4dr:  1   Truck : 24               
 Audi         : 19   300M 4dr               :  1   Wagon : 30               
 (Other)      :285   (Other)                :419                            
 DriveTrain        MSRP        DealerCost    EngineSize      Cylinders     
 All  : 92   $13,270 :  2   $14,207 :  2   Min.   :1.300   Min.   : 3.000  
 Front:226   $15,389 :  2   $19,638 :  2   1st Qu.:2.375   1st Qu.: 4.000  
 Rear :110   $19,635 :  2   $68,306 :  2   Median :3.000   Median : 6.000  
             $19,860 :  2   $10,107 :  1   Mean   :3.197   Mean   : 5.808  
             $21,055 :  2   $10,144 :  1   3rd Qu.:3.900   3rd Qu.: 6.000  
             $21,595 :  2   $10,319 :  1   Max.   :8.300   Max.   :12.000  
             (Other) :416   (Other) :419                   NA's   :2       
   HorsePower       MPG_City      MPG_Highway        Weight       Wheelbase    
 Min.   : 73.0   Min.   :10.00   Min.   :12.00   Min.   :1850   Min.   : 89.0  
 1st Qu.:165.0   1st Qu.:17.00   1st Qu.:24.00   1st Qu.:3104   1st Qu.:103.0  
 Median :210.0   Median :19.00   Median :26.00   Median :3474   Median :107.0  
 Mean   :215.9   Mean   :20.06   Mean   :26.84   Mean   :3578   Mean   :108.2  
 3rd Qu.:255.0   3rd Qu.:21.25   3rd Qu.:29.00   3rd Qu.:3978   3rd Qu.:112.0  
 Max.   :500.0   Max.   :60.00   Max.   :66.00   Max.   :7190   Max.   :144.0  
                                                                               
     Length     
 Min.   :143.0  
 1st Qu.:178.0  
 Median :187.0  
 Mean   :186.4  
 3rd Qu.:194.0  
 Max.   :238.0  
                

Row

Tipo de vehiculo vs caballos de fuerza

Analisis e interpretacion

La gráfica muestra la cantidad de registros por clase de vehículo, donde se observa que la categoría Sedan es la más frecuente, superando ampliamente a las demás. Esto indica que los autos tipo Sedan son los más comunes en el conjunto de datos, posiblemente porque son los preferidos para el uso diario y urbano.

En segundo lugar se encuentran los SUV y los Sports, aunque en menor proporción. Por otro lado, los Wagon y Truck aparecen con cantidades más reducidas, y finalmente los Hybrid son los menos representados, lo que sugiere que este tipo de vehículo aún no es tan popular o está menos disponible en el mercado del conjunto analizado.

Pagina 4

Analisis con Datos Univariados

Row

Densidad de engine size por region

Analisis e interpretacion

La distribución de EngineSize por región muestra varias curvas con formas diferentes, lo que indica que el tamaño del motor no sigue un mismo patrón en todas las regiones. En general, las curvas presentan más de un pico, lo que sugiere la existencia de varios grupos o tipos de vehículos según su tamaño de motor.

Se observa que la mayoría de los autos tienden a tener motores de tamaño medio, mientras que los motores muy grandes son menos frecuentes. Esto puede deberse a que en algunas regiones predominan autos más pequeños o de uso urbano, mientras que en otras existen más vehículos de alta cilindrada o de trabajo. Las colas alargadas hacia la derecha muestran que hay regiones con algunos autos con motores mucho más grandes, considerados como valores atípicos dentro de la distribución general.

Row

Distribucion HorsePower

Analisis e interpretacion

La distribución no es simétrica; está sesgada hacia la derecha (asimetría positiva). Es decir que la mayoría de los autos tienen potencias moderadas o bajas, pero existen algunos con valores muy altos de HorsePower, esto pudiendose relacionar que el hecho de que los autos del dia a dia ultilizan potencias bajas ya que no es necesario que utilicen motores potentes. Viendose valores altos solamente por los autos estilo deportivos presentes. Siendo estos los datos atipicos.

Pagina 5

Analisis con Datos Bivariados

Row

Engine Size vs Cylinders

Analisis e interpretacion

Sobre la gráfica de dispersión, cada vez que aumenta el número de enginesize en 1, el valor promedio del cylinders aumenta en 0.64295 unidades, manteniendo todo lo demás constante A mayor tamaño del motor, mayor número de cilindros. Interpretación pendiente con intercepto: Cylinders= −0.5283+0.64295×enginesize En la vida real no tiene sentido que se tenga un intercepto negativo debido a que en los datos utilizados no hay carros que no tengan motor para que su tamaño sea cero, por ende, se realizó una segunda pendiente pero sin el intercepto la cual dio: cylinders= 0.558078×enginesize, la cual “obliga” al tamaño de motor a ser mayor a 0 para que se pueda interpretar en la vida real. Además, indica que cada vez que aumenta el número de Engine size en 1, el valor promedio de cylinders aumenta en 0.558078 unidades, manteniendo todo lo demás constante A mayor tamaño del motor, mayor número de cilindros.

Row

Matriz de correlacion

Analisis e interpretacion

En la matriz anterior podemos ver que las dos variables que tienen mayor correlación son las del Engine Size y Cylinders, es la más cercana a una correlación positiva perfecta ; por otro lado, los que tienen menor correlación son engine size y weight, con una correlación moderada (hay tendencia positiva pero no tan exacta). No hay correlaciones negativas, ninguna se relaciona inversamente con otra.

Pagina 6

Analisis con Datos Bivariados

Row

Region vs Caballos de Fuerza

Analisis e interpretacion

Se puede percibir que la región de Europa tiende a tener más marcas de carros que invierten en sus motores, haciendo que tengan en promedio mayor rendimiento a comparación de los otros, seguido por estados unidos y por ultimo un poco por detrás estaría Asia.

Row

Tipo de Vehiculo vs Caballo de Fuerza

Analisis e interpretacion

Aquí se logra ver la diferencia de caballos de fuerza a comparación de los diferentes tipos de vehículo y como cada uno dependiendo de su estilo de demanda va a tener más potencia, como los deportivos y los deportivos por su característica exclusiva aumenta sus caballos de fuerza, por consiguiente tenemos los estilo truck y los wagon que se usan para transportar objetos de alta carga y por ultimo los sedan y los hybrid que son más de uso diario para el día a día de las personas comunes.

Row

Tipo de dirección vs Peso

Analisis e interpretacion

Logramos ver que aumenta el promedio de peso cuando se tiene una dirección estilo all drive ya que esta al tener la tracción en las 4 ruedas tiene más peso y necesita un motor más grande para lograr sacarle el mayor partido, frente al rear drive de tracción trasera que se utilizan mayormente en autos deportivos tendría la misma relación de que aumentaría el peso por mayor complejidad del sistema y por el motor que usaría ese estilo de carro, por último el front drive que sería el tracción delantera que es el que usa el sistema de menor complejidad y además es el que normalmente se usa, baja el peso del motor y el del sistema de tracción.

Pagina 7

Row

Analisis con Datos Bivariados

Distribución de clases de vehiculos por región

Row

Analisis e interpretacion

En este mismo orden, el gráfico de barras apiladas (asociado a la tabla cruzada) complementa esta información visualmente, permitiendo apreciar de manera clara la composición de clases dentro de cada región. La altura total de cada barra indica la cantidad total de vehículos por región, mientras que los segmentos de color muestran la participación de cada tipo de vehículo. En conjunto, tanto la tabla como el gráfico evidencian diferencias regionales en las preferencias automotrices y en la oferta de clases de vehículos.

Pagina 8

Conclusiones

Row

  • Preferencias regionales:

El tipo de vehículo más común en todas las regiones es el sedán, especialmente en Asia, donde también aparecen modelos híbridos, lo que sugiere una mayor diversificación tecnológica. En Europa predominan los sedanes y deportivos, reflejando un interés por el rendimiento y el diseño. En Estados Unidos, en cambio, se observa una proporción más alta de SUV y camiones, lo que muestra una preferencia por vehículos grandes y potentes.

  • Correlación entre variables técnicas:

Existe una fuerte correlación positiva entre el tamaño del motor (Engine Size) y el número de cilindros (Cylinders), lo que significa que a medida que aumenta el tamaño del motor, también lo hace el número de cilindros. Esta relación es coherente con la lógica de diseño automotriz: motores más grandes requieren más cilindros para mantener el equilibrio y la potencia. No se observaron correlaciones negativas entre las variables analizadas.

Row

  • Potencia y tipo de vehículo:

Los vehículos deportivos (Sports) presentan los mayores valores de caballos de fuerza (HorsePower), seguidos por los SUV y Trucks, que también requieren motores potentes por su tamaño y uso. En contraste, los Sedan e Hybrid muestran menores valores promedio de potencia, al estar más enfocados en la eficiencia y el uso urbano.

  • Peso y sistema de tracción (DriveTrain):

Se observó que los autos con tracción total (All Drive) tienen un mayor peso promedio, debido al sistema mecánico más complejo y al tamaño del motor que necesitan. Los de tracción trasera (Rear Drive) presentan también un peso elevado, asociado a autos de alto desempeño. Finalmente, los de tracción delantera (Front Drive) son los más livianos, característicos de vehículos compactos y de uso urbano.

Pagina 9

Row

GRACIAS POR SU ATENCIÓN