El presente informe tiene como objetivo realizar un análisis bivariado para explorar la relación entre variables categóricas y numéricas de un conjunto de datos de automóviles. El análisis se enfoca en entender cómo ciertas características de los vehículos, agrupadas por categorías, se correlacionan con sus especificaciones de rendimiento y capacidad.
De acuerdo con los requerimientos, el análisis se centrará en las siguientes variables:
Fuel Type: Agrupada en “Petrol” y “Otros”.Horse Power: Segmentada en cuatro rangos de potencia
(Menos de 100 HP, 100-500 HP, 500-1000 HP y más de 1000 HP).Torque: La fuerza de torsión del motor.Performance: El tiempo de aceleración de 0 a 100
km/h.Seats: El número de asientos.Para cada par de variables (una categórica y una numérica), se presentará un análisis analítico mediante tablas de resumen estadístico y un análisis gráfico a través de diagramas de caja (boxplots), seguido de una interpretación escrita de los patrones y comportamientos observados en los datos.
El proceso se divide en las siguientes etapas principales:
Estandarización de Nombres: Para facilitar el
manejo de datos, todos los nombres de las columnas se convierten a un
formato consistente en minúsculas y sin espacios (ej.
Cars Names se convierte en
cars_names).
Limpieza y Conversión de Variables Numéricas:
Las columnas HorsePower, Performance,
Torque y Seats se procesan para:
Creación de Variables Categóricas: A partir de los datos ya limpios, se generan dos nuevas columnas categóricas que son cruciales para esta entrega:
hp_category: Segmenta la potencia
(horse_power) en cuatro grupos definidos.fuel_type_grouped: Clasifica los
Fuel Types en cuatro categorías principales: “Petrol”,
“Hybrid”, “Electric” y “Otros”.Filtrado Final: Se eliminan todas las filas que
contengan datos faltantes (NA) en cualquiera de las
columnas clave para asegurar que el análisis se realice únicamente sobre
un conjunto de datos completo y robusto.
Para confirmar que el complejo proceso de limpieza y transformación
fue exitoso, se inspecciona el conjunto de datos final
(cars_final). A continuación, se presentan los resultados
clave de esta validación.
Primero, se muestra una vista previa de las primeras seis filas del
dataset. Esta tabla nos permite verificar visualmente que los nombres de
las columnas han sido estandarizados y, lo más importante, que las
columnas de interés como horse_power,
performance, torque y seats son
ahora de tipo numérico (<dbl>).
## # A tibble: 6 × 8
## company_names cars_names horse_power performance torque seats hp_category
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <fct>
## 1 FERRARI SF90 STRADALE 963 2.5 800 2 500-1000 HP
## 2 ROLLS ROYCE PHANTOM 563 5.3 900 5 500-1000 HP
## 3 MERCEDES GT 63 S 630 3.2 900 4 500-1000 HP
## 4 AUDI AUDI R8 Gt 602 3.6 560 2 500-1000 HP
## 5 BMW Mclaren 720s 710 2.9 770 2 500-1000 HP
## 6 ASTON MARTIN VANTAGE F1 656 3.6 685 2 500-1000 HP
## # ℹ 1 more variable: fuel_type_grouped <chr>
## horse_power performance torque seats
## Min. : 0.5 Min. : 1.900 Min. : 5.0 Min. : 1.000
## 1st Qu.: 156.0 1st Qu.: 5.100 1st Qu.: 250.0 1st Qu.: 4.000
## Median : 265.0 Median : 7.000 Median : 380.0 Median : 5.000
## Mean : 311.8 Mean : 7.486 Mean : 437.8 Mean : 4.817
## 3rd Qu.: 400.0 3rd Qu.: 9.500 3rd Qu.: 560.0 3rd Qu.: 5.000
## Max. :2488.0 Max. :35.000 Max. :3500.0 Max. :15.000
## hp_category fuel_type_grouped
## Menos de 100 HP: 76 Length:1129
## 100-500 HP :870 Class :character
## 500-1000 HP :170 Mode :character
## Más de 1000 HP : 13
##
##
En esta sección, se profundiza el análisis a través de una serie de cinco visualizaciones. El objetivo es ir más allá de las tablas numéricas para entender la forma, dispersión y las tendencias de las distribuciones de los datos.
Para lograr una exploración completa y visualmente dinámica, se
utilizarán diferentes tipos de gráficos de ggplot2, cada
uno seleccionado para responder a una pregunta específica sobre la
relación entre nuestras variables categóricas y numéricas:
A continuación, se presentan los cinco análisis, cada uno acompañado de su tabla de resumen y su respectiva visualización.```
## ### 3.1. Performance por Categoría de Potencia (Boxplot)
## **Tabla de Estadísticos:**
##
##
## |hp_category | Conteo| Mediana_Perf|
## |:---------------|------:|------------:|
## |Menos de 100 HP | 76| 13.0|
## |100-500 HP | 870| 7.5|
## |500-1000 HP | 170| 3.5|
## |Más de 1000 HP | 13| 2.4|
Análisis del Gráfico:
La relación entre la categoría de potencia y el performance es clara e inequívoca, como se observa tanto en la tabla de estadísticos como en el boxplot.
Correlación Negativa Fuerte: Se evidencia una
fuerte correlación negativa: a medida que aumenta la categoría de
potencia (hp_category), la mediana del tiempo de
aceleración (Mediana_Perf) disminuye drásticamente. Los
vehículos con “Menos de 100 HP” tienen una mediana de 13.0 segundos,
mientras que los de “Más de 1000 HP” bajan a tan solo 2.4
segundos.
Reducción de la Dispersión: Es notable cómo la dispersión de los datos (el tamaño de las cajas en el boxplot) se reduce a medida que aumenta la potencia. Los autos de baja potencia muestran una gran variabilidad en sus tiempos de aceleración. En contraste, los vehículos de alta potencia (“500-1000 HP” y “Más de 1000 HP”) son mucho más consistentes y predecibles en su rendimiento, con cajas muy compactas.
Conclusión: La potencia del motor es un factor determinante en la aceleración de un vehículo. No solo los autos más potentes son significativamente más rápidos, sino que su performance también es mucho más consistente.
##
##
## ### 3.2. Torque por Categoría de Potencia (Violín)
## **Tabla de Estadísticos:**
##
##
## |hp_category | Conteo| Mediana_Torque|
## |:---------------|------:|--------------:|
## |Menos de 100 HP | 76| 114|
## |100-500 HP | 870| 360|
## |500-1000 HP | 170| 750|
## |Más de 1000 HP | 13| 1600|
Análisis del Gráfico:
El análisis de la relación entre la categoría de potencia y el torque del motor revela una correlación positiva muy fuerte y una interesante evolución en la distribución de los datos.
Correlación Positiva Exponencial: Como era de esperar, a mayor categoría de potencia, el torque mediano aumenta significativamente. La tabla muestra un crecimiento casi exponencial: la mediana pasa de 114 Nm en la categoría más baja a 1600 Nm en la más alta. Esto confirma que los motores diseñados para alta potencia también están construidos para generar una mayor fuerza de torsión.
Concentración de Datos a Bajas Potencias: El gráfico de violín es particularmente revelador. Para las categorías “Menos de 100 HP” y “100-500 HP”, los violines son muy anchos en la parte inferior y se estrechan rápidamente. Esto indica que la gran mayoría de los vehículos en estas categorías se concentran en el extremo inferior de su rango de torque.
Aumento de la Dispersión y Outliers: A medida que la potencia aumenta, no solo lo hace el torque mediano, sino también la dispersión (la altura de los violines). La categoría “500-1000 HP” muestra una variabilidad mucho mayor, con valores atípicos que alcanzan más de 3000 Nm. Esto sugiere que dentro de la categoría de alto rendimiento, existe una diversidad considerable en la ingeniería de los motores.
Conclusión: La potencia y el torque están intrínsecamente ligados. El análisis muestra que no solo los autos más potentes tienen un torque significativamente mayor, sino que la distribución de este torque se vuelve más dispersa a niveles de potencia más altos, indicando una mayor variedad de diseños de motor en el segmento de alto rendimiento.
##
##
## ### 3.3. Performance por Tipo de Combustible (Boxplot con Jitter)
## **Tabla de Estadísticos:**
##
##
## |fuel_type_grouped | Conteo| Mediana_Perf|
## |:-----------------|------:|------------:|
## |Electric | 95| 5.2|
## |Hybrid | 104| 7.5|
## |Otros | 92| 11.0|
## |Petrol | 838| 6.8|
Análisis del Gráfico:
Al comparar el tiempo de aceleración entre los diferentes tipos de combustible, se observan diferencias significativas en el rendimiento promedio y en la consistencia de cada tecnología.
Rendimiento Superior de los Vehículos Eléctricos: La tabla y el gráfico muestran claramente que los vehículos Eléctricos son, en mediana, los más rápidos, con un tiempo de aceleración de 5.2 segundos. Les siguen de cerca los vehículos de Petrol (6.8 segundos) y los Hybrid (7.5 segundos). El grupo de “Otros”, que incluye tecnologías como el Diesel, es notablemente el más lento, con una mediana de 11.0 segundos.
Consistencia del Rendimiento: El boxplot de los vehículos Eléctricos es el más compacto, lo que indica que su performance es muy consistente. En contraste, el grupo de “Otros” presenta la mayor dispersión (la caja más grande), lo que sugiere una gran variabilidad en el rendimiento de aceleración dentro de esta categoría.
Predominio de Vehículos a Gasolina: El gráfico de puntos (jitter) revela un aspecto clave que la tabla también insinúa: la abrumadora mayoría de los vehículos en este dataset son de Petrol (838 observaciones). Los otros grupos (Electric, Hybrid, Otros) tienen un número de muestras considerablemente menor, lo que debe tenerse en cuenta al generalizar las conclusiones.
Conclusión: La tecnología del motor tiene un impacto directo en la aceleración. Los vehículos eléctricos demuestran ser los más rápidos y consistentes. Aunque los vehículos de gasolina son muy competitivos en rendimiento, la categoría de “Otros” tipos de combustible agrupa a los autos con la performance más lenta y variable del conjunto de datos.
##
##
## ### 3.4. Torque Promedio por Tipo de Combustible (Barras)
## **Tabla de Estadísticos:**
##
##
## |fuel_type_grouped | Promedio_Torque|
## |:-----------------|---------------:|
## |Electric | 463.5895|
## |Hybrid | 429.5673|
## |Otros | 582.8804|
## |Petrol | 419.9475|
Análisis del Gráfico: Este gráfico de barras compara directamente el torque promedio generado por los vehículos, agrupados según su tipo de combustible. Los resultados son reveladores y, en parte, contraintuitivos.
Liderazgo del Grupo “Otros”: De manera destacada, el grupo de “Otros” (que incluye tecnologías como el Diesel) es el que presenta el mayor torque promedio, con 583 Nm. Esto es consistente con la naturaleza de los motores Diesel, que son conocidos por generar una gran fuerza de torsión a bajas revoluciones, lo cual es ideal para vehículos de carga o SUVs grandes.
Alto Rendimiento de los Eléctricos: En segundo lugar se encuentran los vehículos Eléctricos, con un torque promedio de 464 Nm. Este hallazgo resalta una de las principales ventajas de la motorización eléctrica: la capacidad de entregar un alto torque de manera casi instantánea, lo que contribuye a su rápida aceleración.
Resultados Similares para Hybrid y Petrol: Los vehículos Hybrid (430 Nm) y de Petrol (420 Nm) muestran un torque promedio muy similar y son los más bajos de los cuatro grupos. Esto sugiere que, si bien pueden alcanzar altos niveles de potencia, su diseño de motor no está tan enfocado en maximizar la fuerza de torsión como en los casos de los motores Diesel o Eléctricos puros.
Conclusión: A diferencia de la potencia o la aceleración, el torque promedio no está dominado por los vehículos de gasolina. El análisis demuestra que las tecnologías agrupadas en “Otros” (principalmente Diesel) y los motores Eléctricos son superiores en la generación de fuerza de torsión promedio.
##
##
## ### 3.5. Distribución de Asientos por Tipo de Combustible (Facetas)
## **Tabla de Estadísticos:**
##
##
## |fuel_type_grouped | Conteo| Mediana_Asientos|
## |:-----------------|------:|----------------:|
## |Electric | 95| 5|
## |Hybrid | 104| 5|
## |Otros | 92| 5|
## |Petrol | 838| 5|
Análisis del Gráfico:
este análisis explora la distribución del número de asientos según el tipo de combustible. Aunque la tabla de estadísticos muestra que la mediana de asientos es idéntica (5) para todos los grupos, los gráficos de densidad revelan diferencias importantes en la configuración y el propósito de los vehículos de cada categoría.
Dominancia de los 5 Asientos en Eléctricos e Híbridos: Los vehículos Eléctricos y Hybrid muestran una distribución muy similar, con un pico único y muy pronunciado en los 5 asientos. Esto sugiere que la mayoría de los modelos en estas categorías están diseñados como sedanes o SUVs compactos/medianos, enfocados en el mercado de vehículos de pasajeros estándar.
Distribución Plana en la Categoría “Otros”: El grupo de “Otros” presenta la distribución más plana y extendida. Aunque el pico también está cerca de los 5 asientos, la curva es mucho menos pronunciada, indicando una mayor diversidad de tamaños. Esto es coherente con la inclusión de vehículos Diesel, que pueden abarcar desde autos pequeños hasta grandes furgonetas o SUVs con más de 7 asientos.
Bimodalidad en Vehículos de “Petrol”: La categoría Petrol es la única que muestra una distribución claramente bimodal, con dos picos prominentes: uno muy fuerte en los 5 asientos y otro, más pequeño pero significativo, en los 2 asientos. Esto refleja la gran diversidad dentro de los vehículos de gasolina, que abarcan tanto el mercado de autos familiares (5 asientos) como el nicho de los deportivos biplaza (2 asientos).
Conclusión: Aunque la mediana de asientos es la misma en todos los grupos, la forma de la distribución revela diferencias clave en el perfil de cada tecnología. Mientras que los eléctricos e híbridos se concentran en el formato estándar de 5 asientos, los vehículos de gasolina cubren un espectro más amplio que incluye tanto autos familiares como deportivos, y la categoría “Otros” presenta la mayor variedad en capacidad de pasajeros.