En este análisis realizaremos la limpieza de las variables Horse Power y Performance a partir de un archivo CSV que contiene información de varios autos. Esto es un paso necesario antes de aplicar estadísticas descriptivas o gráficas, ya que los datos pueden tener valores no numéricos, columnas irrelevantes o valores faltantes.
Antes de cualquier análisis, es imperativo procesar los datos crudos.
Esta sección detalla el proceso de limpieza aplicado a las columnas de
interés (HorsePower y Performance). El
objetivo es transformar estos datos, que originalmente contienen texto,
rangos y unidades, en variables numéricas limpias y consistentes.
El proceso de limpieza sigue una secuencia lógica:
Para confirmar que el proceso fue exitoso, es fundamental inspeccionar el conjunto de datos resultante. A continuación, se presenta una tabla con las primeras seis filas del dataset limpio.
El propósito de esta tabla es doble: * Verificar que las columnas de
interés ahora se llaman horse_power y
performance. * Confirmar que su tipo de dato ha cambiado de
texto (<chr>) a numérico (<dbl>),
lo cual es esencial para el análisis.
Vista Previa del Conjunto de Datos Limpio
# A tibble: 6 × 11
`Company Names` `Cars Names` Engines `CC/Battery Capacity` horse_power
<chr> <chr> <chr> <chr> <dbl>
1 FERRARI SF90 STRADALE V8 3990 cc 963
2 ROLLS ROYCE PHANTOM V12 6749 cc 563
3 Ford KA+ 1.2L Petrol 1,200 cc 77.5
4 MERCEDES GT 63 S V8 3,982 cc 630
5 AUDI AUDI R8 Gt V10 5,204 cc 602
6 BMW Mclaren 720s V8 3,994 cc 710
# ℹ 6 more variables: `Total Speed` <chr>, performance <dbl>,
# `Cars Prices` <chr>, `Fuel Types` <chr>, Seats <chr>, Torque <chr>
Resumen Estadístico de las Variables Numéricas
horse_power performance
Min. : 26.0 Min. : 1.900
1st Qu.: 155.0 1st Qu.: 5.300
Median : 255.0 Median : 7.100
Mean : 304.7 Mean : 7.561
3rd Qu.: 400.0 3rd Qu.: 9.500
Max. :1850.0 Max. :35.000
Número final de filas válidas:** 1192
Una vez completada la fase de limpieza y preparación de los datos, el siguiente paso fundamental es el análisis visual. La visualización nos permite descubrir patrones, identificar anomalías y entender la naturaleza de nuestras variables de una manera que las tablas de números por sí solas no pueden mostrar.
En esta sección, nos enfocaremos en tres objetivos principales a través de distintos tipos de gráficos:
Para cada una de nuestras variables de interés,
horse_power y performance, generaremos un
histograma junto con una curva de
densidad. El objetivo es observar la forma de la distribución
para determinar si es:
A continuación, se crearán diagramas de caja y bigotes (boxplots) para ambas variables. Estos gráficos son una herramienta excelente para dos propósitos:
Finalmente, para entender cómo interactúan la potencia y la rapidez
de los vehículos, generaremos un gráfico de dispersión (scatter
plot). Este gráfico nos permitirá confirmar visualmente si
existe una correlación entre horse_power y
performance. Intuitivamente, esperaríamos encontrar una
correlación negativa, donde a mayor potencia, el tiempo de aceleración
es menor.
A continuación, se presenta el código que genera estas visualizaciones y los resultados obtenidos.
## --- Gráfico 1: Distribución de Horse Power ---
##
## --- Gráfico 2: Boxplot de Horse Power ---
##
## --- Gráfico 3: Distribución de Performance ---
##
## --- Gráfico 4: Boxplot de Performance ---
##
## --- Gráfico 5: Relación entre Horse Power y Performance ---
A partir de las visualizaciones generadas en la sección anterior, podemos extraer varias conclusiones importantes sobre las características de los vehículos en nuestro conjunto de datos y la relación entre sus variables principales.
horse_powerEl histograma de los caballos de fuerza muestra una clara asimetría positiva. La gran mayoría de los vehículos se concentra en el rango bajo-medio de potencia (aproximadamente entre 100 y 400 hp), como lo demuestra el gran pico a la izquierda. La “cola” larga que se extiende hacia la derecha indica que existe un número reducido de vehículos con una potencia excepcionalmente alta (superiores a 800 hp).
El diagrama de caja y bigotes (boxplot) confirma de manera contundente esta observación. La caja, que representa el 50% central de los datos, es relativamente compacta y se sitúa en la parte baja de la escala. Más allá del “bigote” superior, observamos una gran cantidad de valores atípicos (outliers), representados por las ‘x’ rojas. Estos puntos corresponden a los superdeportivos o vehículos de lujo cuya potencia es estadísticamente inusual en comparación con la mayoría de los autos del dataset.
Conclusión Parcial (Horse Power): La potencia de los vehículos en este conjunto de datos no se distribuye de manera uniforme. La mayoría son autos convencionales, pero hay una presencia significativa de vehículos de élite que sesgan la distribución hacia valores altos.
performanceLa distribución del tiempo de aceleración (performance) es considerablemente más simétrica que la de los caballos de fuerza. Sin embargo, también presenta una ligera asimetría positiva. El pico de la distribución se encuentra alrededor de los 7-10 segundos, lo que indica que la mayoría de los autos tienen un tiempo de aceleración en este rango. La pequeña cola hacia la derecha muestra que hay algunos vehículos que son notablemente más lentos.
El boxplot de performance confirma esta ligera asimetría. La caja está bien definida y los bigotes son relativamente simétricos. Sin embargo, se identifican varios valores atípicos en el extremo superior (representados por las ‘x’ azules). Estos puntos corresponden a vehículos cuyo tiempo de aceleración es significativamente mayor (más lento) que el del resto del grupo.
Conclusión Parcial (Performance): La mayoría de los vehículos tienen un rendimiento de aceleración competitivo y predecible. Los valores atípicos representan a los autos más lentos del conjunto de datos.
horse_power y
performanceEl gráfico de dispersión (scatter plot) revela una relación
clara y fuerte entre ambas variables. Se observa una tendencia
descendente de izquierda a derecha, lo que indica una
correlación negativa. Esto confirma nuestra hipótesis
inicial: a medida que aumentan los caballos de fuerza
(horse_power), el tiempo de aceleración
(performance) disminuye. En términos sencillos,
los autos más potentes son más rápidos.
Es interesante notar que la relación no es una línea recta perfecta, sino más bien una curva. La pendiente es muy pronunciada en la zona de baja potencia (pasar de 100 a 300 hp reduce drásticamente el tiempo de aceleración). Sin embargo, en la zona de muy alta potencia (pasar de 1000 a 1500 hp), la disminución en el tiempo es mucho menor. Esto sugiere un efecto de rendimientos decrecientes: cada caballo de fuerza adicional aporta menos a la reducción del tiempo de aceleración una vez que el vehículo ya es extremadamente potente.