Introducción

En este análisis realizaremos la limpieza de las variables Horse Power y Performance a partir de un archivo CSV que contiene información de varios autos. Esto es un paso necesario antes de aplicar estadísticas descriptivas o gráficas, ya que los datos pueden tener valores no numéricos, columnas irrelevantes o valores faltantes.


1. Limpieza y Transformación de Datos

Antes de cualquier análisis, es imperativo procesar los datos crudos. Esta sección detalla el proceso de limpieza aplicado a las columnas de interés (HorsePower y Performance). El objetivo es transformar estos datos, que originalmente contienen texto, rangos y unidades, en variables numéricas limpias y consistentes.

El proceso de limpieza sigue una secuencia lógica:

  1. Estandarización de Nombres: Se simplifican los nombres de las columnas para facilitar su uso.
  2. Limpieza de Texto: Se eliminan unidades como “hp” o “sec” y otros caracteres innecesarios.
  3. Manejo de Formatos Especiales: Se procesan los valores que vienen en rangos (ej: “70-85”) calculando su promedio.
  4. Conversión a Formato Numérico: Se transforma el texto limpio a un formato numérico que permita cálculos.
  5. Filtrado de Datos Faltantes: Finalmente, se eliminan las filas que, tras la limpieza, no contengan datos válidos en nuestras columnas de interés.

1.1. Verificación del Proceso de Limpieza

Para confirmar que el proceso fue exitoso, es fundamental inspeccionar el conjunto de datos resultante. A continuación, se presenta una tabla con las primeras seis filas del dataset limpio.

El propósito de esta tabla es doble: * Verificar que las columnas de interés ahora se llaman horse_power y performance. * Confirmar que su tipo de dato ha cambiado de texto (<chr>) a numérico (<dbl>), lo cual es esencial para el análisis.

 Vista Previa del Conjunto de Datos Limpio
# A tibble: 6 × 11
  `Company Names` `Cars Names`  Engines     `CC/Battery Capacity` horse_power
  <chr>           <chr>         <chr>       <chr>                       <dbl>
1 FERRARI         SF90 STRADALE V8          3990 cc                     963  
2 ROLLS ROYCE     PHANTOM       V12         6749 cc                     563  
3 Ford            KA+           1.2L Petrol 1,200 cc                     77.5
4 MERCEDES        GT 63 S       V8          3,982 cc                    630  
5 AUDI            AUDI R8 Gt    V10         5,204 cc                    602  
6 BMW             Mclaren 720s  V8          3,994 cc                    710  
# ℹ 6 more variables: `Total Speed` <chr>, performance <dbl>,
#   `Cars Prices` <chr>, `Fuel Types` <chr>, Seats <chr>, Torque <chr>

 Resumen Estadístico de las Variables Numéricas
  horse_power      performance    
 Min.   :  26.0   Min.   : 1.900  
 1st Qu.: 155.0   1st Qu.: 5.300  
 Median : 255.0   Median : 7.100  
 Mean   : 304.7   Mean   : 7.561  
 3rd Qu.: 400.0   3rd Qu.: 9.500  
 Max.   :1850.0   Max.   :35.000  

 Número final de filas válidas:** 1192

2. Análisis Visual de las Variables

Una vez completada la fase de limpieza y preparación de los datos, el siguiente paso fundamental es el análisis visual. La visualización nos permite descubrir patrones, identificar anomalías y entender la naturaleza de nuestras variables de una manera que las tablas de números por sí solas no pueden mostrar.

En esta sección, nos enfocaremos en tres objetivos principales a través de distintos tipos de gráficos:

a) Análisis de la Distribución y Simetría

Para cada una de nuestras variables de interés, horse_power y performance, generaremos un histograma junto con una curva de densidad. El objetivo es observar la forma de la distribución para determinar si es:

  • Simétrica: Los datos se distribuyen de manera uniforme alrededor del centro (similar a una campana).
  • Asimétrica Positiva: La mayoría de los datos se agrupan a la izquierda, con una “cola” que se extiende hacia los valores altos a la derecha.
  • Asimétrica Negativa: La mayoría de los datos se agrupan a la derecha, con una “cola” que se extiende hacia los valores bajos a la izquierda.

b) Detección de Datos Atípicos y Dispersión

A continuación, se crearán diagramas de caja y bigotes (boxplots) para ambas variables. Estos gráficos son una herramienta excelente para dos propósitos:

  1. Identificar valores atípicos (outliers): Se representan como puntos individuales que caen fuera de los “bigotes” del gráfico, indicando que son valores inusualmente altos o bajos en comparación con el resto de los datos.
  2. Entender la dispersión: Nos muestran dónde se concentra el 50% central de los datos (la “caja”).

c) Análisis de la Relación entre Variables

Finalmente, para entender cómo interactúan la potencia y la rapidez de los vehículos, generaremos un gráfico de dispersión (scatter plot). Este gráfico nos permitirá confirmar visualmente si existe una correlación entre horse_power y performance. Intuitivamente, esperaríamos encontrar una correlación negativa, donde a mayor potencia, el tiempo de aceleración es menor.

A continuación, se presenta el código que genera estas visualizaciones y los resultados obtenidos.

## --- Gráfico 1: Distribución de Horse Power ---

## 
## --- Gráfico 2: Boxplot de Horse Power ---

## 
## --- Gráfico 3: Distribución de Performance ---

## 
## --- Gráfico 4: Boxplot de Performance ---

## 
## --- Gráfico 5: Relación entre Horse Power y Performance ---

3. Análisis de Resultados y Conclusiones

A partir de las visualizaciones generadas en la sección anterior, podemos extraer varias conclusiones importantes sobre las características de los vehículos en nuestro conjunto de datos y la relación entre sus variables principales.

Análisis de la Variable horse_power

1. Distribución Asimétrica Positiva

El histograma de los caballos de fuerza muestra una clara asimetría positiva. La gran mayoría de los vehículos se concentra en el rango bajo-medio de potencia (aproximadamente entre 100 y 400 hp), como lo demuestra el gran pico a la izquierda. La “cola” larga que se extiende hacia la derecha indica que existe un número reducido de vehículos con una potencia excepcionalmente alta (superiores a 800 hp).

2. Presencia de Múltiples Datos Atípicos

El diagrama de caja y bigotes (boxplot) confirma de manera contundente esta observación. La caja, que representa el 50% central de los datos, es relativamente compacta y se sitúa en la parte baja de la escala. Más allá del “bigote” superior, observamos una gran cantidad de valores atípicos (outliers), representados por las ‘x’ rojas. Estos puntos corresponden a los superdeportivos o vehículos de lujo cuya potencia es estadísticamente inusual en comparación con la mayoría de los autos del dataset.

Conclusión Parcial (Horse Power): La potencia de los vehículos en este conjunto de datos no se distribuye de manera uniforme. La mayoría son autos convencionales, pero hay una presencia significativa de vehículos de élite que sesgan la distribución hacia valores altos.


Análisis de la Variable performance

1. Distribución Ligeramente Asimétrica

La distribución del tiempo de aceleración (performance) es considerablemente más simétrica que la de los caballos de fuerza. Sin embargo, también presenta una ligera asimetría positiva. El pico de la distribución se encuentra alrededor de los 7-10 segundos, lo que indica que la mayoría de los autos tienen un tiempo de aceleración en este rango. La pequeña cola hacia la derecha muestra que hay algunos vehículos que son notablemente más lentos.

2. Identificación de Outliers “Lentos”

El boxplot de performance confirma esta ligera asimetría. La caja está bien definida y los bigotes son relativamente simétricos. Sin embargo, se identifican varios valores atípicos en el extremo superior (representados por las ‘x’ azules). Estos puntos corresponden a vehículos cuyo tiempo de aceleración es significativamente mayor (más lento) que el del resto del grupo.

Conclusión Parcial (Performance): La mayoría de los vehículos tienen un rendimiento de aceleración competitivo y predecible. Los valores atípicos representan a los autos más lentos del conjunto de datos.


Análisis de la Relación entre horse_power y performance

1. Fuerte Correlación Negativa

El gráfico de dispersión (scatter plot) revela una relación clara y fuerte entre ambas variables. Se observa una tendencia descendente de izquierda a derecha, lo que indica una correlación negativa. Esto confirma nuestra hipótesis inicial: a medida que aumentan los caballos de fuerza (horse_power), el tiempo de aceleración (performance) disminuye. En términos sencillos, los autos más potentes son más rápidos.

2. Relación No Lineal (Curvilínea)

Es interesante notar que la relación no es una línea recta perfecta, sino más bien una curva. La pendiente es muy pronunciada en la zona de baja potencia (pasar de 100 a 300 hp reduce drásticamente el tiempo de aceleración). Sin embargo, en la zona de muy alta potencia (pasar de 1000 a 1500 hp), la disminución en el tiempo es mucho menor. Esto sugiere un efecto de rendimientos decrecientes: cada caballo de fuerza adicional aporta menos a la reducción del tiempo de aceleración una vez que el vehículo ya es extremadamente potente.