CAR EVALUATION:

Contexto sobre la base de datos:

El conjunto de datos Car Evaluation fue desarrollado usando un modelo jerárquico de decisión diseñado para demostrar el sistema experto DEX. Este modelo evalúa la acepabilidad de un auto basándose en 6 aspectos fundamentales:

  1. Buying: Precio de compra
  2. Maint: Costo de mantenimiento
  3. Doors: Numeo de puertas
  4. Persons: Capacidad de personas
  5. lug_boot: Tamaño del baúl
  6. Safety: Nivel estimaodo de seguridad

El objetivo es poder clasificar los autos en una de las siguientes categorías:

  1. Unacc: Inaceptable
  2. acc: Aceptable
  3. good: Bueno
  4. vgood: Muy bueno

Datos:

En esta base de datos podemos encontrar 1.728 observaciones distribuidas en 7 variables de tipo categóricas.

Variables X:

  • buying: Low, med, high, vhigh

  • maint: Low, med, high, vhigh

  • doors: 2, 3, 4, 5more

  • persons: 2,4, more

  • lug_boot: Small, med, big, low, med high

  • safety: Small, med, big, low, med high

    Variables Y:

  • Class (aceptabilidad)

car_data <- read.csv(file.choose(), header = FALSE, stringsAsFactors = TRUE)


# Asignar nombres apropiados a las columnas
colnames(car_data) <- c("buying", "maint", "doors", "persons", "lug_boot", "safety", "class")

# Verificar dimensiones del dataset
dim(car_data)  # [1] 1728    7
## [1] 1728    7
# Ver estructura del dataset
str(car_data)
## 'data.frame':    1728 obs. of  7 variables:
##  $ buying  : Factor w/ 4 levels "high","low","med",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ maint   : Factor w/ 4 levels "high","low","med",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ doors   : Factor w/ 4 levels "2","3","4","5more": 1 1 1 1 1 1 1 1 1 1 ...
##  $ persons : Factor w/ 3 levels "2","4","more": 1 1 1 1 1 1 1 1 1 2 ...
##  $ lug_boot: Factor w/ 3 levels "big","med","small": 3 3 3 2 2 2 1 1 1 3 ...
##  $ safety  : Factor w/ 3 levels "high","low","med": 2 3 1 2 3 1 2 3 1 2 ...
##  $ class   : Factor w/ 4 levels "acc","good","unacc",..: 3 3 3 3 3 3 3 3 3 3 ...
# Ver un resumen general
summary(car_data)
##    buying      maint       doors     persons     lug_boot    safety   
##  high :432   high :432   2    :432   2   :576   big  :576   high:576  
##  low  :432   low  :432   3    :432   4   :576   med  :576   low :576  
##  med  :432   med  :432   4    :432   more:576   small:576   med :576  
##  vhigh:432   vhigh:432   5more:432                                    
##    class     
##  acc  : 384  
##  good :  69  
##  unacc:1210  
##  vgood:  65
# Ver los primeros registros
head(car_data)
##   buying maint doors persons lug_boot safety class
## 1  vhigh vhigh     2       2    small    low unacc
## 2  vhigh vhigh     2       2    small    med unacc
## 3  vhigh vhigh     2       2    small   high unacc
## 4  vhigh vhigh     2       2      med    low unacc
## 5  vhigh vhigh     2       2      med    med unacc
## 6  vhigh vhigh     2       2      med   high unacc
# Tablas de frecuencia por variable
table(car_data$buying)
## 
##  high   low   med vhigh 
##   432   432   432   432
table(car_data$maint)
## 
##  high   low   med vhigh 
##   432   432   432   432
table(car_data$doors)
## 
##     2     3     4 5more 
##   432   432   432   432
table(car_data$persons)
## 
##    2    4 more 
##  576  576  576
table(car_data$lug_boot)
## 
##   big   med small 
##   576   576   576
table(car_data$safety)
## 
## high  low  med 
##  576  576  576
table(car_data$class)
## 
##   acc  good unacc vgood 
##   384    69  1210    65
# Proporción de clases
prop.table(table(car_data$class))
## 
##        acc       good      unacc      vgood 
## 0.22222222 0.03993056 0.70023148 0.03761574

Metodología:

El objetivo del análisis es estudiar como diferentes aspectos de un auto influyen en su aceptabilidad. Dado que las variables explicativas son categóricas ordinales y la variable independiente también es categórica (nominal), se seguirá la siguiente estrategia metodológica:

  • Análisis exploratorio:

Se usarán tablas de contingencia y gráficos de barras para explorar la relación entre cada variable explicativa y la variable objetivo. Esto permite identificar patrones visuales o asociaciones fuertes (por ejemplo, si safety = high está frecuentemente asociado a vgood)

  • Preprocesamiento de los datos:

    • Se verifica que no hay valores faltantes ni inconsistencias. Se transforman las variables categóricas a factores ordenados cuando sea apropiado.

    Modelo de clasificación:

    • Se aplicará un árbol de decisión (CART) como modelo base por su interpretabilidad y buena adaptación a variables categóricas. Se evalúa el desempeño del modelo con una matriz de confusión y, si se desea, validación cruzada.

    Visualización del árbol:

    • El modelo de árbol se visualiza para interpretar cómo los atributos determinan la aceptabilidad del automóvil.

Problema estadístico:

Como se mencionó anteriormente en la metodología, se buscaa analizar que aspectos propios de un auto influyen en su aceptabilidad respecto a lo que busca un comprador. Por ejemplo: la pregunta que decidimos resolver en este trabajo es: ¿Qué combinación de características en un auto está mas asociada con una alta aceptabilidad por parte del comprador?

Esta pregunta nos gustó debido a que se relaciona mucho con los anteriores trabajos que hemos realizado, analizando cual variable X afecta mas la variable Y.