Generación de datos

# Simulación de datos
set.seed(123)
n <- 100
transmision <- sample(c("Manual", "Automática"), n, replace = TRUE)
precio <- ifelse(transmision == "Automática",
                 rnorm(n, mean = 25000, sd = 3000),
                 rnorm(n, mean = 20000, sd = 3000))

datos <- data.frame(precio, transmision)

# Mostrar las primeras filas
kable(head(datos), caption = "Primeras filas del dataset simulado") %>%
  kable_styling()
Primeras filas del dataset simulado
precio transmision
22363.22 Manual
22307.13 Manual
20996.61 Manual
29105.81 Automática
19641.64 Manual
29549.41 Automática

One-Hot Encoding

# Codificación dummy: Manual es la referencia
dummies <- model.matrix(~ transmision, data = datos)[, -1]
datos$transmision_Automatica <- dummies

Correlación con dummy (no apropiada para interpretación)

cor_pearson_dummy <- cor.test(datos$precio, datos$transmision_Automatica)
"Correlación de Pearson con dummy (no apropiada para interpretar causalidad):"
## [1] "Correlación de Pearson con dummy (no apropiada para interpretar causalidad):"
cor_pearson_dummy
## 
##  Pearson's product-moment correlation
## 
## data:  datos$precio and datos$transmision_Automatica
## t = -7.7076, df = 98, p-value = 1.061e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7234593 -0.4752706
## sample estimates:
##        cor 
## -0.6143391

Prueba t (comparación de medias)

ttest_result <- t.test(precio ~ transmision, data = datos)
"Prueba t de comparación de medias:"
## [1] "Prueba t de comparación de medias:"
ttest_result
## 
##  Welch Two Sample t-test
## 
## data:  precio by transmision
## t = 7.6209, df = 86.528, p-value = 2.978e-11
## alternative hypothesis: true difference in means between group Automática and group Manual is not equal to 0
## 95 percent confidence interval:
##  3360.719 5732.489
## sample estimates:
## mean in group Automática     mean in group Manual 
##                 24837.88                 20291.28

Boxplot

boxplot(precio ~ transmision, data = datos,
        main = "Precio por tipo de transmisión",
        ylab = "Precio (USD)", xlab = "Transmisión",
        col = c("skyblue", "orange"))

Consideraciones sobre el uso de variables categóricas y cuantitativas

  1. La correlación de Pearson no es adecuada para evaluar la relación entre una variable cuantitativa (precio) y una variable cualitativa (transmisión), incluso cuando se utiliza codificación dummy (One-Hot Encoding). Aunque es posible calcular el coeficiente de correlación, su interpretación carece de validez porque la codificación de la variable categórica es arbitraria y no refleja una escala continua.

  2. La prueba t de Student es una técnica estadística adecuada para comparar el promedio de una variable continua entre dos categorías. En este caso, permite evaluar si el precio promedio difiere significativamente entre vehículos con transmisión manual y automática.

  3. Los boxplots son herramientas visuales útiles para identificar diferencias en la distribución de precios entre los tipos de transmisión. Permiten observar la mediana, los rangos intercuartílicos y posibles valores atípicos en cada grupo.

  4. La regresión lineal con codificación dummy (One-Hot Encoding) proporciona una manera apropiada de cuantificar el efecto de una variable categórica sobre una variable cuantitativa. El coeficiente de la variable dummy (transmision_Automatica) estima la diferencia promedio en el precio en comparación con la categoría de referencia (Manual).