# Simulación de datos
set.seed(123)
n <- 100
transmision <- sample(c("Manual", "Automática"), n, replace = TRUE)
precio <- ifelse(transmision == "Automática",
rnorm(n, mean = 25000, sd = 3000),
rnorm(n, mean = 20000, sd = 3000))
datos <- data.frame(precio, transmision)
# Mostrar las primeras filas
kable(head(datos), caption = "Primeras filas del dataset simulado") %>%
kable_styling()
| precio | transmision |
|---|---|
| 22363.22 | Manual |
| 22307.13 | Manual |
| 20996.61 | Manual |
| 29105.81 | Automática |
| 19641.64 | Manual |
| 29549.41 | Automática |
# Codificación dummy: Manual es la referencia
dummies <- model.matrix(~ transmision, data = datos)[, -1]
datos$transmision_Automatica <- dummies
cor_pearson_dummy <- cor.test(datos$precio, datos$transmision_Automatica)
"Correlación de Pearson con dummy (no apropiada para interpretar causalidad):"
## [1] "Correlación de Pearson con dummy (no apropiada para interpretar causalidad):"
cor_pearson_dummy
##
## Pearson's product-moment correlation
##
## data: datos$precio and datos$transmision_Automatica
## t = -7.7076, df = 98, p-value = 1.061e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7234593 -0.4752706
## sample estimates:
## cor
## -0.6143391
ttest_result <- t.test(precio ~ transmision, data = datos)
"Prueba t de comparación de medias:"
## [1] "Prueba t de comparación de medias:"
ttest_result
##
## Welch Two Sample t-test
##
## data: precio by transmision
## t = 7.6209, df = 86.528, p-value = 2.978e-11
## alternative hypothesis: true difference in means between group Automática and group Manual is not equal to 0
## 95 percent confidence interval:
## 3360.719 5732.489
## sample estimates:
## mean in group Automática mean in group Manual
## 24837.88 20291.28
boxplot(precio ~ transmision, data = datos,
main = "Precio por tipo de transmisión",
ylab = "Precio (USD)", xlab = "Transmisión",
col = c("skyblue", "orange"))
La correlación de Pearson no es adecuada para evaluar la relación entre una variable cuantitativa (precio) y una variable cualitativa (transmisión), incluso cuando se utiliza codificación dummy (One-Hot Encoding). Aunque es posible calcular el coeficiente de correlación, su interpretación carece de validez porque la codificación de la variable categórica es arbitraria y no refleja una escala continua.
La prueba t de Student es una técnica estadística adecuada para comparar el promedio de una variable continua entre dos categorías. En este caso, permite evaluar si el precio promedio difiere significativamente entre vehículos con transmisión manual y automática.
Los boxplots son herramientas visuales útiles para identificar diferencias en la distribución de precios entre los tipos de transmisión. Permiten observar la mediana, los rangos intercuartílicos y posibles valores atípicos en cada grupo.
La regresión lineal con codificación dummy (One-Hot
Encoding) proporciona una manera apropiada de cuantificar
el efecto de una variable categórica sobre una variable cuantitativa. El
coeficiente de la variable dummy (transmision_Automatica)
estima la diferencia promedio en el precio en comparación con la
categoría de referencia (Manual).