y=carros_col$precio
x1=carros_col$km
x2=carros_col$años
x3=carros_col$color
x4=carros_col$ciudad
x5=carros_col$transmision
carros_col2 <- data.frame(y,x1,x2)
plot(carros_col2)
cor(carros_col2)
## y x1 x2
## y 1.0000000 -0.7726395 -0.8081881
## x1 -0.7726395 1.0000000 0.8937374
## x2 -0.8081881 0.8937374 1.0000000
El estudio de la correlación entre variables nos ayuda al construir modelos de regresión múltiple, ya que proporciona información valiosa sobre las relaciones entre los diferentes predictores y la variable objetivo.
La matriz de correlación nos muestra la relación entre el precio y el kilometraje, observamos una correlación negativa significativa de -0.7726. Esto sugiere que a medida que el kilometraje de un carro usado aumenta, hay una tendencia clara a una disminución en el precio.
Continuando, la correlación entre el precio y los años desde la fabricación es aún más pronunciada, con un coeficiente de -0.8082. Este resultado sugiere que la antigüedad de un carro tiene un impacto sustancial en su precio de venta. En otras palabras, los carros más antiguos tienden a tener precios más bajos.
La correlación entre el kilometraje y los años desde la fabricación es otro punto destacado. Con un coeficiente positivo de 0.8937, se revela una relación fuerte entre estas dos variables. Esto sugiere que, en general, los carros más antiguos tienden a tener mayores recorridos.
Sin embargo, es importante señalar que la alta correlación entre el kilometraje y los años desde la fabricación podría plantear desafíos potenciales en el modelado. La multicolinealidad, o la interrelación fuerte entre las variables predictoras, puede afectar la estabilidad y la interpretación de un modelo de regresión múltiple. En casos como este, se puede considerar la exploración de interacciones entre las variables
table(carros_col$color)
##
## Azul Blanco Gris Negro Plateado Rojo
## 16 36 66 7 16 25
table(carros_col$ciudad)
##
## Bogotá Cali Manizales Medellín
## 49 49 20 48
table(carros_col$transmision)
##
## Automática Mecánica
## 96 70
MO1 <- lm(precio~km+ciudad, data = carros_col)
summary(MO1)
##
## Call:
## lm(formula = precio ~ km + ciudad, data = carros_col)
##
## Residuals:
## Min 1Q Median 3Q Max
## -72442469 -7342087 -259475 5649315 98150805
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.924e+07 2.810e+06 28.200 <2e-16 ***
## km -4.033e+02 2.611e+01 -15.450 <2e-16 ***
## ciudadCali 6.935e+06 2.828e+06 2.453 0.0153 *
## ciudadManizales 3.259e+06 3.710e+06 0.878 0.3810
## ciudadMedellín 4.546e+06 2.836e+06 1.603 0.1109
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13960000 on 161 degrees of freedom
## Multiple R-squared: 0.612, Adjusted R-squared: 0.6024
## F-statistic: 63.49 on 4 and 161 DF, p-value: < 2.2e-16
El intercepto de 79,240,000 indica el precio esperado cuando todas las variables independientes son cero. En este caso, cuando el kilometraje es cero y el carro está en Bogotá. Este valor es altamente significativo con un valor p de 2e-16
El coeficiente asociado al kilometraje, que se cifra en -4.033e+02. Esto implica que, en promedio, cada kilómetro adicional se asocia con una disminución de aproximadamente 403,300 mil de pesos en el precio del automóvil. Con un p-valor prácticamente cero, el coeficiente asociado al kilometraje es significativo en el modelo con un valor p de 2e-16.
El coeficiente asociado a la categoría “Cali”, nos indica que el precio de los carros en Cali incrementa en promedio en 6,935,000 millones de pesos en comparación al precio de los carros en Bogotá. Este resultado es respaldado por un p-valor de 0.0153, indicando una relación estadísticamente significativa.
En contraste, El coeficiente asociado a la categoría “Manizales”, muestral que precio de los carros en Manizales aumentan en promedio en 3,259,000 millones de pesos en comparación al precio de los carros en Bogotá. El p-valor asociado es 0.3810. Esto sugiere que no hay evidencia estadística significativa para afirmar que el precio de los carros en Manizales es diferente al de Bogotá.
El coeficiente asociado a la categoría “Medellín”, lo que sugiere que el precio de los carros en Medellín incrementa en promedio en 4,546,000 millones de pesos en comparación al precio de los carros en Bogotá. Sin embargo, es crucial notar que este resultado no alcanza significancia estadística, ya que el p-valor es 0.1109. Esto sugiere que, no es en significativa en términos estadísticos. El R cuadrado del modelo es 0.612, lo que implica que aproximadamente el 61.2% de la variabilidad en los precios de los carros se explica por las variables incluidas en el modelo. Este valor es moderadamente alto, indicando que el modelo tiene un buen ajuste en general.
F-statistic: El valor del estadístico F con un p-valor muy bajo, lo que sugiere que al menos uno de los predictores es significativo en la predicción del precio.
MO2 <- lm(precio~años+km, data = carros_col)
summary(MO2)
##
## Call:
## lm(formula = precio ~ años + km, data = carros_col)
##
## Residuals:
## Min 1Q Median 3Q Max
## -73897369 -4369718 -1006490 3873706 100725458
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.601e+07 2.114e+06 40.693 < 2e-16 ***
## años -3.047e+06 5.260e+05 -5.792 3.49e-08 ***
## km -1.319e+02 5.323e+01 -2.478 0.0142 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12880000 on 163 degrees of freedom
## Multiple R-squared: 0.6658, Adjusted R-squared: 0.6617
## F-statistic: 162.3 on 2 and 163 DF, p-value: < 2.2e-16
El término constante del modelo, el intercepto, es 86,010,000. Representa el precio estimado de un carro cuando tanto el número de años como el kilometraje son cero. Este valor es altamente significativo.
La variable de años tiene un efecto considerable en el precio, indicando que, manteniendo constante el kilometraje, el precio disminuye en promedio en 3,047,000 pesos colombianos por cada año adicional del carro. Este coeficiente es altamente significativo (3.49e-08), subrayando la relevancia crítica de la antigüedad en la determinación del precio.
El efecto del kilometraje también es significativo, con un coeficiente de −131.9. Esto sugiere que, manteniendo constante el número de años, el precio disminuye en promedio en 131.9 pesos colombianos por cada kilómetro adicional. Este efecto es estadísticamente significativo (0.0142), señalando la importancia de considerar el kilometraje al evaluar el precio de un vehículo.
El R cuadrado del modelo es 0.6658, lo que indica que aproximadamente el 66.58% de la variabilidad en los precios de los carros se explica por las variables incluidas en el modelo. Este alto respalda la capacidad explicativa del modelo. Además, el estadístico F, con un valor de 162.3 y un p-valor extremadamente bajo, respalda la significancia global del modelo.
MO3 <- lm(precio~km+años+transmision+ciudad, data = carros_col)
summary(MO3)
##
## Call:
## lm(formula = precio ~ km + años + transmision + ciudad, data = carros_col)
##
## Residuals:
## Min 1Q Median 3Q Max
## -69843432 -4784089 -399877 3210762 97201988
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.517e+07 2.690e+06 31.668 < 2e-16 ***
## km -1.511e+02 5.281e+01 -2.860 0.00480 **
## años -2.635e+06 5.341e+05 -4.934 2.02e-06 ***
## transmisionMecánica -6.704e+06 2.096e+06 -3.198 0.00167 **
## ciudadCali 3.405e+06 2.609e+06 1.305 0.19366
## ciudadManizales 2.254e+06 3.373e+06 0.668 0.50504
## ciudadMedellín 2.280e+06 2.585e+06 0.882 0.37909
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12530000 on 159 degrees of freedom
## Multiple R-squared: 0.6911, Adjusted R-squared: 0.6794
## F-statistic: 59.29 on 6 and 159 DF, p-value: < 2.2e-16
El término constante del modelo, el intercepto, es 87,170,000.ndica el precio esperado cuando todas las variables independientes son cero. Este valor es significativo.
El efecto del kilometraje también es significativo, con un coeficiente de −151.1. Esto sugiere que, manteniendo constante el resto de variables explicatorias, el precio disminuye en promedio en 151.1 pesos colombianos por cada kilómetro adicional. Este efecto es estadísticamente significativo con valor p igual cercano a cero.
La variable de años tiene un efecto considerable en el precio, indicando que, manteniendo constante el resto de variables explicatorias, el precio disminuye en promedio en 2,635,000 millones de pesos por cada año adicional del carro. Este coeficiente es altamente significativo.
El coeficiente de transmisión (mecánica), indica que los autos mecanicos tienen un precio promedio inferior en 6,704,000 millones pesos en comparación con los de transmisión automática. Este efecto es estadísticamente significativo 0.00167, lo que sugiere que el tipo de transmisión influye significativamente en el precio de los carros en Colombia.
El coeficiente asociado a la categoría “Cali”, nos inidica que el precio de los carros en Cali incrementa en promedio en 3,405,000 millones de pesos en comparación al precio de los carros en Bogota. Este resultado tiene un p-valor de 0.19366, indicando una relación estadísticamente no significativa.
En contraste, El coeficiente asociado a la categoría “Manizales”, muestral que precio de los carros en Manizales aumentan en promedio en 2,2540,000 millones de pesos en comparación al precio de los carros en Bogota. El p-valor asociado es 0.50504. Esto sugiere que no hay evidencia estadística significativa.
El coeficiente asociado a la categoría “Medellin”, lo que sugiere que el precio de los carros en Medellin incrementa en promedio en 2,280,000 millones de pesos en comparación al precio de los carros en Bogota. Sin embargo, es crucial notar que este resultado no alcanza significancia estadística, ya que el p-valor es 0.37909.
El R cuadrado del modelo es 0.6911, lo que significa que aproximadamente el 69.11% de la variabilidad en los precios de los carros se explica por las variables incluidas en el modelo. Mientras, el estadístico F, con un valor de 59.29 y un p-valor cercano a cero, respalda la significancia global del modelo.
AIC(MO1,MO2,MO3)
## df AIC
## MO1 6 5939.963
## MO2 4 5911.214
## MO3 8 5906.128
step(MO3, direction = "both", trace = 1)
## Start: AIC=5433.04
## precio ~ km + años + transmision + ciudad
##
## Df Sum of Sq RSS AIC
## - ciudad 3 2.8194e+14 2.5261e+16 5428.9
## <none> 2.4979e+16 5433.0
## - km 1 1.2853e+15 2.6264e+16 5439.4
## - transmision 1 1.6062e+15 2.6585e+16 5441.4
## - años 1 3.8242e+15 2.8803e+16 5454.7
##
## Step: AIC=5428.9
## precio ~ km + años + transmision
##
## Df Sum of Sq RSS AIC
## <none> 2.5261e+16 5428.9
## + ciudad 3 2.8194e+14 2.4979e+16 5433.0
## - km 1 1.1293e+15 2.6390e+16 5434.2
## - transmision 1 1.7668e+15 2.7028e+16 5438.1
## - años 1 4.5302e+15 2.9791e+16 5454.3
##
## Call:
## lm(formula = precio ~ km + años + transmision, data = carros_col)
##
## Coefficients:
## (Intercept) km años
## 87391333 -139 -2782053
## transmisionMecánica
## -6834279
El Criterio de Información de Akaike (AIC) se utilizaa para guiar la selección de variables. Abordaremos el proceso-AIC paso a paso utilizando el modelo 3 (MO3), que inicialmente incluye kilómetros recorridos (km), años de antigüedad, tipo de transmisión y la ubicación geográfica de la venta del carro (Ciudad).
Comenzamos con un modelo inicial que considera todas las variables predictoras: precio ~ km + años + transmision + ciudad, El AIC inicial es 5433.04, reflejando la capacidad del modelo para explicar la variabilidad en los precios de los carros.
El primer paso del proceso-AIC implica la eliminación de la variable “Ciudad” del modelo. Después de esta exclusión, se calcula un nuevo AIC, y observamos una disminución a 5428.9, indicando una mejora en la capacidad predictiva del modelo sin esta variable. Esta reducción del AIC respalda la decisión de eliminar “Ciudad” del conjunto de predictores.
A lo largo del proceso-AIC, se examinan diferentes configuraciones de variables para determinar cuál ofrece el mejor equilibrio entre ajuste y complejidad. Cada configuración se evaluó en función de su AIC, y se seleccionó el modelo que ofreció el equilibrio óptimo entre capacidad explicativa y simplicidad. Antes de decidir la exclusión de “Ciudad”, se evaluaron modelos que excluían otras variables predictoras. Algunas de las configuraciones consideradas podrían haber sido
Modelo sin Kilometraje - precio ~ años + transmision + ciudad - AIC resultante: [5439.4]
Modelo sin Años - precio ~ km + transmision + ciudad - AIC resultante: [5454.7]
Modelo sin Transmisión - precio ~ km + años + + ciudad - AIC resultante: [5441.4]
La decisión final de eliminar la variable “Ciudad” se tomó después de comparar exhaustivamente los AIC de cada modelo alternativo y determinar que el modelo final precio ~ km + años + transmision ofrecía un ajuste adecuado con una mayor simplicidad en comparación con otras opciones.
MO4 <- lm(precio~km+años+transmision, data = carros_col)
summary(MO4)
##
## Call:
## lm(formula = precio ~ km + años + transmision, data = carros_col)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68583863 -4747597 -352734 3415876 98545200
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.739e+07 2.090e+06 41.808 < 2e-16 ***
## km -1.390e+02 5.166e+01 -2.691 0.007868 **
## años -2.782e+06 5.161e+05 -5.390 2.45e-07 ***
## transmisionMecánica -6.834e+06 2.030e+06 -3.366 0.000952 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12490000 on 162 degrees of freedom
## Multiple R-squared: 0.6876, Adjusted R-squared: 0.6818
## F-statistic: 118.9 on 3 and 162 DF, p-value: < 2.2e-16
id_modelar=sample(1:166,size = 117)
carros_colm_modelar=carros_col[id_modelar,]
carros_colm_validar=carros_col[-id_modelar,]
mod_multi_modelar=lm(precio ~ km + años +as.factor(transmision),data=carros_col)
km=carros_colm_validar$km
años=carros_colm_validar$años
transmision=carros_colm_validar$transmision
transmision2=as.factor(transmision)
sales_predm=predict(mod_multi_modelar,list(km,años,transmision2))
sales_realm=carros_colm_validar$precio
errorm=sales_realm-sales_predm
resm=data.frame(sales_realm,sales_predm,errorm)
MAE2=mean(abs(errorm))
MAE2
## [1] 6017986
En este análisis, hemos evaluado la eficacia de nuestro modelo de regresión en la predicción de los precios de automóviles en el mercado colombiano, centrándonos en la medida del Error Absoluto Medio (MAE). Al comparar nuestras predicciones con las ventas reales en el conjunto de validación, hemos calculado un MAE aproximado de 7,542,852 millones de pesos. . Un MAE más bajo generalmente indica una mayor precisión del modelo, sugiriendo que las predicciones se desvían menos, en promedio, de los precios reales.
predict(MO4,list(km=0,años=0,transmision = factor("Mecánica")),interval = "confidence",level = 0.95)
## fit lwr upr
## 1 80557053 75397056 85717051
Escenario 1: Vehículo con Transmisión Mecánica, Sin Kilómetros Recorridos y Sin Años de Antigüedad:
El modelo MO4 estima que un vehículo con transmisión mecánica, sin kilómetros recorridos y sin años de antigüedad tendría un precio promedio de aproximadamente 80,557,053 millones de pesos. El intervalo de confianza al 95% sugiere que el precio real podría oscilar entre 75,397,056 y 85,717,051 millones de pesos.
predict(MO4,list(km=0,años=0,transmision = factor("Automática")),interval = "confidence",level = 0.95)
## fit lwr upr
## 1 87391333 83263616 91519050
Escenario 2: Vehículo con Transmisión Automática, Sin Kilómetros Recorridos y Sin Años de Antigüedad:
Para un vehículo con transmisión automática, sin kilómetros recorridos y sin años de antigüedad, el modelo MO4 predice un precio promedio de alrededor de 87,391,333 millones de pesos. El intervalo de confianza al 95% indica que existe una alta probabilidad (95%) de que el precio real se encuentre entre 83,263,616 y 91,519,050 millones de pesos.
predict(MO4,list(km=183000,años=16,transmision = factor("Mecánica")),interval = "confidence",level = 0.95)
## fit lwr upr
## 1 10603617 4936767 16270467
Cuando se introduce un escenario con mayor uso y antigüedad, como un vehículo con transmisión mecánica, 183,000 kilómetros recorridos y 16 años de antigüedad, el precio estimado disminuye a alrededor de 10,603,617 millones de peso. Sin embargo, la incertidumbre se refleja en el amplio intervalo de confianza, que se extiende desde 4,936,767 hasta 16,270,467 millones de peso.
predict(MO4,list(km=183000,años=16,transmision = factor("Automática")),interval = "confidence",level = 0.95)
## fit lwr upr
## 1 17437896 11413300 23462493
En el caso de un vehículo con transmisión automática, 183,000 kilómetros recorridos y 16 años de antigüedad, el modelo estima un precio medio de aproximadamente 17,437,896 millones de peso. El intervalo de confianza al 95% indica que el precio real podría variar entre 11,413,300 y 23,462,493 millones de peso.
plot(MO4, 1)
En la figura 1, que ilustra la relación entre los residuos y las
predicciones en la gráfica Residuals vs Fitted, se destaca un patrón que
respalda la linealidad inherente al modelo. La dispersión de los
residuos alrededor de la línea horizontal en cero sugiere que, en
promedio, no hay un sesgo sistemático en ninguna dirección
específica.
Este hallazgo respalda la idea fundamental de que el modelo MO4 no exhibe sesgos sistemáticos en su capacidad para capturar la relación entre la variable predictora y la variable de respuesta. En otras palabras, el modelo se ajusta de manera adecuada al supuesto de linealidad.
plot(MO4, 2)
La Figura 2, que muestra el gráfico (Q-Q Residuals), nos ofrece una
visión visual para evaluar qué tan bien se ajustan los residuos a la
normalidad. Al observar el gráfico, la línea diagonal que se ajusta a
los puntos indica la normalidad esperada si los residuos siguen una
distribución normal.
La evidencia visual respalda de manera sólida la validez del supuesto de normalidad en el Modelo MO4. La cercanía de los puntos a la línea diagonal sugiere que la distribución de los residuos se ajusta de manera satisfactoria a la forma esperada de una distribución normal.
Cuando observamos la gráfica Residuals vs Fitted en el análisis de nuestro Modelo Mo4, estamos esencialmente evaluando la suposición de linealidad. Lo que encontramos es que los residuos muestran una dispersión alrededor de la línea horizontal cero. Este patrón respalda la idea de que nuestro modelo es lineal, indicando que no hay sesgos sistemáticos en la relación entre las variables predictoras la variable de respuesta (“precio”).
Además, al examinar el gráfico (Q-Q Residuals), notamos que los residuos se ajustan bastante bien a la distribución normal esperada. La proximidad de los puntos a la línea diagonal en este gráfico respalda la suposición de normalidad.
Dadas estas observaciones, la falta de evidencia sólida en contra de la linealidad y la normalidad respalda la solidez actual del Modelo Mo4. No parece ser necesario realizar transformaciones significativas en este momento, ya que podrían introducir complejidades adicionales sin beneficios sustanciales evidentes. La validez de la linealidad y la normalidad contribuye a la robustez del modelo actual, proporcionando una representación confiable de la relación entre los años desde la fabricación y el precio de los automóviles en el mercado colombiano.