## Número de observaciones: 129
## Número de variables: 6
Con el fin de realizar un modelo adecuado de regresion lineal simple y multiple se proponen las siguientes variables, donde Y (Precio en millones) es la variable dependiente la cual esta determinada por las variables X (Km, Modelos, Veh, Trasnmision y conbustible), estas variables determinaran el precio en millones de un vehiculo en Cali por medio de OLX dentro del analisis de regresion lineal multiple y una de las variables determinaria de igual manera el precio de una vivienda dentro del analisis de regresion lineal simple. A continuacion se presentan las variables:
## Media de precio: 40445659
## Desviación estándar de precio: 12411760
## Media de Km: 92492.33
## Desviación estándar de Km: 42745.35
## Media de modelo: 2015.225
## Desviación estándar de modelo: 2.456625
La media del precio de los vehículos es 40,445,659 pesos, lo que muestra que el costo promedio de los automóviles en el conjunto de datos está cerca de este valor. Sin embargo, la desviación estándar de 12,411,760 pesos indica una gran dispersión en los precios, lo que esta relacionado con diferencias significativas en factores como el modelo, kilometraje, marca o estado del vehículo.
En cuanto al kilometraje, la media es de 92,492.33 km, lo que implica que los vehículos en promedio tienen un uso moderado, representando un rango de vehículos usados. La desviación estándar de 42,745.35 km muestra que hay variabilidad en el kilometraje, con algunos vehículos considerablemente más usados o menos recorridos que otros.
El año del modelo tiene una media de 2015.225, lo que sugiere que la mayoría de los vehículos son relativamente recientes, con una antigüedad promedio de alrededor de 9 años si se considera el año actual como 2024. La desviación estándar de 2.456625 indica una variabilidad limitada en este aspecto, lo que da a entender que la mayoría de los vehículos están en un rango de modelos cercanos entre sí, posiblemente entre 2013 y 2017.
En el siguiente analisis bivariado es posible encontrar las correlaciones de las variables cuantitativas con respecto a la variable Y, precio, y de aigual manera los graficos de dipersion.
## Correlaciones con precio:
## Km: -0.1984356
## modelo: 0.3550418
El kilometraje tiene una correlación negativa de -0.1984 con el precio, lo que indica que, a medida que aumenta el kilometraje, el precio tiende a disminuir, aunque la relación es débil. Esto es coherente con la idea de que los vehículos más usados suelen tener un menor valor en el mercado. Por otro lado, el modelo (año de fabricación) tiene una correlación positiva de 0.3550 con el precio, lo que sugiere que los vehículos más recientes tienden a ser más costosos. Aunque esta correlación también es moderada, refuerza la lógica de que los compradores suelen valorar más los vehículos más nuevos. En conjunto, estas correlaciones subrayan que tanto el kilometraje como el año del modelo influyen en el precio, pero de manera relativamente limitada, debido a otros factores no incluidos en esta parte del análisis.
## `geom_smooth()` using formula = 'y ~ x'
La tendencia general, representada por la línea azul de regresión,
indica una relación negativa pues a medida que aumenta el kilometraje,
el precio del vehículo tiende a disminuir. Sin embargo, los puntos están
dispersos en torno a la línea, lo que da a entender como se dijo
anteriormente que la relación entre ambas variables no es
particularmente fuerte. Esto concuerda con la correlación moderadamente
negativa observada entre precio y kilometraje.
## `geom_smooth()` using formula = 'y ~ x'
Se observa una tendencia positiva, indicada por la línea azul de
regresión, a medida que aumenta el año del modelo (vehículos más
recientes), el precio tiende a incrementarse. Esto muestra que los
modelos más nuevos tienen un mayor valor en el mercado. Sin embargo,
también hay dispersión en los puntos, lo que indica que, aunque existe
una correlación positiva entre estas variables, no es perfecta.
## Warning: package 'caTools' was built under R version 4.3.3
##
## Call:
## lm(formula = precio ~ km, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20731339 -8431924 -4739768 4658312 39977491
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.554e+07 2.809e+06 16.208 <2e-16 ***
## km -5.349e+01 2.718e+01 -1.968 0.0522 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12280000 on 88 degrees of freedom
## Multiple R-squared: 0.04216, Adjusted R-squared: 0.03128
## F-statistic: 3.873 on 1 and 88 DF, p-value: 0.0522
En este modelo 1, la variable predictora seleccionada es kilómetros recorridos (km), ya que esta es una característica cuantitativa clave que afecta directamente el valor de un vehículo. En términos generales, se espera que los vehículos con mayor cantidad de kilómetros recorridos tengan un precio más bajo, ya que el uso y desgaste del automóvil disminuyen su valor en el mercado. Este modelo de regresión lineal simple, utiliza los kilómetros recorridos como variable predictora del precio del vehículo, muestra una relación negativa esperada, por cada kilómetro adicional, el precio promedio disminuye aproximadamente 53.49 pesos. Aunque esta relación tiene cierta significancia estadística (p-valor = 0.0522), no es lo suficientemente fuerte para ser concluyente. Además, el bajo R² (4.2%) indica que solo una pequeña parte de la variación en el precio es explicada por los kilómetros, lo que refleja que otros factores importantes no incluidos en el modelo están influyendo en el precio. La alta desviación estándar de los residuos (12,280,000 pesos) refuerza la limitada capacidad predictiva del modelo. No realizo ningun grafico pues el de correlacion entre estas dos variables se encuentra anteriormente en las correlaciones.
##
## Call:
## lm(formula = precio ~ veh, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17050000 -5619231 -744231 3255769 32950000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33744231 1323104 25.504 < 2e-16 ***
## vehkia cerato 16305769 2036214 8.008 4.47e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9541000 on 88 degrees of freedom
## Multiple R-squared: 0.4215, Adjusted R-squared: 0.415
## F-statistic: 64.13 on 1 and 88 DF, p-value: 4.466e-12
## `geom_smooth()` using formula = 'y ~ x'
El modelo 2 utiliza como variable predictora categórica veh, que
clasifica los vehículos en dos categorías: “Chevrolet Sail” y “Kia
Cerato”. La elección de esta variable está justificada porque el modelo
del vehículo es un factor determinante en el precio, dado que las marcas
y modelos están asociados a diferentes percepciones de calidad, demanda,
y valor en el mercado. Los resultados obtenidos muestran que el precio
promedio del “Chevrolet Sail” es de 33,744,231, mientras que el “Kia
Cerato” tiene un precio adicional promedio de 16,305,769, como se indica
en el coeficiente positivo de esta categoría. Este hallazgo sugiere que
el “Kia Cerato” es percibido como un vehículo de mayor valor en
comparación con el “Chevrolet Sail”. El p-valor asociado al coeficiente
del “Kia Cerato” (4.47e-12) es extremadamente bajo, lo que indica que la
diferencia en precios entre ambos modelos es estadísticamente
significativa.
El R2 del modelo es 0.4215, lo que implica que el tipo de vehículo explica aproximadamente el 42.15% de la variabilidad en el precio. Esto sugiere que, aunque relevante, hay otros factores no considerados que también influyen en el precio. El F-statistic de 64.13 y su p-valor asociado confirman que el modelo es globalmente significativo. La desviación estándar residual de 9,541,000 indica una variabilidad en los precios que no es explicada por la variable veh. A pesar de esto, el modelo es útil para entender cómo las diferencias entre estas dos categorías afectan el precio y puede servir como una base para predecir precios en función del tipo de vehículo.
Entre los dos modelos, el Modelo 2 es el mejor. Esto se debe a que presenta un R2 mucho más alto (42.15% frente al 4.2% del Modelo 1), lo que indica que el tipo de vehículo (veh) explica una proporción significativamente mayor de la variabilidad en el precio en comparación con los kilómetros recorridos (km). Además, la variable categórica del Modelo 2 tiene un coeficiente altamente significativo (p-valor < 0.001), mientras que la relación en el Modelo 1 apenas alcanza una significancia marginal (p-valor = 0.0522). Aunque ambos modelos tienen una desviación estándar residual alta, el Modelo 2 es más consistente en capturar las diferencias clave entre los dos tipos de vehículos, lo que lo hace más útil para predecir precios en función del tipo de vehículo. Por lo tanto, se considera el mejor modelo para este análisis.
## Error Absoluto Medio (MAE): 6927919
combustible tiene solo un nivel (gasolina), lo que significa que no contribuye información útil al modelo. Las variables categóricas necesitan al menos dos niveles para que el modelo pueda estimar diferencias entre ellos. Si todos los vehículos son a gasolina, esta variable es redundante y debe eliminarse del análisis.
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
## Warning: package 'car' was built under R version 4.3.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.3.3
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
## The following object is masked from 'package:purrr':
##
## some
##
## Call:
## lm(formula = precio ~ km + modelo + veh, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27621477 -2388586 -442756 2185849 17425107
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.617e+09 6.261e+08 -12.166 <2e-16 ***
## km 4.217e+01 1.678e+01 2.513 0.0138 *
## modelo 3.793e+06 3.102e+05 12.228 <2e-16 ***
## vehkia cerato 2.238e+07 1.304e+06 17.165 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5624000 on 89 degrees of freedom
## Multiple R-squared: 0.7887, Adjusted R-squared: 0.7815
## F-statistic: 110.7 on 3 and 89 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = precio ~ km + modelo + veh + transmision, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27750421 -2207336 236813 2181077 17580447
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.212e+09 6.290e+08 -11.466 < 2e-16 ***
## km 4.292e+01 1.630e+01 2.633 0.00999 **
## modelo 3.594e+06 3.114e+05 11.541 < 2e-16 ***
## vehkia cerato 2.037e+07 1.496e+06 13.618 < 2e-16 ***
## transmisionMecánica -4.479e+06 1.778e+06 -2.519 0.01358 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5463000 on 88 degrees of freedom
## Multiple R-squared: 0.8029, Adjusted R-squared: 0.7939
## F-statistic: 89.6 on 4 and 88 DF, p-value: < 2.2e-16
Análisis del Modelo 1: precio = km + modelo + veh
Este modelo considera tres variables predictoras: kilometraje (km), modelo del año del vehículo (modelo) y el tipo de vehículo (veh). Se seleccionaron estas variables por su relevancia en la determinación del precio de los vehículos. El kilometraje tiene una correlación negativa con el precio (-0.198), lo que sugiere que, a mayor uso, menor valor. El modelo, al ser una variable numérica, está positivamente correlacionada con el precio (0.355), lo que es coherente, ya que los vehículos más nuevos suelen tener precios más altos. Por último, veh, una variable categórica, permite capturar diferencias entre tipos específicos de vehículos.
Los resultados del modelo muestran un Intercepto negativo, indicando que un vehículo con cero kilometraje, fabricado en el año base (2015), tendría un valor teórico fuera del rango usual de observación (valor extremo atribuido al ajuste del modelo). El coeficiente de km es positivo (42.17), contrario a la correlación inicial, posiblemente debido a interacciones con las otras variables. La variable modelo tiene un coeficiente significativo (3,793,000), lo que refuerza la idea de que años más recientes aumentan significativamente el precio. Por último, veh kia cerato tiene un coeficiente positivo (22,380,000), indicando que este tipo de vehículo tiene un precio significativamente mayor que otros en la muestra. El modelo tiene un R² ajustado de 0.7815, lo que indica que explica el 78.15% de la variabilidad del precio. Esto sugiere que las variables seleccionadas son altamente predictivas.
Análisis del Modelo 2: precio = km + modelo + veh + transmision
Este modelo agrega la variable transmisión (transmision) a las incluidas en el Modelo 1, lo que permite evaluar el impacto del tipo de transmisión (Automática vs Mecánica) en el precio del vehículo. La variable combustible no fue incluida debido a su redundancia, ya que todos los vehículos de la muestra son a gasolina, lo que la hace no informativa. La variable transmision agrega un componente adicional de diferenciación, siendo relevante para los consumidores y, por ende, el precio.
Los resultados muestran que las variables principales (km, modelo y veh) siguen siendo significativas, con coeficientes similares al Modelo 1. Sin embargo, transmision Mecánica tiene un coeficiente negativo (-4,479,000), indicando que los vehículos con transmisión mecánica tienden a ser más baratos en promedio que los automáticos. Esto es consistente con las tendencias del mercado, donde las transmisiones automáticas suelen ser preferidas y, por ende, más caras. El R² ajustado es 0.7939, lo que indica una mejora leve frente al Modelo 1, sugiriendo que la inclusión de transmision aporta información adicional al modelo.
## AIC para el Modelo 1: 3160.764
## AIC para el Modelo 2: 3156.289
El Modelo 2 es el más adecuado debido a que su AIC es ligeramente inferior al del Modelo 1 (3156.289 frente a 3160.764), lo que indica que, aunque el segundo modelo incorpora una variable adicional, logra un mejor equilibrio entre la complejidad del modelo y su capacidad predictiva. El AIC penaliza la inclusión de variables innecesarias, pero también premia la capacidad de un modelo para ajustarse a los datos. A pesar de que el Modelo 2 es más complejo, la variable adicional, transmisión, mejora significativamente el ajuste, como lo refleja el R2 ajustado de 0.7939, un incremento con respecto al 0.7815 del Modelo 1. Esto sugiere que la adición de esta variable mejora la capacidad del modelo para capturar las variaciones en el precio de los vehículos, lo que justifica su inclusión.
Además, el Modelo 2 captura una diferencia importante en el mercado de vehículos al incluir el tipo de transmisión, que influye en el precio, ya que las transmisiones automáticas suelen ser preferidas por los consumidores y, por lo tanto, tienen un precio más alto en promedio. La variable transmisión mecánica, con un coeficiente negativo, muestra que los vehículos con transmisión mecánica tienden a ser más baratos. Esta inclusión no solo mejora el ajuste del modelo, sino que también añade un componente relevante para la toma de decisiones en la predicción del precio. Por estas razones, el Modelo 2 resulta ser el mejor modelo para este análisis.
El MAE del Modelo 2 de regresion multiple es de 3,460,631, lo que indica que, en promedio, el modelo tiene un error de aproximadamente 3.46 millones de pesos al predecir el precio de los vehículos. Este valor sugiere que, aunque el modelo es relativamente preciso, las predicciones tienen un margen de error significativo, lo cual puede ser relevante dependiendo del contexto en el que se utilice. Un MAE más bajo indicaría un modelo más preciso, pero en este caso, el valor del MAE señala que hay una cantidad considerable de variabilidad en los precios que no es capturada por el modelo.
En el gráfico de residuos vs. valores ajustados se observa que los
residuos se dispersan aleatoriamente alrededor de la línea horizontal en
cero, sin mostrar un patrón claro o una tendencia particular. Esto
muestra que el modelo cumple con el supuesto de homocedasticidad o
varianza constante, ya que no se aprecian cambios sistemáticos en la
dispersión de los residuos a medida que aumentan los valores ajustados.
Además, la distribución de los residuos parece uniforme a lo largo del
rango de los valores ajustados, lo cual es un buen indicio de que la
varianza de los errores es constante para todas las predicciones del
modelo.
La forma general de la distribución que los residuos no siguen
estrictamente una distribución normal, ya que no tienen una campana
perfectamente simétrica. Sin embargo, la presencia de una distribución
razonablemente centrada en cero con una forma de campana moderada indica
que el modelo tiene un buen ajuste, aunque existen algunas desviaciones
de la normalidad.
la ligera asimetría en los residuos y la posible no normalidad nos indican que podría ser beneficioso ver la conveniencia de una transformación a la variable dependiente para mejorar la normalidad y la homocedasticidad de los residuos, sino resulta se continuaria con el modelo 2 original de regresion multiple.
##
## Call:
## lm(formula = log_precio ~ km + modelo + veh + transmision, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.3559 -0.0234 0.0257 0.0635 0.4101
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.540e+02 3.020e+01 -5.100 1.24e-06 ***
## km 1.050e-06 7.831e-07 1.340 0.183
## modelo 8.494e-02 1.495e-02 5.682 9.00e-08 ***
## vehkia cerato 5.306e-01 7.038e-02 7.539 8.68e-12 ***
## transmisionMecánica -6.616e-02 8.667e-02 -0.763 0.447
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3181 on 124 degrees of freedom
## Multiple R-squared: 0.4339, Adjusted R-squared: 0.4156
## F-statistic: 23.76 on 4 and 124 DF, p-value: 1.334e-14
El modelo transformado logarítmicamente ha mostrado mejoras en comparación con el modelo original. El R² ajustado de 0.4156 indica que el modelo logarítmico explica un 41.56% de la variabilidad en el precio, lo cual es superior al modelo sin transformación. Además, los coeficientes de las variables como “modelo” y “veh kia cerato” son altamente significativos, lo que sugiere que estas variables tienen un impacto importante en el precio, especialmente cuando se toma en cuenta la transformación logarítmica. Aunque el kilometraje y la transmisión no son significativos, el modelo general muestra una relación más clara entre las variables independientes y la variable dependiente.
Con base en el MAE del Modelo 2 transformado, que es 40445641, comparado con el MAE del Modelo 2 original (3460631), podemos concluir que la transformación logarítmica ha aumentado significativamente el error absoluto medio. Este aumento en el MAE indica que el modelo transformado, aunque mejora ciertos aspectos como la distribución de los residuos, ha empeorado en cuanto a la precisión de las predicciones en comparación con el modelo sin transformar.
En este caso, dado que el MAE del modelo transformado es mucho mayor, la transformación logarítmica no ha sido beneficiosa para mejorar la capacidad predictiva del modelo. Esto nos dice que el Modelo 2 original es más adecuado para la predicción del precio de los vehículos. Por lo tanto, el modelo original sería preferible para hacer pronósticos, ya que ofrece un MAE más bajo, lo que refleja una mayor precisión en las predicciones.
Modelo 2 original sin transformar es el mejor modelo para la predicción del precio del vehículo.
El Modelo 2 original tiene diversas aplicaciones prácticas, particularmente en la industria automotriz y el sector financiero. Este modelo puede ser extremadamente útil para concesionarios de vehículos, evaluadores de autos de segunda mano, instituciones financieras que otorgan créditos para la compra de vehículos, y plataformas de comercio electrónico que venden vehículos. Al predecir de manera más precisa el valor de un vehículo según características como el kilometraje, el modelo y el tipo de transmisión, los concesionarios pueden tomar decisiones informadas sobre precios y estrategias de ventas, optimizando sus márgenes de ganancia.
Asimismo, el modelo puede ayudar a las entidades financieras a ofrecer préstamos más ajustados al valor real de mercado de los vehículos, evitando sobreendeudamientos o préstamos a valores inflados. Las plataformas de compra-venta pueden usar el modelo para generar precios competitivos y mejorar la experiencia del usuario. En resumen, el Modelo 2 original es útil para cualquier actor del mercado automotriz o financiero que necesite una herramienta precisa para la valoración de vehículos, asegurando que los precios reflejen el valor real de mercado y optimizando tanto la venta como el financiamiento de vehículos.