TALLER 3 - DATOS DE CARROS

Análisis de la base de datos

Número de observaciones y variables

## Número de observaciones: 129

## Número de variables: 6

Con el fin de realizar un modelo adecuado de regresion lineal simple y multiple se proponen las siguientes variables, donde Y (Precio en millones) es la variable dependiente la cual esta determinada por las variables X (Km, Modelos, Veh, Trasnmision y conbustible), estas variables determinaran el precio en millones de un vehiculo en Cali por medio de OLX dentro del analisis de regresion lineal multiple y una de las variables determinaria de igual manera el precio de una vivienda dentro del analisis de regresion lineal simple. A continuacion se presentan las variables:

Regresion Lineal Simple

Análisis Univariado

## Media de precio: 40445659

## Desviación estándar de precio: 12411760

## Media de Km: 92492.33

## Desviación estándar de Km: 42745.35

## Media de modelo: 2015.225

## Desviación estándar de modelo: 2.456625

La media del precio de los vehículos es 40,445,659 pesos, lo que muestra que el costo promedio de los automóviles en el conjunto de datos está cerca de este valor. Sin embargo, la desviación estándar de 12,411,760 pesos indica una gran dispersión en los precios, lo que esta relacionado con diferencias significativas en factores como el modelo, kilometraje, marca o estado del vehículo.

En cuanto al kilometraje, la media es de 92,492.33 km, lo que implica que los vehículos en promedio tienen un uso moderado, representando un rango de vehículos usados. La desviación estándar de 42,745.35 km muestra que hay variabilidad en el kilometraje, con algunos vehículos considerablemente más usados o menos recorridos que otros.

El año del modelo tiene una media de 2015.225, lo que sugiere que la mayoría de los vehículos son relativamente recientes, con una antigüedad promedio de alrededor de 9 años si se considera el año actual como 2024. La desviación estándar de 2.456625 indica una variabilidad limitada en este aspecto, lo que da a entender que la mayoría de los vehículos están en un rango de modelos cercanos entre sí, posiblemente entre 2013 y 2017.

Analisis Bivariado

En el siguiente analisis bivariado es posible encontrar las correlaciones de las variables cuantitativas con respecto a la variable Y, precio, y de aigual manera los graficos de dipersion.

## Correlaciones con precio:

## Km: -0.1984356

## modelo: 0.3550418

El kilometraje tiene una correlación negativa de -0.1984 con el precio, lo que indica que, a medida que aumenta el kilometraje, el precio tiende a disminuir, aunque la relación es débil. Esto es coherente con la idea de que los vehículos más usados suelen tener un menor valor en el mercado. Por otro lado, el modelo (año de fabricación) tiene una correlación positiva de 0.3550 con el precio, lo que sugiere que los vehículos más recientes tienden a ser más costosos. Aunque esta correlación también es moderada, refuerza la lógica de que los compradores suelen valorar más los vehículos más nuevos. En conjunto, estas correlaciones subrayan que tanto el kilometraje como el año del modelo influyen en el precio, pero de manera relativamente limitada, debido a otros factores no incluidos en esta parte del análisis.

## `geom_smooth()` using formula = 'y ~ x'

La tendencia general, representada por la línea azul de regresión, indica una relación negativa pues a medida que aumenta el kilometraje, el precio del vehículo tiende a disminuir. Sin embargo, los puntos están dispersos en torno a la línea, lo que da a entender como se dijo anteriormente que la relación entre ambas variables no es particularmente fuerte. Esto concuerda con la correlación moderadamente negativa observada entre precio y kilometraje.

## `geom_smooth()` using formula = 'y ~ x'

Se observa una tendencia positiva, indicada por la línea azul de regresión, a medida que aumenta el año del modelo (vehículos más recientes), el precio tiende a incrementarse. Esto muestra que los modelos más nuevos tienen un mayor valor en el mercado. Sin embargo, también hay dispersión en los puntos, lo que indica que, aunque existe una correlación positiva entre estas variables, no es perfecta.

Modelos de regresion lineal simple

Segmento de los datos en 70% para entrenamiento y 30% para prueba

## Warning: package 'caTools' was built under R version 4.3.3

Modelo 1 de regresion simple: Precio vs Kilómetros (X1)

## 
## Call:
## lm(formula = precio ~ km, data = train_data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -20731339  -8431924  -4739768   4658312  39977491 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.554e+07  2.809e+06  16.208   <2e-16 ***
## km          -5.349e+01  2.718e+01  -1.968   0.0522 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12280000 on 88 degrees of freedom
## Multiple R-squared:  0.04216,    Adjusted R-squared:  0.03128 
## F-statistic: 3.873 on 1 and 88 DF,  p-value: 0.0522

En este modelo 1, la variable predictora seleccionada es kilómetros recorridos (km), ya que esta es una característica cuantitativa clave que afecta directamente el valor de un vehículo. En términos generales, se espera que los vehículos con mayor cantidad de kilómetros recorridos tengan un precio más bajo, ya que el uso y desgaste del automóvil disminuyen su valor en el mercado. Este modelo de regresión lineal simple, utiliza los kilómetros recorridos como variable predictora del precio del vehículo, muestra una relación negativa esperada, por cada kilómetro adicional, el precio promedio disminuye aproximadamente 53.49 pesos. Aunque esta relación tiene cierta significancia estadística (p-valor = 0.0522), no es lo suficientemente fuerte para ser concluyente. Además, el bajo R² (4.2%) indica que solo una pequeña parte de la variación en el precio es explicada por los kilómetros, lo que refleja que otros factores importantes no incluidos en el modelo están influyendo en el precio. La alta desviación estándar de los residuos (12,280,000 pesos) refuerza la limitada capacidad predictiva del modelo. No realizo ningun grafico pues el de correlacion entre estas dos variables se encuentra anteriormente en las correlaciones.

Modelo 2 de regresion simple: Precio vs vehiculo (X3)

## 
## Call:
## lm(formula = precio ~ veh, data = train_data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -17050000  -5619231   -744231   3255769  32950000 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   33744231    1323104  25.504  < 2e-16 ***
## vehkia cerato 16305769    2036214   8.008 4.47e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9541000 on 88 degrees of freedom
## Multiple R-squared:  0.4215, Adjusted R-squared:  0.415 
## F-statistic: 64.13 on 1 and 88 DF,  p-value: 4.466e-12

## `geom_smooth()` using formula = 'y ~ x'

El modelo 2 utiliza como variable predictora categórica veh, que clasifica los vehículos en dos categorías: “Chevrolet Sail” y “Kia Cerato”. La elección de esta variable está justificada porque el modelo del vehículo es un factor determinante en el precio, dado que las marcas y modelos están asociados a diferentes percepciones de calidad, demanda, y valor en el mercado. Los resultados obtenidos muestran que el precio promedio del “Chevrolet Sail” es de 33,744,231, mientras que el “Kia Cerato” tiene un precio adicional promedio de 16,305,769, como se indica en el coeficiente positivo de esta categoría. Este hallazgo sugiere que el “Kia Cerato” es percibido como un vehículo de mayor valor en comparación con el “Chevrolet Sail”. El p-valor asociado al coeficiente del “Kia Cerato” (4.47e-12) es extremadamente bajo, lo que indica que la diferencia en precios entre ambos modelos es estadísticamente significativa.

El R2 del modelo es 0.4215, lo que implica que el tipo de vehículo explica aproximadamente el 42.15% de la variabilidad en el precio. Esto sugiere que, aunque relevante, hay otros factores no considerados que también influyen en el precio. El F-statistic de 64.13 y su p-valor asociado confirman que el modelo es globalmente significativo. La desviación estándar residual de 9,541,000 indica una variabilidad en los precios que no es explicada por la variable veh. A pesar de esto, el modelo es útil para entender cómo las diferencias entre estas dos categorías afectan el precio y puede servir como una base para predecir precios en función del tipo de vehículo.

Eleccion del mejor modelo de regresion simple

Entre los dos modelos, el Modelo 2 es el mejor. Esto se debe a que presenta un R2 mucho más alto (42.15% frente al 4.2% del Modelo 1), lo que indica que el tipo de vehículo (veh) explica una proporción significativamente mayor de la variabilidad en el precio en comparación con los kilómetros recorridos (km). Además, la variable categórica del Modelo 2 tiene un coeficiente altamente significativo (p-valor < 0.001), mientras que la relación en el Modelo 1 apenas alcanza una significancia marginal (p-valor = 0.0522). Aunque ambos modelos tienen una desviación estándar residual alta, el Modelo 2 es más consistente en capturar las diferencias clave entre los dos tipos de vehículos, lo que lo hace más útil para predecir precios en función del tipo de vehículo. Por lo tanto, se considera el mejor modelo para este análisis.

Validacion del poder predictivo del modelo 2 con validación cruzada

## Error Absoluto Medio (MAE): 6927919

Regresion Lineal Multiple

Propuesta de dos modelos de regresion lineal Multiple

combustible tiene solo un nivel (gasolina), lo que significa que no contribuye información útil al modelo. Las variables categóricas necesitan al menos dos niveles para que el modelo pueda estimar diferencias entre ellos. Si todos los vehículos son a gasolina, esta variable es redundante y debe eliminarse del análisis.

## 
## Attaching package: 'MASS'

## The following object is masked from 'package:dplyr':
## 
##     select

## Warning: package 'car' was built under R version 4.3.3

## Loading required package: carData

## Warning: package 'carData' was built under R version 4.3.3

## 
## Attaching package: 'car'

## The following object is masked from 'package:dplyr':
## 
##     recode

## The following object is masked from 'package:purrr':
## 
##     some

## 
## Call:
## lm(formula = precio ~ km + modelo + veh, data = train_data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -27621477  -2388586   -442756   2185849  17425107 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -7.617e+09  6.261e+08 -12.166   <2e-16 ***
## km             4.217e+01  1.678e+01   2.513   0.0138 *  
## modelo         3.793e+06  3.102e+05  12.228   <2e-16 ***
## vehkia cerato  2.238e+07  1.304e+06  17.165   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5624000 on 89 degrees of freedom
## Multiple R-squared:  0.7887, Adjusted R-squared:  0.7815 
## F-statistic: 110.7 on 3 and 89 DF,  p-value: < 2.2e-16

## 
## Call:
## lm(formula = precio ~ km + modelo + veh + transmision, data = train_data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -27750421  -2207336    236813   2181077  17580447 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         -7.212e+09  6.290e+08 -11.466  < 2e-16 ***
## km                   4.292e+01  1.630e+01   2.633  0.00999 ** 
## modelo               3.594e+06  3.114e+05  11.541  < 2e-16 ***
## vehkia cerato        2.037e+07  1.496e+06  13.618  < 2e-16 ***
## transmisionMecánica -4.479e+06  1.778e+06  -2.519  0.01358 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5463000 on 88 degrees of freedom
## Multiple R-squared:  0.8029, Adjusted R-squared:  0.7939 
## F-statistic:  89.6 on 4 and 88 DF,  p-value: < 2.2e-16

Análisis del Modelo 1: precio = km + modelo + veh

Este modelo considera tres variables predictoras: kilometraje (km), modelo del año del vehículo (modelo) y el tipo de vehículo (veh). Se seleccionaron estas variables por su relevancia en la determinación del precio de los vehículos. El kilometraje tiene una correlación negativa con el precio (-0.198), lo que sugiere que, a mayor uso, menor valor. El modelo, al ser una variable numérica, está positivamente correlacionada con el precio (0.355), lo que es coherente, ya que los vehículos más nuevos suelen tener precios más altos. Por último, veh, una variable categórica, permite capturar diferencias entre tipos específicos de vehículos.

Los resultados del modelo muestran un Intercepto negativo, indicando que un vehículo con cero kilometraje, fabricado en el año base (2015), tendría un valor teórico fuera del rango usual de observación (valor extremo atribuido al ajuste del modelo). El coeficiente de km es positivo (42.17), contrario a la correlación inicial, posiblemente debido a interacciones con las otras variables. La variable modelo tiene un coeficiente significativo (3,793,000), lo que refuerza la idea de que años más recientes aumentan significativamente el precio. Por último, veh kia cerato tiene un coeficiente positivo (22,380,000), indicando que este tipo de vehículo tiene un precio significativamente mayor que otros en la muestra. El modelo tiene un R² ajustado de 0.7815, lo que indica que explica el 78.15% de la variabilidad del precio. Esto sugiere que las variables seleccionadas son altamente predictivas.

Análisis del Modelo 2: precio = km + modelo + veh + transmision

Este modelo agrega la variable transmisión (transmision) a las incluidas en el Modelo 1, lo que permite evaluar el impacto del tipo de transmisión (Automática vs Mecánica) en el precio del vehículo. La variable combustible no fue incluida debido a su redundancia, ya que todos los vehículos de la muestra son a gasolina, lo que la hace no informativa. La variable transmision agrega un componente adicional de diferenciación, siendo relevante para los consumidores y, por ende, el precio.

Los resultados muestran que las variables principales (km, modelo y veh) siguen siendo significativas, con coeficientes similares al Modelo 1. Sin embargo, transmision Mecánica tiene un coeficiente negativo (-4,479,000), indicando que los vehículos con transmisión mecánica tienden a ser más baratos en promedio que los automáticos. Esto es consistente con las tendencias del mercado, donde las transmisiones automáticas suelen ser preferidas y, por ende, más caras. El R² ajustado es 0.7939, lo que indica una mejora leve frente al Modelo 1, sugiriendo que la inclusión de transmision aporta información adicional al modelo.

Eleccion del mejor modelo

## AIC para el Modelo 1:  3160.764

## AIC para el Modelo 2:  3156.289

El Modelo 2 es el más adecuado debido a que su AIC es ligeramente inferior al del Modelo 1 (3156.289 frente a 3160.764), lo que indica que, aunque el segundo modelo incorpora una variable adicional, logra un mejor equilibrio entre la complejidad del modelo y su capacidad predictiva. El AIC penaliza la inclusión de variables innecesarias, pero también premia la capacidad de un modelo para ajustarse a los datos. A pesar de que el Modelo 2 es más complejo, la variable adicional, transmisión, mejora significativamente el ajuste, como lo refleja el R2 ajustado de 0.7939, un incremento con respecto al 0.7815 del Modelo 1. Esto sugiere que la adición de esta variable mejora la capacidad del modelo para capturar las variaciones en el precio de los vehículos, lo que justifica su inclusión.

Además, el Modelo 2 captura una diferencia importante en el mercado de vehículos al incluir el tipo de transmisión, que influye en el precio, ya que las transmisiones automáticas suelen ser preferidas por los consumidores y, por lo tanto, tienen un precio más alto en promedio. La variable transmisión mecánica, con un coeficiente negativo, muestra que los vehículos con transmisión mecánica tienden a ser más baratos. Esta inclusión no solo mejora el ajuste del modelo, sino que también añade un componente relevante para la toma de decisiones en la predicción del precio. Por estas razones, el Modelo 2 resulta ser el mejor modelo para este análisis.

Validacion del mejor modelo elegido por medio del calculo del MAE

El MAE del Modelo 2 de regresion multiple es de 3,460,631, lo que indica que, en promedio, el modelo tiene un error de aproximadamente 3.46 millones de pesos al predecir el precio de los vehículos. Este valor sugiere que, aunque el modelo es relativamente preciso, las predicciones tienen un margen de error significativo, lo cual puede ser relevante dependiendo del contexto en el que se utilice. Un MAE más bajo indicaría un modelo más preciso, pero en este caso, el valor del MAE señala que hay una cantidad considerable de variabilidad en los precios que no es capturada por el modelo.

Validacion de Supuestos.

En el gráfico de residuos vs. valores ajustados se observa que los residuos se dispersan aleatoriamente alrededor de la línea horizontal en cero, sin mostrar un patrón claro o una tendencia particular. Esto muestra que el modelo cumple con el supuesto de homocedasticidad o varianza constante, ya que no se aprecian cambios sistemáticos en la dispersión de los residuos a medida que aumentan los valores ajustados. Además, la distribución de los residuos parece uniforme a lo largo del rango de los valores ajustados, lo cual es un buen indicio de que la varianza de los errores es constante para todas las predicciones del modelo.

La forma general de la distribución que los residuos no siguen estrictamente una distribución normal, ya que no tienen una campana perfectamente simétrica. Sin embargo, la presencia de una distribución razonablemente centrada en cero con una forma de campana moderada indica que el modelo tiene un buen ajuste, aunque existen algunas desviaciones de la normalidad.

Sustentacion de la conveniencia de una transformacion al modelo

la ligera asimetría en los residuos y la posible no normalidad nos indican que podría ser beneficioso ver la conveniencia de una transformación a la variable dependiente para mejorar la normalidad y la homocedasticidad de los residuos, sino resulta se continuaria con el modelo 2 original de regresion multiple.

Transformacion del modelo

## 
## Call:
## lm(formula = log_precio ~ km + modelo + veh + transmision, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3559 -0.0234  0.0257  0.0635  0.4101 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         -1.540e+02  3.020e+01  -5.100 1.24e-06 ***
## km                   1.050e-06  7.831e-07   1.340    0.183    
## modelo               8.494e-02  1.495e-02   5.682 9.00e-08 ***
## vehkia cerato        5.306e-01  7.038e-02   7.539 8.68e-12 ***
## transmisionMecánica -6.616e-02  8.667e-02  -0.763    0.447    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3181 on 124 degrees of freedom
## Multiple R-squared:  0.4339, Adjusted R-squared:  0.4156 
## F-statistic: 23.76 on 4 and 124 DF,  p-value: 1.334e-14

El modelo transformado logarítmicamente ha mostrado mejoras en comparación con el modelo original. El R² ajustado de 0.4156 indica que el modelo logarítmico explica un 41.56% de la variabilidad en el precio, lo cual es superior al modelo sin transformación. Además, los coeficientes de las variables como “modelo” y “veh kia cerato” son altamente significativos, lo que sugiere que estas variables tienen un impacto importante en el precio, especialmente cuando se toma en cuenta la transformación logarítmica. Aunque el kilometraje y la transmisión no son significativos, el modelo general muestra una relación más clara entre las variables independientes y la variable dependiente.

Con base en el MAE del Modelo 2 transformado, que es 40445641, comparado con el MAE del Modelo 2 original (3460631), podemos concluir que la transformación logarítmica ha aumentado significativamente el error absoluto medio. Este aumento en el MAE indica que el modelo transformado, aunque mejora ciertos aspectos como la distribución de los residuos, ha empeorado en cuanto a la precisión de las predicciones en comparación con el modelo sin transformar.

En este caso, dado que el MAE del modelo transformado es mucho mayor, la transformación logarítmica no ha sido beneficiosa para mejorar la capacidad predictiva del modelo. Esto nos dice que el Modelo 2 original es más adecuado para la predicción del precio de los vehículos. Por lo tanto, el modelo original sería preferible para hacer pronósticos, ya que ofrece un MAE más bajo, lo que refleja una mayor precisión en las predicciones.

Eleccion del mejor modelo

Modelo 2 original sin transformar es el mejor modelo para la predicción del precio del vehículo.

Utilidad del Mejor Modelo en la Práctica

El Modelo 2 original tiene diversas aplicaciones prácticas, particularmente en la industria automotriz y el sector financiero. Este modelo puede ser extremadamente útil para concesionarios de vehículos, evaluadores de autos de segunda mano, instituciones financieras que otorgan créditos para la compra de vehículos, y plataformas de comercio electrónico que venden vehículos. Al predecir de manera más precisa el valor de un vehículo según características como el kilometraje, el modelo y el tipo de transmisión, los concesionarios pueden tomar decisiones informadas sobre precios y estrategias de ventas, optimizando sus márgenes de ganancia.

Asimismo, el modelo puede ayudar a las entidades financieras a ofrecer préstamos más ajustados al valor real de mercado de los vehículos, evitando sobreendeudamientos o préstamos a valores inflados. Las plataformas de compra-venta pueden usar el modelo para generar precios competitivos y mejorar la experiencia del usuario. En resumen, el Modelo 2 original es útil para cualquier actor del mercado automotriz o financiero que necesite una herramienta precisa para la valoración de vehículos, asegurando que los precios reflejen el valor real de mercado y optimizando tanto la venta como el financiamiento de vehículos.

TALLER 3 - DATOS DE CARROS

Jhair Jordan

2024-11-22

Análisis de la base de datos

Número de observaciones y variables

Regresion Lineal Simple

Análisis Univariado

Analisis Bivariado

Modelos de regresion lineal simple

Segmento de los datos en 70% para entrenamiento y 30% para prueba

Modelo 1 de regresion simple: Precio vs Kilómetros (X1)

Modelo 2 de regresion simple: Precio vs vehiculo (X3)

Eleccion del mejor modelo de regresion simple

Validacion del poder predictivo del modelo 2 con validación cruzada

Regresion Lineal Multiple

Propuesta de dos modelos de regresion lineal Multiple

Eleccion del mejor modelo

Validacion del mejor modelo elegido por medio del calculo del MAE

Validacion de Supuestos.

Sustentacion de la conveniencia de una transformacion al modelo

Transformacion del modelo

Eleccion del mejor modelo

Utilidad del Mejor Modelo en la Práctica