TALLER FINAL

En el siguiente taller se realizará el análisis de regresión simple y múltiple de la base de datos de vehículos. Las variables tomadas en cuenta son:

  • Precio: Hace referencia al precio en pesos colombianos de los vehículos.
  • KM: Son los kilómetros recorridos de cada vehículo.
  • Modelo: Hace referencia al año en el que salió en venta el vehículo por primera vez.
  • VEH: Hace referencia a la marca del vehículo. En este caso Chevrolet Sail o Kia Cerato.
  • Transmisión: Hace referencia a si el vehículo es automático o mecánico.
  • Combustible: Es el tipo de combustible que necesita el vehículo, en este caso, solo es gasolina.

Se determina como variable independiente al precio de los vehículos, y las demás como dependientes.

Primero se iniciará con un análisis exploratorio de las variables:

ANÁLISIS EXPLORATORIO DE LOS DATOS

Indicadores de centralidad de la variable precio

mediana_precio minimo_precio maximo_precio desvest_precio promedio_precio
3.7e+07 1e+06 8.3e+07 12411760 40445659

Se puede observar que en promedio, el precio de los vehículos estudiados es de $40.445.659,con una desviación de $12.411.760. El vehículo más barato ofertado, cuesta $1.000.000 y el más caro $83.000.000. La mediana de los precios de los vehículos es de $37.000.000.

Histograma de la variable precio

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De la gráfica anterior se puede observar que la mayoría de carros ofertados están en valores entre los 28 y los 42 millones de pesos aproximadamente.

Indicadores de centralidad de la variable KM

mediana_km minimo_km maximo_km desvest_km promedio_km
91000 0 228000 42745.35 92492.33

Se puede observar que en promedio, el kilómetraje recorrido de los vehículos estudiados es de 62.492.33 KM, con una desviación de 42.745,35 KM. El vehículo con el kilómetraje más bajo es de 0km, es decir, que es nuevo, y el carro con mayor recorrido es de 228.000 km . La mediana del kilómetraje de los vehículos es de 91.000 km.

Histograma de la variable KM

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De la gráfica anterior se puede observar que la mayoría de carros ofertados han recorrido entre 50.000 y 140.000 km. Sin embargo, se observa una asimetría hacia la derecha, en donde hay mayor cantidad de carros con kilometráje bajo que alto.

Diagrama de barras de la variable VEH y conteo.

Se puede observar que en la muestra hay mayor cantidad de vehículos marca chevrolet Sail.

veh n
chevrolet sail 73
kia cerato 56

En este caso, hay 73 carros marca Chevrolet Sail, y 56 tipo Kia Cerato.

Diagrama de barras de la variable transmisión y conteo.

Se puede observar que en la muestra hay mayor cantidad de vehículos mecánicos.

transmision n
Mecánica 107
Automática 22

En este caso, hay 107 carros mecánicos y 22 automáticos.

ANÁLISIS BIVARIADO

A continuación se estudiará la correlación entre la variable independiente, que en este caso es el precio, con los kilómetros recorridos. Se establece esta relación ya que se pretende comprobar que a medida que aumentan los kilómetros recorridos por los carros, el precio de los mismos disminuye, ya que se genera mayor desgaste.

Diagrama de correlación entre Km y precio

## `geom_smooth()` using formula = 'y ~ x'

Se puede observar que la correlación es negativa, es decir, como se esperaba, a medida que aumenta el kilómetro recorrido, el precio disminuye, sin embargo, la correlación es muy débil, es decir, no hay significancia, por lo que no se puede afirmar con certeza.

Diagrama de correlación entre modelo y precio

A continuación se estudiará la correlación entre la variable independiente, que en este caso es el precio, con el modelo del vehículo. Se establece esta relación ya que se pretende comprobar que a medida que aumenta el año del modelo de los carros, el precio de los mismos aumenta, ya que se estaría hablando de carros más modernos.

## `geom_smooth()` using formula = 'y ~ x'

En este caso se puede observar que, la correlación es positiva, sin embargo, es muy débil, menor a 0.55, por lo tanto no es muy significativa la correlación entre las variables planteadas.

PLANTEAMIENTO DE LOS MODELOS DE REGRESIÓN LINEAL SIMPLE

MODELO 1: Precio y KM

## 
## Call:
## lm(formula = precio ~ km, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -40856877  -7854938  -4054037   5068628  39933128 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.577e+07  2.571e+06  17.802   <2e-16 ***
## km          -5.762e+01  2.525e+01  -2.282   0.0242 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12210000 on 127 degrees of freedom
## Multiple R-squared:  0.03938,    Adjusted R-squared:  0.03181 
## F-statistic: 5.206 on 1 and 127 DF,  p-value: 0.02418

Como se puede observar la variable dependiente de kilómetraje no es muy significativa para predecir el precio de los vehículos

precio = 45.770.000 -5.762.000(km)

Evaluación del modelo

R² = 0.039: El modelo explica aproximadamente el 3.9% de la variabilidad en el precio, lo cual no es muy aceptable.

p-value 0.02418: El modelo es estadísticamente significativo.

B0 = 45.770.000 –> Quiere decir que cuando los kms recorridos son 0, el precio del vehículo es de 45 millones.

B1 = -5.762.000 –> se puede interpetar que a medida que aumentan los kms recorridos, el precio del vehículo dismiuye en 5 millones.

Conclusión:Este modelo muestra que hay cierto impacto en el precio de los vehículos por parte de los kilómetros recorridos, sin embargo, no es muy fuerte.

MODELO 2: Precio y modelo

## 
## Call:
## lm(formula = precio ~ modelo, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -39042401  -8630002  -5042401   8251399  33988597 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -3.574e+09  8.446e+08  -4.232 4.40e-05 ***
## modelo       1.794e+06  4.191e+05   4.280 3.65e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11650000 on 127 degrees of freedom
## Multiple R-squared:  0.1261, Adjusted R-squared:  0.1192 
## F-statistic: 18.32 on 1 and 127 DF,  p-value: 3.65e-05

Como se puede observar la variable dependiente del modelo es muy significativa para predecir el precio de los vehículos.

Precio = -3.574.000 + 1.794.000(modelo)

Evaluación del modelo

R² = 0.1261: El modelo explica aproximadamente el 12.6% de la variabilidad en el precio, lo cual no es muy aceptable.

p-value 3.65e-05: El modelo es estadísticamente muy significativo.

Conclusión:Este modelo muestra que el año del modelo del vehículo genera un impacto alto para predecir el precio.

MODELO 3 : Se estima un modelo 3 con variable dummy (precio y tipo de transmisión)

El modelo 3 estima el precio promedio de los vehículos en función del tipo de transmisión (categoría base:la que no se muestra en la salida de R).

## 
## Call:
## lm(formula = precio ~ transmision, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -36331682  -5790909  -1131682   4168318  38168318 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          55590909    2209074  25.165  < 2e-16 ***
## transmisionMecánica -18259227    2425566  -7.528 8.37e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10360000 on 127 degrees of freedom
## Multiple R-squared:  0.3085, Adjusted R-squared:  0.3031 
## F-statistic: 56.67 on 1 and 127 DF,  p-value: 8.369e-12

SOn 2 categorías, pero siempre se toma n-1. En este caso, se muestra 1 y se toma como transmisión base la trasmisión automática.

El modelo explica en un 31% la variabilidad del precio promedio del vehículo

Precio = Bo + B1mec

Interpretemos : B1 –> -18.259.227

En promedio, el precio de los vehículos con transmisión mecánica, valen 18 millones menos que los vehículos automáticos.

MODELO 4 : Se estima un modelo 4 con variable dummy (precio y marca del vehículo)

El modelo 4 estima el precio promedio de los vehículos en función del tipo de vehículo (categoría base:la que no se muestra en la salida de R).

## 
## Call:
## lm(formula = precio ~ veh, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -32423151  -5423151   -100000   3576849  33400000 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   33423151    1110140  30.107   <2e-16 ***
## vehkia cerato 16176849    1684917   9.601   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9485000 on 127 degrees of freedom
## Multiple R-squared:  0.4206, Adjusted R-squared:  0.416 
## F-statistic: 92.18 on 1 and 127 DF,  p-value: < 2.2e-16

SOn 2 categorías, pero siempre se toma n-1. En este caso, se muestra 1 y se toma como tipo de vehículo base el chevrolet sail.

El modelo explica en un 42% la variabilidad del precio promedio del vehículo

Precio = Bo + B1kiacerato

Interpretemos : B1 –> 16.176.849

En promedio, el precio de los vehículos kia cerato, valen 16 millones más que los vehículos chévrolet Sail.

ELECCIÓN DEL MEJOR MODELO

En este caso, el mejor modelo es el modelo 4, pues es el que explica de mejor manera la variabilidad en el precio de los vehículos. Puntualmente, se puede afirmar que el hecho de que un vehículos sea marca Kia cerato, lo hace más caro frente a un chevrolet Sail.

Debido a que se trata de un modelo con una variable dummy, no se realizarán predicciones.

PLANTEMIENTO DE LOS MODELOS DE REGRESIÓN LINEAL MÚLTIPLE

Con el objetivo de mejorar el ajuste del modelo para explicar/predecir el precio de los vehículos, se incorporan otras variables predictoras adicionales.

En este caso, se intenta prededir el precio de los vehículos a partir de los kilómetros recorridos y el año del modelo:

MODELO 5 : precio y km + modelo

## 
## Call:
## lm(formula = precio ~ km + modelo, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -39134081  -8667818  -5101338   8117270  33985021 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -3.509e+09  1.005e+09  -3.492 0.000662 ***
## km          -3.449e+00  2.862e+01  -0.120 0.904293    
## modelo       1.762e+06  4.980e+05   3.537 0.000567 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11690000 on 126 degrees of freedom
## Multiple R-squared:  0.1262, Adjusted R-squared:  0.1123 
## F-statistic: 9.095 on 2 and 126 DF,  p-value: 0.0002043

Se puede observar que la variable modelo es muy significativa para predecir el precio de los vehículos, mientras que el kilometraje, no.

Selección de Variables

## Start:  AIC=4201.81
## precio ~ km + modelo
## 
##          Df  Sum of Sq        RSS    AIC
## - km      1 1.9851e+12 1.7233e+16 4199.8
## <none>                 1.7231e+16 4201.8
## - modelo  1 1.7112e+15 1.8942e+16 4212.0
## 
## Step:  AIC=4199.83
## precio ~ modelo
## 
##          Df  Sum of Sq        RSS    AIC
## <none>                 1.7233e+16 4199.8
## - modelo  1 2.4856e+15 1.9719e+16 4215.2

Se puede observar que, la variable modelo es suficiente para predecir el precio de los vehículos, ya que mejora el AIC, al pasar de 4201,81 con las dos variables, a 4199.83 solo con la variable modelo.

MODELO 6: Precio y marca del vehículo y km

## 
## Call:
## lm(formula = precio ~ veh:km, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -37372680  -5296958  -2821191   2580355  38145670 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           4.581e+07  2.282e+06  20.078  < 2e-16 ***
## vehchevrolet sail:km -1.094e+02  2.404e+01  -4.550 1.25e-05 ***
## vehkia cerato:km      2.306e+00  2.457e+01   0.094    0.925    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10840000 on 126 degrees of freedom
## Multiple R-squared:  0.2496, Adjusted R-squared:  0.2377 
## F-statistic: 20.96 on 2 and 126 DF,  p-value: 1.388e-08

NOTACada coeficiente representa cuánto aumenta el precio (en millones) por cada km adicional, dependiendo de la marca del vehículo.

Ejemplo: En un carro marca Chevrolet Sail, cada kilómetro adicional manejado disminuye el precio en 1.09 millones de pesos. En cambio, en el vehículo marca Kia Cerato, el mismo aumento, incrementa el precio en 2.3 millones de pesos.

Evaluación del modelo

R² = 0.2496: El modelo explica aproximadamente el 24.96% de la variabilidad en el precio, lo cual no es muy aceptable.

p-value < 2.2e-16: El modelo es estadísticamente significativo

Conclusión:Este modelo muestra que el impacto de los kilómetros recorridos en el precio varía mucho según la marca del vehículo. Por ejemplo, andar más kilómetros en un vehículo Kia Cerato y después venderlo, genera mucho más valor que hacerlo en un vehiculo chevrolet, pues en este caso, cada km adicional del kia aumenta el precio del vehiculo, mientras que en el chevrolet lo disminuye.

MODELO 7: Precio y tipo de transmisión del vehículo y modelo

## 
## Call:
## lm(formula = precio ~ transmision:modelo, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -36142165  -6054365  -2817765   7033435  27550535 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  -3.074e+09  7.047e+08  -4.362 2.65e-05 ***
## transmisionAutomática:modelo  1.553e+06  3.496e+05   4.441 1.94e-05 ***
## transmisionMecánica:modelo    1.544e+06  3.497e+05   4.415 2.15e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9676000 on 126 degrees of freedom
## Multiple R-squared:  0.4017, Adjusted R-squared:  0.3922 
## F-statistic:  42.3 on 2 and 126 DF,  p-value: 8.818e-15

NOTACada coeficiente representa cuánto aumenta el precio (en millones) por cada año adicional, dependiendo del tipo de transmisión del vehículo.

Ejemplo: En un carro con transmisión automática, cada año adicional aumenta el precio en 1.55 millones de pesos. En cambio, en el vehículo con transmisión mecánica, el mismo aumento, incrementa el precio en 1.54 millones de pesos.

Evaluación del modelo

R² = 0.4017: El modelo explica aproximadamente el 40.17% de la variabilidad en el precio, lo cual es medianamente aceptable.

p-value < 8.18e-16: El modelo es estadísticamente significativo

Conclusión:Este modelo muestra que el impacto de los años (modelo) en el precio varía según el tipo de transimisón del vehículo. Por ejemplo, a medida que aumente los años del modelo en un vehículo con transmisión de tipo automática (es decir, mientras sea más nuevo) genera mucho más valor que un aumento en el modelo de un vehiculo con transmisión mecánica.

MODELO 8: Precio, marca y modelo

## 
## Call:
## lm(formula = precio ~ veh:modelo, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -29001276  -3181200   -501276   2118706  23158762 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              -6.861e+09  4.117e+08  -16.66   <2e-16 ***
## vehchevrolet sail:modelo  3.420e+06  2.042e+05   16.75   <2e-16 ***
## vehkia cerato:modelo      3.431e+06  2.044e+05   16.78   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5295000 on 126 degrees of freedom
## Multiple R-squared:  0.8208, Adjusted R-squared:  0.818 
## F-statistic: 288.6 on 2 and 126 DF,  p-value: < 2.2e-16
table(base$veh)
## 
## chevrolet sail     kia cerato 
##             73             56

NOTACada coeficiente representa cuánto aumenta el precio (en millones) por cada año adicional, dependiendo de la marca del vehículo.

Ejemplo: En un carro marca Chevrolet Sail, cada año adicional aumenta el precio en 3.42 millones de pesos. En cambio, en el vehículo marca kia cerato, el mismo aumento, incrementa el precio en 3.43 millones de pesos.

Evaluación del modelo

R² = 0.8208: El modelo explica aproximadamente el 82.08% de la variabilidad en el precio, lo cual es muy aceptable.

p-value < 2.2e-16: El modelo es estadísticamente significativo

Conclusión:Este modelo muestra que el impacto de los años (modelo) en el precio varía según la marca del vehículo. Por ejemplo, a medida que aumente los años del modelo (es decir, mientras sea más nuevo) en un vehículo con marca Kia Cerato, genera mucho más valor que un aumento en el modelo de un vehiculo marca Chevrolet Sail.

MODELO 9: Precio, transmisión y marca del vehículo

## 
## Call:
## lm(formula = precio ~ transmision:veh, data = base)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -32491408  -4791408   -491408   3950000  30594444 
## 
## Coefficients: (1 not defined because of singularities)
##                                          Estimate Std. Error t value Pr(>|t|)
## (Intercept)                              44905556    1429234  31.419  < 2e-16
## transmisionAutomática:vehchevrolet sail -13905556    6229886  -2.232   0.0274
## transmisionMecánica:vehchevrolet sail   -11414147    1754551  -6.505 1.68e-09
## transmisionAutomática:vehkia cerato      13144445    2391566   5.496 2.09e-07
## transmisionMecánica:vehkia cerato              NA         NA      NA       NA
##                                            
## (Intercept)                             ***
## transmisionAutomática:vehchevrolet sail *  
## transmisionMecánica:vehchevrolet sail   ***
## transmisionAutomática:vehkia cerato     ***
## transmisionMecánica:vehkia cerato          
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8575000 on 125 degrees of freedom
## Multiple R-squared:  0.5338, Adjusted R-squared:  0.5226 
## F-statistic: 47.71 on 3 and 125 DF,  p-value: < 2.2e-16

NOTACada coeficiente representa cuánto aumenta el precio (en millones) tomando en cuenta si se trata de un vehículo marca kia cerato o chevrolet sail y dependiendo de su tipo de transmisión.

Ejemplo: En un carro marca Chevrolet Sail tipo automático, el precio disminuye en 13,9 millones de pesos. En cambio, en el vehículo marca kia cerato tipo auotmático, el precio incrementa en 13.1 millones de pesos.

Evaluación del modelo

R² = 0.5338: La marca del vehículo y el tipo de transmisión explican aproximadamente el 53.38% de la variabilidad en el precio, lo cual es muy aceptable.

p-value < 2.2e-16: El modelo es estadísticamente significativo

Conclusión:Este modelo muestra que hay un impacto del tipo de transmisión y marca en el precio del vehículo. Por ejemplo, se observa que un carro tipo Kia cerato automático es mucho más costoso que un chevrolet ya sea mecánico o automático.

ELECCIÓN DEL MEJOR MODELO

El modelo que presenta mayor ajuste según el R2 para predecir el precio del vehículo, es el MODELO 8, el cual relaciona las variables año y veh, es decir, el año del modelo y la marca del vehículo.

Selección de Variables

## Start:  AIC=3997.41
## precio ~ veh:modelo
## 
##              Df  Sum of Sq        RSS    AIC
## <none>                     3.5332e+15 3997.4
## - veh:modelo  2 1.6185e+16 1.9719e+16 4215.2

Según los resultados, la combinación específica de tipo de transmisión y tipo de vehículo influye significativamente en el precio, por lo tanto, no hay que eliminar variables.

Validación de supuestos

1. Residuals vs Fitted

Los puntos deberían estar dispersos de forma aleatoria alrededor de la línea roja (cero).Además se observa cierta agrupación horizontal, indicando que los valores ajustados se repiten.

2. Q-Q Plot

Hay desviaciones marcadas en las colas (residuos extremos), lo que indica que los residuos no son perfectamente normales. Sin embargo, para la mayoría de los datos, la normalidad es razonable.

3. Scale-Location (Spread vs Fitted)

La línea roja sube al final, lo cual sugiere que la varianza de los errores aumenta con el valor ajustado → otra señal de heterocedasticidad.

4. Residuals vs Leverage

Puntos con alta “leverage” y alto residuo estandarizado están cerca o fuera de las líneas de Cook’s distance → estos pueden ser puntos muy influyentes.

Observaciones como 28, 67 y 57 podrían estar influyendo significativamente en el modelo.

Conclusión general

*El modelo parece razonable en general, pero podría beneficiarse de transformar alguna variable (como log del precio). Tiene indicios de heterocedasticidad y no normalidad en los residuos extremos. Algunas observaciones tienen alta influencia y deben revisarse más a fondo.

Transformación de modelo

## 
## Call:
## lm(formula = log(precio) ~ veh:modelo, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3866 -0.0295  0.0141  0.0638  0.5531 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              -138.56837   24.76703  -5.595 1.31e-07 ***
## vehchevrolet sail:modelo    0.07731    0.01229   6.293 4.73e-09 ***
## vehkia cerato:modelo        0.07758    0.01230   6.309 4.36e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3185 on 126 degrees of freedom
## Multiple R-squared:  0.4233, Adjusted R-squared:  0.4142 
## F-statistic: 46.25 on 2 and 126 DF,  p-value: 8.668e-16

Se observa un menor ajuste, pues el R2 disminuye a 0.42, es decir, este modelo planteado de esta manera, solo explica en un 42.33% la variabilidad del precio.

A continuación, se ejecuta la validación de supuestos

Validación de supuestos

1. Residuals vs Fitted

La nube de puntos parece estar centrada alrededor de la línea horizontal (cero), lo cual es bueno.No hay un patrón curvo claro → esto indica que la relación lineal entre modelo y log(precio) es razonable.

2. Q-Q Plot (Quantile-Quantile Plot)

La mayoría de los puntos siguen la línea diagonal, salvo algunos outliers en los extremos (cola izquierda → punto 97; cola derecha → puntos 100, 91). A pesar de esos casos, la distribución es razonablemente normal.

3. Scale-Location (Spread-Location)

Los puntos están dispersos de forma más o menos constante, aunque hay algo de elevación hacia la derecha. No hay un patrón de “embudo”, así que la homocedasticidad parece aceptable.

4. Residuals vs Leverage

El punto 27 tiene una leverage relativamente alta, pero no sobrepasa la línea de Cook’s distance → no se considera altamente influyente.

En general, no hay observaciones que combinan residual alto con leverage alto

Conclusión El modelo transformado mejoró los residuos respecto al modelo original. Sin embargo, el R2 disminuye, por lo que se elige al modelo 8 (modelo sin transformar) como mejor modelo, ya que tiene un R2 de 0.82 y se procede a realizar la predicción.

PREDICCIÓN

Según el modelo 8, se busca saber cuál sería el precio de un vehículo marca kia cerato, modelo 2018:

##        1 
## 62591431

Según los resultados, un vehículo Kia Cerato, modelo 2018 tendría un valor de $62.591.431 COP.

Ahora, se busca conocer cuál sería el precio de un vehículo marca kia cerato, modelo 2019:

##        1 
## 66022478

Según los resultados, un vehículo Kia Cerato, modelo 2019 tendría un valor de $66.022.478 COP.

Se observa que a medida que aumenta el año del modelo, aumenta el precio del vehículo kia cerato.

Seguimos prediciendo el precio del vehículo marca chevrolet sail, año 2018

##        1 
## 40261219

Según los resultados, un vehículo chevrolet sail, modelo 2018 tendría un valor de $40.261.219. Esto nos deja en evidencia, que apesar de que sea el mismo modelo que un kia cerato, este último, presenta un precio más elevado.

Ahora, se busca conocer cuál sería el precio de un vehículo marca chevrolet sail, modelo 2019:

##        1 
## 43681200

Según los resultados, un vehículo chevrolet sail, modelo 2018 tendría un valor de $43.681.200 COP.

En conclusión, se puede afirmar que a medida que aumenta el modelo del vehículo (es decir, mientras es más nuevo), su precio tiende a subir, ya que se trata de carros mucho más modernos. Y en general, es mucho más costoso un vehículo marca Kia cerato.

UTILIDAD DEL MEJOR MODELO EN LA PRÁCTICA

El mejor modelo permite identificar qué tipo de carro pueden adquirir los ciudadanos al evaluar variables como el modelo y la marca. Cada persona conociendo su presupuesto, y con los datos del modelo, puede decidir qué carro comprar, sabiendo desde un principio que los carros con un modelo mas reciente, tenderán a ser más caros, y que, marcas específicas como la Kia Cerato también.

Los datos del modelo beneficiarían en su mayoría a los clientes y compradores de carros, más que a algún sector en específico, pues les permitiría tomar una decisión informada sobre qué vehículo sería ideal para ellos tomando en cuenta su presupuesto, la marca y el modelo del carro.

El análisis también beneficiaría a los mismos vendedores de segunda mano, ya que les permitiría conocer si están comprando estos vehículos usados a un buen precio, o si por el contrario están sobrevalorados.

Este modelo podría ser mejorado si se incluye una muestra de vehículos más amplia, que contenga más marcas, no solo 2 como era nuestro caso ( kia cerato y chevrolet sail), adicionalmente si se añaden más variables, como ubicación geográfica de donde se encuentra el vehículo, número de siniestros que ha tenido. etc. Todas estas variables podrían ayudar a definir de una manera más precisa el precio.