Análisis exploratorio de los datos

attach(carros_col)

dt1 <- data.frame(precio,km,años)
summary(dt1)

##      precio                km              años       
##  Min.   :  6800000   Min.   :     0   Min.   : 1.000  
##  1st Qu.: 35625000   1st Qu.: 40250   1st Qu.: 4.000  
##  Median : 45000000   Median : 78018   Median : 7.000  
##  Mean   : 52543554   Mean   : 75508   Mean   : 7.717  
##  3rd Qu.: 64800000   3rd Qu.:100375   3rd Qu.:11.000  
##  Max.   :169800000   Max.   :183000   Max.   :16.000

En este análisis exploratorio, se examinaron las tres variables cuantitativas de la base de datos de carros en Colombia: precio, km (kilometraje), y años (años desde la fabricación).

Precio: La variable de precio muestra una amplia variabilidad, desde precios bajos hasta valores bastante altos. La mediana está por debajo de la media, indicando una posible asimetría en su distribución.

Kilometraje (km): La variable de km muestra que la mayoría de los carros tienen un kilometraje relativamente bajo, con una mediana cercana a la media. La dispersión en el kilometraje no es tan amplia.

Años desde la Fabricación: La variable años indica que la mayoría de los carros en la base de datos tienen entre 4 y 11 años desde su fabricación.

Desviacionp <- sd(carros_col$precio)
Desviacionk <- sd(carros_col$km)
Desviaciona <- sd(carros_col$años)

data.frame(Desviacionp,Desviacionk,Desviaciona)

##   Desviacionp Desviacionk Desviaciona
## 1    22137658    41985.83    4.248132

Las desviaciones estándar proporcionan una medida de la dispersión de los datos alrededor de la media. Una desviación estándar alta para el precio sugiere una variabilidad significativa en los precios de los carros. Las desviaciones estándar para el kilometraje y los años indican dispersión moderada en estas variables.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

El histograma de precios de carros en Colombia revela patrones fascinantes y ofrece perspectivas sobre el comportamiento del mercado. En primer lugar, la hay una concentración de precios, con la mayoría de los vehículos situados en el rango de 20,000,000 a 80,000,000 de pesos.

Los picos, representativos de concentraciones pronunciadas en ciertos rangos de precios, indican la presencia de segmentos de mercado específicos o preferencias de precios particulares. Por otro lado, los valles o áreas con menor densidad revelan rangos de precios menos comunes o quizás menos populares entre los compradores.

La presencia de precios elevados, especialmente en los rangos de 100,000,000 y superiores, indica una diversificación en la oferta, donde los consumidores pueden optar por estos modelos.

La dispersión de precios en el histograma refleja la amplia gama de opciones disponibles en el mercado automotriz colombiano. Desde precios más bajos hasta precios más altos, la variabilidad subraya la adaptabilidad de la industria a diversas preferencias y capacidades financieras de los consumidores.

gltf2 <- ggplot(data = carros_col,mapping = aes(x=km,y=precio))+ geom_point(color="red")+ theme_bw()+geom_smooth()
ggplotly(gltf2)

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

cor(carros_col$km,carros_col$precio)

## [1] -0.7726395

La relación entre las variables Kilometraje (km) y Precio se caracteriza por una fuerte correlación negativa, con un coeficiente de aproximadamente 0.77. Esto significa que, en general, a medida que el Kilometraje aumenta, el Precio tiende a disminuir, y viceversa. Esta conexión robusta sugiere que los consumidores valoran de manera significativa vehículos con menor kilometraje, influyendo en sus decisiones de compra.

gltf3 <- ggplot(data = carros_col,mapping = aes(x=años,y=precio))+ geom_point(color="grey")+ theme_bw()+geom_smooth()
ggplotly(gltf3)

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

cor(carros_col$años,carros_col$precio)

## [1] -0.8081881

La relación entre los Años desde la Fabricación y el Precio muestra una fuerte correlación negativa, con un coeficiente cercano a 0.8. Esto indica que, a medida que un vehículo envejece, su precio tiende a disminuir.

Proponer tres modelos de regresión lineal simple

Modelo 1

Mo1 <- lm(precio~km, data = carros_col)
summary(Mo1)

## 
## Call:
## lm(formula = precio ~ km, data = carros_col)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -69497483  -7082740  -1593199   6066139 101171962 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.330e+07  2.257e+06   36.91   <2e-16 ***
## km          -4.074e+02  2.614e+01  -15.59   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14100000 on 164 degrees of freedom
## Multiple R-squared:  0.597,  Adjusted R-squared:  0.5945 
## F-statistic: 242.9 on 1 and 164 DF,  p-value: < 2.2e-16

Al examinar los coeficientes de nuestro modelo,encintramos que intercepto, que representa el precio esperado cuando el kilometraje es cero, asume un valor de 83,300,000 pesos colombianos

El coeficiente asociado al kilometraje, que se cifra en -407.4. Esto implica que, en promedio, cada kilómetro adicional se asocia con una disminución de aproximadamente 407.4 de pesos en el precio del automóvil. Con un p-valor prácticamente cero, se indica que el coeficiente asociado al kilometraje es significativo en el modelo

R cuadrado revela la fortaleza del modelo en explicar la variabilidad en el precio. este modelo explica alrededor del 59.7%, de la variabilidad en el precio se explica por el kilometraje.

La evaluación de la significancia global del modelo a través del estadístico F presenta resultados contundentes. Con un estadístico F de 242.9 y un p-valor prácticamente cero, se indica que el modelo en su conjunto es altamente significativo. Este resultado respalda la premisa de que la variable kilómetros tiene un impacto significativo en el precio de los automóviles en el contexto del mercado colombiano.

Modelo 2

Mo2 <- lm(precio~años, data = carros_col)
summary(Mo2)

## 
## Call:
## lm(formula = precio ~ años, data = carros_col)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -74032250  -4889525   -645321   3606837 101602522 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 85043841    2109543   40.31   <2e-16 ***
## años        -4211591     239647  -17.57   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13080000 on 164 degrees of freedom
## Multiple R-squared:  0.6532, Adjusted R-squared:  0.6511 
## F-statistic: 308.9 on 1 and 164 DF,  p-value: < 2.2e-16

Al examinar Al estimar el modelo, encontramos que. El intercepto, con un valor de aproximadamente 85 millones de pesos colombianos, representa el precio esperado cuando la antigüedad del vehículo es cero.

El coeficiente asociado a “años”. Con un valor de alrededor de -4211591, este coeficiente indica que, en promedio, cada año adicional desde la fabricación se asocia con una disminución de aproximadamente 4 millones de pesos en el precio del automóvil.

La significancia estadística de ambos coeficientes se refleja en los p-valores prácticamente nulos (<2e-16), señalando que tanto el intercepto como el coeficiente de “años” son significativos en el modelo.

Con un R cuadrado del 0.6532, el modelo explica alrededor del 65.32% la variabilidad en el precio por medio de la antigüedad del vehículo

La evaluación global del modelo con un estadístico F de 308.9 y un p-valor prácticamente cero. indica que al menos una de las variables independientes es significativamente diferente de cero.

Modelo 3

Mo3 <- lm(precio~ciudad, data = carros_col)
summary(Mo3)

## 
## Call:
## lm(formula = precio ~ ciudad, data = carros_col)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -51979388 -15641667  -6655000  14194082 111020612 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     48655918.3  3132361.2  15.533   <2e-16 ***
## ciudadCali      10123469.4  4429827.7   2.285   0.0236 *  
## ciudadManizales     -918.3  5818102.7   0.000   0.9999    
## ciudadMedellín   3110748.3  4452839.9   0.699   0.4858    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21930000 on 162 degrees of freedom
## Multiple R-squared:  0.03682,    Adjusted R-squared:  0.01898 
## F-statistic: 2.064 on 3 and 162 DF,  p-value: 0.107

Este modelo tiene como objetivo entender la relación entre la ubicación geográfica, representada por la variable cualitativa “ciudad”, y el precio de los carros. La ciudad de Bogotá se establece como la categoría de referencia en este análisis.

El intercepto del modelo, que representa el precio medio de los carros en Bogotá, es de 48,655,918 millones de pesos. Este valor es la estimación del precio cuando todas las demás variables (ciudades) son cero.

El coeficiente asociado a la categoría “Cali”, lo que sugiere que el precio de los carros en Cali incrementa en promedio en 10,123,469.4 millones de pesos en comparación al precio de los carros en Bogota. Este resultado es respaldado por un p-valor de 0.0236, que es menor que el nivel de significancia común de .05, indicando una relación estadísticamente significativa.

En contraste, El coeficiente asociado a la categoría “Manizales”, lo que sugiere que el precio de los carros en Manizales disminuyen en promedio en 918.3 millones de pesos en comparación al precio de los carros en Bogota. El p-valor asociado es 0.9999. Esto sugiere que no hay evidencia estadística significativa para afirmar que el precio de los carros en Manizales es diferente al de Bogotá.

El coeficiente asociado a la categoría “Medellin”, lo que sugiere que el precio de los carros en Medellin incrementa en promedio en 3,110,748.3 millones de pesos en comparación al precio de los carros en Bogota. Sin embargo, es crucial notar que este resultado no alcanza significancia estadística, ya que el p-valor es 0.4858. Esto sugiere que, no es en significativa en términos estadísticos.

El coeficiente de determinación (R cuadrado) del modelo es 0.03682, 3.682% de la variabilidad en el precio de los carros puede explicarse por las diferencias en la ciudad. Esta proporción es relativamente baja, sugiriendo que otros factores no incluidos en el modelo podrían ser más influyentes en la determinación del precio de los carros.

Además, el estadístico F tiene un valor de 2.064 con un p-valor de 0.107, lo que indica que el modelo en su conjunto no es estadísticamente significativo a un nivel de significancia del 0.05. Esto sugiere que la inclusión de la variable “ciudad” en el modelo no aporta una mejora estadísticamente significativa en la capacidad de predecir el precio de los carros.

Elegir el mejor modelo entre los tres propuestos, y argumentar su resultado.

La elección del modelo adecuado para predecir con precisión la variabilidad en los precios de los vehículos. de los tres modelos, cada uno abordando aspectos distintos.

Para evaluar la eficacia de un modelo en su poder explicativo, usamos el coeficiente R cuadrado. Mo2 destaca con un 65.32%, sugiriendo que este modelo tiene una capacidad superior para explicar la variabilidad en los precios de los automóviles en comparación con Mo1 (59.7%) y Mo3 (3.68%). Este indicador apunta a la capacidad de Mo2 para capturar una proporción más significativa de la complejidad inherente a la determinación de precios.

La validez global de un modelo se establece mediante el estadístico F y su p-valor asociado. Tanto Mo1 como Mo2 exhiben p-valores prácticamente cero, respaldando su significancia global. Mo3, aunque significativo, presenta un p-valor más elevado (0.107), sugiriendo que este modelo podría no ser tan robusto en términos de relevancia global.

La interpretación práctica de los modelos es esencial para seleccionar el enfoque más relevante. Mo2, al centrarse en los años desde la fabricación, ofrece una perspectiva directa y fácilmente comprensible sobre cómo la antigüedad del vehículo impacta en los precios.

En conclusión, el análisis comparativo destaca a Mo2 como el modelo masy explicativo entre los tres.

Validar el poder predictivo del mejor modelo elegido con validación cruzada (calcular MAE).

##Paso 1 - Segmentar los Datos
id_modelar=sample(1:166,size = 117)
carroscol_modelar=carros_col[id_modelar,]
carroscol_validar=carros_col[-id_modelar,]

##Paso 2 - Estimar el Modelo Set de Modelar
Mod_modelar=lm(precio~años,data=carroscol_modelar)

##Paso 3 - Predeccir Set de Validación
precios_pred=predict(Mod_modelar,list(años=carroscol_validar$años))

##Paso 4 - Comparar Ventas del Modelo y Reales
precios_real=carroscol_validar$precio
error=precios_real-precios_pred
res=data.frame(precios_real,precios_pred,error)

##Paso 5 - Calcular Indicador de Evaluación de la Predicción
MAE=mean(abs(error)) #Mean Absolut Error (Error Medio Absoluto)
MAE

## [1] 6092373

Dividimos el conjunto de datos en un 70% para entrenamiento y un 30% aleatorio para validación.

Con estos porcentaajes, ajustamos un modelo de regresión lineal utilizando la variable “años” para predecir precios. Luego, proyectamos el precio basándonos en las edades de los vehículos.

Comparamos las predicciones con las ventas reales en el conjunto de validación, calculando el MAE (aproximadamente 7,236,128 pesos colombianos). Este valor indica la magnitud promedio del error absoluto en nuestras estimaciones en relación con los precios reales.

La interpretación específica del MAE depende del contexto del problema y de la escala de los precios. En general, un MAE más bajo indica una mejor precisión del modelo, mientras que valores más altos sugieren mayores discrepancias entre las predicciones y los valores reales. En este caso, el MAE obtenido proporciona una visión positiva, indicando una capacidad razonablemente precisa del modelo para predecir los precios de los automóviles en el mercado colombiano.

Validación de supuestos (varianza constante y normalidad)

plot(Mo2, 1)

La figura 1, que representa la relación entre los residuos y las predicciones en la gráfica Residuals vs Fitted, en este contexto, la gráfica revela un patrón que respalda la linealidad del modelo. La dispersión de los residuos alrededor de la línea horizontal cero indica que, en promedio, no existe un sesgo sistemático en ninguna dirección.

Este sustenta la idea de que el modelo Mo2 no presenta sesgos sistemáticos en su capacidad para capturar la relación entre la variable predictora y la variable de respuesta. En otras palabras, el modelo, cumple con la premisa de linealidad. Esta validación refuerza la confianza en la idoneidad del modelo para representar de manera efectiva la relación entre los años desde la fabricación y el precio de los automóviles en el contexto colombiano.

plot(Mo2, 2)

El supuesto de normalidad, esencial en la econometría, adquiere un papel central al evaluar la distribución de los errores o residuos del Modelo Mo2. Este supuesto se fundamenta en la premisa de que el término de error u sigue una distribución normal, una condición crítica para estimaciones de parámetros insesgadas y eficientes, así como para pruebas de hipótesis robustas.

La figura 2, representada por el gráfico (Q-Q Residuals), brinda una perspectiva visual en la que evaluamos la adecuación de los residuos a la normalidad. En este análisis, parece que la línea diagonal que se ajusta a los puntos indica la normalidad esperada si los residuos siguen una distribución normal.

La evidencia gráfica respalda de manera convincente la validez del supuesto de normalidad para el Modelo Mo2. La proximidad de los puntos a la línea diagonal sugiere que la distribución de los residuos se ajusta satisfactoriamente a la forma esperada de una distribución normal.

Sustentar si es conveniente o no realizar alguna transformación al modelo.

Taller Final

Daniel Victoria

2023-11-22