library(interactions)
library(ROCR)
library(randomForest)
library(xgboost)
library(kableExtra)
library(readxl)
library(dplyr)
library(lmtest)
library(openxlsx)
library(readxl)
library(readxlsb)
library(aTSA)
library(AER)
library(tidyverse)
library(tseries)
library(TSstudio)
library(psych)
library(mFilter)
library(lubridate)
library(lmtest)
library(fUnitRoots)
library(forecast)
library(seasonal)
library(plm)
library(margins)
library(car)
library(sandwich)
library(modelsummary)basenueva <- basenueva %>%
rename(
COMCAR = `Compra de carro`,
TIPOVI = `Tipo de Vivienda`,
PROPVI = `Propiedad de Vivienda`,
NUMPER = `Numero de personas`,
GARAJE = `Tenencia de Garaje`,
TENPARTI = `Tenencia de Carro Particular`,
CUANPARTI = `Cuantos Carros particulares`,
WORKCAR = `Usa carros para el trabajo`,
SEXO = `SEXO`,
ESTCIVIL = `Estado Civil`,
EDUCPA = `Nivel Educativo Padre`,
EDUCMA = `Nivel educativo Madre`
)
basenuevaEl modelo PROBIT se utiliza para analizar cómo factores socioeconómicos, como el nivel educativo, el estado civil y la propiedad de vivienda, afectan la probabilidad de comprar un automóvil en Bogotá.
Este modelo es adecuado porque permite modelar una variable dependiente dicotómica, como la decisión de compra, basada en distribuciones normales acumulativas.
modelo_probitsando1 <- glm(COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR + SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI + TENPARTI, family = binomial(link = "probit"), data = basenueva)
summary(modelo_probitsando1)##
## Call:
## glm(formula = COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR +
## SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI + TENPARTI,
## family = binomial(link = "probit"), data = basenueva)
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.0323016 0.0996672 20.391 < 2e-16 ***
## TIPOVI -0.1375944 0.0282314 -4.874 1.09e-06 ***
## PROPVI -0.0482210 0.0105014 -4.592 4.39e-06 ***
## NUMPER -0.0058711 0.0108378 -0.542 0.588013
## GARAJE 0.0240378 0.0304911 0.788 0.430489
## WORKCAR 0.0588878 0.0209810 2.807 0.005005 **
## SEXO 0.0371678 0.0274875 1.352 0.176321
## ESTCIVIL 0.0287236 0.0079027 3.635 0.000278 ***
## EDUCPA -0.0003250 0.0005304 -0.613 0.540018
## EDUCMA 0.0017175 0.0006251 2.748 0.006004 **
## CUANPARTI -0.2132252 0.0241221 -8.839 < 2e-16 ***
## TENPARTI NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 10920 on 29341 degrees of freedom
## Residual deviance: 10778 on 29331 degrees of freedom
## AIC: 10800
##
## Number of Fisher Scoring iterations: 6
Este modelo incluye todas las variables exógenas disponibles. Sin embargo,la variable TENPARTI presenta valores NA debido a problemas de multicolinealidad (probablemente porque está altamente correlacionada con otras variables relacionadas con la tenencia de vehículos).
TIPOVI (-0.1376, p < 0.001): El tipo de vivienda tiene un efecto negativo y significativo sobre la probabilidad de comprar un carro. Esto puede deberse a que ciertos tipos de vivienda, como apartamentos, pueden tener limitaciones de espacio para estacionar vehículos, desincentivando su compra.
PROPVI (-0.0482, p < 0.001): La propiedad de la vivienda también tiene un efecto negativo. Esto podría sugerir que las personas que no son propietarios podrían priorizar otros gastos o carecer de estabilidad financiera para adquirir un vehículo.
WORKCAR (0.0589, p = 0.005): Usar el carro para el trabajo incrementa la probabilidad de compra. Esto tiene sentido, ya que las personas que dependen del carro para su trabajo tienden a necesitar uno.
ESTCIVIL (0.0287, p < 0.001): El estado civil (especialmente si está casado o en pareja) aumenta la probabilidad de comprar un carro, posiblemente debido a la necesidad de transporte familiar.
EDUCMA (0.0017, p = 0.006): Un mayor nivel educativo de la madre está asociado con una mayor probabilidad de compra. Esto podría reflejar valores o influencia familiar hacia la adquisición de bienes duraderos.
CUANPARTI (-0.2132, p < 0.001): Tener más carros particulares está negativamente relacionado con la compra de otro carro, lo cual es esperado, ya que las familias con múltiples vehículos tienen menos necesidad de adquirir uno adicional.
modelo_probitsando2 <- glm(COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR + SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI, family = binomial(link = "probit"), data = basenueva)
summary(modelo_probitsando2)##
## Call:
## glm(formula = COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR +
## SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI, family = binomial(link = "probit"),
## data = basenueva)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.0323016 0.0996672 20.391 < 2e-16 ***
## TIPOVI -0.1375944 0.0282314 -4.874 1.09e-06 ***
## PROPVI -0.0482210 0.0105014 -4.592 4.39e-06 ***
## NUMPER -0.0058711 0.0108378 -0.542 0.588013
## GARAJE 0.0240378 0.0304911 0.788 0.430489
## WORKCAR 0.0588878 0.0209810 2.807 0.005005 **
## SEXO 0.0371678 0.0274875 1.352 0.176321
## ESTCIVIL 0.0287236 0.0079027 3.635 0.000278 ***
## EDUCPA -0.0003250 0.0005304 -0.613 0.540018
## EDUCMA 0.0017175 0.0006251 2.748 0.006004 **
## CUANPARTI -0.2132252 0.0241221 -8.839 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 10920 on 29341 degrees of freedom
## Residual deviance: 10778 on 29331 degrees of freedom
## AIC: 10800
##
## Number of Fisher Scoring iterations: 6
Este modelo elimina la variable TENPARTI y vuelve a estimar la relación entre las variables exógenas y la compra de carro.
Los coeficientes y significancias permanecen casi idénticos al modelo anterior, lo que confirma que la exclusión de TENPARTI no afecta sustancialmente los resultados.
Se mantienen las mismas interpretaciones para las variables significativas, y las variables no significativas (NUMPER, GARAJE, SEXO, EDUCPA) tampoco cambian.
modelo_probit <- glm(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI, family = binomial(link = "probit"), data = basenueva)
summary(modelo_probit)##
## Call:
## glm(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL +
## EDUCMA + CUANPARTI, family = binomial(link = "probit"), data = basenueva)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.1000425 0.0709552 29.597 < 2e-16 ***
## TIPOVI -0.1324985 0.0277048 -4.783 1.73e-06 ***
## PROPVI -0.0482568 0.0104606 -4.613 3.97e-06 ***
## WORKCAR 0.0588708 0.0208483 2.824 0.004746 **
## ESTCIVIL 0.0267006 0.0078243 3.413 0.000644 ***
## EDUCMA 0.0014557 0.0004687 3.106 0.001897 **
## CUANPARTI -0.2177908 0.0237097 -9.186 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 10920 on 29341 degrees of freedom
## Residual deviance: 10781 on 29335 degrees of freedom
## AIC: 10795
##
## Number of Fisher Scoring iterations: 6
Este modelo incluye únicamente las variables significativas del segundo modelo, reduciendo la cantidad de predictores para centrarse en los más relevantes.
Tambien, este modelo tiene un AIC más bajo (10795) en comparación con el segundo modelo (10800), lo que sugiere que es más parsimonioso y ajustado.
TIPOVI (-0.1325, p < 0.001): Sigue siendo negativo y significativo, reforzando la idea de que el tipo de vivienda afecta la compra de carro.
PROPVI (-0.0483, p < 0.001): Mantiene su relación negativa con la compra de carro.
WORKCAR (0.0589, p = 0.005): El uso del carro para el trabajo sigue siendo un factor positivo y significativo.
ESTCIVIL (0.0267, p < 0.001): El estado civil sigue siendo un determinante importante.
EDUCMA (0.0015, p = 0.002): La educación de la madre conserva su relevancia.
CUANPARTI (-0.2178, p < 0.001): El efecto negativo del número de carros particulares es consistente.
## TIPOVI PROPVI WORKCAR ESTCIVIL EDUCMA CUANPARTI
## 1.015988 1.031947 1.066521 1.030299 1.005311 1.084336
Un VIF menor a 10 indica que no hay problemas de multicolinealidad grave. Aquí, todos los valores son cercanos a 1, lo que sugiere una relación débil entre las variables independientes. Esto confirma que el modelo no está afectado por redundancias significativas entre las variables explicativas, y por lo tanto, los coeficientes estimados son fiables.
CUANPARTI: Por cada carro adicional que posee una familia, la probabilidad de comprar otro carro disminuye en un 2.07%. Esto confirma que familias con más vehículos tienen menos necesidad de adquirir más.
EDUCMA: Por cada nivel adicional de educación de la madre, la probabilidad de comprar un carro aumenta en 0.01%. Aunque el efecto es pequeño, sigue siendo significativo.
ESTCIVIL: Estar casado o en pareja aumenta la probabilidad de compra de un carro en 0.25%. Este efecto sugiere que la estabilidad familiar motiva inversiones como la compra de vehículos.
PROPVI: No ser propietario de la vivienda reduce la probabilidad de compra de un carro en 0.46%. Esto puede reflejar una menor estabilidad económica o financiera.
TIPOVI: Vivir en ciertos tipos de vivienda (como apartamentos) reduce la probabilidad de compra de un carro en 1.26%. Esto podría estar relacionado con restricciones de espacio para estacionamiento.
WORKCAR: Usar un carro para el trabajo incrementa la probabilidad de compra de un carro en 0.56%. Esto respalda la idea de que el transporte laboral es un determinante clave.
El método de momentos generalizado (GMM) complementa al PROBIT al abordar posibles problemas de endogeneidad en el modelo. Algunas variables, como el nivel educativo o la propiedad de vivienda, podrían estar correlacionadas con el error del modelo.
GMM permite incorporar instrumentos (variables relacionadas con las explicativas pero no con el error) para obtener estimaciones consistentes y robustas. Esto refuerza los hallazgos del PROBIT al mejorar la validez causal de las relaciones analizadas.
modelo_gmm1 <- ivreg(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI | WORKCAR + GARAJE + SEXO + ESTCIVIL + EDUCMA + PROPVI, data = basenueva)
summary(modelo_gmm1)##
## Call:
## ivreg(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL +
## EDUCMA + CUANPARTI | WORKCAR + GARAJE + SEXO + ESTCIVIL +
## EDUCMA + PROPVI, data = basenueva)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.00594 0.02411 0.03978 0.05724 0.44067
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.464e-01 5.720e-02 16.546 < 2e-16 ***
## TIPOVI 3.298e-02 3.677e-02 0.897 0.36978
## PROPVI -6.721e-03 1.690e-03 -3.976 7.01e-05 ***
## WORKCAR 1.368e-02 5.365e-03 2.549 0.01080 *
## ESTCIVIL 3.001e-03 9.159e-04 3.276 0.00105 **
## EDUCMA 1.550e-04 5.375e-05 2.883 0.00394 **
## CUANPARTI -4.803e-02 1.832e-02 -2.621 0.00876 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.21 on 29335 degrees of freedom
## Multiple R-Squared: -0.007824, Adjusted R-squared: -0.00803
## Wald test: 7.592 on 6 and 29335 DF, p-value: 3.69e-08
modelo_gmm2 <- ivreg(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI | NUMPER + GARAJE + SEXO + EDUCPA + EDUCMA + PROPVI, data = basenueva)
summary(modelo_gmm2)##
## Call:
## ivreg(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL +
## EDUCMA + CUANPARTI | NUMPER + GARAJE + SEXO + EDUCPA + EDUCMA +
## PROPVI, data = basenueva)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.82750 -0.02232 0.05543 0.09955 0.22740
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.779e-01 3.653e-01 2.130 0.0332 *
## TIPOVI 8.569e-02 1.431e-01 0.599 0.5492
## PROPVI -8.402e-03 4.209e-03 -1.996 0.0459 *
## WORKCAR 1.219e-01 1.738e-01 0.701 0.4832
## ESTCIVIL -1.516e-02 1.696e-02 -0.894 0.3714
## EDUCMA 1.408e-04 5.665e-05 2.485 0.0130 *
## CUANPARTI 5.037e-02 1.041e-01 0.484 0.6285
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2303 on 29335 degrees of freedom
## Multiple R-Squared: -0.2123, Adjusted R-squared: -0.2126
## Wald test: 5.079 on 6 and 29335 DF, p-value: 3.214e-05
modelo_gmm3 <- ivreg(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI | WORKCAR + TIPOVI + SEXO + ESTCIVIL + EDUCPA + PROPVI, data = basenueva)
summary(modelo_gmm3)##
## Call:
## ivreg(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL +
## EDUCMA + CUANPARTI | WORKCAR + TIPOVI + SEXO + ESTCIVIL +
## EDUCPA + PROPVI, data = basenueva)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.019554 0.008946 0.024204 0.045331 1.149328
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.119e+00 9.310e-02 12.015 < 2e-16 ***
## TIPOVI -1.232e-02 2.661e-03 -4.632 3.64e-06 ***
## PROPVI -8.949e-03 3.373e-03 -2.653 0.00797 **
## WORKCAR 2.712e-02 1.607e-02 1.687 0.09160 .
## ESTCIVIL 6.023e-03 2.679e-03 2.248 0.02455 *
## EDUCMA 1.552e-05 8.322e-05 0.186 0.85209
## CUANPARTI -1.425e-01 8.903e-02 -1.601 0.10938
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2153 on 29335 degrees of freedom
## Multiple R-Squared: -0.0599, Adjusted R-squared: -0.06012
## Wald test: 8.876 on 6 and 29335 DF, p-value: 1.063e-09
| GMM1 | GMM2 | GMM3 | |
|---|---|---|---|
| (Intercept) | 0.946 | 0.778 | 1.119 |
| (0.057) | (0.365) | (0.093) | |
| TIPOVI | 0.033 | 0.086 | -0.012 |
| (0.037) | (0.143) | (0.003) | |
| PROPVI | -0.007 | -0.008 | -0.009 |
| (0.002) | (0.004) | (0.003) | |
| WORKCAR | 0.014 | 0.122 | 0.027 |
| (0.005) | (0.174) | (0.016) | |
| ESTCIVIL | 0.003 | -0.015 | 0.006 |
| (0.001) | (0.017) | (0.003) | |
| EDUCMA | 0.000 | 0.000 | 0.000 |
| (0.000) | (0.000) | (0.000) | |
| CUANPARTI | -0.048 | 0.050 | -0.143 |
| (0.018) | (0.104) | (0.089) | |
| Num.Obs. | 29342 | 29342 | 29342 |
| R2 | -0.008 | -0.212 | -0.060 |
| R2 Adj. | -0.008 | -0.213 | -0.060 |
| AIC | -8313.5 | -2893.2 | -6835.2 |
| BIC | -8247.2 | -2826.9 | -6768.9 |
| RMSE | 0.21 | 0.23 | 0.22 |
Al comparar los tres modelos estimados por el Método Generalizado de Momentos (GMM),el Modelo gmm1 se destaca como el mejor para seleccionar como principal por varias razones.
El Modelo GMM1 parece ser el más robusto, ya que tiene el mayor número de variables significativas, lo que sugiere que ofrece un mejor ajuste y más explicaciones sobre la relación entre las variables.
En contraste, los otros modelos tienen menos variables significativas, lo que puede indicar que no capturan adecuadamente las dinámicas subyacentes de la demanda de automóviles.
El R-squared del Modelo GMM1 es más favorable que el de los otros modelos, aunque en todos los casos el valor es negativo, lo cual es esperado en los modelos de variables instrumentales.
Sin embargo, el GMM1 presenta el valor más alto entre los tres, lo que sugiere que el modelo tiene un ajuste relativamente mejor dentro de este tipo de modelos.
La prueba de Wald del modelo GMM1 también muestra un p-value significativamente bajo (3.69e-08), lo que indica que el modelo es globalmente significativo y tiene una buena capacidad de predicción.
Mientras que los otros modelos tienen p-values más altos, sugiriendo que, aunque siguen siendo estadísticamente significativos, su capacidad explicativa es más limitada.
| PROBIT | GMM1 | |
|---|---|---|
| (Intercept) | 2.100 | 0.946 |
| (0.071) | (0.057) | |
| TIPOVI | -0.132 | 0.033 |
| (0.028) | (0.037) | |
| PROPVI | -0.048 | -0.007 |
| (0.010) | (0.002) | |
| WORKCAR | 0.059 | 0.014 |
| (0.021) | (0.005) | |
| ESTCIVIL | 0.027 | 0.003 |
| (0.008) | (0.001) | |
| EDUCMA | 0.001 | 0.000 |
| (0.000) | (0.000) | |
| CUANPARTI | -0.218 | -0.048 |
| (0.024) | (0.018) | |
| Num.Obs. | 29342 | 29342 |
| R2 | -0.008 | |
| R2 Adj. | -0.008 | |
| AIC | 10794.9 | -8313.5 |
| BIC | 10852.9 | -8247.2 |
| Log.Lik. | -5390.434 | |
| F | 23.664 | |
| RMSE | 0.21 | 0.21 |
El modelo GMM1 tiene un RMSE de 0.21, lo que indica un buen ajuste, similar al del modelo PROBIT. Sin embargo, el GMM1 presenta un AIC de -8313.5 y un BIC de -8247.2, mucho más bajos que los del PROBIT ( AIC: 10794.9, BIC: 10852.9 ).
Estos valores sugieren que el GMM1 ajusta mejor los datos sin sobreajustarse, lo que lo hace más adecuado en términos de eficiencia y ajuste.
Este modelo se utiliza para explorar interacciones complejas entre las variables, como la relación entre el uso del automóvil para el trabajo, el estado civil y la tenencia de garaje, sin necesidad de hacer supuestos estrictos sobre las relaciones funcionales.
Random Forest es útil para identificar patrones no lineales que los modelos tradicionales podrían pasar por alto.
set.seed(123)
modelo_rf <- randomForest( as.factor(COMCAR) ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI, data = basenueva, ntree = 500, importance = TRUE )
print(modelo_rf)##
## Call:
## randomForest(formula = as.factor(COMCAR) ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI, data = basenueva, ntree = 500, importance = TRUE)
## Type of random forest: classification
## Number of trees: 500
## No. of variables tried at each split: 2
##
## OOB estimate of error rate: 4.59%
## Confusion matrix:
## 0 1 class.error
## 0 1 1344 0.9992565056
## 1 3 27994 0.0001071543
El modelo Random Forest presenta un excelente desempeño en la predicción de personas que adquieren automóviles, con un error OOB del 4.59%, indicando que el modelo clasifica correctamente el 95.41% de los casos en promedio fuera de la muestra.
La matriz de confusión destaca una precisión casi perfecta para la clase de interés (compra de carro), ya que de 27,997 casos, el modelo clasificó correctamente 27,994, con solo 3 falsos negativos, lo que equivale a un error de clase del 0.01%.
Este indicador muestra qué tan relevantes son las variables para la precisión general del modelo. En este caso, las variables más importantes para predecir correctamente quiénes compran o no compran un automóvil son CUANPARTI (número de carros particulares) y ESTCIVIL (estado civil), con valores superiores a 20. Esto sugiere que estas variables tienen un impacto significativo en la capacidad del modelo para hacer predicciones precisas.
A continuación, PROPVI (propiedad de vivienda) y WORKCAR (uso del carro para el trabajo) también son importantes, con valores entre 10 y 20, aunque tienen un impacto algo menor que las dos primeras.
En cambio, EDUCMA (nivel educativo de la madre) y TIPOVI (tipo de vivienda) presentan valores bajos (menos de 10), lo que indica que estas variables contribuyen menos a la precisión del modelo.
Lo que sucede con EDUCMA es que Mean Decrease Accuracy mide cómo cambia la precisión general del modelo cuando una variable es eliminada. Si eliminar una variable reduce mucho la precisión, significa que esa variable es muy importante para hacer predicciones correctas. Sin embargo, EDUCMA (nivel educativo de la madre) parece no tener un gran impacto en la precisión del modelo, lo que explica su valor bajo en este indicador.
Este indicador mide la importancia de las variables en función de su capacidad para reducir la “impureza” en los nodos del modelo. Los nodos son los puntos de decisión dentro del modelo de Random Forest, donde se divide la información para hacer predicciones. Si una variable tiene un valor alto en este indicador, significa que es efectiva para dividir los datos de manera que las decisiones del modelo sean más claras y precisas.
En este caso, EDUCMA (nivel educativo de la madre) tiene el valor más alto, lo que indica que es la variable más efectiva para reducir la impureza en los nodos y hacer que el modelo sea más confiable.
A continuación, ESTCIVIL (estado civil) y PROPVI (propiedad de vivienda) también son variables importantes en la reducción de impureza, con valores entre 20 y 40.
WORKCAR (uso del carro para el trabajo) y CUANPARTI (número de carros particulares) también tienen una importancia significativa en la reducción de impureza, con valores similares en el rango de 20 a 40.
Por último, TIPOVI (tipo de vivienda) tiene el valor más bajo, lo que refleja su menor impacto tanto en la precisión como en la reducción de impureza en el modelo.
La diferencia en la importancia de EDUCMA entre los dos indicadores radica en que Mean Decrease Gini mide cuán efectivamente una variable puede dividir los datos en categorías más puras en cada nodo del árbol de decisión. En este caso, EDUCMA tiene un valor alto porque puede ayudar a crear divisiones más claras y precisas dentro del modelo, aunque podria no ser tan relevante para la precisión global del modelo.
XGBoost complementa al Random Forest al optimizar la predicción y la clasificación. Su enfoque lo hace ideal para identificar relaciones importantes en los datos, como el impacto del número de carros particulares en el hogar o la tenencia de garaje sobre la probabilidad de compra.
X <- as.matrix(select(basenueva, TIPOVI, PROPVI, WORKCAR, ESTCIVIL, EDUCMA, CUANPARTI))
y <- basenueva$COMCAR
set.seed(123)
modelo_xgb <- xgboost( data = X, label = y, objective = "binary:logistic", nrounds = 100, verbose = 0 )
importancia <- xgb.importance(feature_names = colnames(X), model = modelo_xgb)
xgb.plot.importance(importancia, main = "Importancia de Variables en XGBoost")La gráfica de importancia de variables en el modelo XGBoost muestra que la variable EDUCMA (nivel educativo de la madre) tiene el mayor peso en la predicción, con una puntuación superior a 0.25. Esto concuerda con su relevancia observada en el Mean Decrease Gini del modelo Random Forest, donde también destacó como una de las variables clave.
EDUCMA se mantiene como una variable significativa en ambos modelos, lo que refuerza su influencia en la predicción de la compra de automóviles, aunque en Random Forest su contribución era más evidente en la reducción de la impureza en los nodos, mientras que en XGBoost se observa como la variable más importante en términos de predicción directa.
Es importante señalar que, en el caso del Mean Decrease Accuracy en Random Forest, EDUCMA no muestra una gran relevancia, ya que su puntuación era baja (menos de 10). Esto indica que, al eliminarla, la precisión global del modelo no se ve afectada de manera significativa. Sin embargo, esto no implica que la variable no sea relevante en otras etapas del análisis.
Aunque EDUCMA no tiene un impacto tan grande en la precisión general del modelo (como se mostró en Mean Decrease Accuracy), su alta puntuación en Mean Decrease Gini indica que es clave para realizar divisiones más precisas dentro del modelo y mejorar la clasificación.
Esto concuerda con lo que muestra XGBoost, donde EDUCMA también es destacada como la variable más importante para la predicción, lo que sugiere que tiene un rol esencial al segmentar los datos y ayudar a que el modelo haga mejores predicciones.
Le siguen ESTCIVIL (estado civil) y PROPVI (propiedad de vivienda), con valores entre 0.20-0.25 y 0.15-0.20, respectivamente, reafirmando su papel en la modelización de la probabilidad de compra de automóviles.
Las demás variables, como WORKCAR (uso del carro para el trabajo), CUANPARTI (número de carros particulares) y TIPOVI (tipo de vivienda), tienen menor importancia, pero siguen contribuyendo al modelo, con puntuaciones que oscilan entre 0.05 y 0.15.
Este modelo amplía el análisis del PROBIT al incluir interacciones clave, como el cruce entre el nivel educativo y el estado civil, para capturar cómo combinaciones específicas de factores socioeconómicos influyen en la decisión de compra de automóviles.
modelo_interacciones <- glm( COMCAR ~ TIPOVI * EDUCMA + PROPVI + CUANPARTI * WORKCAR + ESTCIVIL, family = binomial(link = "probit"), data = basenueva )
summary(modelo_interacciones)##
## Call:
## glm(formula = COMCAR ~ TIPOVI * EDUCMA + PROPVI + CUANPARTI *
## WORKCAR + ESTCIVIL, family = binomial(link = "probit"), data = basenueva)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.0840885 0.0777957 26.789 < 2e-16 ***
## TIPOVI -0.1546840 0.0304372 -5.082 3.73e-07 ***
## EDUCMA -0.0016414 0.0015382 -1.067 0.285923
## PROPVI -0.0480871 0.0104672 -4.594 4.35e-06 ***
## CUANPARTI -0.1810235 0.0280728 -6.448 1.13e-10 ***
## WORKCAR 0.1370901 0.0371103 3.694 0.000221 ***
## ESTCIVIL 0.0265667 0.0078309 3.393 0.000692 ***
## TIPOVI:EDUCMA 0.0019627 0.0009368 2.095 0.036153 *
## CUANPARTI:WORKCAR -0.0431893 0.0168621 -2.561 0.010427 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 10920 on 29341 degrees of freedom
## Residual deviance: 10769 on 29333 degrees of freedom
## AIC: 10787
##
## Number of Fisher Scoring iterations: 6
TIPOVI y EDUCMA muestran que la influencia del tipo de vivienda en la probabilidad de compra varía según el nivel educativo materno.
CUANPARTI y WORKCAR resaltan cómo el número de carros particulares modera el impacto del uso del carro para el trabajo.
interact_plot(modelo_interacciones, pred = TIPOVI, modx = EDUCMA, main.title = "Interacción entre TIPOVI y EDUCMA", y.label = "Probabilidad de Compra")La gráfica indica que la probabilidad de compra disminuye a medida que aumenta TIPOVI (probablemente relacionado con una categoría de vivienda menos favorable o costosa). Sin embargo, el nivel educativo de la madre (EDUCMA) modera este impacto:
La probabilidad de compra disminuye mas lentamente a medida que aumenta TIPOVI. Esto sugiere que madres con mayor nivel educativo pueden compensar o suavizar el impacto negativo del tipo de vivienda en la probabilidad de compra.
La probabilidad de compra cae más rápidamente con TIPOVI. Es decir, para este grupo, el tipo de vivienda tiene un impacto más negativo.
Esta interacción muestra que el nivel educativo puede ser un factor protector frente a los efectos adversos del tipo de vivienda en la decisión de compra.
interact_plot(modelo_interacciones, pred = CUANPARTI, modx = WORKCAR, main.title = "Interacción entre CUANPARTI y WORKCAR", y.label = "Probabilidad de Compra")La gráfica evidencia que, a medida que aumenta CUANPARTI (número de carros particulares), la probabilidad de compra disminuye. WORKCAR (uso del carro para trabajo) modera esta relación:
La disminución en la probabilidad de compra es más pronunciada, indicando que el uso del carro para el trabajo acentúa el impacto negativo de tener más carros.
La probabilidad de compra disminuye más suavemente con CUANPARTI, mostrando que el uso limitado del carro para trabajo atenúa el impacto negativo de tener más vehículos.
Cuando los carros particulares son utilizados para trabajar, su impacto negativo en la decisión de compra de otro vehículo es mas pronunciado, mientras que un menor uso para trabajo mitiga este impacto.
La presente investigación tuvo como objetivo principal analizar los determinantes socioeconómicos de la demanda de automóviles en la ciudad de Bogotá, empleando diferentes metodologías econométricas y de aprendizaje automático.
En este contexto, se exploraron diversos modelos, incluidos el PROBIT, el método de momentos generalizados (GMM), Random Forest, XGBoost y un modelo PROBIT con interacciones.
Este enfoque permitió no solo identificar las variables más relevantes en la decisión de compra de un automóvil, sino también evaluar la eficacia de distintas técnicas analíticas en la explicación de este fenómeno.
Los resultados obtenidos a lo largo del análisis destacan que las variables socioeconómicas significativas en la compra de un automóvil incluyen:
Nivel educativo: Una mayor educación está positivamente asociada con la probabilidad de adquirir un automóvil.
Estado civil: Personas casadas o en unión estable presentan una mayor propensión a comprar un vehículo, posiblemente debido a necesidades familiares o de estabilidad financiera.
Propiedad de vivienda: Ser propietario de la vivienda se relaciona positivamente con la compra de automóviles, lo que podría reflejar una mayor capacidad adquisitiva.
En la comparación de modelos, el PROBIT resultó ser útil para interpretar efectos marginales y relaciones directas entre las variables.
Por otro lado, los modelos de aprendizaje automático (Random Forest y XGBoost) ofrecieron una mayor capacidad predictiva al capturar relaciones no lineales y complejas entre las variables.
El modelo GMM proporcionó un marco robusto para tratar posibles problemas de endogeneidad al utilizar variables instrumentales.
En términos teóricos, la aplicación de diversos modelos permite contrastar metodologías tradicionales con técnicas modernas de análisis de datos, aportando un marco metodológico amplio y replicable en otros contextos.
A pesar de los hallazgos significativos, esta investigación presenta algunas limitaciones. La naturaleza de la base de datos, basada en un corte transversal, impide analizar dinámicas temporales que podrían enriquecer el entendimiento de la evolución en la demanda de automóviles.
Además, aunque se incluyeron variables socioeconómicas clave, factores como el precio de los automóviles, las tasas de interés o la infraestructura vial no fueron considerados debido a la disponibilidad de datos.