LIBRERIAS

library(interactions)
library(ROCR)
library(randomForest)
library(xgboost)
library(kableExtra)
library(readxl)
library(dplyr)
library(lmtest)
library(openxlsx)
library(readxl)
library(readxlsb)
library(aTSA)
library(AER)
library(tidyverse)
library(tseries)
library(TSstudio)
library(psych)
library(mFilter)
library(lubridate)
library(lmtest)
library(fUnitRoots)
library(forecast)
library(seasonal)
library(plm)
library(margins)
library(car)
library(sandwich)
library(modelsummary)

BASE DE DATOS

basenueva <- read_excel("basenueva.xlsx")

Renombramiento de las variables

basenueva <- basenueva %>%
  rename(
    COMCAR = `Compra de carro`, 
    TIPOVI = `Tipo de Vivienda`,
    PROPVI = `Propiedad de Vivienda`,
    NUMPER = `Numero de personas`,
    GARAJE = `Tenencia de Garaje`,
    TENPARTI = `Tenencia de Carro Particular`,
    CUANPARTI  = `Cuantos Carros particulares`,
    WORKCAR = `Usa carros para el trabajo`,
    SEXO = `SEXO`,
    ESTCIVIL = `Estado Civil`,
    EDUCPA = `Nivel Educativo Padre`,
    EDUCMA = `Nivel educativo Madre`
  )
basenueva

Transformación de valores de la variable endógena ( COMCAR ) en binarios

basenueva$COMCAR <- ifelse(basenueva$COMCAR == 2, 1, 0)

1. ESTIMACIÓN DE MODELOS POR PROBIT

El modelo PROBIT se utiliza para analizar cómo factores socioeconómicos, como el nivel educativo, el estado civil y la propiedad de vivienda, afectan la probabilidad de comprar un automóvil en Bogotá.

Este modelo es adecuado porque permite modelar una variable dependiente dicotómica, como la decisión de compra, basada en distribuciones normales acumulativas.

Estimación del modelo PROBIT sugerida en la literatura

modelo_probitsando1 <- glm(COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR + SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI + TENPARTI, family = binomial(link = "probit"), data = basenueva)
summary(modelo_probitsando1)

## 
## Call:
## glm(formula = COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR + 
##     SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI + TENPARTI, 
##     family = binomial(link = "probit"), data = basenueva)
## 
## Coefficients: (1 not defined because of singularities)
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.0323016  0.0996672  20.391  < 2e-16 ***
## TIPOVI      -0.1375944  0.0282314  -4.874 1.09e-06 ***
## PROPVI      -0.0482210  0.0105014  -4.592 4.39e-06 ***
## NUMPER      -0.0058711  0.0108378  -0.542 0.588013    
## GARAJE       0.0240378  0.0304911   0.788 0.430489    
## WORKCAR      0.0588878  0.0209810   2.807 0.005005 ** 
## SEXO         0.0371678  0.0274875   1.352 0.176321    
## ESTCIVIL     0.0287236  0.0079027   3.635 0.000278 ***
## EDUCPA      -0.0003250  0.0005304  -0.613 0.540018    
## EDUCMA       0.0017175  0.0006251   2.748 0.006004 ** 
## CUANPARTI   -0.2132252  0.0241221  -8.839  < 2e-16 ***
## TENPARTI            NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10920  on 29341  degrees of freedom
## Residual deviance: 10778  on 29331  degrees of freedom
## AIC: 10800
## 
## Number of Fisher Scoring iterations: 6

Interpretación

Este modelo incluye todas las variables exógenas disponibles. Sin embargo,la variable TENPARTI presenta valores NA debido a problemas de multicolinealidad (probablemente porque está altamente correlacionada con otras variables relacionadas con la tenencia de vehículos).

Variables significativas

TIPOVI (-0.1376, p < 0.001): El tipo de vivienda tiene un efecto negativo y significativo sobre la probabilidad de comprar un carro. Esto puede deberse a que ciertos tipos de vivienda, como apartamentos, pueden tener limitaciones de espacio para estacionar vehículos, desincentivando su compra.

PROPVI (-0.0482, p < 0.001): La propiedad de la vivienda también tiene un efecto negativo. Esto podría sugerir que las personas que no son propietarios podrían priorizar otros gastos o carecer de estabilidad financiera para adquirir un vehículo.

WORKCAR (0.0589, p = 0.005): Usar el carro para el trabajo incrementa la probabilidad de compra. Esto tiene sentido, ya que las personas que dependen del carro para su trabajo tienden a necesitar uno.

ESTCIVIL (0.0287, p < 0.001): El estado civil (especialmente si está casado o en pareja) aumenta la probabilidad de comprar un carro, posiblemente debido a la necesidad de transporte familiar.

EDUCMA (0.0017, p = 0.006): Un mayor nivel educativo de la madre está asociado con una mayor probabilidad de compra. Esto podría reflejar valores o influencia familiar hacia la adquisición de bienes duraderos.

CUANPARTI (-0.2132, p < 0.001): Tener más carros particulares está negativamente relacionado con la compra de otro carro, lo cual es esperado, ya que las familias con múltiples vehículos tienen menos necesidad de adquirir uno adicional.

Estimación del modelo PROBIT sugerida en la literatura ( excluyendo TENPARTI )

modelo_probitsando2 <- glm(COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR + SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI, family = binomial(link = "probit"), data = basenueva)
summary(modelo_probitsando2)

## 
## Call:
## glm(formula = COMCAR ~ TIPOVI + PROPVI + NUMPER + GARAJE + WORKCAR + 
##     SEXO + ESTCIVIL + EDUCPA + EDUCMA + CUANPARTI, family = binomial(link = "probit"), 
##     data = basenueva)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.0323016  0.0996672  20.391  < 2e-16 ***
## TIPOVI      -0.1375944  0.0282314  -4.874 1.09e-06 ***
## PROPVI      -0.0482210  0.0105014  -4.592 4.39e-06 ***
## NUMPER      -0.0058711  0.0108378  -0.542 0.588013    
## GARAJE       0.0240378  0.0304911   0.788 0.430489    
## WORKCAR      0.0588878  0.0209810   2.807 0.005005 ** 
## SEXO         0.0371678  0.0274875   1.352 0.176321    
## ESTCIVIL     0.0287236  0.0079027   3.635 0.000278 ***
## EDUCPA      -0.0003250  0.0005304  -0.613 0.540018    
## EDUCMA       0.0017175  0.0006251   2.748 0.006004 ** 
## CUANPARTI   -0.2132252  0.0241221  -8.839  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10920  on 29341  degrees of freedom
## Residual deviance: 10778  on 29331  degrees of freedom
## AIC: 10800
## 
## Number of Fisher Scoring iterations: 6

Interpretación

Este modelo elimina la variable TENPARTI y vuelve a estimar la relación entre las variables exógenas y la compra de carro.

Los coeficientes y significancias permanecen casi idénticos al modelo anterior, lo que confirma que la exclusión de TENPARTI no afecta sustancialmente los resultados.

Variables significativas

Se mantienen las mismas interpretaciones para las variables significativas, y las variables no significativas (NUMPER, GARAJE, SEXO, EDUCPA) tampoco cambian.

Estimación del modelo PROBIT unicamente con variables significativas

modelo_probit <- glm(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI, family = binomial(link = "probit"), data = basenueva)
summary(modelo_probit)

## 
## Call:
## glm(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + 
##     EDUCMA + CUANPARTI, family = binomial(link = "probit"), data = basenueva)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.1000425  0.0709552  29.597  < 2e-16 ***
## TIPOVI      -0.1324985  0.0277048  -4.783 1.73e-06 ***
## PROPVI      -0.0482568  0.0104606  -4.613 3.97e-06 ***
## WORKCAR      0.0588708  0.0208483   2.824 0.004746 ** 
## ESTCIVIL     0.0267006  0.0078243   3.413 0.000644 ***
## EDUCMA       0.0014557  0.0004687   3.106 0.001897 ** 
## CUANPARTI   -0.2177908  0.0237097  -9.186  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10920  on 29341  degrees of freedom
## Residual deviance: 10781  on 29335  degrees of freedom
## AIC: 10795
## 
## Number of Fisher Scoring iterations: 6

Interpretación

Este modelo incluye únicamente las variables significativas del segundo modelo, reduciendo la cantidad de predictores para centrarse en los más relevantes.

Tambien, este modelo tiene un AIC más bajo (10795) en comparación con el segundo modelo (10800), lo que sugiere que es más parsimonioso y ajustado.

Variables significativas

TIPOVI (-0.1325, p < 0.001): Sigue siendo negativo y significativo, reforzando la idea de que el tipo de vivienda afecta la compra de carro.

PROPVI (-0.0483, p < 0.001): Mantiene su relación negativa con la compra de carro.

WORKCAR (0.0589, p = 0.005): El uso del carro para el trabajo sigue siendo un factor positivo y significativo.

ESTCIVIL (0.0267, p < 0.001): El estado civil sigue siendo un determinante importante.

EDUCMA (0.0015, p = 0.002): La educación de la madre conserva su relevancia.

CUANPARTI (-0.2178, p < 0.001): El efecto negativo del número de carros particulares es consistente.

Exploración del factor de inflación de la varianza (prueba de multicolinealidad)

vif(modelo_probit)

##    TIPOVI    PROPVI   WORKCAR  ESTCIVIL    EDUCMA CUANPARTI 
##  1.015988  1.031947  1.066521  1.030299  1.005311  1.084336

Interpretación

Un VIF menor a 10 indica que no hay problemas de multicolinealidad grave. Aquí, todos los valores son cercanos a 1, lo que sugiere una relación débil entre las variables independientes. Esto confirma que el modelo no está afectado por redundancias significativas entre las variables explicativas, y por lo tanto, los coeficientes estimados son fiables.

Revisión de los efectos marginales

marg <- margins(modelo_probit)
summary(marg)

Interpretación

CUANPARTI: Por cada carro adicional que posee una familia, la probabilidad de comprar otro carro disminuye en un 2.07%. Esto confirma que familias con más vehículos tienen menos necesidad de adquirir más.

EDUCMA: Por cada nivel adicional de educación de la madre, la probabilidad de comprar un carro aumenta en 0.01%. Aunque el efecto es pequeño, sigue siendo significativo.

ESTCIVIL: Estar casado o en pareja aumenta la probabilidad de compra de un carro en 0.25%. Este efecto sugiere que la estabilidad familiar motiva inversiones como la compra de vehículos.

PROPVI: No ser propietario de la vivienda reduce la probabilidad de compra de un carro en 0.46%. Esto puede reflejar una menor estabilidad económica o financiera.

TIPOVI: Vivir en ciertos tipos de vivienda (como apartamentos) reduce la probabilidad de compra de un carro en 1.26%. Esto podría estar relacionado con restricciones de espacio para estacionamiento.

WORKCAR: Usar un carro para el trabajo incrementa la probabilidad de compra de un carro en 0.56%. Esto respalda la idea de que el transporte laboral es un determinante clave.

2. ESTIMACIÓN DE MODELOS POR GMM

El método de momentos generalizado (GMM) complementa al PROBIT al abordar posibles problemas de endogeneidad en el modelo. Algunas variables, como el nivel educativo o la propiedad de vivienda, podrían estar correlacionadas con el error del modelo.

GMM permite incorporar instrumentos (variables relacionadas con las explicativas pero no con el error) para obtener estimaciones consistentes y robustas. Esto refuerza los hallazgos del PROBIT al mejorar la validez causal de las relaciones analizadas.

Modelo GMM1 - Instrumentos: WORKCAR / GARAJE / SEXO / ESTCIVIL / EDUCMA / PROPVI

modelo_gmm1 <- ivreg(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI | WORKCAR + GARAJE + SEXO + ESTCIVIL + EDUCMA + PROPVI, data = basenueva)
summary(modelo_gmm1)

## 
## Call:
## ivreg(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + 
##     EDUCMA + CUANPARTI | WORKCAR + GARAJE + SEXO + ESTCIVIL + 
##     EDUCMA + PROPVI, data = basenueva)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.00594  0.02411  0.03978  0.05724  0.44067 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  9.464e-01  5.720e-02  16.546  < 2e-16 ***
## TIPOVI       3.298e-02  3.677e-02   0.897  0.36978    
## PROPVI      -6.721e-03  1.690e-03  -3.976 7.01e-05 ***
## WORKCAR      1.368e-02  5.365e-03   2.549  0.01080 *  
## ESTCIVIL     3.001e-03  9.159e-04   3.276  0.00105 ** 
## EDUCMA       1.550e-04  5.375e-05   2.883  0.00394 ** 
## CUANPARTI   -4.803e-02  1.832e-02  -2.621  0.00876 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.21 on 29335 degrees of freedom
## Multiple R-Squared: -0.007824,   Adjusted R-squared: -0.00803 
## Wald test: 7.592 on 6 and 29335 DF,  p-value: 3.69e-08

Modelo GMM2 - Instrumentos: NUMPER / GARAJE / SEXO / EDUCPA / EDUCMA / PROPVI

modelo_gmm2 <- ivreg(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI | NUMPER + GARAJE + SEXO + EDUCPA + EDUCMA + PROPVI, data = basenueva)
summary(modelo_gmm2)

## 
## Call:
## ivreg(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + 
##     EDUCMA + CUANPARTI | NUMPER + GARAJE + SEXO + EDUCPA + EDUCMA + 
##     PROPVI, data = basenueva)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.82750 -0.02232  0.05543  0.09955  0.22740 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  7.779e-01  3.653e-01   2.130   0.0332 *
## TIPOVI       8.569e-02  1.431e-01   0.599   0.5492  
## PROPVI      -8.402e-03  4.209e-03  -1.996   0.0459 *
## WORKCAR      1.219e-01  1.738e-01   0.701   0.4832  
## ESTCIVIL    -1.516e-02  1.696e-02  -0.894   0.3714  
## EDUCMA       1.408e-04  5.665e-05   2.485   0.0130 *
## CUANPARTI    5.037e-02  1.041e-01   0.484   0.6285  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2303 on 29335 degrees of freedom
## Multiple R-Squared: -0.2123, Adjusted R-squared: -0.2126 
## Wald test: 5.079 on 6 and 29335 DF,  p-value: 3.214e-05

Modelo GMM3 - Instrumentos: WORKCAR / TIPOVI / SEXO / ESTCIVIL / EDUCPA / PROPVI

modelo_gmm3 <- ivreg(COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI | WORKCAR + TIPOVI + SEXO + ESTCIVIL + EDUCPA + PROPVI, data = basenueva)
summary(modelo_gmm3)

## 
## Call:
## ivreg(formula = COMCAR ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + 
##     EDUCMA + CUANPARTI | WORKCAR + TIPOVI + SEXO + ESTCIVIL + 
##     EDUCPA + PROPVI, data = basenueva)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -1.019554  0.008946  0.024204  0.045331  1.149328 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.119e+00  9.310e-02  12.015  < 2e-16 ***
## TIPOVI      -1.232e-02  2.661e-03  -4.632 3.64e-06 ***
## PROPVI      -8.949e-03  3.373e-03  -2.653  0.00797 ** 
## WORKCAR      2.712e-02  1.607e-02   1.687  0.09160 .  
## ESTCIVIL     6.023e-03  2.679e-03   2.248  0.02455 *  
## EDUCMA       1.552e-05  8.322e-05   0.186  0.85209    
## CUANPARTI   -1.425e-01  8.903e-02  -1.601  0.10938    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2153 on 29335 degrees of freedom
## Multiple R-Squared: -0.0599, Adjusted R-squared: -0.06012 
## Wald test: 8.876 on 6 and 29335 DF,  p-value: 1.063e-09

Cuadro de coeficientes GMM1 / GMM2 / GMM3

m_list1 <- list(GMM1 = modelo_gmm1, GMM2 = modelo_gmm2, GMM3 = modelo_gmm3)
msummary(m_list1)

	GMM1	GMM2	GMM3
(Intercept)	0.946	0.778	1.119
	(0.057)	(0.365)	(0.093)
TIPOVI	0.033	0.086	-0.012
	(0.037)	(0.143)	(0.003)
PROPVI	-0.007	-0.008	-0.009
	(0.002)	(0.004)	(0.003)
WORKCAR	0.014	0.122	0.027
	(0.005)	(0.174)	(0.016)
ESTCIVIL	0.003	-0.015	0.006
	(0.001)	(0.017)	(0.003)
EDUCMA	0.000	0.000	0.000
	(0.000)	(0.000)	(0.000)
CUANPARTI	-0.048	0.050	-0.143
	(0.018)	(0.104)	(0.089)
Num.Obs.	29342	29342	29342
R2	-0.008	-0.212	-0.060
R2 Adj.	-0.008	-0.213	-0.060
AIC	-8313.5	-2893.2	-6835.2
BIC	-8247.2	-2826.9	-6768.9
RMSE	0.21	0.23	0.22

Gráfico del cuadro de coeficientes GMM1 / GMM2 / GMM3

modelplot(m_list1)

Interpretación

Al comparar los tres modelos estimados por el Método Generalizado de Momentos (GMM),el Modelo gmm1 se destaca como el mejor para seleccionar como principal por varias razones.

Variables significativas

El Modelo GMM1 parece ser el más robusto, ya que tiene el mayor número de variables significativas, lo que sugiere que ofrece un mejor ajuste y más explicaciones sobre la relación entre las variables.

En contraste, los otros modelos tienen menos variables significativas, lo que puede indicar que no capturan adecuadamente las dinámicas subyacentes de la demanda de automóviles.

R-squared

El R-squared del Modelo GMM1 es más favorable que el de los otros modelos, aunque en todos los casos el valor es negativo, lo cual es esperado en los modelos de variables instrumentales.

Sin embargo, el GMM1 presenta el valor más alto entre los tres, lo que sugiere que el modelo tiene un ajuste relativamente mejor dentro de este tipo de modelos.

Prueba de Wald

La prueba de Wald del modelo GMM1 también muestra un p-value significativamente bajo (3.69e-08), lo que indica que el modelo es globalmente significativo y tiene una buena capacidad de predicción.

Mientras que los otros modelos tienen p-values más altos, sugiriendo que, aunque siguen siendo estadísticamente significativos, su capacidad explicativa es más limitada.

3. COMPARACION PROBIT / GMM1

Cuadro de coeficientes PROBIT / GMM1

m_list2 <- list(PROBIT = modelo_probit, GMM1 = modelo_gmm1)
msummary(m_list2)

	PROBIT	GMM1
(Intercept)	2.100	0.946
	(0.071)	(0.057)
TIPOVI	-0.132	0.033
	(0.028)	(0.037)
PROPVI	-0.048	-0.007
	(0.010)	(0.002)
WORKCAR	0.059	0.014
	(0.021)	(0.005)
ESTCIVIL	0.027	0.003
	(0.008)	(0.001)
EDUCMA	0.001	0.000
	(0.000)	(0.000)
CUANPARTI	-0.218	-0.048
	(0.024)	(0.018)
Num.Obs.	29342	29342
R2		-0.008
R2 Adj.		-0.008
AIC	10794.9	-8313.5
BIC	10852.9	-8247.2
Log.Lik.	-5390.434
F	23.664
RMSE	0.21	0.21

Gráfico del cuadro de coeficientes PROBIT / GMM1

modelplot(m_list2)

Interpretación

El modelo GMM1 tiene un RMSE de 0.21, lo que indica un buen ajuste, similar al del modelo PROBIT. Sin embargo, el GMM1 presenta un AIC de -8313.5 y un BIC de -8247.2, mucho más bajos que los del PROBIT ( AIC: 10794.9, BIC: 10852.9 ).

Estos valores sugieren que el GMM1 ajusta mejor los datos sin sobreajustarse, lo que lo hace más adecuado en términos de eficiencia y ajuste.

4. ESTIMACIÓN DE MODELOS POR MACHINE LEARNING

Modelo Random Forest

Este modelo se utiliza para explorar interacciones complejas entre las variables, como la relación entre el uso del automóvil para el trabajo, el estado civil y la tenencia de garaje, sin necesidad de hacer supuestos estrictos sobre las relaciones funcionales.

Random Forest es útil para identificar patrones no lineales que los modelos tradicionales podrían pasar por alto.

set.seed(123) 
modelo_rf <- randomForest( as.factor(COMCAR) ~ TIPOVI + PROPVI + WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI, data = basenueva, ntree = 500, importance = TRUE )
print(modelo_rf)

## 
## Call:
##  randomForest(formula = as.factor(COMCAR) ~ TIPOVI + PROPVI +      WORKCAR + ESTCIVIL + EDUCMA + CUANPARTI, data = basenueva,      ntree = 500, importance = TRUE) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##         OOB estimate of  error rate: 4.59%
## Confusion matrix:
##   0     1  class.error
## 0 1  1344 0.9992565056
## 1 3 27994 0.0001071543

Interpretación

Out of bag error (OBB)

El modelo Random Forest presenta un excelente desempeño en la predicción de personas que adquieren automóviles, con un error OOB del 4.59%, indicando que el modelo clasifica correctamente el 95.41% de los casos en promedio fuera de la muestra.

Matriz de confusión

La matriz de confusión destaca una precisión casi perfecta para la clase de interés (compra de carro), ya que de 27,997 casos, el modelo clasificó correctamente 27,994, con solo 3 falsos negativos, lo que equivale a un error de clase del 0.01%.

Gráfico de importancia de variables de Random Forest

varImpPlot(modelo_rf, main = "Importancia de Variables en Random Forest")

Interpretación

Mean Decrease Accuracy

Este indicador muestra qué tan relevantes son las variables para la precisión general del modelo. En este caso, las variables más importantes para predecir correctamente quiénes compran o no compran un automóvil son CUANPARTI (número de carros particulares) y ESTCIVIL (estado civil), con valores superiores a 20. Esto sugiere que estas variables tienen un impacto significativo en la capacidad del modelo para hacer predicciones precisas.

A continuación, PROPVI (propiedad de vivienda) y WORKCAR (uso del carro para el trabajo) también son importantes, con valores entre 10 y 20, aunque tienen un impacto algo menor que las dos primeras.

En cambio, EDUCMA (nivel educativo de la madre) y TIPOVI (tipo de vivienda) presentan valores bajos (menos de 10), lo que indica que estas variables contribuyen menos a la precisión del modelo.

Lo que sucede con EDUCMA es que Mean Decrease Accuracy mide cómo cambia la precisión general del modelo cuando una variable es eliminada. Si eliminar una variable reduce mucho la precisión, significa que esa variable es muy importante para hacer predicciones correctas. Sin embargo, EDUCMA (nivel educativo de la madre) parece no tener un gran impacto en la precisión del modelo, lo que explica su valor bajo en este indicador.

Mean Decrease Gini

Este indicador mide la importancia de las variables en función de su capacidad para reducir la “impureza” en los nodos del modelo. Los nodos son los puntos de decisión dentro del modelo de Random Forest, donde se divide la información para hacer predicciones. Si una variable tiene un valor alto en este indicador, significa que es efectiva para dividir los datos de manera que las decisiones del modelo sean más claras y precisas.

En este caso, EDUCMA (nivel educativo de la madre) tiene el valor más alto, lo que indica que es la variable más efectiva para reducir la impureza en los nodos y hacer que el modelo sea más confiable.

A continuación, ESTCIVIL (estado civil) y PROPVI (propiedad de vivienda) también son variables importantes en la reducción de impureza, con valores entre 20 y 40.

WORKCAR (uso del carro para el trabajo) y CUANPARTI (número de carros particulares) también tienen una importancia significativa en la reducción de impureza, con valores similares en el rango de 20 a 40.

Por último, TIPOVI (tipo de vivienda) tiene el valor más bajo, lo que refleja su menor impacto tanto en la precisión como en la reducción de impureza en el modelo.

Diferencia en la importancia de EDUCMA

La diferencia en la importancia de EDUCMA entre los dos indicadores radica en que Mean Decrease Gini mide cuán efectivamente una variable puede dividir los datos en categorías más puras en cada nodo del árbol de decisión. En este caso, EDUCMA tiene un valor alto porque puede ayudar a crear divisiones más claras y precisas dentro del modelo, aunque podria no ser tan relevante para la precisión global del modelo.

Modelo XGBoost

XGBoost complementa al Random Forest al optimizar la predicción y la clasificación. Su enfoque lo hace ideal para identificar relaciones importantes en los datos, como el impacto del número de carros particulares en el hogar o la tenencia de garaje sobre la probabilidad de compra.

X <- as.matrix(select(basenueva, TIPOVI, PROPVI, WORKCAR, ESTCIVIL, EDUCMA, CUANPARTI))
y <- basenueva$COMCAR
set.seed(123)
modelo_xgb <- xgboost( data = X, label = y, objective = "binary:logistic", nrounds = 100, verbose = 0 )
importancia <- xgb.importance(feature_names = colnames(X), model = modelo_xgb)
xgb.plot.importance(importancia, main = "Importancia de Variables en XGBoost")

Intepretación

La gráfica de importancia de variables en el modelo XGBoost muestra que la variable EDUCMA (nivel educativo de la madre) tiene el mayor peso en la predicción, con una puntuación superior a 0.25. Esto concuerda con su relevancia observada en el Mean Decrease Gini del modelo Random Forest, donde también destacó como una de las variables clave.

EDUCMA se mantiene como una variable significativa en ambos modelos, lo que refuerza su influencia en la predicción de la compra de automóviles, aunque en Random Forest su contribución era más evidente en la reducción de la impureza en los nodos, mientras que en XGBoost se observa como la variable más importante en términos de predicción directa.

Es importante señalar que, en el caso del Mean Decrease Accuracy en Random Forest, EDUCMA no muestra una gran relevancia, ya que su puntuación era baja (menos de 10). Esto indica que, al eliminarla, la precisión global del modelo no se ve afectada de manera significativa. Sin embargo, esto no implica que la variable no sea relevante en otras etapas del análisis.

Aunque EDUCMA no tiene un impacto tan grande en la precisión general del modelo (como se mostró en Mean Decrease Accuracy), su alta puntuación en Mean Decrease Gini indica que es clave para realizar divisiones más precisas dentro del modelo y mejorar la clasificación.

Esto concuerda con lo que muestra XGBoost, donde EDUCMA también es destacada como la variable más importante para la predicción, lo que sugiere que tiene un rol esencial al segmentar los datos y ayudar a que el modelo haga mejores predicciones.

Le siguen ESTCIVIL (estado civil) y PROPVI (propiedad de vivienda), con valores entre 0.20-0.25 y 0.15-0.20, respectivamente, reafirmando su papel en la modelización de la probabilidad de compra de automóviles.

Las demás variables, como WORKCAR (uso del carro para el trabajo), CUANPARTI (número de carros particulares) y TIPOVI (tipo de vivienda), tienen menor importancia, pero siguen contribuyendo al modelo, con puntuaciones que oscilan entre 0.05 y 0.15.

5. ESTIMACIÓN DEL MODELO POR INTERACCIONES

Este modelo amplía el análisis del PROBIT al incluir interacciones clave, como el cruce entre el nivel educativo y el estado civil, para capturar cómo combinaciones específicas de factores socioeconómicos influyen en la decisión de compra de automóviles.

Análisis de interacciones (TIPOVI * EDUCMA / CUANPARTI * WORKCAR)

modelo_interacciones <- glm( COMCAR ~ TIPOVI * EDUCMA + PROPVI + CUANPARTI * WORKCAR + ESTCIVIL, family = binomial(link = "probit"), data = basenueva )
summary(modelo_interacciones)

## 
## Call:
## glm(formula = COMCAR ~ TIPOVI * EDUCMA + PROPVI + CUANPARTI * 
##     WORKCAR + ESTCIVIL, family = binomial(link = "probit"), data = basenueva)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        2.0840885  0.0777957  26.789  < 2e-16 ***
## TIPOVI            -0.1546840  0.0304372  -5.082 3.73e-07 ***
## EDUCMA            -0.0016414  0.0015382  -1.067 0.285923    
## PROPVI            -0.0480871  0.0104672  -4.594 4.35e-06 ***
## CUANPARTI         -0.1810235  0.0280728  -6.448 1.13e-10 ***
## WORKCAR            0.1370901  0.0371103   3.694 0.000221 ***
## ESTCIVIL           0.0265667  0.0078309   3.393 0.000692 ***
## TIPOVI:EDUCMA      0.0019627  0.0009368   2.095 0.036153 *  
## CUANPARTI:WORKCAR -0.0431893  0.0168621  -2.561 0.010427 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10920  on 29341  degrees of freedom
## Residual deviance: 10769  on 29333  degrees of freedom
## AIC: 10787
## 
## Number of Fisher Scoring iterations: 6

Interpretación

TIPOVI y EDUCMA muestran que la influencia del tipo de vivienda en la probabilidad de compra varía según el nivel educativo materno.

CUANPARTI y WORKCAR resaltan cómo el número de carros particulares modera el impacto del uso del carro para el trabajo.

Gráficos de interacciones (TIPOVI * EDUCMA / CUANPARTI * WORKCAR)

interact_plot(modelo_interacciones, pred = TIPOVI, modx = EDUCMA, main.title = "Interacción entre TIPOVI y EDUCMA", y.label = "Probabilidad de Compra")

Interpretación de interaccion significativa (TIPOVI * EDUCMA)

La gráfica indica que la probabilidad de compra disminuye a medida que aumenta TIPOVI (probablemente relacionado con una categoría de vivienda menos favorable o costosa). Sin embargo, el nivel educativo de la madre (EDUCMA) modera este impacto:

Niveles altos de EDUCMA (+1 SD)

La probabilidad de compra disminuye mas lentamente a medida que aumenta TIPOVI. Esto sugiere que madres con mayor nivel educativo pueden compensar o suavizar el impacto negativo del tipo de vivienda en la probabilidad de compra.

Niveles bajos de EDUCMA (-1 SD)

La probabilidad de compra cae más rápidamente con TIPOVI. Es decir, para este grupo, el tipo de vivienda tiene un impacto más negativo.

Esta interacción muestra que el nivel educativo puede ser un factor protector frente a los efectos adversos del tipo de vivienda en la decisión de compra.

interact_plot(modelo_interacciones, pred = CUANPARTI, modx = WORKCAR, main.title = "Interacción entre CUANPARTI y WORKCAR", y.label = "Probabilidad de Compra")

Interpretación de interaccion significativa (CUANPARTI * WORKCAR)

La gráfica evidencia que, a medida que aumenta CUANPARTI (número de carros particulares), la probabilidad de compra disminuye. WORKCAR (uso del carro para trabajo) modera esta relación:

Niveles altos de WORKCAR (+1 SD)

La disminución en la probabilidad de compra es más pronunciada, indicando que el uso del carro para el trabajo acentúa el impacto negativo de tener más carros.

Niveles bajos de WORKCAR (-1 SD)

La probabilidad de compra disminuye más suavemente con CUANPARTI, mostrando que el uso limitado del carro para trabajo atenúa el impacto negativo de tener más vehículos.

Cuando los carros particulares son utilizados para trabajar, su impacto negativo en la decisión de compra de otro vehículo es mas pronunciado, mientras que un menor uso para trabajo mitiga este impacto.

6. CONCLUSIONES

La presente investigación tuvo como objetivo principal analizar los determinantes socioeconómicos de la demanda de automóviles en la ciudad de Bogotá, empleando diferentes metodologías econométricas y de aprendizaje automático.

En este contexto, se exploraron diversos modelos, incluidos el PROBIT, el método de momentos generalizados (GMM), Random Forest, XGBoost y un modelo PROBIT con interacciones.

Este enfoque permitió no solo identificar las variables más relevantes en la decisión de compra de un automóvil, sino también evaluar la eficacia de distintas técnicas analíticas en la explicación de este fenómeno.

Hallazgos clave

Los resultados obtenidos a lo largo del análisis destacan que las variables socioeconómicas significativas en la compra de un automóvil incluyen:

Nivel educativo: Una mayor educación está positivamente asociada con la probabilidad de adquirir un automóvil.

Estado civil: Personas casadas o en unión estable presentan una mayor propensión a comprar un vehículo, posiblemente debido a necesidades familiares o de estabilidad financiera.

Propiedad de vivienda: Ser propietario de la vivienda se relaciona positivamente con la compra de automóviles, lo que podría reflejar una mayor capacidad adquisitiva.

En la comparación de modelos, el PROBIT resultó ser útil para interpretar efectos marginales y relaciones directas entre las variables.

Por otro lado, los modelos de aprendizaje automático (Random Forest y XGBoost) ofrecieron una mayor capacidad predictiva al capturar relaciones no lineales y complejas entre las variables.

El modelo GMM proporcionó un marco robusto para tratar posibles problemas de endogeneidad al utilizar variables instrumentales.

En términos teóricos, la aplicación de diversos modelos permite contrastar metodologías tradicionales con técnicas modernas de análisis de datos, aportando un marco metodológico amplio y replicable en otros contextos.

Limitaciones

A pesar de los hallazgos significativos, esta investigación presenta algunas limitaciones. La naturaleza de la base de datos, basada en un corte transversal, impide analizar dinámicas temporales que podrían enriquecer el entendimiento de la evolución en la demanda de automóviles.

Además, aunque se incluyeron variables socioeconómicas clave, factores como el precio de los automóviles, las tasas de interés o la infraestructura vial no fueron considerados debido a la disponibilidad de datos.

ANÁLISIS DE LOS DETERMINANTES SOCIOECONÓMICOS DE LA DEMANDA DE AUTOMÓVILES EN BOGOTÁ (2021). POR MEDIO DE MODELOS PROBIT, GMM, MACHINE LEARNING E INTERACCIONES

Juan Sebastian Pineda Guerrero

Enero del 2025

LIBRERIAS

BASE DE DATOS

Renombramiento de las variables

Transformación de valores de la variable endógena ( COMCAR ) en binarios

1. ESTIMACIÓN DE MODELOS POR PROBIT

Estimación del modelo PROBIT sugerida en la literatura

Interpretación

Variables significativas

Estimación del modelo PROBIT sugerida en la literatura ( excluyendo TENPARTI )

Interpretación

Variables significativas

Estimación del modelo PROBIT unicamente con variables significativas

Interpretación

Variables significativas

Exploración del factor de inflación de la varianza (prueba de multicolinealidad)

Interpretación

Revisión de los efectos marginales

Interpretación

2. ESTIMACIÓN DE MODELOS POR GMM

Modelo GMM1 - Instrumentos: WORKCAR / GARAJE / SEXO / ESTCIVIL / EDUCMA / PROPVI

Modelo GMM2 - Instrumentos: NUMPER / GARAJE / SEXO / EDUCPA / EDUCMA / PROPVI

Modelo GMM3 - Instrumentos: WORKCAR / TIPOVI / SEXO / ESTCIVIL / EDUCPA / PROPVI

Cuadro de coeficientes GMM1 / GMM2 / GMM3

Gráfico del cuadro de coeficientes GMM1 / GMM2 / GMM3

Interpretación

Variables significativas

R-squared

Prueba de Wald

3. COMPARACION PROBIT / GMM1

Cuadro de coeficientes PROBIT / GMM1

Gráfico del cuadro de coeficientes PROBIT / GMM1

Interpretación

4. ESTIMACIÓN DE MODELOS POR MACHINE LEARNING

Modelo Random Forest

Interpretación

Out of bag error (OBB)

Matriz de confusión

Gráfico de importancia de variables de Random Forest

Interpretación

Mean Decrease Accuracy

Mean Decrease Gini

Diferencia en la importancia de EDUCMA

Modelo XGBoost

Intepretación

5. ESTIMACIÓN DEL MODELO POR INTERACCIONES

Análisis de interacciones (TIPOVI * EDUCMA / CUANPARTI * WORKCAR)

Interpretación

Gráficos de interacciones (TIPOVI * EDUCMA / CUANPARTI * WORKCAR)

Interpretación de interaccion significativa (TIPOVI * EDUCMA)

Niveles altos de EDUCMA (+1 SD)

Niveles bajos de EDUCMA (-1 SD)

Interpretación de interaccion significativa (CUANPARTI * WORKCAR)

Niveles altos de WORKCAR (+1 SD)

Niveles bajos de WORKCAR (-1 SD)

6. CONCLUSIONES

Hallazgos clave

Limitaciones