Introducción

El impacto súbito ocasionado por la pandemia del coronavirus y las distintas medidas de restricción adoptadas por los gobiernos de todo el mundo para contenerla, han ocasionado una crisis económica y social sin precedente alguno. En Ecuador, según cifras del Ministerio de Trabajo, alrededor de 190 mil trabajadores fueron despedidos en el contexto de la cuarentena afectando directamente los ingresos de los hogares y la posibilidad de la falta de recursos suficientes para satisfacer las necesidades básicas.

En este sentido, identificar las características de los trabajadores que más necesitan acogerse a un plan de financiamiento es de suma importancia para la planificación y correcta aplicación de políticas públicas que ayuden a mitigar los efectos adversos de la crisis. Por tal razón, se plantea la construcción de un modelo de elección binaria para identificar los principales determinantes de la demanda de crédito en Ecuador durante la crisis por COVID-19.

Nota: El trabajo aquí presentado es una pequeña síntesis de mi proyecto de titulación Construcción de un modelo de elección binaria para determinar la demanda de crédito en Ecuador durante la crisis por COVID-19, lo he realizado con el objetivo de presentar en forma resumida la estimación de los modelos que se emplearon; además, mencionar algunos conceptos básicos y funciones de R.

Modelo logit

Los modelos logit estudiados por Luce [1] y popularizados por McFadden [2], son herramientas que permiten explicar los efectos de las variables explicativas sobre la probabilidad de éxito. Como expresa Train [3], logit es el modelo de elección binaria más simple y de uso más extendido, debido a que su fórmula para las probabilidades de elección tiene una expresión cerrada y es fácilmente interpretable.

El modelo logit de variable dependiente binaria \(Y\) con múltiples variables explicativas está dado por [4]: \[ \begin{split} \text{Pr}(Y=1|x_i)=\pi&=\Lambda(x_i^{t}\beta)\\ &=\dfrac{\text{exp}(x_i^{t}\beta)}{1+\text{exp}(x_i^{t}\beta)} \hspace{1cm}i=1,\dots, k. \end{split} \]

al despejar la probabilidad \(\pi\) se tiene: \[ \text{ln}\left(\dfrac{\pi}{1-\pi}\right)=x_{i}^{t}\beta \]

Los coeficientes \(\beta_i\) determinan la tasa de aumento o disminución de la curva logit. Cuando \(\beta_i>0\), \(\pi\) aumenta a medida que aumentan los valores de las variables explicativas \(x_i\), como en la figura 1 (a). Cuando \(\beta_i<0\), \(\pi\) disminuye a medida que aumentan las \(x_i\), como en la figura (b). La magnitud de \(\beta_i\) determina que tan rápido aumenta o disminuye la curva.

Figura 1: Funciones de regresión logística. Elaboración: Autor.

Los coeficientes del modelo logit se estiman por el método de máxima verosimilitud, donde la función de log-verosimilitud es [5]: \[ \text{ln}\hspace{0.1cm}\mathcal{L}(\beta)=\sum_{i=1}^{N} \left[ y_i \hspace{0.1cm}\text{ln}\hspace{0.1cm}\Lambda(x_i^{t}\beta)+(1-y_i)\hspace{0.1cm}\text{ln}(1-\Lambda(x_i^{t}\beta))\right] \]

El estimador de máxima verosimilitud es consistente y está distribuido normalmente en muestras grandes, por lo que los estadísticos t-student y los intervalos de confianza de los coeficientes pueden construirse como en el modelo de regresión clásico [4].

Potencia y limitaciones

La aplicabilidad de los modelos logit se puede resumir a [6]:

  • Simplicidad: La función de distribución de probabilidad logística, es más sencilla al evaluar y permite obtener resultados más eficientes, respecto a otras funciones de distribución.
  • Interpretabilidad: La relación lineal del modelo permite interpretar de manera sencilla los coeficientes, debido a que se la realiza como un ratio de probabilidad.
Los posibles limitantes para la aplicación del modelo logit suelen ser los tamaños de muestra pequeños, que proporcionan estimadores imprecisos [7].

Estimación

La variable dependiente para el modelo propuesto, está definida por la variable Neces_prestam que toma el valor de 1 si se necesita de un préstamo y 0 caso contrario.

var_dep <- with(data, table(Neces_prestam))
var_dep
## Neces_prestam
##   No   Si 
## 1601 2082

Se divide la base de datos en dos submuestras, con el objetivo de desarrollar el modelo con la primera (muestra de modelamiento), y validarlo con la segunda (muestra de validación).

set.seed(12345)
sample <- sample.split(data$ID_respuesta, SplitRatio = 0.8)
mod <- setDT(subset(setDF(data), sample == TRUE))  
val <- setDT(subset(setDF(data), sample == FALSE)) 

La submuestra para la estimación del modelo corresponde al 80% de la muestra original y la submuestra para la validación del modelo corresponde al 20% restante.

Se estima el modelo:

modlogit <- glm(Neces_prestam ~ Tien_ahorros + Deuda + Ing_40ena + Gasto_40ena +
                                Rango_edad + Sit_laboral + Act_Economica + 
                                Miembros_hogar + Reg_tenenc + GeneroCivil,
                family = binomial(link = "logit"), data=mod)

summary(modlogit)
## 
## Call:
## glm(formula = Neces_prestam ~ Tien_ahorros + Deuda + Ing_40ena + 
##     Gasto_40ena + Rango_edad + Sit_laboral + Act_Economica + 
##     Miembros_hogar + Reg_tenenc + GeneroCivil, family = binomial(link = "logit"), 
##     data = mod)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.5153  -0.9243   0.4326   0.8682   2.6731  
## 
## Coefficients:
##                                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                            -1.83126    0.30338  -6.036 1.58e-09 ***
## Tien_ahorrosSi                         -0.96356    0.09613 -10.024  < 2e-16 ***
## DeudaSecRegulado_Banca                  1.03692    0.12727   8.148 3.71e-16 ***
## DeudaSecRegulado_Otro                   1.08094    0.18030   5.995 2.03e-09 ***
## DeudaSec_NoRegulado                     1.26704    0.17687   7.164 7.86e-13 ***
## DeudaAmbosSectores                      1.54929    0.17117   9.051  < 2e-16 ***
## Ing_40enaNo percibe ingresos            0.69445    0.24310   2.857 0.004282 ** 
## Ing_40enaDisminuido                     0.78460    0.10454   7.505 6.12e-14 ***
## Gasto_40enaAumentado                    0.43855    0.09056   4.843 1.28e-06 ***
## Rango_edadDe 25 a 34 años               0.52843    0.14454   3.656 0.000256 ***
## Rango_edadDe 35 a 44 años               1.07508    0.16134   6.663 2.68e-11 ***
## Rango_edadDe 45 a 60 años               1.08132    0.16386   6.599 4.14e-11 ***
## Rango_edadMayor a 60 años               0.91879    0.25943   3.542 0.000398 ***
## Sit_laboralAutónomo u Organización EPS -0.44144    0.19176  -2.302 0.021334 *  
## Sit_laboralEmpleado Público            -1.08609    0.15513  -7.001 2.54e-12 ***
## Sit_laboralEmpleado Privado            -0.96100    0.16493  -5.827 5.66e-09 ***
## Act_EconomicaSector 2                   1.17915    0.21949   5.372 7.78e-08 ***
## Act_EconomicaSector 3                   0.74006    0.22021   3.361 0.000777 ***
## Act_EconomicaSector 4                   0.75694    0.22631   3.345 0.000824 ***
## Miembros_hogarDe 4 a 5 Miembros         0.32462    0.10171   3.192 0.001415 ** 
## Miembros_hogarMás de 5 Miembros         0.72747    0.13051   5.574 2.49e-08 ***
## Reg_tenencPropio                       -0.36997    0.09550  -3.874 0.000107 ***
## GeneroCivilHombre otro                 -0.03952    0.14077  -0.281 0.778928    
## GeneroCivilMujer casada                -0.41933    0.14760  -2.841 0.004498 ** 
## GeneroCivilMujer otro                  -0.26038    0.13780  -1.889 0.058829 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 4049.6  on 2945  degrees of freedom
## Residual deviance: 3186.4  on 2921  degrees of freedom
## AIC: 3236.4
## 
## Number of Fisher Scoring iterations: 4

La salida del software R presenta la estimación de los coeficientes, error estándar, el estadístico de Wald y el p-valor asociado; se puede observar que todos los coeficientes son significativos al 95% de confianza, exceptuando el coeficiente de la variable GeneroEstcivil para la categoría Hombre otro.

La interpretación de los coeficientes se la realiza a través de los odds. Para una probabilidad de éxito \(\pi\), el odds de éxito se define como [8]: \[ \begin{split} \text{odds}&=\dfrac{\pi_i}{1-\pi_i}\\ &=\dfrac{\text{Pr}(y_i=1|x_i)}{1-\text{Pr}(y_i=1|x_i)} \end{split} \]

Si el odds\(> 1\), es más probable que se obtenga un éxito que un fracaso, en otras palabras, para el individuo \(i\), la opción \(y_i=1\) es más probable (mayor beneficio) que la opción \(y_i=0\). Si el odds\(<1\), la interpretación sería la contraria. Y si el odds \(=1\), ambas opciones son igual de probables, es decir, el individuo es indiferente ante ambas opciones [9]. De la misma forma, si se obtiene un odds \(=4\), un éxito es cuatro veces más probable que un fracaso; mientras un odds \(=1/4\), significa que un fracaso es cuatro veces más probable que un éxito.

Los odds para el modelo logit se calculan por: \[ \begin{split} \text{odds}&=\dfrac{\Lambda(x_i^{t}\beta)}{1-\Lambda(x_i^{t}\beta)}\\ &=\text{exp}(x_i^{t}\beta) \end{split} \]

Así, tenemos:

odds <- round(exp(coefficients(modlogit)),4)
odds <- as.data.frame(odds)
odds
##                                          odds
## (Intercept)                            0.1602
## Tien_ahorrosSi                         0.3815
## DeudaSecRegulado_Banca                 2.8205
## DeudaSecRegulado_Otro                  2.9474
## DeudaSec_NoRegulado                    3.5503
## DeudaAmbosSectores                     4.7081
## Ing_40enaNo percibe ingresos           2.0026
## Ing_40enaDisminuido                    2.1915
## Gasto_40enaAumentado                   1.5505
## Rango_edadDe 25 a 34 años              1.6963
## Rango_edadDe 35 a 44 años              2.9302
## Rango_edadDe 45 a 60 años              2.9486
## Rango_edadMayor a 60 años              2.5063
## Sit_laboralAutónomo u Organización EPS 0.6431
## Sit_laboralEmpleado Público            0.3375
## Sit_laboralEmpleado Privado            0.3825
## Act_EconomicaSector 2                  3.2516
## Act_EconomicaSector 3                  2.0961
## Act_EconomicaSector 4                  2.1318
## Miembros_hogarDe 4 a 5 Miembros        1.3835
## Miembros_hogarMás de 5 Miembros        2.0698
## Reg_tenencPropio                       0.6908
## GeneroCivilHombre otro                 0.9613
## GeneroCivilMujer casada                0.6575
## GeneroCivilMujer otro                  0.7708

La probabilidad de necesitar un crédito es 2.62 veces menor cuando el trabajador tiene ahorros, respecto al trabajador que no los tiene, manteniéndose constantes las demás variables.

Cuando el trabajador mantiene obligaciones de deuda en el sector regulado por la banca o por otra entidad, su probabilidad de necesitar un crédito es 2.82 y 2.95 veces mayor a cuando no tiene ningún tipo de deuda respectivamente, ceteris paribus. Asimismo, esta probabilidad se duplica cuando el trabajador mantiene obligaciones de deuda en los sectores no regulados y en ambos sectores.

En el caso de los trabajadores que han dejado de percibir ingresos como aquellos que su salario disminuyó durante la crisis sanitaria, la probabilidad de necesitar un crédito en relación a los trabajadores que aumentaron sus ingresos es 2 y 2.19 veces mayor respectivamente, si el resto de variables no cambia.

En cuanto a los trabajadores que sus gastos aumentaron durante la cuarentena, son 1.55 veces más propensos a necesitar de financiamiento que aquellos trabajadores que sus gastos se mantuvieron o disminuyeron, si el resto de factores no cambia.

De la misma forma, la probabilidad de necesitar un crédito aumenta 1.7 veces cuando la edad del trabajador se encuentra entre 25 a 34 años, en comparación a los trabajadores de entre 18 y 24 años, manteniéndose constantes las demás variables. A su vez, dicha probabilidad se duplica para los trabajadores de entre 35 a 60 años.

Por otro lado, aquellos trabajadores que se encuentran empleados, tanto en el sector privado como público, la probabilidad de necesitar financiamiento es 2.61 y 2.96 veces menor respectivamente, que aquellos que se encuentran desempleados, si el resto de variables no cambia. Algo semejante ocurre con los trabajadores autónomos y pertenecientes a las organizaciones de la EPS, su probabilidad de demandar un crédito es 1.55 veces menor con respecto a los trabajadores desempleados.

En el caso de los trabajadores cuyos hogares están conformados por 4 o 5 personas, su probabilidad de necesitar un crédito es 1.38 veces mayor que aquellos hogares conformados de 1 a 3 miembros. En cuanto a los hogares de los trabajadores con más de 5 miembros dicha probabilidad aumenta 2.07 veces, si el resto de variables no cambia.

Cuando los trabajadores poseen vivienda propia, la probabilidad de necesitar financiamiento es 1.45 veces menor que aquellos trabajadores que residen en una vivienda arrendada, si las otras variables permanecen sin cambio.

Finalmente, cuando la persona es mujer y se encuentra casada, la probabilidad de necesitar un crédito es 1.52 veces menor con respecto a un hombre casado, si el resto de factores no cambia.

Pruebas de bondad de ajuste

Se estudian los test de la Devianza, Pearson y Hosmer Lemeshow.

#Estadístico de la Devianza
sum(residuals(modlogit,type="deviance")^2)
## [1] 3186.431
#p-value
1 - pchisq(sum(residuals(modlogit,type="deviance")^2),modlogit$df.null-modlogit$df.residual)
## [1] 0
#Estadístico de Pearson
sum(residuals(modlogit,type="pearson")^2)
## [1] 2960.888
#p-value
1 - pchisq(sum(residuals(modlogit,type="pearson")^2),modlogit$df.null-modlogit$df.residual)
## [1] 0
#Prueba de Holsmer Lemoshow Cg
hoslem.test(mod$Neces_prestam, fitted(modlogit))
## 
##  Hosmer and Lemeshow goodness of fit (GOF) test
## 
## data:  mod$Neces_prestam, fitted(modlogit)
## X-squared = 2946, df = 8, p-value < 2.2e-16

Considerando un nivel de significacia \(\alpha\) = 0.05, los tres procedimientos arrojan p-valores inferiores, por lo tanto resultan significativos. En base a estos resultados, se puede asegurar que el modelo seleccionado se ajusta correctamente a los datos.

Analizando el coeficiente de determinación de McFadden

PseudoR2(modlogit, which="McFadden")
##  McFadden 
## 0.2131552

Valores entre 0.2 y 0.4 son considerados como un ajuste robusto y estadísticamente significativo [10].

Para medir la capacidad de discriminación del modelo se estudia la prueba de Kolmogorov-Smirnov que calcula la máxima distancia entre las distribuciones de acumulación empíricas de la razón de verdaderos positivos (TPF) y la razón de falsos positivos (FPF); la prueba supone un mayor poder predictivo cuanto mayor es la diferencia entre estas dos curvas.

mod <- mod %>% mutate(Neces_prestam=ifelse(Neces_prestam=="Si",1,0))
mod <- mod %>% mutate(Predichos=predict(modlogit, mod, type="response"))

#Estadistico Kolmogorov-Smirnov
dres <- data.frame(pred=predict(modlogit, mod, type="response"),var=mod$Neces_prestam)
ROC <- rocit(score=dres$pred, class=dres$var)
ksplot <- ksplot(ROC)

#Calculo del punto optimo de corte
cutoff <- ksplot$`KS Cutoff`
#Calculo del estadístico KS
kstat <- as.numeric(ksplot$`KS stat`)

#Grafica K-S
ksplot <-ggplot(mod, aes(x=Predichos, group=Neces_prestam, color=Neces_prestam))+
         stat_ecdf(size=.3) +
         scale_x_continuous("Cutoff",breaks = seq(0,1,.2), limits = c(0,1))+
         scale_y_continuous("Probabilidad acumulada\n",breaks = seq(0,1,.2))+
         annotate("segment", x=cutoff, xend=cutoff, y=.31, yend=.76, colour="Orange",
                  size=.3,linetype="dashed")+
         theme_bw()+
         scale_colour_gradient(low="blue", high="gray30")+
         ggExtra::removeGridX()+
         ggExtra::removeGridY()+
         theme(legend.position="none", 
               axis.text = element_text(colour = "black", size=5),
               axis.title.x = element_text(size = 6),
               axis.title.y = element_text(size = 6))+
         annotate("text", x=.71, y=.7, parse=TRUE,
                  label=paste0(" ",'KS: ',round(kstat,3)), colour="black", size=2) +
         annotate("text", x=0.4, y=0.6, parse=TRUE, size=2,
                  label="TPF", colour="blue")+
         annotate("text", x=0.6, y=0.25, parse=TRUE, size=2,
                  label="FPF", colour="black")
ksplot

El valor de 0.457 indica una alta divergencia entre las distribuciones, permitiendo concluir que el modelo discrimina acertadamente.

#Elemento de grafica para calcular el área bajo la curva AUC
p1 <- ggplot(mod, aes(d=Neces_prestam,m=Predichos)) + geom_roc()

#Curva ROC
logroc<-ggplot(mod, aes(d=Neces_prestam,m=Predichos)) +
        theme_bw()+
        geom_roc(n.cuts = 0, colour="black", size=.3) + 
        theme(axis.text = element_text(colour = "black", size=5),
              axis.title.x = element_text(size = 6),
              axis.title.y = element_text(size = 6))+
        scale_x_continuous("\n1 - Especifidad (FPF)", breaks = seq(0, 1, by = .2))+
        scale_y_continuous("Sensibilidad (TPF)\n", breaks = seq(0, 1, by = .2)) +
        geom_abline(intercept=0, slope=1, colour="blue", linetype="dashed", size=.3) +
        annotate("text", x=0.6, y=0.45, parse=TRUE, size=2,
                label=paste0("AUC: ",round(calc_auc(p1)$AUC,3)), colour="black")+
        ggExtra::removeGridX()+
        ggExtra::removeGridY()
logroc

Además, el comportamiento de la curva ROC tiene una tendencia alejada de la recta \(y = x\). En consecuencia, se puede afirmar que el modelo tiene una buena capacidad de discriminación.

Analíticamente, se calcula el índice de GINI para avalar el resultado anterior.

#Indice de Gini
#2*AUC-1
gini <- 2*round(calc_auc(p1)$AUC,4)-1
gini
## [1] 0.596

Valores del índice de GINI entre 0.4 y 0.6 sugieren una desigualdad muy grande [11].

En cuanto a la asertividad del modelo, se construye la tabla de clasificación tomando en cuenta el punto de corte donde se maximiza el K-S; para el modelo se obtuvo un punto de corte de 0.587.

res <- predict(modlogit, mod, type="response")
res <- ifelse(res > cutoff, 1, 0)

mc <- table(res,mod$Neces_prestam)
names(mc)<-c("Si","No")

mc[1,1] # Verdaderos positivos
## [1] 1010
mc[2,2] # Verdaderos negativos
## [1] 1122
mc[1,2] # Falsos positivos
## [1] 510
mc[2,1] # Falsos negativos
## [1] 304
prop.table(mc)*100
##    
## res        0        1
##   0 34.28377 17.31161
##   1 10.31908 38.08554
#Porcentaje global
round((mc[1,1]+mc[2,2])*100/sum(mc),2)
## [1] 72.37

Tabla 1: Tabla de clasificación del modelo logit. Elaboración: Autor.

Se tiene un 72.37% de asertividad global, por lo tanto, se puede concluir que los resultados de este modelo son bastante buenos.

Multicolinealidad

Para analizar la existencia de multicolinealidad en el modelo se calculan los GVIF de los parámetros estimados.

#Multicolinealidad de los predictores
viflog<-car::vif(modlogit)
viflog
##                    GVIF Df GVIF^(1/(2*Df))
## Tien_ahorros   1.081193  1        1.039804
## Deuda          1.621662  4        1.062295
## Ing_40ena      1.664675  2        1.135880
## Gasto_40ena    1.039514  1        1.019565
## Rango_edad     2.456701  4        1.118907
## Sit_laboral    3.602216  3        1.238117
## Act_Economica  2.039447  3        1.126122
## Miembros_hogar 1.170032  2        1.040039
## Reg_tenenc     1.084510  1        1.041398
## GeneroCivil    1.503294  3        1.070304

El factor GVIF más alto es 3.60 asociado con el coeficiente de la variable Sit_laboral, seguido de la variable Rango_edad que tiene un factor generalizado de inflación de la varianza igual a 2.46 y de la variable que representa a la actividad económica con un GVIF = 2.04. Estas variable podrían analizarse detenidamente en el proceso de ajuste del modelo, sin embargo, al observar que todos los valores son inferiores a 5 y los errores estándar de los parámetros del modelo no se aprecian grandes, se puede concluir que no hay problemas de multicolinealidad.

Adecuación

Para detectar la presencia de observaciones atípicas, se exploran los residuos de Pearson y de la Devianza, mediante el gráfico de ajuste del modelo.

#Residuos de pearson
respearson<-residuals(modlogit, type="pearson")

#Gráfico
res_p <- ggplot(mod, aes(x=seq(1,2946,1), y = abs(respearson))) +
         geom_hline(yintercept = 2, color = "#3AA717", linetype = "dashed", size=0.3)+
         geom_point(aes(color = ifelse(abs(respearson) >= 2, 'red', 'gray20')),
                    size=.3) +
         scale_color_identity() +
         theme_bw() +
         theme(axis.text.x = element_text(colour = "black",size=5),
               axis.title.x = element_blank(),
               axis.text.y = element_text(colour = "black", size=5),
               axis.title.y = element_text(size = 8, angle=90, vjust = 0.5, 
                                           hjust = 0.5)) +
         ggExtra::removeGridX()+
         ggExtra::removeGridY()+
         ylab(expression(paste("| ",r^{p},"| ")))
res_p

res_tab <- table(abs(respearson)>2)
round(prop.table(res_tab),4)
## 
##  FALSE   TRUE 
## 0.9566 0.0434

Si se consideran aquellos residuos cuyo valor absoluto es superior a 2, se obtiene que el 4.34% de los errores son significativos.

#Residuos de la devianza
resdeviance<-residuals(modlogit,type="deviance")

#Gráfico
res_d <- ggplot(mod, aes(x=seq(1,2946,1), y = abs(resdeviance))) +
         geom_hline(yintercept = 2, color = "#3AA717", linetype = "dashed", size=0.3)+
         geom_point(aes(color = ifelse(abs(resdeviance) >= 2, 'red', 'gray20')), 
                    size=0.3) +
         scale_color_identity() +
         theme_bw() +
         theme(axis.text.x = element_text(colour = "black",size=5),
               axis.title.x = element_blank(),
               axis.text.y = element_text(colour = "black",size=5),
               axis.title.y = element_text(size = 8, angle=90, vjust = 0.5, 
                                           hjust = 0.5)) +
         ggExtra::removeGridX()+
         ggExtra::removeGridY()+
         ylab(expression(paste("| ",r^{d},"| ")))
res_d

res_tab <- table(abs(resdeviance)>2)
round(prop.table(res_tab),4)
## 
## FALSE  TRUE 
## 0.984 0.016

Si se examinan aquellos con valor absoluto mayor a 2, se obtiene que tan solo el 1.6% de los errores corresponden a valores significativos.

La prueba basada en las distancias de Cook para el modelo muestra que ningún valor es influyente.

#Distancias de cook
cook<-cooks.distance(modlogit)
head(cook,20)
##            1            2            3            4            5            6 
## 2.833059e-04 1.493734e-03 1.179960e-05 1.214478e-04 9.213647e-05 2.833059e-04 
##            7            8            9           10           11           12 
## 1.204309e-05 1.554187e-04 7.640077e-04 3.783478e-04 4.969466e-04 6.949909e-04 
##           13           14           15           16           17           18 
## 3.363057e-05 6.614036e-04 1.824084e-04 2.020326e-04 2.750062e-04 8.650574e-04 
##           19           20 
## 6.058151e-04 7.964762e-05
#valores influyentes
significativas<-cook>1
table(significativas)
## significativas
## FALSE 
##  2946

Conclusiones

La evidencia empírica señala como principal determinante el no poseer ahorros. Otro factor importante es el tener deudas pendientes, siendo mayor la probabilidad cuando dicha deuda se establece con alguna entidad perteneciente al sector no regulado por la banca o cuando la misma se efectúa con diferentes entidades dentro y fuera del sistema financiero.

De la misma manera, la disminución o total pérdida de ingresos durante la pandemia se relaciona positivamente con la probabilidad de necesitar financiamiento, así como también el incremento de los gastos y el número de miembros en el hogar.

Adicionalmente, la edad guarda una relación positiva con la necesidad de acceder a un crédito aunque de modo decreciente cuando avanza el ciclo de vida. A su vez, trabajadores que se dedican a actividades económicas tales como: alojamiento y comida, agricultura, ganadería, selvicultura y pesca, comercio al por mayor y al por menor, construcción, transporte y almacenamiento, servicios diversos e industrias manufactureras son más propensos a demandar un crédito.

Por otro lado, las variables que influyen de manera negativa sobre la probabilidad de necesitar un financiamiento son: el tipo de vivienda (si el trabajador tiene vivienda propia), la situación laboral (si es trabajador autónomo o empleado en el sector público o privado), el género y estado civil (si es mujer y está casada).

Referencias

[1]
R. D. Luce, A theory of individual choice behavior. John Wiley; Sons, 1954.
[2]
D. McFadden and others, “Conditional logit analysis of qualitative choice behavior,” 1973.
[3]
K. Train, Métodos de elección discreta con simulación, 2nd ed. 2009.
[4]
J. H. Stock and M. W. Watson, Introducción a la econometría, 3rd ed. Madrid: Pearson Education, S. A., 2012.
[5]
A. J. Dobson and A. G. Barnett, An introduction to generalized linear models, 3rd ed. Chapman & Hall/CRC, 2008.
[6]
Cervantes Hernández and others, “Mínimos cuadrados versus verosimilitud,” Ciencia y Mar, IX, vol. 27, pp. 41–45, 2005.
[7]
F. Pucutay, “Los modelos logit y probit en la investigación social,” Centro de Investigación y desarrollo (CIDE), Perú, 2002.
[8]
A. Agresti, An introduction to categorical data analysis, 2nd ed. Hoboken, New Jersey: John Wiley & Sons, Inc., 2007.
[9]
L. Cayuela, “Modelos lineales generalizados (GLM),” Materiales de un curso del R del IREC, 2009.
[10]
D. McFadden, Quantitative methods for analyzing travel behavior of individuals: Some recent developments. Institute of Transportation Studies, University of California Berkeley, 1977.
[11]
J. F. Gonzáles, “Distribución del ingreso y pobreza en américa latina,” PhD thesis, Universidad Nacional Autónoma de México, 2013.