1 Pregunta de investigacion:

¿Qué factores aumentan o reducen la probabilidad de que una persona vote?

  • Variables independientes: Edad, ingresos, interes politico y zona de recidencia(urbano)

  • Variable dependiente: Voto

table(regresionlogistoiuica$voto)
## 
##   0   1 
##  98 202

En la variable voto, encontramos que 0 = no vota; 1 = vota.

Segun los resultados obtenidos por esta linea de codigo, podemos observar que 98 personas no votan, mientras que 202 personas si votan.

Estimacion del modelo logístico:

# 3. Resumen de resultados
summary(modelo)
## 
## Call:
## glm(formula = voto ~ educacion_anios + edad + mujer + interes_politica + 
##     participa_org + urbano + ingresos_mensuales, family = binomial, 
##     data = regresionlogistoiuica)
## 
## Coefficients:
##                      Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        -4.429e+00  8.801e-01  -5.033 4.83e-07 ***
## educacion_anios     1.321e-01  7.422e-02   1.780   0.0751 .  
## edad                4.737e-02  1.208e-02   3.921 8.82e-05 ***
## mujer              -3.416e-01  2.766e-01  -1.235   0.2168    
## interes_politica    5.898e-01  1.392e-01   4.238 2.26e-05 ***
## participa_org       2.834e-01  3.247e-01   0.873   0.3827    
## urbano              3.271e-01  3.089e-01   1.059   0.2896    
## ingresos_mensuales -9.416e-08  2.866e-07  -0.329   0.7425    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 379.08  on 299  degrees of freedom
## Residual deviance: 319.28  on 292  degrees of freedom
## AIC: 335.28
## 
## Number of Fisher Scoring iterations: 4
# 4. Interpretación de coeficientes en términos de odds ratios
exp(coef(modelo))
##        (Intercept)    educacion_anios               edad              mujer 
##         0.01192266         1.14124037         1.04851395         0.71061237 
##   interes_politica      participa_org             urbano ingresos_mensuales 
##         1.80369015         1.32767871         1.38695583         0.99999991

Las variables educacion, edad e interes_politico son estadisticamente significativas, gracias a que el p value de estas variables es menor a 0.05. Por el contrario, mujer(sexo), participacion en organizaciones politicas y sociales(participa_org), ingresos mensuales y zona de residencia (urbano) no son estadisticamente significativas debido a que su p value es mayor a 0.05.

Interpretación de odds ratios:

  • Educacion: Cada año extra de estudio aumenta en 11% las chances de votar

  • Interes politico: Entre mayor sea el interes politico, las chances de votar aumentan en un 80%

  • Edad: Cada año adicional de edad aumenta 5% las chances de votar

  • Sexo: Si el sexo de la persona que vota es mujer, se reduce las chances de votar en un 29%.

## Warning: package 'ResourceSelection' was built under R version 4.4.3
## ResourceSelection 0.3-6   2023-06-27
## 
##  Hosmer and Lemeshow goodness of fit (GOF) test
## 
## data:  modelo$y, fitted(modelo)
## X-squared = 5.3202, df = 8, p-value = 0.7229
## Warning: package 'pscl' was built under R version 4.4.3
## Classes and Methods for R originally developed in the
## Political Science Computational Laboratory
## Department of Political Science
## Stanford University (2002-2015),
## by and under the direction of Simon Jackman.
## hurdle and zeroinfl functions by Achim Zeileis.
## fitting null model for pseudo-r2
##          llh      llhNull           G2     McFadden         r2ML         r2CU 
## -159.6402269 -189.5378546   59.7952555    0.1577396    0.1807103    0.2519097
## Warning: package 'caret' was built under R version 4.4.3
## Cargando paquete requerido: ggplot2
## Cargando paquete requerido: lattice

Podemos encontrar que el p value es de 0.7229, que es considerablemente mayor a un 0.05, lo que indica que se da un buen ajuste del modelo a los datos al no rechazar la hipotesis nula.

Por otro lado, encontramos que el modelo tiene una capacidad explicativa moderada. Esto debido a que los valores entre 0.1 y 0.2 son considerados decentes o aceptables, y el McFadden obtuvo un resultado de 0.15, acercandose al 0.2, explicando que el modelo explica aproximadamente un 15% de la variación en la probabilidad de votar.

El r2CU = 0.2519, también llamado Nagelkerke, sugiere que el modelo explica aproximadamente un 25.2% de la variación en la probabilidad de votar.

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No vota Vota
##    No vota      42   20
##    Vota         56  182
##                                           
##                Accuracy : 0.7467          
##                  95% CI : (0.6935, 0.7949)
##     No Information Rate : 0.6733          
##     P-Value [Acc > NIR] : 0.0035          
##                                           
##                   Kappa : 0.364           
##                                           
##  Mcnemar's Test P-Value : 5.95e-05        
##                                           
##             Sensitivity : 0.9010          
##             Specificity : 0.4286          
##          Pos Pred Value : 0.7647          
##          Neg Pred Value : 0.6774          
##              Prevalence : 0.6733          
##          Detection Rate : 0.6067          
##    Detection Prevalence : 0.7933          
##       Balanced Accuracy : 0.6648          
##                                           
##        'Positive' Class : Vota            
## 

Encontramos que El modelo acierta en el 74.67% de los casos.

Esto significa que, de cada 100 personas, el modelo clasifica correctamente aproximadamente a 75 personas.

El No Information Rate es de 67.33%. Esto quiere decir que, si el modelo no usara ninguna variable y simplemente predijera siempre la categoría más frecuente, que en este caso es “Vota”, acertaría en el 67.33% de los casos.

Como el accuracy del modelo es 74.67%, el modelo mejora frente a esa regla básica en aproximadamente 7.34 puntos porcentuales.

Debido a que la clase positiva es “Vota”, la sensibilidad se interpreta para quienes sí votan.

La sensibilidad = 0.9010.

Esto significa que el modelo identifica correctamente al 90.1% de las personas que sí votan.

La especificidad = 0.4286.

Esto significa que el modelo identifica correctamente al 42.86% de las personas que no votan.

  1. Calidad global del modelo

El Kappa = 0.364.

Este valor indica que el acuerdo entre las predicciones del modelo y los datos reales es bajo a moderado, después de corregir por los aciertos que podrían ocurrir por azar.

El Balanced Accuracy = 0.6648.

Esto significa que, al promediar el desempeño del modelo en ambas categorías, la precisión balanceada es de 66.48%.

2 Analisis hipotesis:

  • H1: A mayor educación, mayor probabilidad de votar.

Analisis: podemos encontrar que esta hipotesis se cumple, en primer lugar presenta un p value menor a 0.05 y ademas, encontramos que por cada año adicional de estudio aumentan en un 11% las chances de votar.

  • H2: A mayor interés en política, mayor probabilidad de votar.

Analisis: Podemos encontrar que esta hipotesis se cumple debido a que la variable es estadisticamente significativa con un p value menor a 0.05, mientras que ademas podemos encontrar que entre mayor sea el interes politico, las chances de votar aumentan en un 80%

  • H3: Participar en organizaciones aumenta la probabilidad de votar.

Analisis: Se encontro que participar en organizaciones aumenta las chances de votar en un 32%, resultado que se alinea a la hipotesis planteada. Sin embargo, es importante tener en cuenta que no se encontro significancia estadistica en el coeficiente de variacion de esta variable, lo que pone en duda los resultados obtenidos.

  • H4: La edad puede estar asociada positivamente con la probabilidad de votar.

Analisis: Se encontro que efectivamente la edad esta asociada positivamente con la probabilidad de votar. De modo que por cada año adicional de edad, las chances de votar aumenta en un 5%. Para reforzar esta afirmacion, se encontro significancia estadistica en el coeficiente de variacion de esta variable.

# Probabilidades predichas y clasificación
regresionlogistoiuica$prob_predicha <- predict(modelo, type = "response")

regresionlogistoiuica$clasificacion <- ifelse(
  regresionlogistoiuica$prob_predicha >= 0.5,
  "Vota",
  "No vota"
)

head(regresionlogistoiuica[, c("voto", "prob_predicha", "clasificacion")])
## # A tibble: 6 × 3
##    voto prob_predicha clasificacion
##   <dbl>         <dbl> <chr>        
## 1     1         0.700 Vota         
## 2     1         0.786 Vota         
## 3     1         0.758 Vota         
## 4     1         0.769 Vota         
## 5     1         0.760 Vota         
## 6     1         0.760 Vota

3 Preguntas de cierre

1. ¿El modelo predice igual de bien a quienes votan y a quienes no votan?

No. El modelo predice mucho mejor a quienes sí votan que a quienes no votan. Esto lo podemos observar con la sensibilidad, que es de 90.1%, lo que significa que el modelo identifica correctamente a la mayoría de las personas que votan. En cambio, la especificidad es de 42.86%, lo que indica que el modelo tiene más dificultad para identificar correctamente a quienes no votan.

Por tanto, el modelo tiende a clasificar mejor la categoría mayoritaria: “Vota”.

2. ¿Por qué el accuracy puede ser engañoso si una clase es más frecuente?

El accuracy puede ser engañoso porque si una categoría es mucho más frecuente, el modelo puede obtener un porcentaje alto de aciertos simplemente prediciendo casi siempre esa categoría. En este caso, la mayoría de personas sí vota. El modelo tiene un accuracy de 74.67%, pero el No Information Rate es de 67.33%. Esto quiere decir que, incluso sin usar variables explicativas, si el modelo predijera siempre “Vota”, ya acertaría en el 67.33% de los casos. Por eso es importante mirar también la sensibilidad, especificidad, Kappa y balanced accuracy, de modo que se obtenga la mirada mas completa de los resultados.

3. ¿Qué variable parece tener el efecto más fuerte?

La variable que parece tener el efecto más fuerte es el interés en política. Lo que se puede observar en los odds ratios, un mayor interés político aumenta las chances de votar aproximadamente en 80%, manteniendo constantes las demás variables del modelo. Además, esta variable es estadísticamente significativa, por lo que hay evidencia de que está asociada con una mayor probabilidad de votar.

4. ¿Qué recomendación metodológica harían para mejorar el modelo?

Una recomendación metodológica sería evaluar otros puntos de corte distintos a 0.5, porque el modelo predice bien a quienes votan, pero tiene dificultades para identificar a quienes no votan. También sería conveniente usar herramientas como la curva ROC y el AUC, dividir la base en muestra de entrenamiento y prueba, o aplicar validación cruzada. Además, se podrían incluir nuevas variables explicativas o probar interacciones entre variables, por ejemplo entre educación e interés político.