Septiembre 2020

Introducción

El presente trabajo tiene como finalidad ajustar un Modelo Logístico, para los datos correspondientes a la encuesta realizada en Chile durante el año 1988 donde le pueblo de Chile voto en plebiscito para decidir el futuro del gobierno militar encabezado por el general Augusto Pinochet, esto 15 años déspues del golpe de estado de 1973. Para lo cual se hará uso de la base datos que se encuentra disponible en la página web del texto de Fox, J. (2015). La metodología empelada en la encuesta consistió en asignar una medida llamada “statusquo”, construida a partir de otras variables del estudio. Esta medida se usa como variable de predicción, las respuestas se clasifican así:

  • 1 si apoya la continuidad.
  • 0 si no apoya la continuidad.

Descripción de la base datos

La base de datos cuenta con un total de 2700 observaciones, es decir, 2700 personas encuestadas y 9 variables de estudio. Estas variables son: El ID que identifica al encuestado, la región en la cual se encuentra, el número de población en dicha región, el sexo, la edad, el nivel de educación, ingreso y finalmente, un puntaje denominado “statusquo”, el cual nos proporciona la información de la postura de cada uno de los encuestados entre las que se encuentran personas que planeaban votar sí, que planeaban votar no, quienes se encontraban indecisos, que planeaban abstenerse y aquellos que no respondieron la pregunta.

Sin embargo, teniendo en cuenta aquellos que expresaron una preferencia, esto es, decidir “Si” o “No” dar continuidad al gobierno, es necesario realizar un filtro del que se obtiene finalmente 898 observaciones.

Estadisticas Descriptivas

Base de datos

# Cargar base de datos
Datos <- read_excel("/Users/cesar.saavedra/Documents/Universidad\ /Modelos\ Lineales\ Generalizados\ y\ No\ Parametricos/Tarea\ 1/Chile.xlsx")
# Filtrar intencion de voto "si" y "No"
Chile <- Datos %>% filter(vote %in% c("Y", "N"))
attach(Chile)
names(Chile)
## [1] "...1"       "region"     "population" "sex"        "age"       
## [6] "education"  "income"     "statusquo"  "vote"

# Tabla No. 1 - Estadísticos de resumen
summary(datos)
##  Voto    Sexo      Statusquo        
##  N:889   F:843   Min.   :-1.725940  
##  Y:868   M:914   1st Qu.:-1.085260  
##                  Median :-0.168955  
##                  Mean   : 0.003962  
##                  3rd Qu.: 1.172380  
##                  Max.   : 1.713550  
##                  NA's   :3

Para llevar a cabo un análisis descriptivo se hará uso de dos figuras:

  • El diagrama de caja (boxplot)
  • El grafico de barras

Figura 1

ggplotly(Plot1)

A partir de la figura 1, en la cual se tiene inicialmente el diagrama de cajas es posible observar que las personas con un statusquo alto son aquellos con mayores ingresos y por ende mejores condiciones de vida y no estarían interesados en que la política actual cambie. Por otro lado, las personas con un statusquo bajo son aquellos con menores ingresos y por ende su condición de vida no es la más optima por tanto su interés radica en visualizar cambios en la política. Además, se observa también como la dispersión de los datos es mayor en la intención de voto “Si” en contraste con las personas que no apoyan la continuidad.

Figura 2

ggplotly(Plot2)

Como complemento al diagrama de cajas, se tiene que mediante el diagrama de barras se analiza la variable intención de voto teniendo en cuenta la distribución por sexo. Donde el 27.32% de las mujeres planean votar “si” en contraste con el 29.94% de los hombres quienes quieren un cambio en las politicas del país, lo cual nos presenta un panorama divido en el país.

Tabla 2

# Tabla No.2 - Distribución del sexo según la intención de voto
Tabla2
##     Voto
## Sexo    No    Si
##    F 20.66 27.32
##    M 29.94 22.08

En la tabla No.2, es posible observar los porcentajes de la población por genero de acuerdo a su intención de voto, donde se observa un comportamiento dispar en la intención de voto, esto es, por una parte las mujeres se encuentran con una tendencia hacia la continuidad contrario a los hombres quienes buscan un cambio en la política del país.

Modelo logístico

La Regresión Logística Simple, desarrollada por David Cox en 1958, es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una variable cuantitativa. Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome la variable empleada como predictor.

Modelo logístico con variable indicadora

Para ajustar este modelo hacemos uso de la función glm() para modelos lineales generalizados, una clase de modelos en los que se incluye el modelo logístico. En nuestro caso, como es una variable dicotómica, especificamos el argumento family = binomial.

# Modelo logístico con la variable indicadora (sexo)
modelo.logit2 <- glm(Voto ~ Sexo + Statusquo, 
                    data = datos, family = "binomial")

# Resumen general del modelo
summary(modelo.logit2)
## 
## Call:
## glm(formula = Voto ~ Sexo + Statusquo, family = "binomial", data = datos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.2230  -0.2760  -0.1656   0.1922   2.9392  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   0.5937     0.1455   4.080  4.5e-05 ***
## SexoM        -0.7176     0.1973  -3.636 0.000277 ***
## Statusquo     3.2085     0.1439  22.291  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2431.28  on 1753  degrees of freedom
## Residual deviance:  739.12  on 1751  degrees of freedom
##   (3 observations deleted due to missingness)
## AIC: 745.12
## 
## Number of Fisher Scoring iterations: 6

Resultados modelo

  • De acuerdo a los resultados obtenidos y teniendo en cuenta que la interpretación de los p-valores es similar a la del modelo lineal. Podemos ver que las variables statusquo y sexo son altamente significativas (<2e-16 y 0.000277).

  • En cuanto a los coeficientes del modelo logit, estos se interpretan como el logaritmo del odds ratio. De esta manera, si nos fijamos en el coeficiente de la variable statusquo (3.2085), está positivamente relacionada con el logaritmo del odds ratio de la intención de voto, el cual aumentaría 3.2085 unidades por cada unidad que aumenta la puntuación en el statusquo.

  • Respecto a la variable sexo, se tiene que está negativamente relacionada con la intención de voto obteniendo un coeficiente negativo igual a -0.7176, es decir las mujeres decidirían dar continuidad a las politicas de gobierno. Siendo, para un mismo resultado de statusquo, mayor si la persona encuestada es mujer.

Comparación de modelos

Por otro lado si comparamos el modelo obtenido agregando la variable indicadora (Sexo), frente a un modelo en el cual nuestra variable predictora sea solo statusquo tenemos que, si bien para ambos las variables resultan ser significativas con valores-p menores a 0.05 es importante tener en cuenta sus respectivos valores de AIC para así poder elegir aquel modelo que mejor prediga la intención de voto de los ciudadanos chilenos. Partiendo de lo anterior para un modelo en el cual se tiene que:

  • Modelo 1: \[Voto = Statusquo\] El cual tiene un valor AIC = 756.59
  • Modelo 2: \[Voto = Sexo + Statusquo\] El cual tiene un valor AIC = 745.12

Conclusiones

Finalmente, es posible concluir que el modelo logístico creado para predecir la probabilidad de intención de voto a partir del statusquo y el sexo de la persona encuestada es en conjunto significativo acorde al Likelihood ratio (p-value = 0). El p-value de ambos predictores es significativo (Statusquo = < 2e-16, SexoM = 0.000277).

\[logit(voto)=0.5937+3.2085*Statusquo-0.7176*Sexo\]

\[P(voto)=\frac{e^{0.5937+3.2085*Statusquo-0.7176*Sexo}}{1+e^{0.5937+3.2085*Statusquo-0.7176*Sexo}}\]

Bibliografía

  • Fox, J. (2015),Applied regression analysis and generalized linear models, SagePublications.

Gracias